北京2024年4月30日 /美通社/ -- 亞馬遜云科技持續(xù)引領(lǐng)云上數(shù)據(jù)服務(wù)創(chuàng)新,助力企業(yè)構(gòu)建全面的數(shù)據(jù)基座以充分發(fā)揮數(shù)據(jù)潛力,加速生成式AI技術(shù)落地。在生成式AI時代,數(shù)據(jù)是企業(yè)脫穎而出的關(guān)鍵——基礎(chǔ)模型依賴于大規(guī)模高質(zhì)量數(shù)據(jù)集,生成式AI的差異化優(yōu)勢來源于企業(yè)的專有數(shù)據(jù),生成式AI應(yīng)用產(chǎn)生的大量新數(shù)據(jù)也需要及時有效地加以管理和利用。亞馬遜云科技持續(xù)引領(lǐng)數(shù)據(jù)基座構(gòu)建必備的三大核心能力,即模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨特價值的能力,以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力,助力企業(yè)在生成式AI時代取得成功。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示:"企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場景,能夠幫助企業(yè)輕松應(yīng)對海量多模態(tài)數(shù)據(jù),提升基礎(chǔ)模型能力。作為全球云計算的開創(chuàng)者和引領(lǐng)者,亞馬遜云科技正在幫助各個行業(yè)、各種規(guī)模的企業(yè)打造強健的數(shù)據(jù)基座,在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下,將數(shù)據(jù)的獨特價值賦予基礎(chǔ)模型和生成式AI應(yīng)用,加速企業(yè)業(yè)務(wù)增長。"
優(yōu)秀的數(shù)據(jù)處理能力,快速提高模型微調(diào)和預(yù)訓(xùn)練質(zhì)量
生成式AI基礎(chǔ)模型微調(diào)和預(yù)訓(xùn)練需要將海量的多樣化原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的大數(shù)據(jù)集,這對數(shù)據(jù)存儲、清洗和治理都提出了更嚴峻的挑戰(zhàn)。
在數(shù)據(jù)存儲方面,擴展性和響應(yīng)速度是關(guān)鍵。Amazon Simple Storage Service(Amazon S3)對象存儲幾乎是云上擴展性的代名詞,它支持廣泛的數(shù)據(jù)協(xié)議,能夠輕松應(yīng)對各種數(shù)據(jù)類型,還支持智能分層以降低訓(xùn)練成本。專門構(gòu)建的文件存儲服務(wù)Amazon FSx for Lustre則能夠提供亞毫秒延遲和數(shù)百萬IOPS的吞吐性能,能夠進一步加快模型優(yōu)化的速度。
在數(shù)據(jù)清洗方面,企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù),Amazon EMR Serverless和Amazon Glue可以幫助企業(yè)輕松完成數(shù)據(jù)清理、去重、乃至分詞的操作,讓企業(yè)專注于生成式AI業(yè)務(wù)創(chuàng)新。Amazon EMR serverless采用無服務(wù)器架構(gòu),幫助企業(yè)運行任何規(guī)模的分析工作負載,自動擴展功能可在幾秒鐘內(nèi)調(diào)整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。Amazon Glue是一個簡單可擴展的無服務(wù)器數(shù)據(jù)集成服務(wù),可以輕松快速地完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準備工作。
在數(shù)據(jù)治理方面,企業(yè)難以在多個賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠為多源多模態(tài)數(shù)據(jù)進行有效編目和治理,而且還提供簡單易用的統(tǒng)一數(shù)據(jù)管理平臺和工具,從而為用戶解鎖所有數(shù)據(jù)的潛能。
數(shù)據(jù)與模型快速結(jié)合,讓企業(yè)專有數(shù)據(jù)釋放更大價值
生成式AI基礎(chǔ)模型的局限性之一在于無法及時擁有企業(yè)專有數(shù)據(jù),因此通過技術(shù)手段加速數(shù)據(jù)與模型的結(jié)合成為企業(yè)數(shù)據(jù)基座的第二項關(guān)鍵能力。檢索增強生成(Retrieval-Augmented Generation,RAG)技術(shù)被普遍認為是實現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一,它通過將數(shù)據(jù)轉(zhuǎn)換為向量并存儲到向量數(shù)據(jù)庫中,從而將語義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學距離問題,以實現(xiàn)內(nèi)容的關(guān)聯(lián)性計算?,F(xiàn)代應(yīng)用程序需精準理解用戶需求并正確關(guān)聯(lián)產(chǎn)品或內(nèi)容,這一需求廣泛存在于搜索、評論、購物車及產(chǎn)品推薦等交互框架中,這些框架又依賴于功能各異的數(shù)據(jù)庫,這使得數(shù)據(jù)庫成為實施RAG技術(shù)的理想平臺。
亞馬遜云科技將向量搜索的支持功能加入到主流的數(shù)據(jù)服務(wù)中,通過將數(shù)據(jù)和向量存儲在一起來提升數(shù)據(jù)查詢性能。這能夠讓企業(yè)輕松利用RAG技術(shù)將專有數(shù)據(jù)提供給基礎(chǔ)模型,從而釋放更大價值。此外,亞馬遜云科技還為圖數(shù)據(jù)庫Amazon Neptune推出了分析數(shù)據(jù)庫引擎,以結(jié)合圖數(shù)據(jù)庫與大模型的優(yōu)勢,從而能夠快速從圖形數(shù)據(jù)中獲取洞察,并進行更快的向量搜索。
有效處理生成式AI應(yīng)用的新數(shù)據(jù),降低模型頻繁調(diào)用成本并提升性能
對生成式AI應(yīng)用程序而言,基礎(chǔ)模型頻繁調(diào)用將會導(dǎo)致成本的增加和響應(yīng)的延遲,因此如何處理生成式AI應(yīng)用程序新生成的數(shù)據(jù),提升模型調(diào)用效率成為企業(yè)數(shù)據(jù)基座的第三項關(guān)鍵能力。Amazon Memory DB內(nèi)存數(shù)據(jù)庫通過緩存之前問答生成的新數(shù)據(jù),實現(xiàn)對類似問題的快速響應(yīng)和準確回答,同時有效降低基礎(chǔ)模型的調(diào)用頻率。Amazon Memory DB能夠存儲數(shù)百萬個向量,只需要幾毫秒的響應(yīng)時間,能夠以99%的召回率實現(xiàn)每秒百萬次的查詢性能。
此外,生成式AI應(yīng)用程序需要快速占領(lǐng)市場。亞馬遜云科技通過提供無服務(wù)器數(shù)據(jù)庫服務(wù)和Amazon OpenSearch Serverless用于向量搜索,最大限度為企業(yè)減少運維負擔和成本,消除性能瓶頸,使企業(yè)能夠?qū)W⒂谏墒紸I業(yè)務(wù)創(chuàng)新。
Amazon Music通過分析用戶和歌曲的特征,并將它們轉(zhuǎn)換成向量以提高推薦精準度。Amazon Music已通過Amazon OpenSearch將1億首歌曲編碼成向量并進行索引,以為全球用戶提供實時音樂推薦。Amazon Music目前在Amazon OpenSearch中管理著10.5億個向量,并能夠處理每秒高達7,100次的查詢峰值,有效支撐其推薦系統(tǒng)。