北京2023年9月27日 /美通社/ -- 黃金比例是數(shù)學(xué)上一種堪稱"完美"的比例關(guān)系,最早由歐幾里得在《幾何原本》中進(jìn)行了系統(tǒng)論述。之后,黃金比例的理念被廣泛應(yīng)用到數(shù)學(xué)、物理、建筑、農(nóng)業(yè)等多個領(lǐng)域,代表著最合理、最協(xié)調(diào)的一種情況或者狀態(tài)。
在數(shù)據(jù)中心領(lǐng)域,相關(guān)資源的合理配比愈發(fā)受到用戶們的關(guān)注。尤其是隨著大模型和生成式AI應(yīng)用的興起,對于算力、存力等需求迅速提升,越來越多數(shù)據(jù)中心用戶意識到數(shù)據(jù)中心資源需要平衡配置和協(xié)調(diào)發(fā)展,才能充分發(fā)揮其能力與價值。
今年以來,產(chǎn)業(yè)界多次呼吁AI時代的數(shù)據(jù)中心建設(shè)不能走向偏科,算力與存力的建設(shè)同等重要。正如浪潮信息存儲產(chǎn)品線副總經(jīng)理劉希猛所言:"當(dāng)前,生成式AI時代的‘百模爭秀'格局初現(xiàn),AI大模型的建設(shè)不僅要有算力底座,更要有存力平臺。將數(shù)據(jù)中心的計算、全閃存儲、混閃存儲按照1:1:1黃金比例建設(shè),用戶可最大化獲得投資回報比。"
數(shù)據(jù)中心不能"偏科"
Gartner預(yù)測,到2023年將有20%的內(nèi)容被AIGC所創(chuàng)建;到2025 年人工智能生成數(shù)據(jù)占比將達(dá)到10%。不可否認(rèn),生成式AI、大模型正在成為數(shù)據(jù)中心基礎(chǔ)設(shè)施發(fā)展最大的牽引力。可以預(yù)見,由AIGC和大模型帶來的基礎(chǔ)設(shè)施投入在未來會持續(xù)增長。
但從目前真實情況看,數(shù)據(jù)中心的建設(shè)是"偏科"和"失衡"的。出于各種原因,"重算力、輕存力"的現(xiàn)象較為明顯,大部分用戶非??粗谿PU等算力產(chǎn)品的部署,卻忽視了存力建設(shè)的重要性,更缺少對于數(shù)據(jù)中心整體資源的規(guī)劃與匹配。
眾所周知,大模型應(yīng)用的核心是高質(zhì)量數(shù)據(jù),數(shù)據(jù)的質(zhì)量又決定著算法的性能、泛化能力和應(yīng)用效果,而高質(zhì)量數(shù)據(jù)的得到又與存力息息相關(guān),圍繞數(shù)據(jù)的"傳輸、存儲、分析、管理、安全"等環(huán)節(jié),存力是釋放數(shù)據(jù)價值必不可少的關(guān)鍵因素。
事實上,大模型發(fā)展到今天,已經(jīng)屬于一個大規(guī)模、高質(zhì)量數(shù)據(jù)和數(shù)據(jù)高效處理的工程難題。隨著大模型逐漸向多模態(tài)的方向演進(jìn),意味著除了持續(xù)的算力需求之外,對于數(shù)據(jù)存儲的容量、性能、多協(xié)議支持、可靠性、數(shù)據(jù)管理等帶來前所未有的變化。
例如,大模型多元異構(gòu)數(shù)據(jù)的歸集、標(biāo)注、訓(xùn)練、推理和歸檔均需要極高的效率來移動數(shù)據(jù),這意味著支持異構(gòu)數(shù)據(jù)的多協(xié)議融合將是解決大模型數(shù)據(jù)移動與處理效率的關(guān)鍵所在;又如,AIGC應(yīng)用會產(chǎn)生大量推理需求,隨之而來的就是大規(guī)模的并行處理和復(fù)雜IO,對數(shù)據(jù)存儲性能要求極高;再如,大模型訓(xùn)練動輒需要調(diào)用成百上千快GPU卡,并且存在著不同的CheckPoint,對于存儲的穩(wěn)定可靠要求越來越高。
劉希猛直言,數(shù)據(jù)存儲與管理在AIGC時代承擔(dān)著兩個重要責(zé)任:其一、支撐起海量多元異構(gòu)數(shù)據(jù)的全生命周期管理工作;其二、承載起AIGC數(shù)據(jù)訓(xùn)練、推理對于性能、延時、容量、擴(kuò)展性等各種嚴(yán)苛需求。
對于用戶而言,除了需要重視存力建設(shè)之外,一個不容忽視的現(xiàn)實挑戰(zhàn)即:數(shù)據(jù)中心的算力、存力資源比例到底應(yīng)該如何配置才算最佳?為此,浪潮信息帶來了它的答案:從數(shù)據(jù)容量、帶寬、訪問頻率以及成本等多個因素綜合考量,未來數(shù)據(jù)中心在實踐中需要形成算力、閃存和混閃的1:1:1黃金比例,以滿足AIGC、大模型等人工智能應(yīng)用的需求。
黃金比例是如何得出的?
相比于歐美成熟市場,我國存力的發(fā)展一直滯后于算力。這從我國數(shù)據(jù)中心全閃存普及率較低、容災(zāi)保護(hù)建設(shè)力度較弱等方面可見一斑。
隨著AIGC時代的到來,這種滯后的現(xiàn)象更加明顯與突出。面對AIGC迅猛的算力需求,很多用戶從一開始就"走一步看一步",往往是先購買算力,使用過程中發(fā)現(xiàn)存力跟不上,再去著手配置相應(yīng)的存力,缺乏數(shù)據(jù)中心資源整體規(guī)劃,建設(shè)方式明顯落伍。
某種程度而言,我國通過普及和推廣數(shù)據(jù)中心算力、閃存和混閃的1:1:1黃金比例既能讓用戶在基礎(chǔ)設(shè)施層面更好地支撐起AIGC領(lǐng)域的創(chuàng)新,又可推動我國數(shù)據(jù)中心存力建設(shè),實現(xiàn)數(shù)據(jù)中心整體資源配置和利用水平的提升。
但數(shù)據(jù)中心資源配置的黃金比例為什么會是"1個GPU節(jié)點,對應(yīng)1個全閃存儲、對應(yīng)1個混閃存儲" ?浪潮信息之所以會提出算力、閃存和混閃的1:1:1黃金比例,主要來自兩個方面的核心原因:
首先,黃金比例源自于浪潮信息較早就涉足大模型的實踐。早在2021年,浪潮信息就發(fā)布了源1.0中文大模型,當(dāng)時該模型參數(shù)就高達(dá)2457億個,訓(xùn)練文本數(shù)據(jù)量高達(dá)50TB,在這些年的大模型訓(xùn)練、推理實踐中,浪潮信息自身的基礎(chǔ)設(shè)施產(chǎn)品起到了關(guān)鍵的支撐作用;同時,浪潮信息也深刻感受到數(shù)據(jù)中心算力、存力的合理配置,對于發(fā)展大模型的重要性。
例如,在大模型訓(xùn)練與推理場景中,數(shù)據(jù)存儲最大的挑戰(zhàn)就是如何將不同數(shù)據(jù)源源不斷傳輸?shù)紺PU和GPU,因此對于數(shù)據(jù)處理性能、如何與GPU配合等考驗極大。"對于源1.0的實踐是浪潮信息存儲產(chǎn)品的先天優(yōu)勢。市場中很少有企業(yè)能搭建一套大規(guī)模集群來進(jìn)行支撐大模型的應(yīng)用。"浪潮分布式存儲產(chǎn)品線總經(jīng)理姜樂果如是說。
其次,作為國內(nèi)領(lǐng)先的企業(yè)級存儲廠商,浪潮信息對于閃存、混閃等相關(guān)存力技術(shù)的未來發(fā)展有著深刻洞察,加上浪潮信息相關(guān)存儲解決方案已經(jīng)在國內(nèi)多家AIGC企業(yè)中成功應(yīng)用,對于AIGC時代數(shù)據(jù)中心的整體建設(shè)已經(jīng)積累了較多實踐。
"浪潮信息在閃存領(lǐng)域具有全棧技術(shù)創(chuàng)新能力,從底層SSD的控制器到存儲系統(tǒng)軟硬件,再到上層應(yīng)用,實現(xiàn)盤控協(xié)同,以及數(shù)據(jù)全鏈路的優(yōu)化,有利于像AIGC這類應(yīng)用充分釋放數(shù)據(jù)的價值。"劉希猛補(bǔ)充道。
事實上,考慮到市場內(nèi)外部環(huán)境與因素,未來算力市場GPU緊缺的情況還將持續(xù)很長一段時間,這也讓算力、閃存和混閃的1:1:1黃金比例具有非常強(qiáng)的實踐意義。在算力緊缺的情況下,同等算力配置下,以存強(qiáng)算,通過算力與存力的合理配置,可以充分發(fā)揮基礎(chǔ)設(shè)施整體資源的價值。
為了進(jìn)一步推動黃金比例在數(shù)據(jù)中心領(lǐng)域的推廣,浪潮信息近期又正式推出針對大模型應(yīng)用存儲系統(tǒng):AS 15000G7,以幫助用戶從復(fù)雜的基礎(chǔ)設(shè)施中解脫出來,全力投入到AIGC創(chuàng)新之中。
AS 15000G7,讓黃金比例落在實處
可以說,黃金比例的普及,存儲系統(tǒng)是關(guān)鍵。
眾所周知,近年來隨著閃存介質(zhì)容量的持續(xù)提升以及價格的不斷下降,為存力在國內(nèi)的發(fā)展創(chuàng)造了極好的條件。毫無疑問,AIGC的興起,將進(jìn)一步驅(qū)動全閃、混閃等存儲產(chǎn)品加速創(chuàng)新。
"AIGC類應(yīng)用帶來了對容量、性能、功能等需求的全面提升。"姜樂果介紹道,"存儲系統(tǒng)不僅需要進(jìn)行全新組合與設(shè)計,進(jìn)而滿足AIGC類應(yīng)用的數(shù)據(jù)存儲需求,還要避免傳統(tǒng)存儲方案的復(fù)雜性和低效率。"
因此,浪潮信息面向AIGC應(yīng)用場景打造出AS 15000G7,通過極致性能、極致管理、極致融合和極致效率來滿足用戶們對于大模型訓(xùn)練的數(shù)據(jù)存儲在性能、管理、融合和效率方面的綜合需求,助力AIGC在各個行業(yè)的落地,并加速釋放數(shù)據(jù)價值。
首先,針對大模型高并發(fā)、復(fù)雜IO等特征,AS 15000G7從架構(gòu)、硬件、關(guān)鍵技術(shù)、IO路徑優(yōu)化等多個方面為AIGC帶來了極致性能,為大模型的訓(xùn)練等帶來性能保障。具體來看,AS 15000G7通過GDS、RDMA技術(shù)縮短I/O路徑,并且利用智能元數(shù)據(jù)管理顯著提升數(shù)據(jù)訪問和檢索速度;另外,獨有的智能網(wǎng)絡(luò)優(yōu)化技術(shù)實現(xiàn)提升網(wǎng)絡(luò)端口并發(fā)能力,時延縮短50%以上,尤其是小文件級傳輸?shù)臅r延可降至毫秒級。
其次,針對大模型訓(xùn)練流程管理,AS 15000G7提供全流程透明可控的極致管理。AS 15000G7可同時搭載AIStation調(diào)度平臺和InView數(shù)據(jù)管理平臺,對AI服務(wù)器、網(wǎng)絡(luò)、存儲等設(shè)備進(jìn)行智能運維,支持訓(xùn)練推理全流程的多租戶管理、資源分配、數(shù)據(jù)管理分析。可以通過一套存儲實現(xiàn)對AIGC數(shù)據(jù)采集、清洗、訓(xùn)練、推理、歸檔不同場景全流程的設(shè)備資源監(jiān)控和管理。
第三,針對大模型多元異構(gòu)數(shù)據(jù)的歸集、標(biāo)注、訓(xùn)練、推理和歸檔,AS 15000G7融合架構(gòu)實現(xiàn)多源異構(gòu)巨量數(shù)據(jù)的極致融合,對文件、對象、大數(shù)據(jù)以及視頻的存儲方式進(jìn)行并行訪問,支持多協(xié)議實時互訪互通和系統(tǒng)扁平擴(kuò)展,數(shù)據(jù)訪問過程中保持語義一致、性能無損,從而對AI大模型海量多源異構(gòu)非結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)高效共享。
最后,針對大模型所需要的巨額投入,AS 15000G7可助力用戶實現(xiàn)黃金比例的數(shù)據(jù)中心資源最佳配比,提升投資回報比,帶來極致效率。AS 15000G7根據(jù)閃存、磁盤、磁帶、光盤等不同介質(zhì)分為性能型、均衡型、容量型三種機(jī)型,并且基于自動化的數(shù)據(jù)分層和遷移,在應(yīng)用安全透明的前提下,實現(xiàn)熱溫冷冰數(shù)據(jù)全生命周期的管理,帶來TCO的顯著降低。
毋庸置疑,AIGC的興起標(biāo)志著人工智能發(fā)展的拐點已至。當(dāng)下,中國已經(jīng)成為全球AIGC創(chuàng)新與發(fā)展的熱土。不完全統(tǒng)計,當(dāng)前國內(nèi)大模型數(shù)量已經(jīng)超過200個,不同類型的企業(yè)均在全力推動AIGC、大模型的發(fā)展。如今,人們愈發(fā)意識到"大模型產(chǎn)業(yè)發(fā)展,基礎(chǔ)設(shè)施先行"的道理,算力、閃存和混閃的1:1:1黃金比例建設(shè)理念出現(xiàn)可謂是恰逢其時,有助于探索AIGC的企業(yè)降低基礎(chǔ)設(shè)施復(fù)雜度,從而更好地聚焦創(chuàng)新。
"AIGC現(xiàn)在才剛剛起步,未來會持續(xù)帶來對基礎(chǔ)設(shè)施的需求。預(yù)計到2026年,黃金比例的建設(shè)模式有望得到廣泛應(yīng)用。"劉希猛最后表示道。