北京2023年9月13日 /美通社/ -- 當(dāng)前,“百模大戰(zhàn)”帶來(lái)了算力需求的爆發(fā),AI芯片產(chǎn)業(yè)也迎來(lái)巨大機(jī)遇,“創(chuàng)新架構(gòu)+開(kāi)源生態(tài)”正在激發(fā)多元AI算力產(chǎn)品百花齊放。面對(duì)新的產(chǎn)業(yè)機(jī)會(huì),AI算力產(chǎn)業(yè)鏈亟需通過(guò)上下游協(xié)作共同把握機(jī)遇。
近日,浪潮信息AI&HPC產(chǎn)品線(xiàn)高級(jí)產(chǎn)品經(jīng)理Stephen Zhang在開(kāi)放計(jì)算中國(guó)峰會(huì)就AIGC時(shí)代的算力需求趨勢(shì)與開(kāi)放加速計(jì)算發(fā)展之道進(jìn)行了洞察分享,他指出,開(kāi)放加速計(jì)算生態(tài)協(xié)作將有效賦能多元的AI算力產(chǎn)品創(chuàng)新發(fā)展,為應(yīng)對(duì)AIGC時(shí)代的算力挑戰(zhàn)提供有益的解決之道。
以下為演講要點(diǎn):
以下為演講原文:
大模型時(shí)代的算力需求及趨勢(shì)
自ChatGPT發(fā)布以來(lái),大家可以明顯地感受到全社會(huì)對(duì)于生成式人工智能技術(shù)的廣泛關(guān)注,ChatGPT出圈之后帶來(lái)了更多參與者,模型的數(shù)量和模型參數(shù)量不斷激增。據(jù)不完全統(tǒng)計(jì),我們國(guó)家的大模型數(shù)量已經(jīng)超過(guò)110個(gè),這就帶來(lái)了對(duì)于AI算力需求的劇增。
針對(duì)大模型發(fā)展帶來(lái)的嚴(yán)峻算力挑戰(zhàn),我們進(jìn)行了大量的需求分析和趨勢(shì)判斷。從AI服務(wù)器算力及功耗隨時(shí)間變化的趨勢(shì)來(lái)看,要解決大模型的算力短缺問(wèn)題,最直接的方式是提高單機(jī)的算力。從2016年到現(xiàn)在,AI服務(wù)器單機(jī)算力增長(zhǎng)近100倍,功耗從4千瓦增長(zhǎng)到12千瓦,下一代AI服務(wù)器的功耗繼續(xù)增長(zhǎng)到18千瓦乃至20千瓦以上。AI服務(wù)器的系統(tǒng)架構(gòu)供電、散熱方式,以及數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)模式,將難以滿(mǎn)足未來(lái)高功耗AI服務(wù)器的部署需求。
其次,大模型參數(shù)量增長(zhǎng)對(duì)GPU數(shù)量的需求也隨之增加,需要更大的顯存容量承載。2021年,一個(gè)千億規(guī)模的大模型需要3,000 GB顯存容量空間承載,換算過(guò)來(lái)需要將近40張80G的GPU才能放得下這個(gè)模型,包括權(quán)重參數(shù)、梯度數(shù)據(jù)、優(yōu)化值數(shù)據(jù)和激活值數(shù)據(jù)。今天,很多大模型的參數(shù)量已經(jīng)超過(guò)了萬(wàn)億規(guī)模,顯存容量將會(huì)達(dá)到30,000GB,需要將近400塊80G顯存的GPU才能承載,這意味著需要更大規(guī)模的算力平臺(tái)才能進(jìn)行如此規(guī)模大模型的訓(xùn)練。
更大規(guī)模的平臺(tái)會(huì)帶來(lái)另外一個(gè)問(wèn)題,即卡與卡之間、不同的節(jié)點(diǎn)之間的更多通信,大模型的訓(xùn)練需要融合多種并行策略,對(duì)卡間P2P互連帶寬以及跨節(jié)點(diǎn)互聯(lián)帶寬提出了更高的要求。
以2457億參數(shù)的“源1.0”大模型訓(xùn)練的工程實(shí)踐為例,“源1.0”訓(xùn)練共有1800億Token,顯存容量需求7.4TB,訓(xùn)練過(guò)程中融合了張量并行、流水行并行、數(shù)據(jù)并行三種策略。單節(jié)點(diǎn)張量并行通信頻次達(dá)到每秒82.4次,節(jié)點(diǎn)內(nèi)通信帶寬最低需求達(dá)到194GB/s。計(jì)算節(jié)點(diǎn)內(nèi)會(huì)開(kāi)展流水線(xiàn)并行,跨節(jié)點(diǎn)通信帶寬達(dá)到26.8GB/s,至少需要300Gbps通信帶寬才能滿(mǎn)足流水線(xiàn)并行訓(xùn)練的帶寬需求。在訓(xùn)練“源1.0”過(guò)程中,實(shí)際用到兩張200Gbps網(wǎng)卡進(jìn)行跨節(jié)點(diǎn)通信,數(shù)據(jù)并行通信頻次低但數(shù)據(jù)量大,帶寬需求至少要達(dá)到8.8GB/s,單機(jī)400Gbps的帶寬可以滿(mǎn)足。
隨著模型參數(shù)量進(jìn)一步增加以及GPU算力的成倍增加,未來(lái)需要更高的互連帶寬才能滿(mǎn)足更大規(guī)模模型的訓(xùn)練需求。
開(kāi)放加速計(jì)算 為超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)而生
面向AIGC大模型訓(xùn)練的計(jì)算系統(tǒng)需要具備三個(gè)主要特征,一是大算力,二是高互聯(lián),三是強(qiáng)擴(kuò)展,傳統(tǒng)的PCIe CEM形態(tài)的加速卡很難滿(mǎn)足三個(gè)特征需求,因此越來(lái)越多的芯片廠商都開(kāi)發(fā)了非PCIe形態(tài)的加速卡。
開(kāi)放計(jì)算組織OCP在2019年發(fā)布了專(zhuān)門(mén)面向大模型訓(xùn)練的加速計(jì)算系統(tǒng)架構(gòu),核心是UBB和OAM標(biāo)準(zhǔn),特點(diǎn)是大算力。Mezz扣卡形態(tài)的加速器具備更高的散熱和互聯(lián)能力,可以承載具有更高算力的芯片。同時(shí),它有非常強(qiáng)的跨節(jié)點(diǎn)擴(kuò)展能力,可以很輕易地?cái)U(kuò)展到千卡、萬(wàn)卡級(jí)的平臺(tái),支撐大模型的訓(xùn)練。這個(gè)架構(gòu)是天然適用于超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的計(jì)算架構(gòu)。
但是,在OAM產(chǎn)業(yè)落地過(guò)程中,很多廠商所開(kāi)發(fā)的加速卡依然存在硬件接口不統(tǒng)一、互連協(xié)議不統(tǒng)一,同時(shí)軟件生態(tài)互不兼容,帶來(lái)了新型AI加速卡系統(tǒng)適配周期長(zhǎng)、定制投入成本高的落地難題,導(dǎo)致算力供給和算力需求之間的剪刀差不斷加大,行業(yè)亟需更加開(kāi)放的算力平臺(tái),以及更加多元的算力支撐大模型的訓(xùn)練。
對(duì)此,浪潮信息開(kāi)展了大量工作,包括技術(shù)上的預(yù)研和對(duì)產(chǎn)業(yè)生態(tài)的貢獻(xiàn)。2019年開(kāi)始,浪潮信息牽頭主導(dǎo)了OAM標(biāo)準(zhǔn)的制定,發(fā)布了首款開(kāi)放加速基板UBB,同時(shí)開(kāi)發(fā)了全球首款開(kāi)放加速參考系統(tǒng)MX1,并協(xié)同業(yè)界領(lǐng)先的芯片廠商一起完成了OAM形態(tài)加速卡的適配,證明了這條技術(shù)路線(xiàn)的可行性。為了推動(dòng)符合OAM開(kāi)放加速規(guī)范的系統(tǒng)產(chǎn)業(yè)化落地,浪潮信息開(kāi)發(fā)了第一款“ALL IN ONE” OAM服務(wù)器產(chǎn)品,把CPU和OAM加速卡集成到一臺(tái)19英寸機(jī)箱中,實(shí)現(xiàn)數(shù)據(jù)中心級(jí)的快速部署,并在眾多客戶(hù)的智算中心落地應(yīng)用。
此后,OAM 芯片的算力和功耗在不斷提升,同時(shí)數(shù)據(jù)中心對(duì)于綠色節(jié)能的要求也越來(lái)越高。對(duì)此,我們開(kāi)發(fā)了第一款液冷OAM服務(wù)器,可以實(shí)現(xiàn)8顆OAM加速器和兩顆高功耗的CPU的液冷散熱,整個(gè)液冷散熱覆蓋率超過(guò)90%,基于這款產(chǎn)品構(gòu)建的液冷OAM智算中心解決方案,千卡平臺(tái)穩(wěn)定運(yùn)行狀態(tài)下PUE值小于1.1。而浪潮信息剛剛發(fā)布的新一代的OAM服務(wù)器NF5698G7,基于全PCIe Gen5鏈路,H2D互聯(lián)能力提升4倍,為新一代OAM研發(fā)提供了更加先進(jìn)的部署平臺(tái)。
通過(guò)平臺(tái)架構(gòu)設(shè)計(jì)和算力算法協(xié)同設(shè)計(jì)解決能耗問(wèn)題
僅僅提供算力平臺(tái)是不夠的,目前數(shù)據(jù)中心面臨著巨大的能耗挑戰(zhàn),尤其是面向大模型訓(xùn)練的AI服務(wù)器,單機(jī)功耗輕易超過(guò)6-7千瓦。
一個(gè)公式可以快速計(jì)算訓(xùn)練一個(gè)大模型所需要的整體耗電量(E):分子用6倍模型參數(shù)量和訓(xùn)練過(guò)程中所用到的Token數(shù)量表征大模型訓(xùn)練所需要的算力當(dāng)量,分母用加速卡的數(shù)量還有單張加速卡的算力性能表征智算基礎(chǔ)設(shè)施所能夠提供的整體算力性能,二者相除的結(jié)果代表的是訓(xùn)練大模型所需要的時(shí)間,乘以Ecluster指標(biāo)(大模型訓(xùn)練平臺(tái)每日耗電量)即可得到整體耗電量。那么,在選定模型并且有確定卡數(shù)和規(guī)模的情況下,只有通過(guò)優(yōu)化單卡算力值,或者降低單個(gè)平臺(tái)的耗電量,才能優(yōu)化大模型訓(xùn)練所需的整體耗電量。
針對(duì)這兩個(gè)參數(shù)的優(yōu)化,我們做了進(jìn)一步研究。通過(guò)兩張表格了呈現(xiàn)不同大模型訓(xùn)練平臺(tái)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)下,平臺(tái)功耗和相應(yīng)的大模型訓(xùn)練整體功耗的對(duì)比。以單機(jī)2張網(wǎng)卡(NIC)組網(wǎng)方案和單機(jī)8張網(wǎng)卡(NIC)組網(wǎng)方案為例,雖然不同網(wǎng)卡數(shù)量帶來(lái)的單機(jī)功耗影響并不顯著,然而放到整個(gè)計(jì)算平臺(tái)層面,網(wǎng)卡數(shù)量增加導(dǎo)致交換機(jī)數(shù)量增加,總功耗會(huì)有顯著差異,8網(wǎng)卡方案總功耗可達(dá)2000多千瓦,2網(wǎng)卡方案只有1600多千瓦,2張網(wǎng)卡方案可以節(jié)省功耗18%。
因此,面向?qū)嶋H應(yīng)用需求,通過(guò)精細(xì)化地計(jì)算大模型訓(xùn)練所需要的網(wǎng)絡(luò)帶寬,可以在不影響性能的前提下,顯著地優(yōu)化總功耗?!霸础贝竽P陀?xùn)練過(guò)程當(dāng)中,僅僅使用了兩張200G的IB卡就完成2457億參數(shù)模型的訓(xùn)練,這是我們發(fā)現(xiàn)的第一個(gè)優(yōu)化訓(xùn)練平臺(tái)總功耗的技術(shù)路徑。
第二,提高單卡算力利用率以實(shí)現(xiàn)提效節(jié)能,也是非常重要的一個(gè)命題。經(jīng)我們測(cè)試,采用算法和算力架構(gòu)協(xié)同設(shè)計(jì)的方法,基于算力基礎(chǔ)設(shè)施的技術(shù)特點(diǎn),深度優(yōu)化模型的參數(shù)結(jié)構(gòu)和訓(xùn)練策略,可以用更短的時(shí)間完成同等規(guī)模模型的訓(xùn)練。以GPT-3模型的訓(xùn)練為例,模型訓(xùn)練時(shí)間可以從15天優(yōu)化為12天,總耗電量節(jié)省達(dá)到33%。
以上兩點(diǎn)可以說(shuō)明,應(yīng)用導(dǎo)向的架構(gòu)設(shè)計(jì),以及算力和算法的協(xié)同設(shè)計(jì),能夠?qū)崿F(xiàn)更高效的大模型訓(xùn)練,最終加速節(jié)能降碳目標(biāo)的實(shí)現(xiàn)。
綠色開(kāi)放加速平臺(tái),賦力大模型高效釋放算力
基于上述在開(kāi)放計(jì)算、高效計(jì)算的技術(shù)、產(chǎn)品和方法的創(chuàng)新和研究,浪潮信息正在積極構(gòu)建面向生成式AI的綠色開(kāi)放加速智算平臺(tái)。
去年協(xié)同合作伙伴發(fā)布的液冷開(kāi)放加速智算中心解決方案,首先具有非常高的算力性能;其次,可以實(shí)現(xiàn)千芯級(jí)大規(guī)模擴(kuò)展,支撐超千億規(guī)模模型訓(xùn)練;同時(shí),先進(jìn)液冷技術(shù)使整個(gè)平臺(tái)的PUE大幅優(yōu)化。
同時(shí),浪潮信息也在積極構(gòu)建全棧開(kāi)放加速智算能力,除了提供底層的AI計(jì)算平臺(tái),上層有AI資源平臺(tái),能夠在資源管理層通過(guò)統(tǒng)一接口實(shí)現(xiàn)對(duì)于30余種多元算力芯片的統(tǒng)一的調(diào)度和管理。再往上是AI算法平臺(tái),提供開(kāi)源的深度學(xué)習(xí)算法框架、大模型以及開(kāi)放的數(shù)據(jù)集。在此之上是算力服務(wù),包括算力、模型數(shù)據(jù)、交付、運(yùn)維等多種服務(wù)模式。最上層是擁有4000多家合作伙伴的元腦生態(tài),浪潮信息和生態(tài)合作伙伴共同開(kāi)展開(kāi)放加速計(jì)算方案的設(shè)計(jì),并成功地推向產(chǎn)業(yè)落地。
基于開(kāi)放加速規(guī)范的AI計(jì)算平臺(tái)目前已經(jīng)適配20多種業(yè)界主流的大模型,包括大家非常熟悉的GPT系列、LLaMA、Chat GLM、“源”,同時(shí)還支持多類(lèi)擴(kuò)散模型適配。
“助百芯,智千模” 加速多元算力落地
在AIGC技術(shù)和產(chǎn)業(yè)快速發(fā)展過(guò)程中,雖然業(yè)界已經(jīng)制定了開(kāi)放加速計(jì)算相關(guān)規(guī)范,但產(chǎn)業(yè)落地還存在一些問(wèn)題。比如,開(kāi)放計(jì)算系統(tǒng)定制化程度高,規(guī)范覆蓋的領(lǐng)域不足,包括多元算力芯片的系統(tǒng)適配、管理和調(diào)度,以及深度學(xué)習(xí)環(huán)境的部署等等。
在OAM規(guī)范基礎(chǔ)上,日前《開(kāi)放加速規(guī)范AI服務(wù)器設(shè)計(jì)指南》發(fā)布,基于當(dāng)前AIGC產(chǎn)業(yè)背景下客戶(hù)的痛點(diǎn),定義了開(kāi)放加速服務(wù)器設(shè)計(jì)的原則,包括應(yīng)用導(dǎo)向、多元開(kāi)放、綠色高效、統(tǒng)籌設(shè)計(jì)。同時(shí)對(duì)服務(wù)器設(shè)計(jì)方法進(jìn)行深化和細(xì)化,包括從節(jié)點(diǎn)層到平臺(tái)層的多維協(xié)同設(shè)計(jì)方案。方案充分考量適配和研發(fā)過(guò)程中遇到的問(wèn)題,進(jìn)一步細(xì)化了節(jié)點(diǎn)到平臺(tái)的設(shè)計(jì)參數(shù),最終目的是提高多元算力芯片的開(kāi)發(fā)和適配、部署效率。
由于面向AIGC訓(xùn)練的服務(wù)器具有非常多的高功耗芯片以及高互連帶寬設(shè)計(jì),穩(wěn)定性問(wèn)題嚴(yán)峻,需要更加全面的測(cè)試保證系統(tǒng)穩(wěn)定性,減少斷點(diǎn)的發(fā)生和對(duì)大模型訓(xùn)練效率的影響。因此,《指南》提供了從結(jié)構(gòu)、散熱、壓力、穩(wěn)定性、軟件兼容性等全面系統(tǒng)的測(cè)試指導(dǎo)。
最后,多元算力要推向產(chǎn)業(yè)應(yīng)用,最關(guān)鍵的是性能,包括芯片性能、互連性能、模型性能以及虛擬化性能?!吨改稀坊谇捌诜e累的Benchmark調(diào)優(yōu)經(jīng)驗(yàn),提出了性能測(cè)評(píng)和調(diào)優(yōu)標(biāo)準(zhǔn)及方法,幫助合作伙伴更快、更好地將他們最新的芯片產(chǎn)品推向應(yīng)用落地,提高算力的可用性。最終目標(biāo)是推動(dòng)整個(gè)AI算力產(chǎn)業(yè)的創(chuàng)新和發(fā)展,協(xié)同產(chǎn)業(yè)鏈上下游合作伙伴推動(dòng)整個(gè)開(kāi)放加速生態(tài),共同應(yīng)對(duì)AIGC時(shí)代的算力挑戰(zhàn)。
謝謝大家!