移動(dòng)云：高性能網(wǎng)絡(luò)是AI時(shí)代關(guān)鍵基礎(chǔ)設(shè)施技術(shù)底座

2024-04-15 14:51

近日，由新一代信息技術(shù)產(chǎn)業(yè)研究院、賽迪未來(lái)產(chǎn)業(yè)研究中心共同主辦，中國(guó)電子學(xué)會(huì)區(qū)塊鏈分會(huì)、至頂科技聯(lián)合承辦的“2024未來(lái)信息技術(shù)大會(huì)暨首屆數(shù)據(jù)要素創(chuàng)新發(fā)展論壇”于北京成功舉辦。

中國(guó)移動(dòng)云能力中心高級(jí)專家徐小虎發(fā)表了“移動(dòng)云高性能網(wǎng)絡(luò)，智算時(shí)代堅(jiān)實(shí)基礎(chǔ)設(shè)施底座”主題演講并在大會(huì)期間接受至頂科技采訪。

AI基礎(chǔ)設(shè)施要具備全新六要素能力

隨著ChatGPT等文本生成大模型的問(wèn)世，以及今年初發(fā)布的Sora視頻生成大模型，標(biāo)志著大模型從單模態(tài)向多模態(tài)的發(fā)展。這一演進(jìn)導(dǎo)致智能算力需求呈現(xiàn)井噴式增長(zhǎng)。全球范圍內(nèi)的人工智能（AI）基礎(chǔ)設(shè)施建設(shè)迎來(lái)了高速發(fā)展期。據(jù)IDC預(yù)測(cè)，中國(guó)智算規(guī)模年復(fù)合增?率超50%。

徐小虎表示，面向AI的基礎(chǔ)設(shè)施要在計(jì)算系統(tǒng)、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、電力系統(tǒng)、冷卻系統(tǒng)以及維護(hù)系統(tǒng)六要素具備全新的能力。

具體而言，包括以GPU為主的異構(gòu)算力（如GPU、FPGA、ASIC等）打造的加速計(jì)算系統(tǒng)；為支撐AI訓(xùn)練過(guò)程中Checkpoint數(shù)據(jù)的高速讀寫(xiě)要求，高性能的并行文件存儲(chǔ)是剛需；為實(shí)現(xiàn)加速卡的高速互聯(lián)以及高性能并行文件存儲(chǔ)，高性能網(wǎng)絡(luò)發(fā)揮關(guān)鍵作用；高性能就意味著高的電力能源消耗，需要新的電力能源和儲(chǔ)能技術(shù)提供更多的更穩(wěn)定的清潔能源供給。高能耗帶來(lái)更高的散熱要求，諸如液冷等更高效的冷卻系統(tǒng)是支撐智算中心高效運(yùn)作的關(guān)鍵；高性能算力、無(wú)損網(wǎng)絡(luò)、液冷等新技術(shù)會(huì)帶來(lái)新的維護(hù)要求。

高性能網(wǎng)絡(luò)是保障AI訓(xùn)練效率的關(guān)鍵

徐小虎重點(diǎn)分享了AI網(wǎng)絡(luò)建設(shè)方面的思考。隨著大模型從單模態(tài)向多模態(tài)發(fā)展，業(yè)界主流AI大模型訓(xùn)練集群參數(shù)規(guī)模從千億上升到萬(wàn)億，集群規(guī)模也隨之從千卡級(jí)別發(fā)展到萬(wàn)卡級(jí)別；AI訓(xùn)練過(guò)程中，AI集群內(nèi)的GPU服務(wù)器需要進(jìn)行大量數(shù)據(jù)的同步，完成服務(wù)器之間的數(shù)據(jù)并行和流水并行任務(wù)，這個(gè)數(shù)據(jù)同步過(guò)程完成的越快，GPU的利用率越高，因此AI網(wǎng)絡(luò)的吞吐非常關(guān)鍵，目前業(yè)界主流AI大模型集群都已經(jīng)采用單GPU卡400G接入速率，單GPU卡800G接入速率預(yù)計(jì)在明后年會(huì)逐漸成為主流；AI網(wǎng)絡(luò)目前大多數(shù)采用RDMA技術(shù)，不論是IB還是ROCE，對(duì)網(wǎng)絡(luò)丟包都非常敏感，有實(shí)驗(yàn)數(shù)據(jù)表明，1%的丟包率將導(dǎo)致網(wǎng)絡(luò)吞吐下降50%，網(wǎng)絡(luò)可靠性對(duì)于保證AI集群長(zhǎng)期穩(wěn)定訓(xùn)練至關(guān)重要；動(dòng)態(tài)延遲增大會(huì)增大尾延遲甚至導(dǎo)致?lián)砣麃G包，進(jìn)而影響GPU利用率。

綜上所述，為了保證AI大模型訓(xùn)練效率，需要超大規(guī)模、超高吞吐、超高可靠、超低延遲的高性能網(wǎng)絡(luò)作為技術(shù)支撐。

目前業(yè)界通常采用的高性能網(wǎng)絡(luò)技術(shù)還是RDMA技術(shù)，具體包括IB和ROCE兩個(gè)技術(shù)路線。

傳統(tǒng)的IB網(wǎng)絡(luò)技術(shù)由于技術(shù)體系相對(duì)封閉，供應(yīng)商較少、建網(wǎng)成本較高等因素，難以支持AI大規(guī)模建設(shè)需要。以太網(wǎng)具有開(kāi)放技術(shù)體系，廣泛產(chǎn)業(yè)生態(tài)等諸多優(yōu)勢(shì)，因此以太網(wǎng)替代IB支撐AI大規(guī)模發(fā)展逐漸成為業(yè)界共識(shí)。從2022年開(kāi)始，業(yè)界頭部網(wǎng)絡(luò)芯片廠商陸續(xù)發(fā)布51.2T以太網(wǎng)交換芯片，主要面向智算網(wǎng)絡(luò)市場(chǎng)。

但是傳統(tǒng)以太網(wǎng)技術(shù)，比如基于數(shù)據(jù)包五元組哈希的逐流粒度多路徑負(fù)載均衡技術(shù)和基于ECN/PFC的流量控制/網(wǎng)絡(luò)擁塞控制協(xié)議，在適配智算網(wǎng)絡(luò)流量模型方面存在一定的不足。“智算中心GPU之間流量模型和傳統(tǒng)DC流量模型不一樣，往往呈現(xiàn)流數(shù)少，單流大，高并發(fā)的特征，傳統(tǒng)以太網(wǎng)逐流負(fù)載均衡機(jī)制與智算流量模型不匹配，在智算場(chǎng)景少數(shù)大象流情況下，容易導(dǎo)致部分鏈路擁塞而部分鏈路空閑，鏈路擁塞會(huì)導(dǎo)致動(dòng)態(tài)延遲增大甚至丟包。

針對(duì)上述的智算網(wǎng)絡(luò)流量特征，特別是大象流的特征，采用更細(xì)粒度的負(fù)載均衡機(jī)制，比如逐包粒度的負(fù)載均衡機(jī)制即包噴灑機(jī)制，是非常值得探索的方向?；贓CN/PFC機(jī)制的RoCE技術(shù)由于存在ECN/PFC參數(shù)調(diào)優(yōu)難度大、PFC死鎖和風(fēng)暴等問(wèn)題，只適合在小規(guī)模網(wǎng)絡(luò)部署，面對(duì)萬(wàn)卡集群規(guī)模的AI網(wǎng)絡(luò)場(chǎng)景，需要對(duì)傳統(tǒng)以太網(wǎng)的流量控制和擁塞控制機(jī)制進(jìn)行革新”。目前，國(guó)內(nèi)外形成多個(gè)圍繞AI以太網(wǎng)的產(chǎn)業(yè)聯(lián)盟，如中國(guó)移動(dòng)牽頭的GSE聯(lián)盟以及華為牽頭的超融合以太聯(lián)盟，均致力于改進(jìn)以太網(wǎng)技術(shù)以滿足智算網(wǎng)絡(luò)需求。

移動(dòng)云自研高性能智算網(wǎng)絡(luò)，支撐萬(wàn)卡高速互聯(lián)

順應(yīng)技術(shù)和產(chǎn)業(yè)發(fā)展趨勢(shì)，移動(dòng)云目前正在自研基于以太網(wǎng)技術(shù)的高性能智算網(wǎng)絡(luò)系統(tǒng)，支撐萬(wàn)卡GPU高速互聯(lián)，具體優(yōu)勢(shì)包括：

端網(wǎng)協(xié)同，網(wǎng)側(cè)執(zhí)行端到端路徑帶寬容量以及擁塞感知的逐包粒度自適應(yīng)路由，實(shí)現(xiàn)無(wú)阻塞的網(wǎng)絡(luò)；端側(cè)DPU/RNIC實(shí)現(xiàn)包亂序處理、輕量化擁塞控制、網(wǎng)絡(luò)拓?fù)涓兄贤ㄐ艓?kù)。

標(biāo)準(zhǔn)開(kāi)放，堅(jiān)持開(kāi)放以太網(wǎng)技術(shù)路線，具備多廠商設(shè)備組網(wǎng)能力，同時(shí)，主導(dǎo)和參與智算網(wǎng)絡(luò)相關(guān)國(guó)際標(biāo)準(zhǔn)，比如IEEE/IETF相關(guān)標(biāo)準(zhǔn)，主導(dǎo)和參與智算網(wǎng)絡(luò)相關(guān)的國(guó)內(nèi)和國(guó)際產(chǎn)業(yè)聯(lián)盟，比如GSE聯(lián)盟和超融合以太聯(lián)盟。

生態(tài)豐富，與網(wǎng)絡(luò)交換芯片、DPU/RNIC、白盒網(wǎng)絡(luò)設(shè)備廠商深度合作，建立廣泛產(chǎn)業(yè)生態(tài)。依托中國(guó)移動(dòng)協(xié)同創(chuàng)新基地長(zhǎng)三角區(qū)域中心（蘇州）節(jié)點(diǎn)，協(xié)同產(chǎn)業(yè)鏈上下游共建共享，推進(jìn)高性能網(wǎng)絡(luò)技術(shù)和產(chǎn)業(yè)發(fā)展。

此外，結(jié)合移動(dòng)云自研的SDN云網(wǎng)絡(luò)系統(tǒng)，保證通算、智算資源的無(wú)縫高速連接，構(gòu)建通智算一體化的云服務(wù)能力。

中國(guó)移動(dòng)智算資源規(guī)劃布局：“N+X”

移動(dòng)云作為數(shù)字中國(guó)建設(shè)的國(guó)家隊(duì)、主力軍，移動(dòng)云依托集團(tuán)運(yùn)營(yíng)商稟賦優(yōu)勢(shì)，構(gòu)建“4+N+31+X”算網(wǎng)資源體系，以及“N+X”智算資源體系。

為了適應(yīng)AI需求，中國(guó)移動(dòng)將智算網(wǎng)絡(luò)資源規(guī)劃融入算網(wǎng)規(guī)劃，目前移動(dòng)云已構(gòu)建了全棧自主可控、行業(yè)領(lǐng)先的智算中心架構(gòu)，形成了“N+X”智算資源布局體系。建設(shè)輻射全國(guó)的智算中心和區(qū)域性節(jié)點(diǎn)，另外，移動(dòng)云還基于智算中心底層萬(wàn)卡高性能算力資源，構(gòu)建了從高性能算力到AI訓(xùn)練推理平臺(tái)到模型服務(wù)的全棧智算產(chǎn)品體系。以支持大規(guī)模萬(wàn)卡集群的訓(xùn)練和推理一體化需求。

“N節(jié)點(diǎn)指的是全國(guó)型N節(jié)點(diǎn)和區(qū)域性N節(jié)點(diǎn)，全國(guó)型N節(jié)點(diǎn)以大規(guī)模訓(xùn)練資源為主，優(yōu)選低成本中心及國(guó)家“東數(shù)?算” 樞紐節(jié)點(diǎn)，滿足全網(wǎng)跨省、跨區(qū)域、大顆粒的智算業(yè)務(wù)需求。區(qū)域性N節(jié)點(diǎn)以初期訓(xùn)練、未來(lái)訓(xùn)推一體資源為主，滿足本省、本區(qū)域內(nèi)智算業(yè)務(wù)需求。X節(jié)點(diǎn)指的是以快速滿足本省及區(qū)域內(nèi)的業(yè)務(wù)需求主要承載中小規(guī)模資源需求業(yè)務(wù)，推理型資源按需部署建設(shè)。” 徐小虎解釋到。

可以看到，隨著呼和浩特超大規(guī)模單體智算中心和11省12個(gè)智算中心區(qū)域節(jié)點(diǎn)的啟動(dòng)建設(shè)，中國(guó)移動(dòng)將加快形成“N（全國(guó)性、區(qū)域性智算中心）+X（屬地化、定制化邊緣智算節(jié)點(diǎn)）”多層級(jí)、全覆蓋智算能力布局，并結(jié)合高性能網(wǎng)絡(luò)的技術(shù)優(yōu)勢(shì)，有望在AI時(shí)代在智算領(lǐng)域發(fā)揮更大價(jià)值。

消息來(lái)源：至頂網(wǎng)