omniture

第六期開放計算技術沙龍成功舉行 產學研用共話網絡技術研究與實踐

2022-07-01 16:02 5769

北京2022年7月1日 /美通社/ -- 隨著數字經濟的蓬勃發(fā)展和"東數西算"工程全面啟動,算力已成為新的生產力。計算場景的多元化、泛在化需要更高效的連接,云計算和一體化大數據中心的新型算力網絡體系將逐步構建。網絡技術通過硬件重構、開源開放,進入了發(fā)展的快車道,高性能網絡為廣域互聯(lián)、高效通信、數據共享、協(xié)同計算提供了堅實的支撐,有效推動了云計算、邊緣計算等網絡應用的發(fā)展,也助力了高性能和人工智能的蓬勃發(fā)展。

6月23日,由高效能服務器和存儲技術國家重點實驗室和開放計算中國社區(qū)聯(lián)合主辦的"網絡技術的研究與實踐"第六期開放計算技術沙龍在線上成功舉行,會議由高效能服務器和存儲技術國家重點實驗室首席研究員葉毓睿主持,匯集來自清華大學、華中科技大學、阿里云、電子云、浪潮網絡、NVIDIA、矩向科技等產學研用領域相關專家教授,圍繞高性能網絡互聯(lián)、智能網卡和DPU、開放網絡等話題,共同探討網絡技術的現(xiàn)狀與趨勢。

首先,主持人葉毓睿研究員在開場分享了高效能服務器和存儲技術國家重點實驗室最近的一些思考和觀點。他表示,如果說軟件定義的方向是一切皆服務,那么硬件重構的方向則是一切皆計算機(XaaC,anything as a Computer或everything as a Computer)。在IT基礎設施領域內,不只是宏觀(超大規(guī)模,如數據中心級別)、中觀(機柜級別、服務器級別),還有微觀(組件級和設備級別),都有類似的趨勢,例如網卡即計算機:智能網卡SmartNIC/DPU。硬件重構的方向是一切皆計算機,這個趨勢不僅適用于IT基礎架構,還適用于智能制造領域,如葉片即計算機,GE有個風電部門,把傳感器安裝在每一個風機葉片上,通過對轉速、風力、溫度、環(huán)境等近百種數據的采集、分析,風機能自己調整渦輪葉片轉速;此外還有吊艙即計算機、攝像頭即計算機、手套或眼鏡即計算機等等。

在主題演講環(huán)節(jié),清華大學教授、博士生導師向東分享了"高性能高階網絡互連架構及通訊協(xié)議"。在高階網絡架構中,他介紹到Dragonfly(蜻蜓網絡)是一個二級全連接網絡,現(xiàn)有的網絡設計成本主要取決于機柜間的全局光纖數目,減少光纖數目及交換機端口數目是降低設計成本的核心要素,蜻蜓網絡能夠將數據包傳輸路徑的全局光纖數目降低為1,其網絡設計成本遠低于3-D Torus及胖樹等其他網絡架構,不僅適合于搭建超級計算機,同時也適用于數據中心。Dragonfly可以容忍連線故障、節(jié)點故障等動態(tài)故障,避免無目的的misrouting路由。相比國際上流行的互連技術,Dragonfly轉發(fā)路由不需要虛擬通道(傳統(tǒng)的方法需要3~4個VCs,也即虛擬通道),可以實現(xiàn)無縫路由,能夠做成體系的硬件容錯設計。向東教授同時介紹了dragonfly+,slingshot,及CLHR網絡,其中dragonfly+網絡類似于胖樹,并在報告中給出了這些網絡類似便捷高效的互連及通訊解決方案。

華中科技大學教授、博士生導師劉方明就"國家重點研發(fā)計劃驅動的數據中心網絡開源實踐" 進行主題分享。他帶領團隊與浪潮信息合作歷時四年,完成了科技部"云計算與大數據"專項中的研發(fā)計劃項目 -- 高效能云計算數據中心關鍵技術與裝備,其中研發(fā)了一系列有代表性的數據中心網絡開源系統(tǒng),涉及數據中心內的資源調度,例如網絡功能虛擬化中間件PostMan,能夠快速緩解突發(fā)流量場景的小數據包請求洪峰負載,以及利用CPU-FPGA協(xié)同和軟硬結合的方法加速網絡數據處理的DHL框架,均入選了木蘭協(xié)議的全國首批自主開源項目;在跨域多數據中心間的資源調度方面,貢獻了OpenStack開源社區(qū)多數據中心級聯(lián)方案Tricircle的多個關鍵技術,包含跨數據中心三層網絡拓撲設計、跨數據中心分布式負載均衡服務、跨數據中心資源調度管理等。相關成果通過研發(fā)計劃項目集成應用于浪潮云海OS。

浪潮網絡總經理孫波發(fā)表了"云邊端協(xié)同下的算網融合新趨勢"主題演講,他指出,云邊端協(xié)同的智慧聯(lián)接將成為算網融合新趨勢。數字化轉型的深入推進對網絡基礎設施提出新要求和新挑戰(zhàn),需要一個彈性擴展、高效連接、智慧運維的全新網絡加以支撐。浪潮網絡智慧聯(lián)接架構,在云中心側以領先的開放網絡平臺為核心,打造高性能、低成本、彈性可擴展的解決方案,使新業(yè)務上線時間縮短20%,提升排障效率30%,實現(xiàn)秒級網絡業(yè)務調整,滿足云業(yè)務彈性、敏捷擴展的需求。邊緣側通過新一代邊緣網絡平臺,融合傳統(tǒng)有線、無線網絡,以及Zigbee、LoRa等終端網絡,打造低延遲、實時可靠的邊緣網絡,實現(xiàn)網絡的智能可視化調度,將網絡傳輸力提升27%、算力利用率提升30%,目前已在政府、教育、醫(yī)療、制造等諸多行業(yè)得到廣泛部署和應用。

其中,針對云中心網絡解決方案,浪潮網絡架構師、研發(fā)部系統(tǒng)處經理吳迅亮分享了 "SONiC在開放網絡中的應用與實踐"。他表示,開放網絡可以加速整個網絡的應用創(chuàng)新,相比于傳統(tǒng)網絡交換機,開放網絡交換機是軟硬件解耦、系統(tǒng)開放、應用可定制、統(tǒng)一的軟件系統(tǒng)。關于開放網絡交換機是否會替代傳統(tǒng)網絡交換機,他認為"這是一個過程,二者會長期共存"。SONiC是基于Debian Linux 基礎系統(tǒng)和SAI配合,屏蔽芯片差異的開源網絡軟件集合,可以提供豐富的L2/L3網絡特性,利用容器、數據庫等將網絡應用之間的關聯(lián)解耦。同時,SONiC又是一個開放的網絡生態(tài),從芯片廠商到最終用戶,都深度參與了SONiC的開發(fā)、測試和部署。SONiC的源碼是開放的,許多廠商都在SONiC上進行特色功能的定制。Inspur NOS就是浪潮基于開源SONiC研發(fā)的網絡操作系統(tǒng),在易用性、安全性、功能性、穩(wěn)定性方面都得到了增強。

在數據中心和云市場,對于業(yè)務來進行性能隔離是困擾網絡界和計算界很久的問題,現(xiàn)在我們已經實現(xiàn)了租戶之間的安全隔離,租戶業(yè)務和業(yè)務之間的隔離,但是當很多的租戶在同時運行多個應用時,卻無法實現(xiàn)應用之間的性能隔離。NVIDIA網絡高級總監(jiān)宋慶春進行了"云原生超級計算架構率先破解性能隔離難題"的主題分享,他表示在基于云原生超級計算架構的計算平臺,網絡、存儲均成為計算單元,實現(xiàn)了在一個數據中心里,數據在哪里,計算就在哪里,如此也就實現(xiàn)了在一個統(tǒng)一的架構下面,無論是像AI訓練這樣的大規(guī)模應用,還是非常小的一些基于VM就可以實現(xiàn)的應用,我們都可以使其性能達到最大化。云原生超級計算架構實現(xiàn)了計算和通信平臺的統(tǒng)一,利用網絡計算技術解決了傳統(tǒng)通信方式帶來的網絡擁塞及大量CPU資源消耗的問題,還解決了困擾業(yè)界數十年的多租戶應用的性能隔離難題,多個交換機網絡計算單元并行計算,實現(xiàn)多任務高性能可擴展。

關于智能網卡,電子云研發(fā)副總裁劉年超分享了"SmartNIC/DPU在云原生環(huán)境中應用的實踐和思考"。他指出,SmartNIC、DPU、IPU抑或是新推出的CIPU,雖然在命名方式方面缺乏統(tǒng)一的標準,但從以CPU為中心的體系架構向以數據為中心的體系架構轉變是大勢所趨。新一代 DPU/IPU 設備的共同特點是它們采用易于編程的多核CPU、先進的網絡接口以及一組強大的網絡、存儲和安全加速器,可以進行編程以執(zhí)行多個軟件定義的硬件加速功能。DPU能夠解決不同廠家網卡采用不同驅動的痛點,統(tǒng)一網卡和存儲驅動,共享存儲和網絡資源池,并可以真正實現(xiàn)裸金屬、虛擬機和容器統(tǒng)一的運維和管理,并從規(guī)模效應、運營模式、應用場景、成本分析、性能要求、人才儲備六大方面探討了SmartNIC/DPU在公有云和私有云場景差異性,給SmartNIC/DPU Startup團隊根據自身的情況找準切入點提供一些思考的方向。

在最后有關SmartNIC/DPU的圓桌討論環(huán)節(jié),阿里云神龍計算平臺負責人蔣林泉、矩向科技創(chuàng)始人黃朝波、電子云研發(fā)副總裁劉年超、NVIDIA網絡高級總監(jiān)宋慶春等嘉賓,共同就SmartNIC和DPU的區(qū)別與聯(lián)系、DPU落地所面臨的挑戰(zhàn)與機遇等議題進行了熱烈探討與交流,并和聽眾進行了深入的互動問答。

黃朝波指出,從智能網卡到DPU,是一個持續(xù)演進的過程。并且演進還在繼續(xù),隨著Chiplet等技術的成熟,在邊緣和企業(yè)云等規(guī)模更大的、輕量一些的場景,CPU、GPU和DPU會融合成一顆芯片,我們把它稱為超異構處理器HPU。

蔣林泉在介紹阿里云最新發(fā)布的CIPU時表示,從云業(yè)務出發(fā)還是從芯片供應商出發(fā),對是否能在云領域規(guī)模落地區(qū)別較大,云操作系統(tǒng)和規(guī)模業(yè)務垂直迭代驅動落地,才有可能在云這個領域發(fā)揮最大競爭力。阿里云CIPU的創(chuàng)新,歷經5年的迭代,事實上成為了云數據中心的中軸,也成為阿里云云計算服務在性能、穩(wěn)定性和效率上的核心引擎,這也是為何我們以Cloud Infrastructure Processing Unit命名它的關鍵原因。

劉年超指出,SmartNIC/DPU未來發(fā)展方向是存算網融合趨勢,在IDC中計算端,網絡互聯(lián)端,存儲端都有很好的應用場景。由于公有云可通過規(guī)模效應來攤平高昂的人力及硬件成本,從云上層應用到底層系統(tǒng)硬件芯片驅動做到垂直打通的專一場景,以及服務型交付模式,可以成功將DPU在公有云場景商用落地,但這些高門檻的條件在專屬云場景難以具備,所以目前DPU 初創(chuàng)公司在公有云計算端虛擬化商用落地場景未必成立,但在數據中心存儲端和邊緣計算網絡互聯(lián)端也許是很好的切入點。

宋慶春表示,在算力時代,數據中心成為了計算單元,計算、通信和存儲作為計算單元性能的保障,在數據移動的過程中完成計算,是實現(xiàn)業(yè)務性能最大化的關鍵。其中網絡計算作為計算和存儲的橋梁,將發(fā)揮更重要的作用。擺脫傳統(tǒng)的計算、通信和存儲的概念,在新的架構下重新定位三者之間的操作,勢在必行。

消息來源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網、科技、媒體、通訊企業(yè)的經營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection