omniture

浪潮云海劉健:"一云多芯+云原生"是算力異構(gòu)最優(yōu)解

2023-08-24 21:56 3128

北京2023年8月24日 /美通社/ -- 浪潮云海秉承開(kāi)放兼容、分層解耦的技術(shù)理念,面向全行業(yè)用戶提供領(lǐng)先的私有云產(chǎn)品與解決方案,助力企業(yè)構(gòu)建堅(jiān)實(shí)云基座,實(shí)現(xiàn)數(shù)字化重構(gòu)與轉(zhuǎn)型。在金融領(lǐng)域的云原生和云計(jì)算建設(shè)過(guò)程中,浪潮云海積累了豐富的實(shí)踐經(jīng)驗(yàn),憑借創(chuàng)新務(wù)實(shí)的實(shí)干理念,以客戶需求為核心的服務(wù)意識(shí),得到了行業(yè)和客戶的廣泛認(rèn)可。

浪潮數(shù)據(jù)云計(jì)算方案總監(jiān)劉健
浪潮數(shù)據(jù)云計(jì)算方案總監(jiān)劉健

本文系浪潮數(shù)據(jù)云計(jì)算方案總監(jiān)劉健演講實(shí)錄,以下內(nèi)容將從云計(jì)算的發(fā)展趨勢(shì)、金融云的趨勢(shì)及挑戰(zhàn)、浪潮云海在云原生基礎(chǔ)設(shè)施建設(shè)過(guò)程中的實(shí)踐成果三部分進(jìn)行相關(guān)經(jīng)驗(yàn)的分享和觀點(diǎn)的探討。

一、云計(jì)算發(fā)展趨勢(shì):下一代云數(shù)據(jù)中心

目前,AI、5G、大數(shù)據(jù)這些詞匯已和云計(jì)算密不可分,在這樣的環(huán)境下,浪潮云海認(rèn)為開(kāi)放硬件、開(kāi)放軟件以及軟硬件分層解耦已成為數(shù)據(jù)中心發(fā)展的重要趨勢(shì),同時(shí),面對(duì)更為多樣的計(jì)算場(chǎng)景,云計(jì)算體系架構(gòu)的演進(jìn)、模型即服務(wù)、多元算力的管理能力也成為下一代云數(shù)據(jù)中心的進(jìn)化方向。

軟硬件同步優(yōu)化

為滿足用戶對(duì)產(chǎn)品性能和使用體驗(yàn)的需求,在倡導(dǎo)軟硬解耦的基礎(chǔ)上,浪潮云海同樣關(guān)注軟硬件的同步優(yōu)化。在云計(jì)算領(lǐng)域,通過(guò)對(duì)硬件的深度優(yōu)化,可大幅提升產(chǎn)品性能,以此解決軟件層容器和虛擬化的損耗問(wèn)題;通過(guò)DPU改變底層的高可用架構(gòu),從而實(shí)現(xiàn)虛擬機(jī)高可用的邏輯切換。

廣泛的軟硬件協(xié)同

計(jì)算系統(tǒng)架構(gòu)的解耦和計(jì)算設(shè)備之間的互操作性是未來(lái)計(jì)算可持續(xù)發(fā)展的關(guān)鍵。在網(wǎng)絡(luò)層面,硬件SDN和網(wǎng)絡(luò)設(shè)備極易綁定,在解耦的階段,通過(guò)云上軟SDN和任意廠商網(wǎng)絡(luò)設(shè)備,配合GPU和智能網(wǎng)卡加速,就可以做到解除綁定和性能提升;在存儲(chǔ)系統(tǒng)層面,也可以通過(guò)同樣的辦法實(shí)現(xiàn)存儲(chǔ)系統(tǒng)的加速;在安全層面,以DPU做加強(qiáng),可實(shí)現(xiàn)計(jì)算機(jī)系統(tǒng)負(fù)荷的卸載。以上都是通過(guò)硬件優(yōu)化來(lái)實(shí)現(xiàn)軟件的性能提速。

模型即基礎(chǔ)設(shè)施

隨著ChatGPT的持續(xù)火熱,模型已經(jīng)和算力、算法一樣,成為了下一代云的基礎(chǔ)設(shè)施標(biāo)準(zhǔn)。但從歸屬劃分上看,公有云上訓(xùn)練得到的模型仍屬于公有云,只有在私有云上基于自己的數(shù)據(jù)進(jìn)行訓(xùn)練,才能得到專屬的大模型,這也是國(guó)內(nèi)大型金融機(jī)構(gòu)目前致力發(fā)展的方向。

多元算力

支撐新興業(yè)務(wù)發(fā)展,助力多元算力場(chǎng)景。現(xiàn)在的數(shù)據(jù)中心從物理資源層上看基礎(chǔ)設(shè)施更加多元,X86和ARM設(shè)備的混部已成為常態(tài);用戶對(duì)算力引擎的需求也囊括了虛擬化、裸機(jī)、容器,且這一狀態(tài)將長(zhǎng)期持續(xù);算力類型上也從單純的CPU向GPU、FPGA擴(kuò)展。

二、金融云趨勢(shì)及挑戰(zhàn)

金融云發(fā)展趨勢(shì)

金融云發(fā)展大致可分為三個(gè)階段:IOE時(shí)代、業(yè)務(wù)云化時(shí)代、云原生時(shí)代。云原生能力又可概括為以下三點(diǎn):應(yīng)用的容器化,服務(wù)的Mesh化及Serverless。金融IT本質(zhì)上是為組織和業(yè)務(wù)服務(wù)的,所以上層技術(shù)的變化往往源于組織架構(gòu)的變遷。業(yè)務(wù)架構(gòu)從單體、到服務(wù)化再到微服務(wù)架構(gòu),數(shù)據(jù)架構(gòu)從統(tǒng)計(jì)分析到數(shù)據(jù)服務(wù)湖倉(cāng)一體,技術(shù)架構(gòu)對(duì)應(yīng)發(fā)展到服務(wù)網(wǎng)格,最終形成組織架構(gòu)和開(kāi)發(fā)框架的變革。每個(gè)階段組織架構(gòu)和技術(shù)架構(gòu)都需要匹配,這是一個(gè)逐步演進(jìn)的過(guò)程。

金融云建設(shè)挑戰(zhàn)

IaaS層的建設(shè)經(jīng)驗(yàn)較為通用,但是PaaS層的建設(shè)則更加復(fù)雜,對(duì)此我們做出以下分析:

  1. IaaS和PaaS都有明顯的行業(yè)屬性,如果一個(gè)云廠商賣給所有客戶的PaaS都是一樣的,則它是不具備行業(yè)屬性的。每個(gè)行業(yè)的業(yè)務(wù)不同,要求的PaaS指標(biāo)和組件也不同,標(biāo)準(zhǔn)化產(chǎn)品未必適用。
  2. 容器即服務(wù),很多場(chǎng)景下用戶認(rèn)為PaaS不好用、不靈活是因?yàn)閺S商將PaaS的基礎(chǔ)設(shè)施跟PaaS的服務(wù)整合在了一起,極端情況可能是每個(gè)產(chǎn)品都附帶了容器平臺(tái)。對(duì)此,浪潮云海的建設(shè)經(jīng)驗(yàn)是把PaaS的功能解耦出來(lái),使之成為容器即服務(wù)。
  3. 在業(yè)務(wù)層的搭建過(guò)程中,我們建議用戶建設(shè)一個(gè)統(tǒng)一的云基礎(chǔ)設(shè)施,并選擇業(yè)務(wù)可解耦的PaaS廠商,將解耦后的能力架設(shè)在統(tǒng)一的容器即服務(wù)平臺(tái)上。

微服務(wù)體系的建設(shè)也存在多架構(gòu)并存和逐步演進(jìn)的過(guò)程:在微服務(wù)框架里面,Dubbo和SpringCloud是目前較為流行的應(yīng)用分布式、微服務(wù)開(kāi)發(fā)框架,在金融行業(yè)應(yīng)用廣泛;而Istio目前的發(fā)展趨勢(shì)則是平臺(tái)級(jí)別的服務(wù)治理框架,可進(jìn)行無(wú)侵入的遺留系統(tǒng)微服務(wù)改造。當(dāng)然,微服務(wù)架構(gòu)的選擇和平臺(tái)規(guī)劃、公司規(guī)劃是密不可分的,同時(shí)也需要逐步去演進(jìn)。

對(duì)于微服務(wù)的運(yùn)維,我們建議將IaaS層和PaaS層打通,形成垂直運(yùn)維體系。這里面臨如下挑戰(zhàn):PaaS組件版本、開(kāi)發(fā)框架多,不同的PaaS組件有不同的硬件資源,導(dǎo)致部署效率低;在業(yè)務(wù)數(shù)據(jù)網(wǎng)絡(luò)隔離的情況下,如何解決PaaS的跨域使用。對(duì)此我們建議在網(wǎng)絡(luò)分區(qū)的情況下,根據(jù)使用環(huán)境需求按需部署、按需編排,并構(gòu)建統(tǒng)一發(fā)放的網(wǎng)絡(luò),把中間運(yùn)維側(cè)打通,通過(guò)運(yùn)維網(wǎng)絡(luò)將PaaS發(fā)放到不同的域里面去,通過(guò)就近部署、就近訪問(wèn),統(tǒng)一運(yùn)維,實(shí)現(xiàn)PaaS層的統(tǒng)一。

三、浪潮云海云原生基礎(chǔ)設(shè)施創(chuàng)新與實(shí)踐

目前,浪潮云海主要著力于建設(shè)云原生基礎(chǔ)設(shè)施的底層,參考信通院發(fā)布的《云原生能力成熟度標(biāo)準(zhǔn)》,聚焦兩個(gè)方向來(lái)開(kāi)展工作:第一,技術(shù)架構(gòu),主要是資源管理、運(yùn)維保障、研發(fā)測(cè)試等;第二,業(yè)務(wù)應(yīng)用,主要是彈性、高可用、自動(dòng)化、可觀測(cè)等。

"一云多芯+云原生"

在金融云的建設(shè)實(shí)踐中,"一云多芯"是金融行業(yè)云的一項(xiàng)重要的基礎(chǔ)指標(biāo)。一云多芯"可滿足用戶算力多樣化需求,并且可有效規(guī)避算力孤島;是打破小生態(tài)、構(gòu)建大生態(tài)的關(guān)鍵紐帶; 并且可有效降低供應(yīng)鏈風(fēng)險(xiǎn) 。無(wú)論是從業(yè)務(wù)角度、技術(shù)角度,還是產(chǎn)業(yè)鏈角度,踐行"一云多芯"已經(jīng)成為當(dāng)下及未來(lái)云計(jì)算產(chǎn)業(yè)發(fā)展的關(guān)鍵,是產(chǎn)業(yè)鏈相關(guān)廠商的必然選擇,現(xiàn)在,能源、電力行業(yè)也對(duì)一云多芯提出了明確的要求。

浪潮云海認(rèn)為"一云多芯+云原生"是解決算力異構(gòu)的最優(yōu)解,我們根據(jù)無(wú)狀態(tài)和有狀態(tài)兩種業(yè)務(wù)形態(tài)總結(jié)出以下實(shí)踐經(jīng)驗(yàn):

  1. 對(duì)于無(wú)狀態(tài)應(yīng)用,基本都基于Java開(kāi)發(fā),編譯過(guò)程并不難,重新編譯后的應(yīng)用,都能運(yùn)行在多芯集群里,對(duì)底層CPU或服務(wù)器并無(wú)太多限制;
  2. 對(duì)于有狀態(tài)的數(shù)據(jù),最重要的是保障數(shù)據(jù)庫(kù)數(shù)據(jù)無(wú)丟失,不一定要追求一云多芯。但可以進(jìn)行相關(guān)嘗試,如在一云多芯環(huán)境中部署分布式數(shù)據(jù)庫(kù),可以用X86算力支撐primary集群或?qū)懖僮?,用非X86算力承載standby或者讀操作,這是數(shù)據(jù)庫(kù)一云多芯的一種實(shí)現(xiàn)方式。這種模式也可以應(yīng)用在數(shù)據(jù)庫(kù)層面的容災(zāi)建設(shè)中。

除了考慮業(yè)務(wù)形態(tài),我們?cè)趯?shí)踐過(guò)程中還總結(jié)了以下幾個(gè)建設(shè)要點(diǎn):

  1. 集群內(nèi)的算力自動(dòng)等價(jià)調(diào)度:因?yàn)椴煌軜?gòu)服務(wù)器之間有算力的換算問(wèn)題;對(duì)此,我們聯(lián)合信通院及多家廠商,進(jìn)行過(guò)算力自動(dòng)等價(jià)調(diào)度測(cè)試;
  2. 流量切換:在實(shí)踐中可通過(guò)網(wǎng)關(guān)切換來(lái)實(shí)現(xiàn);
  3. 無(wú)感切換:目前我們的產(chǎn)品已經(jīng)具備這種能力,用戶底層基礎(chǔ)設(shè)施的架構(gòu)并不會(huì)影響上層業(yè)務(wù)運(yùn)行,用戶可基于不同架構(gòu)的底層資源進(jìn)行動(dòng)態(tài)的調(diào)整和資源的調(diào)用。

微服務(wù)架構(gòu)體系的建設(shè)

對(duì)于微服務(wù)架構(gòu)體系的建設(shè),如上提到,首先是開(kāi)發(fā)框架的并存問(wèn)題。對(duì)此,我們建議通過(guò)配置中心將各架構(gòu)統(tǒng)管起來(lái),先把共性的東西抽離出來(lái),再進(jìn)一步做融合。其次是多數(shù)據(jù)中心的問(wèn)題,目前用戶普遍都有多套數(shù)據(jù)中心,對(duì)此,可以通過(guò)級(jí)連的方式做管理,用總分總的模式進(jìn)行管理。

高可用設(shè)計(jì)

下一代云的高可用設(shè)計(jì)在云原生層面不難實(shí)現(xiàn),但并不是所有業(yè)務(wù)都是云原生的,這就使得難以從上層解決高可用的問(wèn)題。作為基礎(chǔ)設(shè)施廠商,我們提倡通過(guò)底層建設(shè),即使不依賴云原生也能實(shí)現(xiàn)高可用。所以對(duì)于下一代的高可用架構(gòu),我們希望可以在這兩個(gè)維度上來(lái)回切換,同時(shí)也希望能打通裸機(jī)和虛擬機(jī)的控制平面,實(shí)現(xiàn)多引擎間的高可用。這其中還有很多挑戰(zhàn),仍需逐步演進(jìn)。

目前浪潮云海已經(jīng)服務(wù)了15000多家客戶,在各個(gè)行業(yè)全面開(kāi)花,涵蓋金融、能源、交通、醫(yī)療、企業(yè)、教育等關(guān)鍵領(lǐng)域,是客戶數(shù)字化、智慧化轉(zhuǎn)型的重要云底座。這其中包括國(guó)內(nèi)最大規(guī)模的金融生產(chǎn)云,承載客戶的雙11業(yè)務(wù);最大規(guī)模、芯片種類最多的省級(jí)政務(wù)云,承載4套公共應(yīng)用服務(wù),104個(gè)業(yè)務(wù)系統(tǒng);以及汽車、軌交、科學(xué)計(jì)算實(shí)驗(yàn)室等多個(gè)千萬(wàn)級(jí)大項(xiàng)目。

消息來(lái)源:浪潮云海
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection