omniture

浪潮信息助力中南大學(xué)智算平臺(tái)智能化運(yùn)維

2021-11-17 20:58 4897

北京2021年11月17日 /美通社/ -- 隨著信息技術(shù)的飛速發(fā)展,高性能計(jì)算已成為繼理論和實(shí)驗(yàn)之后開(kāi)展科學(xué)研究的第三大支柱,中國(guó)高校信息化進(jìn)程走過(guò)二十余載,從最初的校園信息化建設(shè)到如今的智慧校園,數(shù)字化轉(zhuǎn)型下的高校教學(xué)、科研、管理和服務(wù)對(duì)算力的需求也在不斷攀升。

中南大學(xué)是教育部直屬全國(guó)重點(diǎn)大學(xué)、國(guó)家“211工程”首批重點(diǎn)建設(shè)高校、國(guó)家“985工程”部省重點(diǎn)共建高水平大學(xué)和國(guó)家“2011計(jì)劃”首批牽頭高校,2017年9月入選世界一流大學(xué)A類(lèi)建設(shè)高校。中南大學(xué)智算平臺(tái)作為一個(gè)硬件先進(jìn)、功能齊全、資源豐富,面向全校師生提供高性能計(jì)算服務(wù)的開(kāi)放性公共服務(wù)基礎(chǔ)設(shè)施,一方面為學(xué)校的基礎(chǔ)研究、前沿科學(xué)技術(shù)研究,促進(jìn)科學(xué)探索和重大發(fā)現(xiàn)提供算力支撐,另一方面為促進(jìn)學(xué)校的“雙一流”建設(shè)以及學(xué)校改革發(fā)展的“四個(gè)轉(zhuǎn)型”夯實(shí)基礎(chǔ),以期在基礎(chǔ)研究和科技前沿領(lǐng)域有所突破,從而進(jìn)一步提升學(xué)校整體科研水平。中南大學(xué)智算平臺(tái)目前擁有高達(dá)上千臺(tái)各種類(lèi)型的計(jì)算服務(wù)器,一方面滿(mǎn)足了科研人員大量的計(jì)算資源需求,另一方面大量集中部署的計(jì)算服務(wù)器集群對(duì)管理和運(yùn)維人員提出了新的挑戰(zhàn)。

傳統(tǒng)運(yùn)維盲人摸象,成本高企

中南大學(xué)智算平臺(tái)的硬件資源十分豐富,基于傳統(tǒng)運(yùn)維模式已無(wú)法對(duì)計(jì)算服務(wù)器集群的算力進(jìn)行管理、調(diào)度和科學(xué)合理分配計(jì)算資源,算力應(yīng)用處于黑箱模式,類(lèi)似于盲人摸象,不清楚、不清晰,無(wú)法實(shí)現(xiàn)對(duì)計(jì)算集群快速而精準(zhǔn)的有效運(yùn)維,也造成了運(yùn)維人力資源的沉重負(fù)擔(dān)。隨著高性能計(jì)算服務(wù)器集群規(guī)模越來(lái)越大,運(yùn)維人員的工作量與日劇增,大量重復(fù)冗余的枯燥工作難免掛一漏萬(wàn)。由于運(yùn)維人員缺乏自動(dòng)化的運(yùn)維管理工具,借助經(jīng)驗(yàn)診斷故障,極易造成故障的漏判、誤判。因此,中南大學(xué)智算平臺(tái)迫切需要一個(gè)統(tǒng)一集中的自動(dòng)化智能運(yùn)維管理平臺(tái),將監(jiān)控與運(yùn)維進(jìn)行有效整合,實(shí)現(xiàn)平臺(tái)的自動(dòng)化智能管理和運(yùn)維。

另外,計(jì)算服務(wù)器、計(jì)算網(wǎng)絡(luò)、存儲(chǔ)系統(tǒng)等設(shè)施在不斷消耗大量電力,UPS、新風(fēng)空調(diào)系統(tǒng)等機(jī)房設(shè)施也需要能源開(kāi)銷(xiāo),這些都導(dǎo)致智算平臺(tái)的運(yùn)行成本高企,計(jì)算服務(wù)器數(shù)量越多,運(yùn)行維護(hù)成本就越高,如何對(duì)平臺(tái)進(jìn)行精細(xì)化的能耗管理、實(shí)時(shí)獲取計(jì)算服務(wù)器和機(jī)房的能耗信息,從而進(jìn)行計(jì)算資源的科學(xué)管理和調(diào)度,也是目前業(yè)界亟待解決的重要問(wèn)題。

精確納管,運(yùn)維效率大幅提升

針對(duì)傳統(tǒng)人力運(yùn)維管理面臨的窘境,浪潮信息提出了以ISPIM (Inspur Physical Infrastructure Manager) 浪潮信息物理基礎(chǔ)設(shè)施管理平臺(tái)為核心的自動(dòng)化運(yùn)維解決方案。ISPIM平臺(tái)是浪潮信息根據(jù)市場(chǎng)需求,遵循NFV標(biāo)準(zhǔn),自主研發(fā)的一款高可用、高性能、高可擴(kuò)展、高可維護(hù)的行業(yè)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施管理平臺(tái)。該平臺(tái)具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、報(bào)表統(tǒng)計(jì)、拓?fù)湔故?、服?wù)器故障診斷、自動(dòng)報(bào)修、固件升級(jí)/配置、OS部署等功能,可保障數(shù)據(jù)中心安全、可靠、穩(wěn)定的運(yùn)行。

通過(guò)實(shí)地考察、調(diào)研并與中南大學(xué)HPC平臺(tái)管理和技術(shù)人員進(jìn)行多次反復(fù)的交流、溝通和分析、研究,浪潮信息研發(fā)工程師最終決定以“1+1+N高可用模式”,在5臺(tái)服務(wù)器上部署ISPIM系統(tǒng),主動(dòng)采集頻率為45min,監(jiān)控指標(biāo)可達(dá)150W+,覆蓋智算平臺(tái)內(nèi)的所有設(shè)備。ISPIM系統(tǒng)高可用模式部署的示意圖如下。


通過(guò)ISPIM提供標(biāo)準(zhǔn)的北向接口與CE(Cluster Engine)高性能平臺(tái)對(duì)接,可獲取到集群計(jì)算節(jié)點(diǎn)中CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、負(fù)載等性能信息及計(jì)算節(jié)點(diǎn)狀態(tài),實(shí)現(xiàn)算力的統(tǒng)一分配、調(diào)度、管理,配合內(nèi)置的浪潮信息管理驅(qū)動(dòng)軟件Teye,可實(shí)現(xiàn)對(duì)設(shè)備帶內(nèi)性能指標(biāo)的秒級(jí)實(shí)時(shí)采集及歷史信息匯聚。此外,ISPIM平臺(tái)還具備全網(wǎng)設(shè)備硬件狀態(tài)監(jiān)控、性能指標(biāo)實(shí)時(shí)監(jiān)控的能力,基于浪潮信息故障專(zhuān)家?guī)?,?lián)通浪潮信息360度專(zhuān)家服務(wù),實(shí)現(xiàn)了浪潮信息服務(wù)器智能故障診斷、故障根源定位、專(zhuān)家維修建議、設(shè)備自動(dòng)報(bào)修等一系列自動(dòng)運(yùn)維功能,幫助運(yùn)維人員實(shí)時(shí)掌控設(shè)備狀態(tài),提高運(yùn)維效率,縮短維修周期,同時(shí)極大程度上避免故障誤判,能夠?qū)收线M(jìn)行及時(shí)且有針對(duì)性的處理。

自動(dòng)化智能運(yùn)維,魅力四射

浪潮信息ISPIM系統(tǒng)基于AI算法,對(duì)采集到的所有設(shè)備的能耗、溫度、氣流、CUPS以及機(jī)房環(huán)境數(shù)據(jù)進(jìn)行實(shí)時(shí)智能分析,推送能耗管理與優(yōu)化建議,通過(guò)可視化拓?fù)涑尸F(xiàn),3D建模展示數(shù)據(jù)中心內(nèi)機(jī)柜位置、位置、功耗、溫度狀態(tài)信息,實(shí)現(xiàn)對(duì)整個(gè)數(shù)據(jù)中心的細(xì)粒度管理。

一方面通過(guò)部署浪潮信息ISPIM系統(tǒng),中南大學(xué)智算平臺(tái)實(shí)現(xiàn)了集中自動(dòng)化管理,大大減輕了運(yùn)維負(fù)擔(dān),通過(guò)對(duì)算力數(shù)據(jù)的精準(zhǔn)獲取、調(diào)度,使得算力的管控集中化、智能化,另一方面通過(guò)對(duì)平臺(tái)的監(jiān)測(cè),實(shí)現(xiàn)能耗可查、可管、可控。運(yùn)維人員通過(guò)ISPIM平臺(tái)可隨時(shí)隨地監(jiān)控整個(gè)平臺(tái)的運(yùn)行狀態(tài),故障報(bào)警能夠以秒級(jí)的速度精準(zhǔn)定位,保障中南大學(xué)的智算平臺(tái)高效有序運(yùn)轉(zhuǎn),節(jié)約了人力資源,運(yùn)維效率大幅提升。

隨著整個(gè)社會(huì)數(shù)字化轉(zhuǎn)型進(jìn)程的加快,大型企業(yè)或組織對(duì)大規(guī)模計(jì)算服務(wù)集群的需求與日俱增,數(shù)據(jù)中心事實(shí)上已經(jīng)成為組織的核心生產(chǎn)力和重要資產(chǎn)。浪潮信息ISPIM平臺(tái)可同時(shí)實(shí)現(xiàn)對(duì)數(shù)萬(wàn)臺(tái)不同品牌服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等設(shè)施的統(tǒng)一監(jiān)控、運(yùn)維和告警管理,保障客戶(hù)大規(guī)模數(shù)據(jù)中心安全、穩(wěn)定、可靠運(yùn)行。用戶(hù)普遍反饋,浪潮信息ISPIM平臺(tái)在推進(jìn)新基建、領(lǐng)跑數(shù)字化轉(zhuǎn)型方面魅力四射,極具推廣價(jià)值。

消息來(lái)源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection