omniture

浪潮信息助力中南大學(xué)智算平臺(tái)智能化運(yùn)維 | 美通社

2021-11-18 10:46

針對(duì)傳統(tǒng)人力運(yùn)維管理面臨的窘境,浪潮信息提出了以ISPIM (Inspur Physical Infrastructure Manager) 浪潮信息物理基礎(chǔ)設(shè)施管理平臺(tái)為核心的自動(dòng)化運(yùn)維解決方案。ISPIM平臺(tái)是浪潮信息根據(jù)市場(chǎng)需求,遵循NFV標(biāo)準(zhǔn),自主研發(fā)的一款高可用、高性能、高可擴(kuò)展、高可維護(hù)的行業(yè)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施管理平臺(tái)。該平臺(tái)具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、報(bào)表統(tǒng)計(jì)、拓?fù)湔故?、服?wù)器故障診斷、自動(dòng)報(bào)修、固件升級(jí)/配置、OS部署等功能,可保障數(shù)據(jù)中心安全、可靠、穩(wěn)定的運(yùn)行。

通過實(shí)地考察、調(diào)研并與中南大學(xué)HPC平臺(tái)管理和技術(shù)人員進(jìn)行多次反復(fù)的交流、溝通和分析、研究,浪潮信息研發(fā)工程師最終決定以“1+1+N高可用模式”,在5臺(tái)服務(wù)器上部署ISPIM系統(tǒng),主動(dòng)采集頻率為45min,監(jiān)控指標(biāo)可達(dá)150W+,覆蓋智算平臺(tái)內(nèi)的所有設(shè)備。

通過ISPIM提供標(biāo)準(zhǔn)的北向接口與CE(Cluster Engine)高性能平臺(tái)對(duì)接,可獲取到集群計(jì)算節(jié)點(diǎn)中CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、負(fù)載等性能信息及計(jì)算節(jié)點(diǎn)狀態(tài),實(shí)現(xiàn)算力的統(tǒng)一分配、調(diào)度、管理,配合內(nèi)置的浪潮信息管理驅(qū)動(dòng)軟件Teye,可實(shí)現(xiàn)對(duì)設(shè)備帶內(nèi)性能指標(biāo)的秒級(jí)實(shí)時(shí)采集及歷史信息匯聚。此外,ISPIM平臺(tái)還具備全網(wǎng)設(shè)備硬件狀態(tài)監(jiān)控、性能指標(biāo)實(shí)時(shí)監(jiān)控的能力,基于浪潮信息故障專家?guī)?,?lián)通浪潮信息360度專家服務(wù),實(shí)現(xiàn)了浪潮信息服務(wù)器智能故障診斷、故障根源定位、專家維修建議、設(shè)備自動(dòng)報(bào)修等一系列自動(dòng)運(yùn)維功能,幫助運(yùn)維人員實(shí)時(shí)掌控設(shè)備狀態(tài),提高運(yùn)維效率,縮短維修周期,同時(shí)極大程度上避免故障誤判,能夠?qū)收线M(jìn)行及時(shí)且有針對(duì)性的處理。(美通社,2021年11月17日北京)