omniture

浪潮天梭M13之故障管理系統(tǒng) 發(fā)現(xiàn)問題比解決問題更重要

2017-11-01 10:46 5286
天梭M13關(guān)鍵主機(jī)的眾多高可用技術(shù)之一 -- FMS 故障管理系統(tǒng),是一套完整的服務(wù)器軟硬件健康管理容錯(cuò)保護(hù)系統(tǒng),為客戶提供故障定位、診斷、預(yù)測(cè)等服務(wù),保證客戶關(guān)鍵業(yè)務(wù)長久安全穩(wěn)定運(yùn)行。

北京2017年11月1日電 /美通社/ -- 天梭M13關(guān)鍵主機(jī)的眾多高可用技術(shù)之一 -- FMS 故障管理系統(tǒng),是一套完整的服務(wù)器軟硬件健康管理容錯(cuò)保護(hù)系統(tǒng),為客戶提供故障定位、診斷、預(yù)測(cè)等服務(wù),保證客戶關(guān)鍵業(yè)務(wù)長久安全穩(wěn)定運(yùn)行。

天梭M13關(guān)鍵應(yīng)用主機(jī)是浪潮自主研制的在線交易處理性能較強(qiáng)的單機(jī)服務(wù)器系統(tǒng),面向?qū)Ψ€(wěn)定性和可用性極高的銀行、政府、大企業(yè)的超大型數(shù)據(jù)庫應(yīng)用設(shè)計(jì),具備比肩大型機(jī)的處理性能。要持續(xù)支撐如此強(qiáng)悍的業(yè)務(wù)處理能力絕非易事,浪潮匯聚在服務(wù)器研發(fā)、維護(hù)領(lǐng)域多年成功經(jīng)驗(yàn),為天梭M13主機(jī)配備了各項(xiàng)尖端RAS技術(shù),助力客戶業(yè)務(wù)長久穩(wěn)定運(yùn)行。RAS 特性中的 R "Reliability" 高可用性對(duì)于大型關(guān)鍵應(yīng)用主機(jī)來說尤為關(guān)鍵,其作用體現(xiàn)在及時(shí)應(yīng)對(duì)突發(fā)故障以及警示維護(hù)人員規(guī)避故障風(fēng)險(xiǎn)上,可以顯著延長服務(wù)器整系統(tǒng)平均無故障時(shí)間,維持客戶關(guān)鍵應(yīng)用持續(xù)穩(wěn)定運(yùn)行。完備的高可用性是服務(wù)器達(dá)到“五個(gè)9”的重要衡量指標(biāo)之一,下文介紹天梭M13關(guān)鍵主機(jī)的眾多高可用技術(shù)之一 -- FMS故障管理系統(tǒng)。

快速準(zhǔn)確找到問題已成為一個(gè)問題

如今隨著客戶業(yè)務(wù)類型及業(yè)務(wù)量的不斷攀升,生產(chǎn)系統(tǒng)所產(chǎn)生的故障信息也越來越多。為了保證系統(tǒng)的正常運(yùn)行,很多數(shù)據(jù)中心都會(huì)實(shí)時(shí)監(jiān)控系統(tǒng)產(chǎn)生的消息,希望能夠及時(shí)發(fā)現(xiàn)系統(tǒng)中存在的潛在問題。然而,隨著交易數(shù)量的不斷增加,大量消息的產(chǎn)生,讓人應(yīng)接不暇,監(jiān)控系統(tǒng)也變得越來越困難。對(duì)于一個(gè)龐大的系統(tǒng)來說,一旦問題出現(xiàn),想從浩如煙海的故障消息中去定位這個(gè)問題是一件異常困難的事。對(duì)于一些大型的業(yè)務(wù)系統(tǒng),一天所產(chǎn)生的日志量可能達(dá)到幾十個(gè)G的數(shù)量級(jí)。 要在這些數(shù)據(jù)中去尋找問題出現(xiàn)的根源,無疑是一項(xiàng)重大挑戰(zhàn)。因此,急需一種能夠方便監(jiān)控系統(tǒng)和定位的問題的工具。FMS 就是在這樣的需求下,應(yīng)運(yùn)而生的。

如何找到問題 -- FMS 自動(dòng)化定位,預(yù)測(cè)、容錯(cuò)

FMS 故障管理系統(tǒng)是一套完整的服務(wù)器軟硬件健康管理容錯(cuò)保護(hù)系統(tǒng),是為浪潮服務(wù)器打造的“健康衛(wèi)士360”,具有故障自動(dòng)化定位,預(yù)測(cè)、容錯(cuò)和自動(dòng)化故障處理的功能,支持多層級(jí)故障管理架構(gòu)自主擴(kuò)展,自動(dòng)故障診斷及智能故障預(yù)測(cè),同時(shí)通過浪潮服務(wù)故障診斷數(shù)據(jù)庫,建立了故障的數(shù)據(jù)化分析和科學(xué)預(yù)測(cè)的平臺(tái)。

不同于集群或單機(jī)服務(wù)器監(jiān)控軟件,FMS故障管理系統(tǒng)采取輕量級(jí)故障信息捕獲技術(shù),對(duì)于大部分故障事件的處理采用主動(dòng)通知方式,當(dāng)故障發(fā)生時(shí)主動(dòng)報(bào)告給故障管理系統(tǒng),無故障發(fā)生時(shí)不消耗系統(tǒng)資源。機(jī)器正常運(yùn)行狀態(tài)下,F(xiàn)MS 故障管理系統(tǒng)對(duì)于正在運(yùn)行的業(yè)務(wù)不產(chǎn)生任何干擾,故障管理系統(tǒng) CPU 占用不超過1%,內(nèi)存占用低于5M,對(duì)系統(tǒng)性能沒有任何影響。

如何處理問題 -- FMS 的實(shí)戰(zhàn)服務(wù)器故障規(guī)則庫

浪潮多年服務(wù)器銷售、維護(hù)經(jīng)驗(yàn),搭建了一整套基于實(shí)戰(zhàn)的服務(wù)器故障規(guī)則庫,積累了豐富的故障判斷規(guī)則和處理經(jīng)驗(yàn)。龐大的故障診斷規(guī)則數(shù)據(jù)庫,支持 BMC、CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)、XFS、PCIE、MD、死鎖、內(nèi)核等多設(shè)備故障檢測(cè)診斷,每條規(guī)則都經(jīng)過了嚴(yán)格的測(cè)試來驗(yàn)證其準(zhǔn)確性,確保其在生產(chǎn)環(huán)境中穩(wěn)定可靠。經(jīng)由這些規(guī)則可以診斷檢測(cè)出機(jī)器設(shè)備或系統(tǒng)的故障問題,并劃分故障嚴(yán)重等級(jí),及時(shí)給出處理方案。

如何提前預(yù)警 -- FMS 學(xué)習(xí)模型

涵蓋 CPU,內(nèi)存,網(wǎng)卡,文件系統(tǒng)等服務(wù)器硬件軟件各個(gè)層次的故障信息。能夠?qū)Υ疟P進(jìn)行故障預(yù)測(cè):通過大數(shù)據(jù)的積累分析,建立學(xué)習(xí)模型,實(shí)現(xiàn)提前預(yù)測(cè)并預(yù)警磁盤故障,提示客戶在故障發(fā)生前進(jìn)行妥當(dāng)?shù)木S護(hù)處理。支持節(jié)點(diǎn)高可用方式,節(jié)點(diǎn)發(fā)生故障,無法登陸界面的時(shí)候,可以利用其它機(jī)器分析故障機(jī)器的信息。例如:當(dāng)一個(gè)內(nèi)存條(內(nèi)存頁面)上,24小時(shí)發(fā)生10個(gè) "Memory write error" 故障的話,就將該內(nèi)存頁面離線并報(bào)告該內(nèi)存條的具體位置,通知管理員及時(shí)更換內(nèi)存條。

如何降低運(yùn)維難度 -- FMS 健康狀態(tài)評(píng)估系統(tǒng)

FMS 故障管理系統(tǒng)提供整體健康狀態(tài)評(píng)估系統(tǒng),周期性的全方深度檢查服務(wù)器的每一個(gè)角落,為客戶直觀展示服務(wù)器各組成部件的健康狀態(tài)、故障情況以及可能產(chǎn)生的安全隱患。與故障管理工具相互配合,對(duì)檢查出來的故障和隱患進(jìn)行自助修復(fù)、隔離,若有硬件級(jí)別無法處理的故障,則會(huì)提示聯(lián)系廠家進(jìn)行維修和更換,這種提示的定位可以精確到主板的某一個(gè)槽位上,對(duì)于天梭M13這種龐大的系統(tǒng),硬件級(jí)別的精準(zhǔn)故障定位極大程度降低了運(yùn)維人員的維護(hù)難度。

浪潮天梭M13系統(tǒng)不但能提前預(yù)測(cè)、預(yù)警,又能快速自動(dòng)化定位,找到問題,處理問題,為客戶關(guān)鍵應(yīng)用持續(xù)穩(wěn)定運(yùn)行保駕護(hù)航。

消息來源:浪潮集團(tuán)
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection