omniture

浪潮天梭M13服務(wù)器 RAS設(shè)計(jì)之IMS內(nèi)存檢測(cè)隔離技術(shù)

2018-01-25 08:30 11073
浪潮天梭M13服務(wù)器是專為超大規(guī)模實(shí)時(shí)事務(wù)處理而設(shè)計(jì)的大型關(guān)鍵計(jì)算系統(tǒng),面向總部級(jí)別的銀行存儲(chǔ)款、電信行業(yè)計(jì)費(fèi)系統(tǒng)、跨國(guó)企業(yè)ERP等關(guān)鍵應(yīng)用場(chǎng)景。

北京2018年1月25日電 /美通社/ -- 浪潮天梭M13服務(wù)器是專為超大規(guī)模實(shí)時(shí)事務(wù)處理而設(shè)計(jì)的大型關(guān)鍵計(jì)算系統(tǒng),面向總部級(jí)別的銀行存儲(chǔ)款、電信行業(yè)計(jì)費(fèi)系統(tǒng)、跨國(guó)企業(yè)ERP等關(guān)鍵應(yīng)用場(chǎng)景。M13支持處理器核心數(shù)量超過1000個(gè),具有強(qiáng)大的在線事務(wù)處理能力,同時(shí)采用了復(fù)雜的高可用技術(shù)系統(tǒng),滿足業(yè)務(wù)7*24小時(shí)穩(wěn)定運(yùn)行需求。

天梭M13的內(nèi)存高可用挑戰(zhàn)

RAS特性(即服務(wù)器的可靠性Reliability、可用性Availability以及可服務(wù)性Serviceability)對(duì)于大型關(guān)鍵應(yīng)用主機(jī)來(lái)說(shuō)尤為關(guān)鍵,能夠讓主機(jī)容忍各類軟硬件故障,可以顯著延長(zhǎng)系統(tǒng)平均無(wú)故障時(shí)間,保證客戶業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行,是保障系統(tǒng)高可用性的技術(shù)基礎(chǔ)。

M13的可用性設(shè)計(jì)覆蓋了系統(tǒng)的每個(gè)部分,極為復(fù)雜,本文只介紹一項(xiàng)內(nèi)存可用性技術(shù) -- IMS內(nèi)存檢測(cè)隔離。

內(nèi)存錯(cuò)誤和故障是引發(fā)系統(tǒng)硬件故障的原因之一,一方面,從SDR到DDR,再到目前的DDR3,內(nèi)存的容量和性能不斷提升,內(nèi)存顆粒容量的增大、單元密度增加、生產(chǎn)工藝的復(fù)雜,客觀上增加了內(nèi)存缺陷檢查和測(cè)試的難度;另一方面,天梭M13較大支持1536個(gè)DIMM插槽,內(nèi)存容量高達(dá)48TB,使得內(nèi)存發(fā)生錯(cuò)誤和故障的概率顯著增加。

IMS -- Intelligent Memory Surveillance

目前,內(nèi)存錯(cuò)誤的診斷和處理技術(shù)相對(duì)成熟,主要有ECC、chipkill、SDDC等,這些技術(shù)能夠檢驗(yàn)內(nèi)存錯(cuò)誤,進(jìn)行相應(yīng)處理,但是有一定局限性,例如ECC可以檢驗(yàn)和糾正一個(gè)數(shù)據(jù)位錯(cuò)誤,但無(wú)法糾正2個(gè)錯(cuò)誤位同時(shí)發(fā)生,而且如果ECC錯(cuò)誤頻繁發(fā)生會(huì)導(dǎo)致Multi-bit被標(biāo)識(shí)為不可用,甚至觸發(fā)MRC內(nèi)存管理機(jī)制,將整個(gè)Rank/DIMM做disable處理。頻繁的內(nèi)存錯(cuò)誤并不表示內(nèi)存物理失效,也有可能是外部環(huán)境溫度過高、電壓波動(dòng)等因素導(dǎo)致,這樣的處理會(huì)減少內(nèi)存性能、浪費(fèi)內(nèi)存空間,從而降低系統(tǒng)性能。

IMS -- Intelligent Memory Surveillance,是一套完整的內(nèi)存錯(cuò)誤和故障校驗(yàn)、診斷和處理方法,具備內(nèi)存檢測(cè)、失效隔離和預(yù)警等完整的內(nèi)存管理功能,解決了內(nèi)存故障無(wú)法修復(fù)導(dǎo)致停機(jī)、故障難于定位、個(gè)別錯(cuò)誤導(dǎo)致大規(guī)模內(nèi)存浪費(fèi)等內(nèi)存錯(cuò)誤和故障處理難題。

IMS系統(tǒng)概述

浪潮天梭M13高端服務(wù)器的IMS系統(tǒng)配置了高效的內(nèi)存診斷工具,用戶可以自行對(duì)內(nèi)存問題進(jìn)行檢查。M13開機(jī)時(shí),在BIOS啟動(dòng)階段(進(jìn)入操作系統(tǒng)前),用戶可進(jìn)入Diagnostic模塊,在3種不同強(qiáng)度的測(cè)試模式 -- Quick、Standard和Extensive中進(jìn)行選擇,對(duì)內(nèi)存進(jìn)行測(cè)試和檢驗(yàn)。檢測(cè)完成后,對(duì)于關(guān)鍵區(qū)域或大塊面積的不可修復(fù)錯(cuò)誤,IMS會(huì)給出警示信息,提示用戶需要更換內(nèi)存,對(duì)于非關(guān)鍵區(qū)域、分散性的少量錯(cuò)誤,IMS會(huì)將錯(cuò)誤地址記錄并對(duì)故障單元進(jìn)行隔離,機(jī)器之后的運(yùn)行時(shí)不會(huì)再對(duì)這些錯(cuò)誤地址進(jìn)行訪問。

當(dāng)系統(tǒng)啟動(dòng)成功,進(jìn)入OS后,IMS會(huì)實(shí)時(shí)進(jìn)行內(nèi)存的監(jiān)測(cè)、保護(hù)和處理。首先IMS系統(tǒng)會(huì)實(shí)時(shí)統(tǒng)計(jì)內(nèi)存ECC錯(cuò)誤信息,并對(duì)錯(cuò)誤地址以IMS自帶的多個(gè)測(cè)試算法進(jìn)行強(qiáng)化測(cè)試,對(duì)錯(cuò)誤進(jìn)行有效性確認(rèn),同時(shí)預(yù)測(cè)相關(guān)可能出錯(cuò)的地址。最后,IMS系統(tǒng)對(duì)確認(rèn)錯(cuò)誤或預(yù)測(cè)產(chǎn)生的不可糾錯(cuò)的內(nèi)存,應(yīng)用 OS的隔離技術(shù),在此部分內(nèi)存區(qū)域空閑時(shí)予以隔離,離開應(yīng)用內(nèi)存空間。

IMS -- 內(nèi)存錯(cuò)誤減少95%以上

IMS系統(tǒng)能夠在天梭M13服務(wù)器運(yùn)行過程中,有效減少失效內(nèi)存進(jìn)入系統(tǒng)的機(jī)會(huì)。開機(jī)前的可選Diagnostic功能類似工廠專用內(nèi)存測(cè)試ATE,但又優(yōu)于ATE,可以讓用戶方便的進(jìn)行全面內(nèi)存檢查。隨著服役時(shí)間的延長(zhǎng),內(nèi)存的電氣性能會(huì)不斷衰減,從而產(chǎn)生內(nèi)存失效隱患,Diagnostic功能讓用戶有效避免這一隱患。

在系統(tǒng)運(yùn)行時(shí),IMS可以將故障內(nèi)存進(jìn)行隔離,也很好的防止內(nèi)存退化帶來(lái)的內(nèi)存錯(cuò)誤,提高系統(tǒng)可靠性。而且IMS對(duì)于內(nèi)存錯(cuò)誤的定位和處理更為精細(xì)和及時(shí),某些本應(yīng)作RMA處理的內(nèi)存,可以在現(xiàn)場(chǎng)進(jìn)行處理修復(fù),大幅減少內(nèi)存空間浪費(fèi)行為。

在使用IMS后,ECC log報(bào)錯(cuò)日志內(nèi)容隨時(shí)間推移成收斂狀態(tài),效果顯著,每小時(shí)ECC報(bào)錯(cuò)數(shù)從400次逐步減少到不足10次。浪潮統(tǒng)計(jì)數(shù)據(jù)表明,IMS可以有效減少內(nèi)存錯(cuò)誤的發(fā)生,提高內(nèi)存可用性。

從天梭K1到天梭M13,浪潮關(guān)鍵應(yīng)用主機(jī)在系統(tǒng)性能、可用性等方面都有了顯著的提高。浪潮在RAS高可用等關(guān)鍵核心技術(shù)上的持續(xù)突破,有效提升了其關(guān)鍵應(yīng)用主機(jī)系統(tǒng)的可靠性及產(chǎn)品品質(zhì),為金融、電信等關(guān)鍵行業(yè)的核心信息化應(yīng)用提供了強(qiáng)有力的基礎(chǔ)設(shè)施保障。

消息來(lái)源:浪潮集團(tuán)
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection