omniture

脈山龍專家為鐵道部數(shù)據(jù)中心運維支招

2012-12-28 16:00 5642
從事數(shù)據(jù)中心運維服務近10年的專家、脈山龍公司服務業(yè)務部總經(jīng)理謝飛針對鐵道部售票網(wǎng)“三天兩宕”提出了專業(yè)的見解和建議,從數(shù)據(jù)中心運維角度為12306支招。

鐵道部售票網(wǎng)12306“三天兩宕” 脈山龍數(shù)據(jù)中心運維專家支招

深圳2012年12月28日電 /美通社/ -- 繼12月24日“因機房空調(diào)系統(tǒng)故障”停止售票數(shù)小時之后,12月26日上午鐵道部12306訂票網(wǎng)站再度癱瘓,直到傍晚6點鐘左右才恢復正常,公告原因仍是“空調(diào)系統(tǒng)故障”。從事數(shù)據(jù)中心運維服務近10年的專家、脈山龍公司服務業(yè)務部總經(jīng)理謝飛對此提出了專業(yè)的見解和建議,從數(shù)據(jù)中心運維角度為12306支招。

鐵道部售票網(wǎng)(www.12306.cn)“三天兩宕”,引發(fā)業(yè)界、媒體及網(wǎng)友質(zhì)疑的同時,即將到來的春運購票高峰期更讓不少旅客憂心忡忡??照{(diào)故障是導致售票網(wǎng)站癱瘓的罪魁禍首嗎?為什么機房空調(diào)故障會導致網(wǎng)站售票系統(tǒng)無法正常運行呢?在現(xiàn)有技術(shù)架構(gòu)下,如何能有效降低設備故障率,保障售票網(wǎng)站正常運行呢?從事數(shù)據(jù)中心運維服務近10年的專家脈山龍公司服務業(yè)務部總經(jīng)理謝飛提出了專業(yè)的見解和建議,從數(shù)據(jù)中心運維角度為12306支招。

12306癱瘓原因解析:空調(diào)故障是造成系統(tǒng)癱瘓的重要因素

回顧12306歷次停擺事件,網(wǎng)站技術(shù)架構(gòu)及中標的相關(guān)服務方都成為被外界質(zhì)疑的熱點話題。數(shù)據(jù)中心運維整體服務商脈山龍公司服務業(yè)務部總經(jīng)理謝飛認為,12306本質(zhì)上與蘇寧易購、京東商城、淘寶網(wǎng)等電商網(wǎng)站一樣,對同時并發(fā)訪問和下單的響應要求極高,但鐵路售票系統(tǒng)需要處理大量車次、坐席、時間等查詢?nèi)蝿眨瑢Ψ掌髡埱筇幚淼哪芰σ蠓浅V摺T诂F(xiàn)有技術(shù)架構(gòu)下,鐵道部為提高響應速度和購票體驗,不斷增加服務器等硬件設備和功耗無疑給既定的空調(diào)系統(tǒng)和動力系統(tǒng)帶來沉重的負擔,壓縮了動力系統(tǒng)和制冷系統(tǒng)冗余空間,可能一臺空調(diào)設備發(fā)生故障就會導致整個機房的溫度上升,最終導致服務器過熱而宕機。

謝飛表示,空調(diào)系統(tǒng)非常重要,數(shù)據(jù)中心內(nèi)的服務器、存儲、網(wǎng)絡設備等硬件運行時產(chǎn)生大量的熱量,對于制冷的要求非常之高。國標對于機房的溫度要求一般在23±2度,一般的服務器如果進風口溫度在40攝氏度以上,服務器就會因為熱保護自動關(guān)機。如果機房溫度超過30攝氏度就有可能導致部分熱積聚區(qū)域的服務器宕機,機房溫度在35攝氏度以上就可能有較多的服務器宕機,超過40攝氏度,將會有大部分的服務器宕機。一旦空調(diào)故障停機,機房內(nèi)的溫度會迅速升溫,半個小時內(nèi)機房溫度就可達到50攝氏度以上,這時大部分服務器等設備都會因為過熱而宕機,造成系統(tǒng)癱瘓??照{(diào)故障是造成系統(tǒng)癱瘓的一個很重要的因素。

專家支招:災備是前提,運維管理是根本

數(shù)據(jù)中心常見故障如斷電、空調(diào)故障、UPS 故障、網(wǎng)絡接口線路松動等,空調(diào)故障可能只是造成12306宕機的一個原因,但一般數(shù)據(jù)中心都有備用空調(diào)、UPS 等設備,并輪流使用和定期保養(yǎng),一旦遇到設備故障,可實現(xiàn)平滑無縫切換備用設備,不會影響系統(tǒng)正常運行。謝飛認為,12306這種支撐超大訪問量的數(shù)據(jù)中心應該也配有備用空調(diào),“空調(diào)故障導致系統(tǒng)停止運行,極大可能是運維技術(shù)團隊對空調(diào)系統(tǒng)和數(shù)據(jù)中心的日常運維的缺位?!?/p>

同時,為保障業(yè)務的連續(xù)性,目前大部分企業(yè)的數(shù)據(jù)中心都設有災備中心,通常采用雙機熱備、定時備份以及異地存儲和備份的方式,尤其是金融行業(yè)已經(jīng)開始引入虛擬化和云計算的新技術(shù),形成“兩地三中心”的備份模式,能確保數(shù)據(jù)的安全。謝飛建議,如果12306業(yè)務均集中在一個數(shù)據(jù)中心處理,安全系數(shù)非常低,一定要考慮建設備份中心,進行數(shù)據(jù)的實時傳輸和容災備份,這是數(shù)據(jù)中心安全運行的前提。一旦主數(shù)據(jù)中心癱瘓,系統(tǒng)就可以實時切換到備份中心繼續(xù)運行。

他還建議,數(shù)據(jù)中心運維團隊應對監(jiān)控報警系統(tǒng)進行測試和檢查,一旦機房空調(diào)系統(tǒng)故障導致機房內(nèi)溫、濕度升高或設備出現(xiàn)溫度告警等異常現(xiàn)象時,還應執(zhí)行機房空調(diào)故障應急處理預案,將影響降到較低。

有著豐富經(jīng)驗的謝飛,作為脈山龍公司服務業(yè)務部負責人,目前掌管著包括金融、商業(yè)連鎖、通信電子、政府等行業(yè)上千家企業(yè)機構(gòu)的數(shù)據(jù)中心運維服務業(yè)務。以他多年的運維經(jīng)驗來看,備份和運維缺一不可,可以保障業(yè)務連續(xù)不中斷,但是,“即使采取各個層次的容災備份方式,建立了災備中心,運維服務管理仍然是問題的根本所在,良好的運維服務管理能使數(shù)據(jù)中心保持健康狀態(tài),也只有服務管理才能防患未然、真正降低故障率?!敝x飛提到本月中旬網(wǎng)傳中行信用卡 IBM 大機宕機超過4小時的事件,他指出盡管大型機一般都很穩(wěn)定,但發(fā)生宕機或故障后,未能及時切換災備、快速恢復運行,還是跟系統(tǒng)監(jiān)控檢查、監(jiān)控預警、日常的運營演習、災備演習等日常運維存在很大關(guān)系。

建立在一系列標準運維流程基礎(chǔ)上的數(shù)據(jù)中心運維服務管理,可以跟蹤記錄設備的動態(tài)歷史運維數(shù)據(jù),通過分析這些數(shù)據(jù)提供數(shù)據(jù)中心的健康狀態(tài),為用戶的 IT 決策提供依據(jù)?!爸匾暺鸱盏墓芾恚?2306可以實現(xiàn)數(shù)據(jù)中心各個子系統(tǒng)健康狀況的可視化,在設備還沒有出現(xiàn)故障之前,就已經(jīng)及時進行了維修或更換,機房的可用性就能得到極大提升”,謝飛總結(jié)道,“T4的機房規(guī)劃還需要T4的運營管理?!?/p>

消息來源:深圳脈山龍
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection