omniture

浪潮存儲(chǔ)基于智能運(yùn)維技術(shù),加速存儲(chǔ)自治

2021-11-12 09:01 4451

北京2021年11月11日 /美通社/ -- 隨著新基建逐步發(fā)展落地,現(xiàn)代數(shù)據(jù)中心迅速崛起,數(shù)據(jù)量呈指數(shù)級增長,同時(shí)各種新存儲(chǔ)介質(zhì)和技術(shù)的應(yīng)用,使得存儲(chǔ)系統(tǒng)變得越來越復(fù)雜。在運(yùn)維管理上,完全依賴人工已經(jīng)不能滿足需求,企業(yè)將更多依靠人工智能進(jìn)行自動(dòng)化運(yùn)維,Gartner認(rèn)為AIOps的廣泛應(yīng)用將讓IT基礎(chǔ)設(shè)施管理變得更主動(dòng)、更具預(yù)測性,減少管理和停機(jī)成本。

存儲(chǔ)智能管理就是通過AI技術(shù)實(shí)現(xiàn)存儲(chǔ)自治,即自我管理、自我修復(fù)、自我調(diào)優(yōu),提高存儲(chǔ)系統(tǒng)的性能、穩(wěn)定性和易用性,降低存儲(chǔ)使用的復(fù)雜性,簡化運(yùn)維,使存儲(chǔ)設(shè)備永遠(yuǎn)保持在最優(yōu)運(yùn)行狀態(tài),加速數(shù)據(jù)在線。

近幾年,浪潮一直在致力于該方向研發(fā)和探索新特性,目前推出了智能管理軟件InView,包含了4個(gè)預(yù)測和2個(gè)自動(dòng)化智能運(yùn)維功能特性。四個(gè)預(yù)測分別為包括提前兩周識(shí)別風(fēng)險(xiǎn)磁盤,降低數(shù)據(jù)丟失風(fēng)險(xiǎn);智能預(yù)測性能增長需求,預(yù)知性能瓶頸;智能預(yù)測容量增長需求,給用戶提供科學(xué)、準(zhǔn)確的擴(kuò)容建議;預(yù)測SSD使用壽命,精準(zhǔn)到天。兩個(gè)自動(dòng)化分別為性能瓶頸分析,通過端到端診斷分析,快速發(fā)現(xiàn)存儲(chǔ)性能瓶頸狀態(tài),并能定位根因;性能自動(dòng)調(diào)優(yōu),結(jié)合應(yīng)用場景和用戶IO模型,自動(dòng)挖掘最優(yōu)的客戶端配置和存儲(chǔ)端配置,并主動(dòng)推薦配置給需要的存儲(chǔ)系統(tǒng)和用戶。

為什么需要性能自動(dòng)調(diào)優(yōu)?

目前的存儲(chǔ)系統(tǒng)中具有大量的可調(diào)參數(shù),以浪潮分布式存儲(chǔ)系統(tǒng)AS13000為例,系統(tǒng)軟硬組件多,內(nèi)、外部參數(shù)多達(dá)兩千多個(gè),且90%的參數(shù)為數(shù)值型和布爾型,參數(shù)的可調(diào)范圍非常大,修改這些參數(shù)往往會(huì)對系統(tǒng)性能產(chǎn)生不同的影響。通常默認(rèn)的參數(shù)配置由供應(yīng)商提供,這些參數(shù)值的組合一般都不是最優(yōu)的參數(shù)集合。研究表明,即使調(diào)整一小部分的參數(shù)值,也可以將系統(tǒng)的能耗和性能效率提高數(shù)倍以上。

傳統(tǒng)的參數(shù)調(diào)整是由系統(tǒng)管理員依據(jù)自身的專業(yè)知識(shí)和經(jīng)驗(yàn)完成的,由于存儲(chǔ)系統(tǒng)的復(fù)雜性不斷提升,手動(dòng)調(diào)參將較難適應(yīng)大規(guī)模的存儲(chǔ)系統(tǒng),并且人工調(diào)參具有無法全天候的監(jiān)控以及高額的人力成本等問題。如何結(jié)合具體應(yīng)用場景,在存儲(chǔ)默認(rèn)配置和性能數(shù)據(jù)基礎(chǔ)上,自動(dòng)挖掘最優(yōu)的存儲(chǔ)配置,并主動(dòng)推薦配置給需要的存儲(chǔ)系統(tǒng),對存儲(chǔ)系統(tǒng)的性能優(yōu)化具有重要意義。

浪潮分布式存儲(chǔ)參數(shù)分布
浪潮分布式存儲(chǔ)參數(shù)分布

浪潮存儲(chǔ):基于InView性能自動(dòng)調(diào)優(yōu)技術(shù),將帶寬提升41%、時(shí)延降低29%

在自動(dòng)調(diào)優(yōu)中,強(qiáng)化學(xué)習(xí)是一個(gè)非常好的解決方案,強(qiáng)化學(xué)習(xí)(RL)是機(jī)器學(xué)習(xí)的一個(gè)分支,涉及代理(agent)如何在當(dāng)前環(huán)境下采取行動(dòng)(action)以最大程度地獲得回報(bào)(reward)。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)通過試錯(cuò)機(jī)制,與環(huán)境進(jìn)行互動(dòng)并獲得獎(jiǎng)勵(lì),從獎(jiǎng)勵(lì)中進(jìn)行學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)工作原理
強(qiáng)化學(xué)習(xí)工作原理

關(guān)鍵算法采用的是2016年谷歌DeepMind提出的DDPG算法,算法包含Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),其中Actor網(wǎng)絡(luò)可根據(jù)環(huán)境當(dāng)前運(yùn)行狀態(tài)輸出連續(xù)動(dòng)作,Critic網(wǎng)絡(luò)可對當(dāng)前環(huán)境運(yùn)行狀態(tài)和實(shí)施的動(dòng)作進(jìn)行評估打分,兩者相結(jié)合,適用于高維連續(xù)動(dòng)作場景。這是首次使用強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)和推薦存儲(chǔ)系統(tǒng)參數(shù)。

性能自動(dòng)調(diào)優(yōu)整體架構(gòu)
性能自動(dòng)調(diào)優(yōu)整體架構(gòu)

浪潮智能管理軟件InView強(qiáng)化學(xué)習(xí)進(jìn)行存儲(chǔ)系統(tǒng)參數(shù)調(diào)優(yōu)整體包含三個(gè)模塊,分別是用戶的應(yīng)用、分布式存儲(chǔ)系統(tǒng)AS13000以及調(diào)優(yōu)模塊。其中,參數(shù)推薦引擎可根據(jù)浪潮分布式存儲(chǔ)AS13000的當(dāng)前狀態(tài)生成最佳配置,負(fù)責(zé)將最佳配置動(dòng)態(tài)下發(fā)給AS13000,AS13000負(fù)責(zé)響應(yīng)客戶端的IO讀寫請求,性能指標(biāo)采集器負(fù)責(zé)采集AS13000在新配置下的狀態(tài)信息并計(jì)算在新配置下的性能提升效果,深度學(xué)習(xí)引擎根據(jù)AS13000的反饋迭代更新Actor和Critic網(wǎng)絡(luò)。該過程迭代直到模型收斂,最終將找到最合適的參數(shù)設(shè)置。

浪潮InView性能自動(dòng)調(diào)優(yōu)系統(tǒng)具備端到端參數(shù)自動(dòng)調(diào)整、提升網(wǎng)絡(luò)帶寬同時(shí)降低網(wǎng)絡(luò)時(shí)延、參數(shù)的調(diào)整不影響集群正常運(yùn)行三大特點(diǎn),具體實(shí)驗(yàn)效果如下:橙色框中的前360步,模型隨機(jī)探索學(xué)習(xí),紅色框?yàn)?60步之后,模型自動(dòng)推薦參數(shù),相比默認(rèn)配置(黑色框中的點(diǎn)),平均帶寬提升41%,時(shí)延降低29%,調(diào)優(yōu)效果與性能專項(xiàng)組專家經(jīng)驗(yàn)相當(dāng)。

自動(dòng)調(diào)優(yōu)與默認(rèn)配置效果對比
自動(dòng)調(diào)優(yōu)與默認(rèn)配置效果對比

隨著云、大數(shù)據(jù)、人工智能、區(qū)塊鏈、5G等新技術(shù)與實(shí)體經(jīng)濟(jì)將加速融合,中國存儲(chǔ)市場未來5年復(fù)合增長率將達(dá)到8%,其中全閃存儲(chǔ)和分布式存儲(chǔ)將持續(xù)高速增長。浪潮存儲(chǔ)基于“云存智用 運(yùn)籌新數(shù)據(jù)”的理念,將在包括分布式和集中式存儲(chǔ)的平臺(tái)及智能管理軟件領(lǐng)域持續(xù)加大投入與創(chuàng)新釋放數(shù)據(jù)價(jià)值加速企業(yè)數(shù)字化轉(zhuǎn)型。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection