北京2024年9月5日 /美通社/ -- 近年來隨著云計算、大數(shù)據(jù)特別是大模型的快速發(fā)展,數(shù)據(jù)中心規(guī)模不斷擴張,產(chǎn)生了更多的服務(wù)器管理需求。傳統(tǒng)BMC雖然可以實現(xiàn)部分管理,但是在快速迭代的當今尤其是在AI技術(shù)的驅(qū)動下,存在開發(fā)周期長、交付困難、應(yīng)用單一等難題,并且由于其代碼閉源也會導致隱藏的安全漏洞無法及時識別,限制了用戶定制開發(fā)。OpenBMC憑借領(lǐng)先的開源理念、可擴展的軟件架構(gòu),被大型互聯(lián)網(wǎng)廠商廣泛應(yīng)用,并帶動了產(chǎn)業(yè)連上下游共同探索,逐步成為服務(wù)器固件發(fā)展的"事實標準"。
在日前召開的2024開放計算中國峰會上,來自阿里云、字節(jié)跳動、浪潮信息、英特爾以及電子標準院的專家,從自身探索和實踐的角度,現(xiàn)身說法各家在OpenBMC方面的最新進展及未來規(guī)劃。
OpenBMC大幅降低采購成本 阿里云新增修改10萬+行自研代碼庫
隨著云計算、大數(shù)據(jù)、AI等技術(shù)的發(fā)展,阿里云服務(wù)器規(guī)模已經(jīng)達到數(shù)百萬臺,如何有效管理是擺在阿里云面前的現(xiàn)實問題。
而傳統(tǒng)的BMC無法滿足新興運維需求,首先是龐大的服務(wù)器數(shù)量涵蓋了多個品牌不同廠家,各廠家都基于某個IBV建立基礎(chǔ)BMC能力再在上層定制開發(fā),因此日常問題的解決需要拉通多方BMC軟件規(guī)格和能力,帶來時間和資源的大量浪費,效率低下;其次,不同品牌的服務(wù)器BMC代碼也不盡相同,存在巨大的適配成本;第三是應(yīng)用成本問題,傳統(tǒng)BMC基礎(chǔ)軟件源代碼和授權(quán)l(xiāng)icense都需要購買,后續(xù)還需要軟件維護升級費用,成本較高。
OpenBMC迎合了當下軟件質(zhì)量發(fā)展和行業(yè)趨勢,2020年左右OpenBMC軟件逐步走向成熟,在北美一些CSP率先采用。阿里云服務(wù)器研發(fā)固件團隊負責人李羿介紹,阿里云自2020年逐步采用OpenBMC產(chǎn)品,經(jīng)過4年時間的探索與實踐,已經(jīng)形成行業(yè)一支領(lǐng)先的專業(yè)OpenBMC技術(shù)開發(fā)和交付團隊,不僅可以在完成交付任務(wù)的同時結(jié)合云業(yè)務(wù)自身特點,還不斷的回饋社區(qū)、貢獻伙伴,在多個層面實現(xiàn)了行業(yè)領(lǐng)先。
如今,阿里云已經(jīng)成功在x86、ARM等主流平臺中實現(xiàn)了OpenBMC的替代,未來也將探索基于RISC-V等多元芯片平臺的可能性。得益于OpenBMC的平臺化優(yōu)勢,不同架構(gòu)下的代碼絕大部分都是相同的,只是針對不同平臺略有微調(diào)。李羿表示,阿里云已經(jīng)在實現(xiàn)代碼的歸一化,目前已經(jīng)提交超過10萬行代碼,未來有望針對不同產(chǎn)品形態(tài)實現(xiàn)全面支持。
字節(jié)跳動打造OpenBMC應(yīng)用新范式 問題分析定位效率大幅提升
從抖音到新晉AI工具"豆包",隨著應(yīng)用覆蓋范圍的進一步擴大、用戶群體的持續(xù)增多,字節(jié)跳動需要維護的服務(wù)器數(shù)量已達百萬級別,并且仍有不斷增長的態(tài)勢。如何高效、穩(wěn)定且安全的管理服務(wù)器,成為運維團隊面臨的首要問題。
字節(jié)跳動固件架構(gòu)師郟春輝介紹,傳統(tǒng)BMC在解決固件運維難題上存在局限性,難以在服務(wù)器需求多樣化的情況下滿足快速交付的需求。開源OpenBMC能夠吸納先進理念和應(yīng)用,提供了架構(gòu)靈活、兼容性強的新選擇,非常適合當下互聯(lián)網(wǎng)與數(shù)字化的應(yīng)用需求。
為了更好地解決固件運維的問題,字節(jié)跳動在OpenBMC固件運維能力基礎(chǔ)上,不斷進行技術(shù)創(chuàng)新,致力于提升OpenBMC固件的可觀測性,對固件的運行狀態(tài)、性能表現(xiàn)及內(nèi)部各種活動進行全方位的監(jiān)控和解析。通過加強對固件運行時軟硬件狀態(tài)的深入觀察和理解,能夠更快速地捕捉問題發(fā)生時的細節(jié),從而實現(xiàn)高效精準的問題定位和處理。這種深入的可觀測性不僅有助于提升系統(tǒng)的穩(wěn)定性與可靠性,也為業(yè)務(wù)優(yōu)化提供了寶貴的數(shù)據(jù)支持。
事實證明,這種方法非常有效。在引入了Perfetto和Kernel trace以后,問題定位分析時間,由原有的數(shù)小時乃至數(shù)天,降低至平均1小時以下;問題一次定位分析準確率,由40%提升至80%以上,效率提升非常明顯。未來字節(jié)還計劃在問題分析定位層面更進一步,借助AI技術(shù)和大數(shù)據(jù)分析,細化不同場景下的問題定位,充分發(fā)揮自動化優(yōu)勢,讓故障無處遁形。
浪潮信息提供差異化方案滿足不同需求 下一代產(chǎn)品全面切換OpenBMC
當然,并非所有的企業(yè)都有阿里云、字節(jié)這樣的技術(shù)積淀,對于中國市場來說,絕大部分企業(yè)用戶并沒有自研的能力,更傾向于選擇表現(xiàn)穩(wěn)定、安全的商業(yè)版本。對于這些企業(yè)來說,浪潮信息就是不錯的合作伙伴。
去年,浪潮信息就發(fā)布了基于OpenBMC的InBry管理固件平臺,采用更先進、更高效、更開放的創(chuàng)新架構(gòu)和開發(fā)模式,快速適配各種算力場景,為用戶提供開放、穩(wěn)定、可靠的BMC管理固件,支撐多元算力時代的各類創(chuàng)新應(yīng)用。"如果說前兩年OpenBMC還只是一個趨勢,現(xiàn)在則已經(jīng)是大行其道了",浪潮信息服務(wù)器固件研發(fā)負責人王興隆表示。
除了功能更豐富、應(yīng)用更高效之外,開源版本的優(yōu)勢還在于開放性以及由此產(chǎn)生的安全性,后者也是當下企業(yè)關(guān)注的重點。對此,王興隆表示,首先,開源社區(qū)采用的是最先進的Linux版本,相比傳統(tǒng)BMC應(yīng)用來說在代碼上更完善,成熟性更高。其次,開源社區(qū)的代碼上傳需要多為行業(yè)專家的聯(lián)合評審,接受更多社區(qū)參與者隨時的監(jiān)督與審查,所以質(zhì)量更高。第三,基于開源和可擴展的軟件架構(gòu),用戶也可以將自身使用的安全模型、軟件庫移植到OpenBMC,這樣就能打造符合自身需求的業(yè)務(wù)安全模型,所以更安全。
如今,浪潮信息更提出了"分層解耦"的理念,在技術(shù)上通過硬件層、中間層、應(yīng)用層的劃分實現(xiàn)自動適配、自動識別,達到技術(shù)賦能的多元化。此外,浪潮信息也正在與英特爾、英偉達、AMD等業(yè)界領(lǐng)軍企業(yè)合作,實現(xiàn)多元化平臺的適配,為產(chǎn)業(yè)界提供更低成本、更高效的選擇。
"在技術(shù)上,我們要基于OpenBMC實現(xiàn)創(chuàng)新,讓更多企業(yè)享受開源應(yīng)用的技術(shù)紅利;產(chǎn)品上,我們將逐步在下一代平臺全面切換到OpenBMC,打造更好的商業(yè)化版本;社區(qū)層面,我們也要建設(shè)更好的生態(tài)環(huán)境,讓更多伙伴參與其中達成貢獻,打造多元化的服務(wù)",王興隆表示。
英特爾社區(qū)貢獻名列前茅 持續(xù)推動OpenBMC技術(shù)創(chuàng)新
作為平臺公司,英特爾也在推動OpenBMC發(fā)展中扮演了重要角色。每一代英特爾處理器平臺的升級對于BMC固件適配來說都是不小的變革,而這些變革都朝著更便捷、更優(yōu)化的方向來發(fā)展。從最初創(chuàng)立OpenBMC到今天,英特爾對于組織的貢獻一直排在前列,每一代產(chǎn)品都會經(jīng)歷一年甚至更長時間的測試,以保證在性能、可靠性、穩(wěn)定性等多方面的品質(zhì)。
針對不同的應(yīng)用場景,英特爾也會為客戶提供接口實現(xiàn)功能上的定制化需求,這樣可以通過代碼或者軟件的微調(diào)更適配于客戶業(yè)務(wù)。同時,英特爾也提供了PFR固件保護功能(Platform Firmware Resilience),為保護企業(yè)服務(wù)器固件提供了一種全新的方法,可全面防止對服務(wù)器所有固件的攻擊。
除了安全性的優(yōu)化之外,如何有效降低服務(wù)器能耗也是OpenBMC固件優(yōu)化的重點。從傳統(tǒng)BMC到OpenBMC,其實服務(wù)器節(jié)能會變得更精準、更低碳。對此,英特爾在節(jié)點管理中就提供了能耗管理,并可以根據(jù)不同部件進行精細化運維。
從OpenBMC的投入上可以看出,這不僅僅是硬件層面的創(chuàng)新,更多需要融合軟件、AI、生態(tài)等多個維度,而英特爾也需要扮演行業(yè)引領(lǐng)者的角色,為更多生態(tài)伙伴提供平臺化、系統(tǒng)化的支持。
AI為OpenBMC發(fā)展注入活力 正在成為服務(wù)器固件"事實標準"
AI技術(shù)的出現(xiàn)帶來了計算架構(gòu)的變化,而BMC就勢必需要針對這些多元異構(gòu)的應(yīng)用變化進行調(diào)整。與此同時,AI技術(shù)的出現(xiàn)也讓大量傳統(tǒng)的數(shù)據(jù)監(jiān)測、分析變得更加高效,配合數(shù)據(jù)模型的構(gòu)建,可以為未來的智能化管理提供技術(shù)支持,這也是AI對于OpenBMC帶來的全新改變。
"事實上,OpenBMC正在解決傳統(tǒng)BMC的瓶頸問題,包括兼容性問題、存在隱藏的代碼故障、定制化需求等,已逐步成為了服務(wù)器固件的'事實標準'。" 中國電子技術(shù)標準化研究院技術(shù)總監(jiān)、固件產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)盟標測組組長鐘偉軍表示。
如今,OpenBMC在國內(nèi)的應(yīng)用生產(chǎn)已經(jīng)初具雛形。在相關(guān)社區(qū)中,已經(jīng)形成了比較完備和穩(wěn)定的基礎(chǔ)代碼,包括阿里云、浪潮信息等30多家公司也在不斷提交代碼貢獻。
未來,希望能夠有更多的產(chǎn)業(yè)界的伙伴參與到社區(qū)建設(shè)當中,把自身的優(yōu)勢、經(jīng)驗貢獻到社區(qū),讓社區(qū)擁有更加完備的基礎(chǔ)代碼,讓產(chǎn)業(yè)界上下游共享社區(qū)成果,有助于產(chǎn)業(yè)鏈生態(tài)的繁榮,形成合作共贏的局面。