北京2017年5月2日電 /美通社/ -- 技術(shù)的發(fā)展迅猛而多變,近幾年,移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、區(qū)塊鏈等新一代計算技術(shù)高速發(fā)展,各領(lǐng)域的細分技術(shù)層出不窮。然而,新技術(shù)往往都是在云計算的基礎(chǔ)上,回看云計算的發(fā)展,同樣充斥著充滿著變化與創(chuàng)新,IaaS、PaaS、SaaS、CaaS,Openstack、Docker、OpenLava,云管理、彈性計算、高性能計算等等,企業(yè)級云計算正熱火朝天。
近日,天云軟件技術(shù)開放日在北京聯(lián)合創(chuàng)業(yè)辦公社舉行,來自天云軟件、阿里云、亞信三大企業(yè)級云系統(tǒng)的專家,以及關(guān)注云計算的開發(fā)者們齊聚一堂,從IaaS到CaaS,從Openstack到Openlava,從云管理到高性能計算,展開了一場圍繞云系統(tǒng)技術(shù)與實踐的探討。
世界的變化,由技術(shù)推動
天云軟件CEO張福波博士在開場白中表示,作為一個IT老兵,他見證了海龍大廈從車水馬龍到一片哀鴻,這代表著世界在發(fā)生著快速的變化,科技的發(fā)展同樣如此。從云計算到大數(shù)據(jù),從大數(shù)據(jù)到人工智能、機器學(xué)習(xí),新技術(shù)不斷涌現(xiàn)。在上世紀80年代便有了人工智能的概念,然而之所以未能形成規(guī)?;陌l(fā)展,其主要原因便是計算能力的受限。
而分布式計算的發(fā)展才讓人工智能有了現(xiàn)在的發(fā)展。因此可以說從技術(shù)的角度來看,分布式計算是IT發(fā)展的根本,有了分布式計算,云計算、大數(shù)據(jù)、人工智能等才有了發(fā)展和改進的空間。
然而無論是云計算、大數(shù)據(jù),還是人工智能、機器學(xué)習(xí),其重要的目的便是技術(shù)推動事物的發(fā)展,用新技術(shù)解決存在的問題,天云軟件便是秉持著這樣的理念成立的。天云軟件認為,底層技術(shù)發(fā)展很快,作為創(chuàng)業(yè)公司應(yīng)當接近客戶真實應(yīng)用,以解決客戶問題為基礎(chǔ),因此從2011年進入云計算領(lǐng)域開始,天云軟件不僅追求技術(shù)先進性,更追求技術(shù)的應(yīng)用與落地。
以人工智能為例,人工智能不是一個獨立的應(yīng)用,其更大的作用是催化劑或者改進的工具,所以人工智能一定要跟運維結(jié)合,比如自動駕駛便是基于人工智能的機器學(xué)習(xí)實現(xiàn)的。
人工智能的發(fā)展一是計算,二是算法,在上世紀八十年代受限于計算能力,發(fā)展很慢,當前隨著計算基礎(chǔ)的成熟,它迎來了快速的發(fā)展。在當前,人工智能有一個很重要的分支不是基于專家經(jīng)驗,而是基于現(xiàn)象,基于行為,這種人工智能的發(fā)展,使得人工智能技術(shù)解決問題的門檻大大降低,因為機器基于行為是可以自己學(xué)習(xí)的。未來幾年,人工智能一定會擁有很大的應(yīng)用場景,隨著人工智能的發(fā)展,對于高性能計算、應(yīng)用的要求也會再上更高的臺階。
企業(yè)級云管理平臺的架構(gòu)實現(xiàn)與落地實踐、趨勢分析
天云軟件產(chǎn)品總監(jiān)馬俊以“企業(yè)級云管理平臺的架構(gòu)實現(xiàn)與落地實踐、趨勢分析”為主題,從IaaS層解析了云管理平臺的架構(gòu)實現(xiàn)、落地實踐和未來發(fā)展趨勢分析。馬俊介紹,云管理分為三層,分別是云管理平臺層、云計算技術(shù)架構(gòu)層、虛擬化層。
虛擬化層提供虛擬化功能,對計算資源、網(wǎng)絡(luò)資源和存儲資源提供虛擬化支持和虛擬化管理功能;云計算技術(shù)架構(gòu)層通過虛擬化層提供的特性構(gòu)建云計算的技術(shù)架構(gòu),包括構(gòu)建計算資源技術(shù)架構(gòu)、構(gòu)建存儲資源技術(shù)架構(gòu)、構(gòu)建網(wǎng)絡(luò)資源技術(shù)架構(gòu);云管理平臺層提供業(yè)務(wù)支撐管理功能、提供異構(gòu)混合云管理功能,對虛擬化層、技術(shù)架構(gòu)層進行統(tǒng)一的管理;
當前隨著云計算技術(shù)架構(gòu)層從vCenter向Openstack、Cloudstack轉(zhuǎn)變,云管理平臺即CMP,也正在發(fā)生著巨大轉(zhuǎn)變。
天云軟件的SkyForm CMP是一個開放、中立的企業(yè)級云管理平臺,向下對接企業(yè)傳統(tǒng) IT 資源和云資源池,向上為系統(tǒng)管理員提供all-in-one的IT資源管理能力,實現(xiàn)面向最終用戶的云服務(wù)交付。
SkyForm CMP的核心是CMDB,強調(diào)異構(gòu)管理。而此CMDB的核心是調(diào)度,也是企業(yè)客戶怎么把資源管理好的核心。之所以如此,主要取決于當前企業(yè)客戶的需求,企業(yè)要求云管理平臺對多個數(shù)據(jù)中心的資源進行統(tǒng)一管理:統(tǒng)一資源池管理,統(tǒng)一監(jiān)控視圖,統(tǒng)一資源配置管理,統(tǒng)一資源模板管理,統(tǒng)一資源申請、審批、開通管理,統(tǒng)一資源實例管理。
SkyForm CMP是一個完全開放的平臺,提供對外的用戶管理API和資源管理API,以及監(jiān)控告警數(shù)據(jù),客戶可以根據(jù)API和數(shù)據(jù)可以重新開發(fā)界面UI,從而很方便的與OA集成、網(wǎng)管集成以及和PaaS平臺集成。
下一步,SkyForm CMP將向四個方向發(fā)展,第一是進行服務(wù)解耦,即微服務(wù)化改造,將大服務(wù)拆分出多個原子服務(wù),各個服務(wù)的關(guān)系是平級、獨立部署,支持分布式,已達到更為編輯的集成、開發(fā)測試和上線。第二是基于機器學(xué)習(xí)的業(yè)務(wù)系統(tǒng)擴容建議,基于CMP的系統(tǒng)數(shù)據(jù),進行分析,實現(xiàn)更好的客戶投資收益。第三是基于機器學(xué)習(xí)的資源池優(yōu)化建議,以便將客戶的虛擬化資源池、Openstack使用率調(diào)到較大。四是雙模IT管理,將IaaS、PaaS一起管理,形成一個大的IT管理平臺。
目前,SkyForm CMP已大規(guī)模成功應(yīng)用于運營商公有云,服務(wù)于運營商政企客戶;運營商私有云,針對運營商B域、O域、M域的IT資源進行云化改造。同時,SkyFrom CMP已成功應(yīng)用于電子政務(wù)云、教育云、航空制造云、金融云、園區(qū)云、動漫渲染云等。中國移動、中國聯(lián)通等均是SkyForm CMP的客戶,其中較大的是聯(lián)通沃云,去年年底已經(jīng)達到25萬CPU的規(guī)模。
基于Kubernetes打造輕量級PaaS平臺
天云軟件CTO牛繼賓從PaaS層面,分享了如何基于K8S打造輕量級PaaS平臺。當前,行業(yè)內(nèi)對PaaS的理解有多種版本,然而無論是哪種方向,PaaS通用的定位是提供一種環(huán)境,從而支撐開發(fā)者快速進行開發(fā)和應(yīng)用,同時支撐應(yīng)用進行彈性計算或者靈活調(diào)整。因此。他將構(gòu)建輕量級PaaS平臺叫做ECP,即彈性計算平臺。
ECP的有四大建設(shè)目標:一是系統(tǒng)高可用,用了PaaS平臺后,不需要再去關(guān)心底層IaaS資源,只需要關(guān)心平臺能否從技術(shù)架構(gòu)、平臺服務(wù)和物理資源三個層面提高系統(tǒng)的穩(wěn)定性、可靠性;二是資源共享和動態(tài)調(diào)度,打破資源靜態(tài)分配瓶頸,支持服務(wù)的彈性伸縮,提高資源利用效率,比如淘寶雙十一,更多是打造消息中間件和應(yīng)用軟件可彈性的中間件環(huán)境,從而支撐應(yīng)用做彈性拓展;三是DevOps,研發(fā)測試到運維一體化,改變開發(fā)、測試、運維割裂的現(xiàn)狀,簡化應(yīng)用開發(fā)、部署和運維的難度;四是自動化運維:將事件與流程相關(guān)聯(lián),發(fā)生問題時自動出發(fā)處理流程,提高運維效率。
基于ECP的建設(shè)目標,為什么要基于Kubernetes去構(gòu)建輕量級平臺?實際上,是因為 Kubernetes提供了一套應(yīng)用發(fā)布運行的彈性框架。一個應(yīng)用,其實就是一個負載均衡加上后端的幾個計算單點,Kubernetes主要提供一套機制,保證應(yīng)用能夠快速的發(fā)布和服務(wù)的快速發(fā)現(xiàn)。Kubernetes的體系比較完整,體系架構(gòu)比較統(tǒng)一,開發(fā)語言也比較統(tǒng)一、完整,目前國內(nèi)基于容器打造輕量級PaaS的服務(wù)商,基本也都已經(jīng)切換到Kubernetes,這也證明了其高可用性。
既然可以基于Kubernetes發(fā)現(xiàn)應(yīng)用、發(fā)現(xiàn)服務(wù),為什么天云軟件還要基于Kubemetes再去打造一個新平臺?牛繼賓指出,這首先是因為Kubernetes本身的UI不是很友好,不符合國內(nèi)應(yīng)用習(xí)慣。其次是使用Kubernetes的時候,通過service找到后面掛了幾個pod,但如果從pod反向找service時,就找不到了。其三是因為PAAS是一個云的概念,要求多租戶,目前Kubernetes對租戶的支持不是很好。其四是基礎(chǔ)設(shè)施的管理、日志與監(jiān)控等,也不是那么友好。
基于Kubernetes鏡像倉庫、存儲集群、Elastic Search、Kubernetes Cluster核心組件,加上Etcd Cluster,構(gòu)建基礎(chǔ)服務(wù),在外圍構(gòu)建主機管理、網(wǎng)絡(luò)管理、存儲管理、應(yīng)用管理、服務(wù)管理、健康管理、日志管理、用戶管理、UI、鏡像管理、CI/CD等服務(wù),并進行鏡像封裝,再用Pod的形式集起來,只需從UI抽取相關(guān)API,就可以形成一套PaaS平臺,用戶可以基于PaaS平臺構(gòu)建Docker的能力。
構(gòu)建企業(yè)及互聯(lián)網(wǎng)架構(gòu),大平臺+輕架構(gòu)+小應(yīng)用
在應(yīng)用層,亞信軟件高級架構(gòu)師李春林以“構(gòu)建企業(yè)及互聯(lián)網(wǎng)架構(gòu),大平臺+輕架構(gòu)+小應(yīng)用的較佳實踐,能力集成與開放平臺的實現(xiàn)思路”為主題,分享了亞信AIF在應(yīng)用方面的理念和實踐。
亞信AIF是一個微服務(wù)架構(gòu)的平臺。我們都知道,架構(gòu)的作用是為了更好地適應(yīng)需求的變化,當前應(yīng)用架構(gòu)經(jīng)歷了MVC架構(gòu)、RPC架構(gòu)、SOA架構(gòu)到微服務(wù)架構(gòu)的演變。MVC架構(gòu)是為了解決前后端、界面、控制邏輯和業(yè)務(wù)邏輯分層問題。隨著業(yè)務(wù)擴大、模塊化成為趨勢,RPC架構(gòu)解決模塊間跨進程通信,幫助業(yè)務(wù)屏蔽通信細節(jié),但其缺點是不負責服務(wù)治理,包括服務(wù)的自動發(fā)現(xiàn)、發(fā)布、運維等。而SOA架構(gòu)則注重標準化服務(wù)的提供,企業(yè)資產(chǎn)復(fù)用、異構(gòu)系統(tǒng)集成,具備服務(wù)治理。SOA架構(gòu)對于傳統(tǒng)企業(yè),主要解決異構(gòu)系統(tǒng)互通和粗粒度的標準化(WebService);在互聯(lián)網(wǎng)領(lǐng)域,提供一套高效支撐應(yīng)用快速開發(fā)迭代的服務(wù)化架構(gòu)。
那么亞信AIF所采用的微服務(wù)架構(gòu)則是注重服務(wù)的構(gòu)建方式,將服務(wù)拆開,拆成微、小的應(yīng)用,應(yīng)用之間獨立部署、生命周期管理,實現(xiàn)了松耦合、模塊職責單一,以及輕量級通訊,對內(nèi)高性能RPC、對外HTTP Restful風(fēng)格,從而更好地實現(xiàn)運維體系支撐,服務(wù)治理、監(jiān)控中心、日志中心、配置中心等。
微服務(wù)架構(gòu)實質(zhì)上打破了系統(tǒng)建設(shè)中的“無形的煙囪”。過去集群模式下,服務(wù)規(guī)模較大,需要使用多個服務(wù)器的資源,并且是靜態(tài)資源分配。而AIF則是多個服務(wù)細粒度地共享一組服務(wù)器提供的資源,并且應(yīng)用框架一致,通過技術(shù)平臺對應(yīng)用進行管控,促進應(yīng)用軟件的標準化。
亞信AIF秉承“大平臺 小架構(gòu) 輕應(yīng)用”的原則,實現(xiàn)組件解耦和開放,具體來講,AIF有以下八大特性:
應(yīng)用標準化:統(tǒng)一技術(shù)架構(gòu),促進應(yīng)用標準化;
服務(wù)透明化:服務(wù)接入的規(guī)范化,實現(xiàn)服務(wù)的可見,可管,可控,支持對服務(wù)的持續(xù)治理;
應(yīng)用與技術(shù)解耦:通過對開源軟件的封裝,降低開發(fā)門檻和TCO的同時,實現(xiàn)應(yīng)用與技術(shù)組件的解耦;
應(yīng)用與數(shù)據(jù)分離:屏蔽底層數(shù)據(jù)存儲對應(yīng)用邏輯的影響,實現(xiàn)底層數(shù)據(jù)的訪問對應(yīng)用透明化,使用者無需關(guān)心如何跨越多個分區(qū)查詢數(shù)據(jù)、如何平衡各個分區(qū)負載、如何訪問異構(gòu)數(shù)據(jù)庫等問題;
運維有形化:多維度實時監(jiān)控到系統(tǒng)調(diào)用鏈路的每個環(huán)節(jié),包含性能、健康度等,進而對系統(tǒng)進行實時干預(yù);
運維智能化:熔斷機制,及時自動隔離集群中隱患節(jié)點;
億級消息處理:消息處理框架實現(xiàn)高效異步服務(wù)協(xié)同,支持億級消息處理;
應(yīng)用云化:協(xié)同DCOS平臺實現(xiàn)服務(wù)自動彈性伸縮。
亞信AIF未來的發(fā)展方向?qū)⑹菢?gòu)建基礎(chǔ)平臺,從Ability Integration Framework到 Asiainfo Infrastructure Foundations,開放、聯(lián)合,上下游共同努力構(gòu)建可靠、穩(wěn)定、易維護的一站式云化技術(shù)大平臺。
深度學(xué)習(xí)簡介及支撐深度學(xué)習(xí)的解決方案
一如張福波博士所言,天云軟件是一家注重應(yīng)用、注重技術(shù)落地的云計算服務(wù)商,天云軟件CTO牛繼賓在分享PaaS之后再一次從應(yīng)用層,展開深度學(xué)習(xí)簡介及支撐深度學(xué)習(xí)的解決方案的分享。
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
深度學(xué)習(xí)采用的模型為深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)模型,即包含多個隱藏層(Hidden Layer,也稱隱含層)的神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN)。深度學(xué)習(xí)利用模型中的隱藏層,通過特征組合的方式,逐層將原始輸入轉(zhuǎn)化為淺層特征,中層特征,高層特征直至最終的任務(wù)目標。
復(fù)雜的人工智能算法訓(xùn)練與計算經(jīng)常涉及上億的參數(shù),這些參數(shù)的計算需要大量的計算能力,目前在深度學(xué)習(xí)領(lǐng)域,GPU計算已經(jīng)成為主流,使用GPU運算的優(yōu)勢是當前主流的GPU具有強大的計算能力和內(nèi)存帶寬,無論性能還是內(nèi)存帶寬,均遠大于同代的CPU。 同時,GPU的thousands of cores的并行計算能力也是一大優(yōu)勢。
GPU的并行計算原理包含單CPU并行計算,多GPU并行計算之數(shù)據(jù)并行,多GPU并行計算之模型并行,以及GPU集群并行模式。
單CPU并行計算是指針對每次訓(xùn)練數(shù)據(jù),模型內(nèi)計算通過多次GPU內(nèi)核的調(diào)用完成計算。權(quán)重W值一直存在GPU內(nèi)存中,直到所有訓(xùn)練數(shù)據(jù)計算完畢 之后回傳到系統(tǒng)內(nèi)存中。
多GPU并行計算之數(shù)據(jù)并行是指對訓(xùn)練數(shù)據(jù)做切分,同時采用多個模型實例,對多個分片的數(shù)據(jù)并行訓(xùn)練。其缺點是當模型較大時,GPU內(nèi)存無法滿足存儲要求,無法完成計算。
多GPU并行計算之模型并行將模型拆分成幾個分片,由幾個訓(xùn)練單元分別持有,共同協(xié)作完成訓(xùn)練。當一個神經(jīng)元的輸入來自另一個訓(xùn)練單元上的神經(jīng)元的輸出時,產(chǎn)生通信開銷。其缺點是需要更頻繁的通信,增加通信壓力,且實現(xiàn)難度較大。
GPU集群并行模式即為多GPU并行中各種并行模式的擴展。節(jié)點間采用InfiniBand通信,節(jié)點間的GPU通過RMDA通信,節(jié)點內(nèi)多GPU之間采用基于InfiniBand的通信。
整個深度學(xué)習(xí)集群(包括軟硬件),可能是公司內(nèi)部的共享資產(chǎn),每個項目組都需要使用,那么,采取上述方式部署便會帶來三大問題:
一,要求項目組必須使用統(tǒng)一的深度學(xué)習(xí)框架,統(tǒng)一的深度學(xué)習(xí)框架的版本,否則不同項目組完成的訓(xùn)練代碼有可能不工作,如果每次為了適應(yīng)某個項目組的要求去重新部署框架,工作量巨大,而且耗時耗力;
二,其中一個項目組在使用集群時,其他項目組往往需要等待,即使集群的資源使用率較低;
三,服務(wù)器集群中任何一臺硬件出現(xiàn)問題,都會影響整個集群的使用。
因此,分布式機器學(xué)習(xí)集群共享調(diào)度成為解決之道。分布式機器學(xué)習(xí)集群共享調(diào)度的實現(xiàn)方式之一是基于Kubernetes容器的調(diào)度,Kubernetes能夠提供應(yīng)用部署、維護、擴展機制等功能,利用Kubernetes能方便地管理跨機器運行容器化的應(yīng)用,其主要功能如下:
1) 使用Docker對應(yīng)用程序包裝(package)、實例化(instantiate)、運行(run)。
2) 以集群的方式運行、管理跨機器的容器。
3) 解決Docker跨機器容器之間的通訊問題。
4) Kubernetes的自我修復(fù)機制使得容器集群總是運行在用戶期望的狀態(tài)。
二是通過MPI作業(yè)調(diào)度。MPI是高性能計算(HPC)應(yīng)用中廣泛使用的編程接口,用于并行化大規(guī)模問題的執(zhí)行,在大多數(shù)情況下,需要通過集群作業(yè)調(diào)度管理軟件來啟動和監(jiān)視在集群主機上執(zhí)行的MPI任務(wù)。此方法的主要目標是使集群作業(yè)調(diào)度管理軟件能夠跟蹤和控制組成MPI作業(yè)的進程。一些集群作業(yè)調(diào)度管理軟件,如天云軟件SkyForm OpenLava等,可以跟蹤MPI任務(wù)的CPU、內(nèi)存、GPU的使用。我們把每個深度學(xué)習(xí)的計算作為MPI作業(yè),通過天云軟件OpenLava作業(yè)調(diào)度管理軟件進行集群統(tǒng)一的資源管理與分配,無論性能還是內(nèi)存帶寬,均遠大于同代的CPU。 同時,GPU的thousands of cores的并行計算能力也是一大優(yōu)勢。
這兩種調(diào)度方式的好處是,能夠分享集群的資源,實現(xiàn)多租戶、多用戶、不同任務(wù)框架的并行計算,如果集群出現(xiàn)了問題還可以摒棄作業(yè)出現(xiàn)的任務(wù)。
其實整個人工智能產(chǎn)業(yè)鏈包含技術(shù)支撐層、基礎(chǔ)應(yīng)用層、和方案集成層,我國人工智能產(chǎn)業(yè)發(fā)展更多集中在技術(shù)支撐層,提供集群計算、深度學(xué)習(xí)框架、CPU、GPU、NPU、路徑規(guī)劃等能力,天云軟件則是聚焦在集群計算方面,并取得了一定突破。
而如果從人工智能發(fā)展的基礎(chǔ)來看,算法、數(shù)據(jù)、計算平臺是人工智能爆發(fā)的三大基礎(chǔ),只有三者都達到臨界值,人工智能才能真正發(fā)展起來。在人工智能方面,天云軟件聚焦點是集群和高性能計算平臺,支撐深度學(xué)習(xí)的深入應(yīng)用。
“天云軟件技術(shù)開放日”是天云軟件對外展示技術(shù)實力、分享技術(shù)實踐、交流技術(shù)熱點的活動,是天云軟件與用戶、產(chǎn)業(yè)鏈伙伴、業(yè)界同仁充分溝通、增進了解、彼此學(xué)習(xí)、促進合作的平臺。
張福波表示,天云軟件是一家技術(shù)公司,希望通過分享的方式,讓更多的技術(shù)人員以彼此的臂膀為依托互相學(xué)習(xí)進步,從而也推動整個行業(yè)的發(fā)展。