omniture

深度分析 | 數(shù)據(jù)治理安全理論落地與實(shí)踐(中):AI 引擎自我迭代

2022-08-16 14:00

1.研究背景 

隨著近年我國半導(dǎo)體產(chǎn)業(yè)快速發(fā)展,人工智能技術(shù)不斷積累迭代,軟硬一體的智能芯片等核心技術(shù)研究取得重要突破,AI也在數(shù)字時(shí)代扮演著越來越重要的角色,正加速融入電信運(yùn)營商、能源交通、醫(yī)療、教育、制造業(yè)、物流、直播等多個(gè)領(lǐng)域,加之“東數(shù)西算”新基建相關(guān)云計(jì)算數(shù)據(jù)中心大規(guī)模投入使用,帶來 AI 算力的大幅提升,算力充沛,不斷賦能創(chuàng)造出新業(yè)態(tài)、新模式行業(yè)場(chǎng)景,實(shí)現(xiàn)大數(shù)據(jù)集成的迭代創(chuàng)新,多場(chǎng)景智能應(yīng)用,提高生產(chǎn)過程自動(dòng)數(shù)字化程度,同時(shí)推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展全要素智能化革新,釋放數(shù)據(jù)要素紅利,創(chuàng)新美好未來。

 

社會(huì)生產(chǎn)能夠源源不斷地產(chǎn)生海量大數(shù)據(jù),但數(shù)據(jù)作為新型的生產(chǎn)要素,是通過不斷采集、清洗、轉(zhuǎn)換、分類、打標(biāo)等流程完成整個(gè)數(shù)據(jù)資產(chǎn)積累過程,在這個(gè)過程中機(jī)器學(xué)習(xí)算法,尤其是深度學(xué)習(xí)算法,通過獲得海量的數(shù)據(jù),能夠不間斷進(jìn)行密集型矩陣計(jì)算訓(xùn)練,訓(xùn)練可以幫助算法優(yōu)化,實(shí)現(xiàn)AI引擎更新和升級(jí),完成AI深度學(xué)習(xí)模型的進(jìn)化,豐富行業(yè)知識(shí)圖譜,提升數(shù)據(jù)質(zhì)量,為AI提供優(yōu)質(zhì)可靠的“數(shù)據(jù)燃料”,從而進(jìn)入到 AI 引擎自我迭代的全新階段。

\" src=圖1. AI 引擎分層架構(gòu)圖

 

2.AI引擎進(jìn)入自我迭代階段 

當(dāng)前,我國新基建建設(shè)強(qiáng)調(diào)產(chǎn)業(yè)融合,除了發(fā)揮數(shù)據(jù)的生產(chǎn)要素效能,比如:能源上下游產(chǎn)業(yè)打通并帶動(dòng)車聯(lián)網(wǎng)、物聯(lián)網(wǎng)平臺(tái)迅速發(fā)展,節(jié)點(diǎn)傳感器廣泛連接也帶來數(shù)據(jù)量的暴增,不斷突破,促使數(shù)據(jù)存儲(chǔ)處理相關(guān)的基礎(chǔ)設(shè)施加速“擴(kuò)容”,不僅實(shí)現(xiàn)數(shù)據(jù)在內(nèi)部流動(dòng),甚至跨行業(yè)流動(dòng),還要推動(dòng)數(shù)據(jù)要素跨越行業(yè)邊界,組成全新的生態(tài)網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),數(shù)據(jù)要素是企業(yè)組織數(shù)字化轉(zhuǎn)型的成果。

 

那么,隨之而來的是企業(yè)組織數(shù)字化轉(zhuǎn)型,是要在解決數(shù)據(jù)要素生產(chǎn)的迫切需求的同時(shí)兼顧數(shù)據(jù)資產(chǎn)到數(shù)據(jù)要素的轉(zhuǎn)化成本,能夠讓企業(yè)組織更快更好實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化的數(shù)據(jù)治理安全理論越來越倍受關(guān)注和重視,有助于提升數(shù)據(jù)價(jià)值。

 

根據(jù)IDC研究表明,到2025年,全球數(shù)據(jù)量將會(huì)從2016年的16 ZB上升至163ZB。著名研究機(jī)構(gòu)Garter也表示,全球信息量正以59%以上的年增長率快速增長,在這些數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),日志文件、機(jī)器數(shù)據(jù)等又占據(jù)非結(jié)構(gòu)化數(shù)據(jù)的90%。對(duì)于企業(yè)組織而言,不僅面對(duì)已有的龐大冗余舊數(shù)據(jù),未來還會(huì)有大幅激增的新類型數(shù)據(jù),企業(yè)組織要管理和運(yùn)用好海量的數(shù)據(jù)并對(duì)這些數(shù)據(jù)進(jìn)行有效地挖掘,需要借助數(shù)據(jù)治理安全平臺(tái)落地實(shí)踐。因?yàn)榫邆銩I引擎自我迭代能力的平臺(tái)對(duì)數(shù)據(jù)識(shí)別分類的準(zhǔn)確率能夠達(dá)到90%以上,所以數(shù)據(jù)治理安全建設(shè)離不開AI 引擎助力,不斷自我迭代的AI引擎才能消化掉海量數(shù)據(jù)。

\" src=

圖2. AI 引擎的自我迭代

 

3.AI引擎的自我迭代之路 

AI引擎自我迭代的過程是利用機(jī)器學(xué)習(xí)模型,模仿人腦的機(jī)制來解釋數(shù)據(jù),例如:圖像、聲音和文本,訓(xùn)練好的AI模型,能夠自動(dòng)提取字符集、詞級(jí)、句子級(jí)的特征,結(jié)合上下文信息,完整的保留文本中短語級(jí)別特征信息,實(shí)現(xiàn)多源數(shù)據(jù)融合、數(shù)據(jù)采集頻率、數(shù)據(jù)標(biāo)準(zhǔn)建立、數(shù)據(jù)質(zhì)量管理,滿足AI模型所需數(shù)據(jù)的規(guī)模、質(zhì)量和時(shí)效,以提升模型擬合的效果。

 

首先是AI引擎早期小樣本數(shù)據(jù)學(xué)習(xí)階段?;跈C(jī)器學(xué)習(xí)、自然語言理解和知識(shí)圖譜訓(xùn)練所需的數(shù)據(jù)原料篩選需要人工監(jiān)督,通過人工不斷地提供結(jié)構(gòu)化、特征化處理和數(shù)據(jù)質(zhì)量的優(yōu)化服務(wù),根據(jù)數(shù)據(jù)特征和用戶需求進(jìn)行動(dòng)態(tài)調(diào)整和反饋,知識(shí)圖譜搭建也需要大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)支持來開展工作,在結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)上,將半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)納入數(shù)據(jù)源并支持AI引擎分析使用。

 

其次是AI引擎進(jìn)行數(shù)據(jù)分析階段。數(shù)據(jù)質(zhì)量的高度敏感要求,數(shù)據(jù)質(zhì)量的優(yōu)劣極大程度影響AI模型的應(yīng)用效果,必須進(jìn)行多維度的質(zhì)量檢查,以及對(duì)實(shí)時(shí)性高要求,實(shí)時(shí)數(shù)據(jù)分析、推薦和預(yù)警時(shí),數(shù)據(jù)源更強(qiáng)調(diào)具備實(shí)時(shí)性接入能力。利用深度神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)AI模型的自我更新和優(yōu)化,尤其是視覺圖像識(shí)別應(yīng)用領(lǐng)域。比如:當(dāng)傳感器檢測(cè)到產(chǎn)品存在時(shí),光源觸發(fā)并點(diǎn)亮產(chǎn)品區(qū)域,幀抓取器的數(shù)字化設(shè)備將這些原始數(shù)據(jù)轉(zhuǎn)換成數(shù)字輸出,然后這些數(shù)據(jù)作為數(shù)字文件由軟件系統(tǒng)存儲(chǔ)在計(jì)算機(jī)中,以供進(jìn)一步對(duì)比分析預(yù)先輸入的產(chǎn)品參數(shù)數(shù)據(jù)。如果這些數(shù)據(jù)有缺陷,AI引擎識(shí)別問題并學(xué)習(xí)如何解決,進(jìn)行數(shù)據(jù)質(zhì)量控制。

 

最后是AI引擎的自我迭代階段。通過打造AI引擎對(duì)數(shù)據(jù)的閉環(huán)流通管理,建立數(shù)據(jù)采集和回饋分析的閉環(huán)式自學(xué)習(xí)體系,基于實(shí)時(shí)數(shù)據(jù)處理、實(shí)時(shí)特征開發(fā)和實(shí)時(shí)應(yīng)用開發(fā)等數(shù)據(jù)架構(gòu)的搭建,將流式數(shù)據(jù)的接入實(shí)時(shí)反饋到模型運(yùn)行輸出,使模型結(jié)果更加及時(shí)準(zhǔn)確。達(dá)到AI模型上線后的持續(xù)迭代優(yōu)化。為了讓Al模型的預(yù)測(cè)結(jié)果更加準(zhǔn)確,可將模型運(yùn)行后的結(jié)果數(shù)據(jù)更新反饋給Al模型,利用實(shí)時(shí)閉環(huán)數(shù)據(jù)進(jìn)行自學(xué)習(xí),強(qiáng)化反饋回路以優(yōu)化模型算法,防止模型效果因長時(shí)間使用而效果變差。比如,數(shù)據(jù)智能分類分級(jí)模型持續(xù)用舊模型預(yù)測(cè)新數(shù)據(jù),不更新閉環(huán)數(shù)據(jù)反饋的話,隨著時(shí)間的流逝,模型將逐漸降低精準(zhǔn)分類分級(jí)效果,導(dǎo)致數(shù)據(jù)分類分級(jí)的效果越來越差。

 

一個(gè)好的數(shù)據(jù)治理安全解決方案必須做到算力、算法和數(shù)據(jù)的象限聚焦。在數(shù)據(jù)治理安全平臺(tái),通過AI引擎對(duì)數(shù)據(jù)的深度加工與精煉,依賴算力、算法將數(shù)據(jù)訓(xùn)練成行業(yè)專用的知識(shí)圖譜模型,進(jìn)而實(shí)現(xiàn)包括結(jié)構(gòu)化、半/非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)發(fā)現(xiàn),數(shù)據(jù)自動(dòng)分類分級(jí)打標(biāo),數(shù)據(jù)資產(chǎn)化,數(shù)據(jù)質(zhì)量在數(shù)據(jù)字段豐富度、數(shù)據(jù)分布和數(shù)據(jù)實(shí)時(shí)性等維度應(yīng)用提升。

\" src=圖3. 機(jī)器學(xué)習(xí)技術(shù)框架應(yīng)用

 

4.AI引擎在數(shù)據(jù)治理安全平臺(tái)應(yīng)用實(shí)踐 

積累沉淀行業(yè)業(yè)務(wù)場(chǎng)景的數(shù)據(jù)治理和模型開發(fā)經(jīng)驗(yàn),搭建數(shù)據(jù)治理安全平臺(tái),采用具備自我迭代的AI引擎,能夠自動(dòng)對(duì)AI數(shù)據(jù)形式進(jìn)行標(biāo)準(zhǔn)定義,將特征工程標(biāo)準(zhǔn)化、自動(dòng)化、智能化,快速對(duì)接得到可被機(jī)器理解的結(jié)構(gòu)化、半/非結(jié)構(gòu)化數(shù)據(jù),投喂給AI引擎,縮短掃描敏感數(shù)據(jù)發(fā)現(xiàn)時(shí)間,提高數(shù)據(jù)自動(dòng)分類分級(jí)打標(biāo)效率,從而自動(dòng)改善數(shù)據(jù)質(zhì)量。

 

AI 引擎從全域全量數(shù)據(jù)自動(dòng)發(fā)現(xiàn)到暗數(shù)據(jù)掃描再到數(shù)據(jù)分類分級(jí)的階段,借助文本聚類等技術(shù),對(duì)數(shù)據(jù)進(jìn)行基于上下文的識(shí)別,精準(zhǔn)分類分級(jí),快速整理高頻詞根并將數(shù)據(jù)分類標(biāo)簽與敏感度自動(dòng)映射,建立數(shù)據(jù)分類分級(jí)標(biāo)準(zhǔn)和數(shù)據(jù)安全策略,通過深度學(xué)習(xí)自動(dòng)識(shí)別數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)質(zhì)量進(jìn)行效果評(píng)估和智能修復(fù),并根據(jù)數(shù)據(jù)量和業(yè)務(wù)階段的變化進(jìn)行動(dòng)態(tài)更新;建立起業(yè)務(wù)部門與系統(tǒng)之間、多環(huán)節(jié)業(yè)務(wù)流程的信息采集、關(guān)聯(lián)和交互,提高數(shù)據(jù)要素流通效率和精確度。

 

首先是全域全量數(shù)據(jù)自動(dòng)接入。接入多源異構(gòu)數(shù)據(jù)源,挖掘企業(yè)組織內(nèi)外部信息,納入結(jié)構(gòu)化數(shù)據(jù),半/非結(jié)構(gòu)化數(shù)據(jù),提升與AI模型相關(guān)的數(shù)據(jù)積累??紤]到數(shù)據(jù)訓(xùn)練規(guī)模擴(kuò)張,數(shù)據(jù)類型異構(gòu),數(shù)據(jù)噪聲指數(shù)級(jí)增加,對(duì)此AI 引擎能針對(duì)性地進(jìn)行數(shù)據(jù)自動(dòng)發(fā)現(xiàn)。企業(yè)組織存在大量的暗數(shù)據(jù)無法通過人工完全發(fā)現(xiàn),被動(dòng)地通過流量監(jiān)測(cè)方法去分析流量中的數(shù)據(jù)包,僅能使用少量暗數(shù)據(jù),企業(yè)組織往往很難具備將大量暗數(shù)據(jù)的價(jià)值進(jìn)行挖掘的能力,暗數(shù)據(jù)只能“埋沒在角落里,無人問津”,AI 引擎有助于掃描到這些暗數(shù)據(jù),即使是碎片化數(shù)據(jù),也能進(jìn)行聚類分析,最大限度利用。

 

其次是數(shù)據(jù)自動(dòng)分類分級(jí)打標(biāo)。在行業(yè)數(shù)據(jù)訓(xùn)練集中,對(duì)各數(shù)據(jù)資源的字段信息進(jìn)行人工分詞、標(biāo)注,形成行業(yè)數(shù)據(jù)分類分級(jí)詞庫、語料庫、規(guī)則庫以及模型庫;然后利用規(guī)則引擎實(shí)現(xiàn)初步的行業(yè)數(shù)據(jù)分類分級(jí);再結(jié)合深度學(xué)習(xí)聚類算法,AI 引擎驅(qū)動(dòng)數(shù)據(jù)分類分級(jí)全流程各環(huán)節(jié),對(duì)數(shù)據(jù)分類和分級(jí)的規(guī)則進(jìn)行適配、更新和維護(hù),定期核驗(yàn)規(guī)則合理性,動(dòng)態(tài)完善規(guī)則庫,隨規(guī)則變化進(jìn)行迭代更新,滿足規(guī)則靈活適配和管理要求,實(shí)施持續(xù)迭代訓(xùn)練和學(xué)習(xí),使得AI 引擎能夠自動(dòng)發(fā)現(xiàn)高敏感度、高價(jià)值數(shù)據(jù),對(duì)行業(yè)數(shù)據(jù)自動(dòng)智能分類分級(jí)打標(biāo)并能進(jìn)行動(dòng)態(tài)調(diào)整更新。

 

最后是數(shù)據(jù)質(zhì)量的自動(dòng)改善。對(duì)接入的多源異構(gòu)數(shù)據(jù)從數(shù)據(jù)有效性、數(shù)據(jù)一致性、數(shù)據(jù)唯一性、數(shù)據(jù)時(shí)序性、數(shù)據(jù)完備性、數(shù)據(jù)完整性、數(shù)據(jù)合理性和數(shù)據(jù)準(zhǔn)確性六個(gè)維度進(jìn)行質(zhì)量管理,在數(shù)據(jù)融合過程中,AI引擎能夠?qū)?shù)據(jù)有效性、一致性和唯一性三個(gè)維度進(jìn)行重新判斷,如:非結(jié)構(gòu)化數(shù)據(jù)在清洗處理后與結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)實(shí)體重復(fù)或內(nèi)容不一致的情況。

 

場(chǎng)景舉例:海石平臺(tái)AI引擎如何解決工業(yè)高頻高價(jià)值應(yīng)用下的數(shù)據(jù)痛點(diǎn)。由于工業(yè)機(jī)理數(shù)據(jù)具備多樣、時(shí)序與復(fù)雜性特征,線下海量數(shù)據(jù)待挖掘,從驅(qū)動(dòng)經(jīng)濟(jì)效益的高頻高價(jià)值業(yè)務(wù)場(chǎng)景需求出發(fā),使用AI引擎自動(dòng)發(fā)現(xiàn)數(shù)據(jù),對(duì)數(shù)據(jù)整合、數(shù)據(jù)分類與清洗、模型訓(xùn)練,優(yōu)化迭代,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化目標(biāo)。
 

 \" src=圖4. 數(shù)據(jù)治理安全平臺(tái)AI引擎框架

 

5.AI引擎在行業(yè)數(shù)據(jù)治理安全領(lǐng)域的持續(xù)優(yōu)化 

由于工業(yè)數(shù)據(jù)來源眾多,既有經(jīng)營管理財(cái)務(wù)數(shù)據(jù),還有工業(yè)生產(chǎn)制造數(shù)據(jù)及傳感器設(shè)備的海量數(shù)據(jù)等,并且數(shù)據(jù)采集設(shè)備種類多、接口復(fù)雜。打通數(shù)據(jù),讓數(shù)據(jù)匯聚,可共享流轉(zhuǎn)應(yīng)用是工業(yè)數(shù)據(jù)的數(shù)據(jù)治理安全痛點(diǎn)。

 

工業(yè)數(shù)字化轉(zhuǎn)型過程中將產(chǎn)生龐大量級(jí)的時(shí)序數(shù)據(jù),因此對(duì)時(shí)序數(shù)據(jù)的測(cè)點(diǎn)范圍選取、采集頻率考量、高并發(fā)高吞吐能力、能否支持云邊協(xié)同及實(shí)時(shí)應(yīng)用。

 

在產(chǎn)品的設(shè)計(jì)加工和生產(chǎn)制造流程中,企業(yè)需對(duì)時(shí)序數(shù)據(jù)的采集、存儲(chǔ)、查詢、處理和分析,實(shí)時(shí)監(jiān)控企業(yè)正常的生產(chǎn)經(jīng)營過程。

 

工業(yè)產(chǎn)業(yè)鏈條長及工業(yè)機(jī)理復(fù)雜,需了解大量工業(yè)技術(shù)原理、行業(yè)知識(shí)、基礎(chǔ)工藝等,強(qiáng)調(diào)對(duì)工業(yè)背景的理解。

 

海石平臺(tái)AI引擎利用機(jī)器學(xué)習(xí)技術(shù),工業(yè)機(jī)理數(shù)據(jù)自動(dòng)發(fā)現(xiàn),數(shù)據(jù)分類分級(jí)的環(huán)節(jié)更加自動(dòng)化、智能化,可極大提升數(shù)據(jù)治理工作效率,同時(shí)基于自然語言理解和知識(shí)圖譜挖掘關(guān)聯(lián)數(shù)據(jù)的應(yīng)用價(jià)值,解決數(shù)據(jù)質(zhì)量管理的傳統(tǒng)難題,使治理后的數(shù)據(jù)更加契合AI應(yīng)用的要求,從效率和質(zhì)量加速AI引擎的自我迭代進(jìn)程。那么AI引擎不斷優(yōu)化也給企業(yè)組織帶來更多智能化轉(zhuǎn)型信心,加大相關(guān)數(shù)據(jù)治理安全項(xiàng)目的預(yù)算投入,進(jìn)一步推進(jìn)了相關(guān)數(shù)據(jù)治理安全體系建設(shè),打造平臺(tái)共享數(shù)據(jù)使用,確保數(shù)據(jù)安全合規(guī),釋放價(jià)值。

 

結(jié)論:當(dāng)下數(shù)據(jù)生產(chǎn)要素已成為中國數(shù)字經(jīng)濟(jì)轉(zhuǎn)型、工業(yè)智能化、實(shí)現(xiàn)高質(zhì)量發(fā)展重要驅(qū)動(dòng)力,數(shù)據(jù)共享使用無疑是正確發(fā)揮數(shù)據(jù)生產(chǎn)要素價(jià)值的最佳途徑,而人工智能則是加快數(shù)據(jù)共享使用的火箭推進(jìn)器引擎。如果以人工智能為核心的AI 引擎的能夠不斷自我迭代的話,不僅能夠加快企業(yè)組織數(shù)據(jù)治理安全的效能,而且會(huì)對(duì)各行各業(yè)乃至中國數(shù)字經(jīng)濟(jì)和整體社會(huì)發(fā)展都有著至關(guān)重要的戰(zhàn)略意義。
 

\" src=圖5. 數(shù)據(jù)治理安全平臺(tái)可視化展示

消息來源:CIO時(shí)代網(wǎng)