FedIPR: 聯(lián)邦學(xué)習(xí)模型所屬權(quán)驗(yàn)證

微眾銀行

2022-09-16 16:22 6084

深圳2022年9月16日 /美通社/ -- 針對(duì)聯(lián)邦學(xué)習(xí)全局模型的版權(quán)保護(hù)問題，微眾銀行AI團(tuán)隊(duì)聯(lián)合上海交通大學(xué)在人工智能學(xué)術(shù)期刊《IEEE模式分析與機(jī)器智能匯刊》（IEEE T-PAMI，IEEE Transactions on Pattern Analysis and Machine Intelligence，涉及人工智能、計(jì)算機(jī)視覺、模式識(shí)別等多個(gè)領(lǐng)域）上發(fā)表了題為“FedIPR: 聯(lián)邦深度神經(jīng)網(wǎng)絡(luò)模型的所屬權(quán)驗(yàn)證”（FedIPR: Ownership Verification for Federated Deep Neural Network Models）的論文。該論文從算法、協(xié)議、安全等多個(gè)角度出發(fā)，就聯(lián)邦學(xué)習(xí)模型知識(shí)產(chǎn)權(quán)保護(hù)問題，分享了他們對(duì)模型知識(shí)產(chǎn)權(quán)保護(hù)的思考和工作，提出了名為“FedIPR”的聯(lián)邦學(xué)習(xí)模型版權(quán)保護(hù)框架。

近年來，深度神經(jīng)網(wǎng)絡(luò)（DNN）等機(jī)器學(xué)習(xí)技術(shù)在諸多領(lǐng)域取得了巨大成功，許多科技公司都將神經(jīng)網(wǎng)絡(luò)模型部署在商業(yè)產(chǎn)品中，提高效益。訓(xùn)練先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型需要大規(guī)模數(shù)據(jù)集、龐大的計(jì)算資源和設(shè)計(jì)者的智慧，具體體現(xiàn)在如下三個(gè)領(lǐng)域：

一、深度學(xué)習(xí)模型應(yīng)用的訓(xùn)練模型規(guī)模巨大。以 GPT-3 為例，其預(yù)訓(xùn)練所用的數(shù)據(jù)量達(dá)到 45TB，訓(xùn)練費(fèi)用超過 1200 萬美元，有著極高的經(jīng)濟(jì)成本。

二、深度學(xué)習(xí)模型在訓(xùn)練部署到工業(yè)應(yīng)用場(chǎng)景過程中需要引入相關(guān)領(lǐng)域的先驗(yàn)知識(shí)。例如，其在智慧金融、智慧醫(yī)療領(lǐng)域的應(yīng)用，需要引入金融、醫(yī)療等領(lǐng)域?qū)Ｓ邢闰?yàn)知識(shí)。因此，在模型設(shè)計(jì)過程，開發(fā)者需要引入專家的知識(shí)和經(jīng)驗(yàn)來訂制模型，這也體現(xiàn)了人腦力的知識(shí)產(chǎn)權(quán)。

三、深度學(xué)習(xí)模型的訓(xùn)練過程需要特定領(lǐng)域的海量數(shù)據(jù)作為訓(xùn)練資源，而數(shù)據(jù)本身具有價(jià)值和知識(shí)屬性。

以上屬性決定了經(jīng)過訓(xùn)練的深度學(xué)習(xí)模型具有很高的商業(yè)價(jià)值和知識(shí)屬性，必須將其納入合法所有者（即創(chuàng)建它的一方）的知識(shí)產(chǎn)權(quán)。因此，從技術(shù)層面，行業(yè)也面臨迫切保護(hù)深度神經(jīng)網(wǎng)絡(luò)（DNN）模型的知識(shí)產(chǎn)權(quán)，以防止其被非法復(fù)制、重新分發(fā)或?yàn)E用。

針對(duì)昂貴的模型，攻擊者可以采用技術(shù)手段或者非技術(shù)手段進(jìn)行竊??；但要確認(rèn)盜用且聲明模型所有權(quán)，則是完全從人工智能理論方法角度出發(fā)，模型的所有權(quán)認(rèn)證技術(shù)需要保證不犧牲模型可用性前提下，提供可靠且穩(wěn)健的知識(shí)產(chǎn)權(quán)保護(hù)方法。

相比于中心化場(chǎng)景的模型訓(xùn)練，聯(lián)邦學(xué)習(xí)分布式訓(xùn)練涉及多個(gè)參與方，存在參與方被敵手攻擊或者模型搭便車的情況，因此有更大的人工智能模型泄露風(fēng)險(xiǎn)，對(duì)聯(lián)邦學(xué)習(xí)模型的所屬權(quán)構(gòu)成了潛在的侵犯風(fēng)險(xiǎn)。

傳統(tǒng)的深度學(xué)習(xí)模型知識(shí)產(chǎn)權(quán)保護(hù)方法主要著眼于深度神經(jīng)網(wǎng)絡(luò)水印的算法實(shí)踐和穩(wěn)健性挑戰(zhàn)，沒有把模型水印實(shí)踐到可信聯(lián)邦學(xué)習(xí)方向的研究。微眾銀行AI團(tuán)隊(duì)提出的FedIPR框架考慮一種不完全信任的聯(lián)邦學(xué)習(xí)系統(tǒng)，假定聯(lián)邦學(xué)習(xí)各參與方能夠按照聯(lián)邦法則來進(jìn)行模型更新和協(xié)同訓(xùn)練，但彼此不泄露私有本地?cái)?shù)據(jù)和私密簽名。在這種設(shè)定下，F(xiàn)edIPR闡述了一種新穎的聯(lián)合深度神經(jīng)網(wǎng)絡(luò)（FedDNN）所有權(quán)驗(yàn)證方案（圖1^[1]），該方案允許嵌入和驗(yàn)證所有權(quán)簽名，以聲明 FedDNN 模型的合法知識(shí)產(chǎn)權(quán)（IPR），以防模型被非法復(fù)制、重新分發(fā)或?yàn)E用。

圖1

微眾銀行AI團(tuán)隊(duì)提出黑盒與白盒兩階段驗(yàn)證聯(lián)邦學(xué)習(xí)模型所屬權(quán)的框架分為兩個(gè)階段（圖2）：

一、黑盒階段，不需要訪問模型參數(shù)和內(nèi)部結(jié)構(gòu)，只需輸入特定樣本進(jìn)入模型API, 根據(jù)模型輸出判定模型所屬權(quán)，為模型所屬權(quán)提供初步依據(jù)。

二、白盒驗(yàn)證階段，執(zhí)法機(jī)關(guān)根據(jù)上一階段，打開模型參數(shù)和結(jié)構(gòu)，驗(yàn)證模型參數(shù)中是否嵌入有實(shí)現(xiàn)給定的能證明所屬權(quán)的“水印”。

圖2

針對(duì)白盒模型驗(yàn)證場(chǎng)景，團(tuán)隊(duì)創(chuàng)新地提出了針對(duì) batch normalization 層（圖3）的仿射變換參數(shù)，進(jìn)行水印嵌入，該嵌入方法具有強(qiáng)可用性和穩(wěn)健性。

圖3

FedIPR 框架創(chuàng)新性地解決了模型所有權(quán)驗(yàn)證在聯(lián)邦學(xué)習(xí)中的兩大挑戰(zhàn)：

一、亟需解決多水印沖突問題。特別是對(duì)于基于特征的水印，對(duì)于不同的客戶是否可以有一個(gè)通用的解決方案來嵌入他們的私人指定水印。如下圖4所示，當(dāng)不同客戶端希望各自嵌入水印進(jìn)全局聯(lián)邦學(xué)習(xí)模型當(dāng)中，多個(gè)水印可能彼此發(fā)生沖突。針對(duì)該挑戰(zhàn)，F(xiàn)edIPR提出用秘密提取矩陣的方式，解決了多個(gè)水印在聯(lián)邦學(xué)習(xí)模型之中互相沖突的挑戰(zhàn)。

圖4

二、亟需解決性能問題。水印的穩(wěn)健性表明模型水印是否能在聯(lián)邦學(xué)習(xí)模型各種訓(xùn)練策略中適用，以及是否能抵御各種去除水印的攻擊。FedIPR采用客戶端嵌入的方式在差分隱私、魯棒聚合、模型剪枝、微調(diào)等多種設(shè)定下進(jìn)行了實(shí)驗(yàn)。

表1