淺談聯(lián)邦學(xué)習(xí)中的隱私保護(hù)
背 景
隨著人工智技術(shù)的飛速發(fā)展,重視數(shù)據(jù)隱私與安全已經(jīng)成為國(guó)家的大事件。在數(shù)據(jù)孤島現(xiàn)象與數(shù)據(jù)融合相矛盾環(huán)境下,聯(lián)邦學(xué)習(xí)(federated learning,F(xiàn)L)作為一種新型的分布式機(jī)器學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生,聯(lián)邦學(xué)習(xí)旨在通過安全交換不可逆的信息(如模型參數(shù)或梯度更新),使得多方數(shù)據(jù)持有者(如手機(jī)、物聯(lián)網(wǎng)設(shè)備等)協(xié)同訓(xùn)練模型而不分享數(shù)據(jù)。盡管聯(lián)邦學(xué)習(xí)避免將數(shù)據(jù)直接暴露給第三方,對(duì)數(shù)據(jù)具有天然的保護(hù)作用,但其中依然存在大量的隱私泄露風(fēng)險(xiǎn)。本文為讀者介紹了聯(lián)邦學(xué)習(xí)的概念、存在的3類隱私泄漏風(fēng)險(xiǎn)和4種主要的隱私保護(hù)技術(shù)。
1.聯(lián)邦學(xué)習(xí)
定義:聯(lián)邦學(xué)習(xí)實(shí)際上是一種加密的分布式機(jī)器學(xué)習(xí)技術(shù),聯(lián)邦學(xué)習(xí)可以跨越多種設(shè)備,參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)加密(混淆)形態(tài)的前提下聯(lián)合構(gòu)建模型。通過加密機(jī)制實(shí)現(xiàn)各企業(yè)的數(shù)據(jù)在不出本地情況下進(jìn)行參數(shù)交換,實(shí)現(xiàn)不違反數(shù)據(jù)隱私法而構(gòu)建共有模型。
分類:按照數(shù)據(jù)和用戶呈現(xiàn)的特點(diǎn)將聯(lián)邦學(xué)習(xí)分為三類:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和遷移聯(lián)邦學(xué)習(xí)。具體介紹可參考[1-2]。
典型架構(gòu):客戶-服務(wù)器架構(gòu)和端到端架構(gòu)。前者通過中心服務(wù)器進(jìn)行參數(shù)傳輸,后者客戶端之間直接進(jìn)行參數(shù)傳輸。
訓(xùn)練過程:如圖1所示,F(xiàn)L主要包含以下三個(gè)步驟。
Step1:模型選擇(啟動(dòng)全局模型和初始參數(shù),并于FL環(huán)境當(dāng)中所有客戶端共享);
Step2:局部模型訓(xùn)練(客戶端初始ML模型,用個(gè)人訓(xùn)練數(shù)據(jù)訓(xùn)練模型);
Step3:本地模型聚合(客戶將局部模型更新發(fā)送到中心服務(wù)器,進(jìn)行聚合和訓(xùn)練全局模型,全局模型將下發(fā)到每個(gè)客戶端,進(jìn)行多輪迭代的模型訓(xùn)練)。
圖 1 聯(lián)邦學(xué)習(xí)模型訓(xùn)練架構(gòu)
2.FL隱私泄漏風(fēng)險(xiǎn)
盡管聯(lián)邦學(xué)習(xí)不直接進(jìn)行數(shù)據(jù)交換,相比傳統(tǒng)的機(jī)器學(xué)習(xí)具有更高的隱私保障,但本身并沒有提供全面充分的隱私保護(hù),依然面臨著信息泄漏的威脅。因?yàn)閰⑴c者可以根據(jù)上傳的參數(shù)推測(cè)出其他參與者的訓(xùn)練數(shù)據(jù),因此聯(lián)邦學(xué)習(xí)中的隱私風(fēng)險(xiǎn)主要來自不同類別的推理攻擊,主要包括成員推理攻擊、無意的數(shù)據(jù)泄漏&推理重建和基于GANs的推理攻擊[3]。
2.1 成員推理攻擊
成員推理攻擊通過對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行攻擊,攻擊者可以推斷出模型訓(xùn)練集的信息,結(jié)構(gòu),該攻擊給機(jī)器學(xué)習(xí)帶來了嚴(yán)重的隱私威脅。如圖2所示,原始的數(shù)據(jù)集訓(xùn)練的模型在應(yīng)用平臺(tái)上運(yùn)行,攻擊者冒充用戶去訪問目標(biāo)模型,獲得一定的信息和敵手知識(shí)來構(gòu)建攻擊模型用于推理任意給定數(shù)據(jù)是否是目標(biāo)模型的訓(xùn)練成員[4]。
圖2 聯(lián)邦學(xué)習(xí)下的成員推理
2.2 無意的數(shù)據(jù)泄漏&推理重建
攻擊者利用中央服務(wù)器無意的數(shù)據(jù)泄漏漏洞,獲取客戶端的更新的數(shù)據(jù)或梯度信息,并通過推理攻擊成功重建其他客戶端的數(shù)據(jù)。這是一個(gè)相似的攻擊,對(duì)于給定的訓(xùn)練模型,判斷其訓(xùn)練集上是否包含特定屬性的數(shù)據(jù)點(diǎn),該屬性不一定和訓(xùn)練任務(wù)相關(guān)。例如使用LFW數(shù)據(jù)集訓(xùn)練一個(gè)識(shí)別性別的模型時(shí),推理重建能夠發(fā)現(xiàn)樣本的其他特征,如樣本的種族,是否戴眼鏡等信息,這將帶來隱私泄漏的風(fēng)險(xiǎn)[5]。
2.3 GANs推理攻擊
GANs是近些年大數(shù)據(jù)領(lǐng)域廣受歡迎的生成對(duì)抗網(wǎng)絡(luò),同樣也適用于基于聯(lián)邦學(xué)習(xí)的方法。聯(lián)邦學(xué)習(xí)客戶端當(dāng)中存在一些利用本地的舊數(shù)據(jù)作為訓(xùn)練模型的貢獻(xiàn),由于聯(lián)邦學(xué)習(xí)中僅參數(shù)的更新很難評(píng)估每個(gè)客戶端的貢獻(xiàn)和信譽(yù)。如圖3所示,該攻擊利用了學(xué)習(xí)過程的實(shí)時(shí)性,并允許對(duì)手訓(xùn)練一個(gè)通用的對(duì)抗網(wǎng)絡(luò)(GAN),以生成隱私的目標(biāo)訓(xùn)練集的原型樣本,推理的圖像與原圖像幾乎相同,因?yàn)镚AN旨在生成和訓(xùn)練集分布相同的樣本,當(dāng)分類樣本互相相似時(shí)(人臉識(shí)別),這種攻擊非常大[5]。
圖3 聯(lián)邦學(xué)習(xí)下的推理重構(gòu)
3.FL隱私保護(hù)
通過以上分析,聯(lián)邦學(xué)習(xí)當(dāng)中存在很多隱私泄漏的風(fēng)險(xiǎn),有攻就有防,科研人員同樣也研究出較多增強(qiáng)聯(lián)邦學(xué)習(xí)隱私保護(hù)的技術(shù)。聯(lián)邦學(xué)習(xí)當(dāng)中增強(qiáng)隱私保護(hù)和減少威脅的方法,主要包含以下四種方法:安全多方計(jì)算(Secure multi-party computation)、差分隱私
(Differential privacy)、VerifyNet和對(duì)抗訓(xùn)練(Adversarial training)[3]
3.1安全多方計(jì)算(sMPC)
sMPC采取密碼學(xué)的方法保護(hù)客戶端的參數(shù)更新或梯度。如圖4 所示,聯(lián)邦學(xué)習(xí)種sMPC與傳統(tǒng)的算法應(yīng)用場(chǎng)景不同,聯(lián)邦學(xué)習(xí)算法當(dāng)中sMPC只需要對(duì)參數(shù)進(jìn)行加密,無需對(duì)大量的用戶數(shù)據(jù)進(jìn)行加密,顯著提高了sMPC的效率,使得sMPC成為聯(lián)邦學(xué)習(xí)環(huán)境當(dāng)中一個(gè)較好的選擇。
圖4 聯(lián)邦學(xué)習(xí)下的sMPC
3.2 差分隱私(DP)
DP通過添加噪聲來擾動(dòng)原本特征清晰的數(shù)據(jù),使得單條數(shù)據(jù)失去其獨(dú)特性,隱藏在大量數(shù)據(jù)當(dāng)中,防止敏感數(shù)據(jù)泄漏,DP仍能夠使得數(shù)據(jù)具備原有的分布式特點(diǎn)。聯(lián)邦學(xué)習(xí)當(dāng)中,為了避免數(shù)據(jù)的反向檢索,對(duì)客戶端上傳的參數(shù)進(jìn)行差分隱私,這樣可能會(huì)給上傳的參數(shù)帶來不確定性,影響模型的訓(xùn)練效果。
3.3 VerifyNet
VerifyNet是一個(gè)隱私保護(hù)和可信驗(yàn)證的聯(lián)邦學(xué)習(xí)框架。VerifyNet的雙隱蔽協(xié)議保證用戶在聯(lián)邦學(xué)習(xí)過程中局部梯度的機(jī)密性,另外中心服務(wù)器需要向每個(gè)用戶提供關(guān)于聚合結(jié)果的正確性證明。在VerifyNet當(dāng)中,攻擊者很難偽造證據(jù)來欺騙其他用戶,除非能夠解決模型中采用的np硬問題。此外VerifyNet還支持用戶在訓(xùn)練過程中退出,發(fā)現(xiàn)威脅迅速回退,多方面保護(hù)用戶的隱私安全。
3.4 對(duì)抗訓(xùn)練(AT)
對(duì)抗訓(xùn)練是增強(qiáng)神經(jīng)網(wǎng)絡(luò)魯棒性的重要方式,是一種主動(dòng)防御技術(shù)。在聯(lián)邦學(xué)習(xí)對(duì)抗訓(xùn)練過程中,樣本當(dāng)中會(huì)混合一些微小的擾動(dòng)(可能導(dǎo)致誤分類),然后使得神經(jīng)網(wǎng)絡(luò)適應(yīng)這種變換,因此,最終生成的聯(lián)邦學(xué)習(xí)的全局模型對(duì)已知的對(duì)抗樣本具有魯棒性。
4.總 結(jié)
聯(lián)邦學(xué)習(xí)技術(shù)是隱私保護(hù)下機(jī)器學(xué)習(xí)的可實(shí)現(xiàn)路徑和“數(shù)據(jù)孤島問題”的可解決方案,適用于B2B和B2C業(yè)務(wù),具有廣闊的應(yīng)用場(chǎng)景。聯(lián)邦學(xué)習(xí)的隱私安全也是目前人們關(guān)注的熱點(diǎn),本文介紹了聯(lián)邦學(xué)習(xí)的概念,存在推理攻擊的隱私泄漏風(fēng)險(xiǎn)以及主要的隱私保護(hù)技術(shù),包括安全多方計(jì)算、差分隱私、VerifyNet和對(duì)抗訓(xùn)練,以供讀者參考。
參考文獻(xiàn)
[1] 劉藝璇, 陳紅, 劉宇涵, & 李翠平. (2021). 聯(lián)邦學(xué)習(xí)中的隱私保護(hù)技術(shù). 軟件學(xué)報(bào), 33(3), 0-0.
[2] Yang, Q., Liu, Y., Chen, T., & Tong, Y. (2019). Federated machine learning: Concept and applications. ACM Transactions on Intelligent Systems and Technology (TIST), 10(2), 1-19.
[3] Mothukuri, V., Parizi, R. M., Pouriyeh, S., Huang, Y., Dehghantanha, A., & Srivastava, G. (2021). A survey on security and privacy of federated learning. Future Generation Computer Systems, 115, 619-640.
[4] 高婷. (2022). 機(jī)器學(xué)習(xí)成員推理攻擊研究進(jìn)展與挑戰(zhàn). Operations Research and Fuzziology, 12, 1.
[5] AI大本營(yíng). (2022).聯(lián)邦學(xué)習(xí)的隱憂:來自梯度的深度泄露, https://t.cj.sina.com.cn/articles /view/6080368657/16a6b101101900wgmv