聊聊聯(lián)邦學(xué)習(xí)安全綜述
?1、緒論
聯(lián)邦機器學(xué)習(xí)(Federated machine learning)又叫做聯(lián)邦學(xué)習(xí)(Federated Learning/FL),本質(zhì)上也就是機器學(xué)習(xí),但是他是將多方數(shù)據(jù)放在一起進(jìn)行學(xué)習(xí),考慮到數(shù)據(jù)的安全性和隱私性,多個合作方的數(shù)據(jù)通常不能互通,這也就造成了數(shù)據(jù)孤島,聯(lián)邦學(xué)習(xí)能夠在保證數(shù)據(jù)安全與隱私的前提下實現(xiàn)多方共同建模,學(xué)習(xí)流程如下:各個合作方將自己的本地數(shù)據(jù)進(jìn)行訓(xùn)練得到子模型,將訓(xùn)練得到的參數(shù)再上傳到服務(wù)器,經(jīng)過聚合后得到整體參數(shù):
圖1聯(lián)邦學(xué)習(xí)流程圖
由于聯(lián)邦學(xué)習(xí)不需要共享各個合作方的原始數(shù)據(jù)就可以更新參數(shù)而備受關(guān)注,除此之外,聯(lián)邦學(xué)習(xí)需要在第三方的幫助下完成,因此隱私與安全問題是聯(lián)邦學(xué)習(xí)面臨的最大挑戰(zhàn)。
2、聯(lián)邦學(xué)習(xí)存在的威脅
2.1隱私推理攻擊和中毒攻擊
隱私推理攻擊一般不會改變目標(biāo)模型,而是使他產(chǎn)生錯誤的預(yù)測,收集有關(guān)模型的特征來導(dǎo)致隱私和魯棒性問題,推理攻擊一般分為四種,第一種是會員推理攻擊,第二種是屬性推理攻擊,攻擊者試圖誘導(dǎo)其他客戶的私有數(shù)據(jù)的屬性,第三種是訓(xùn)練輸入和標(biāo)簽推斷攻擊,這種攻擊方式因其可以確定FL模型類的標(biāo)簽和客戶機的訓(xùn)練輸入往往更具有破壞性,第四種是基于GANs的推理攻擊,這種情況下,可以生成對抗網(wǎng)絡(luò)來執(zhí)行強大的攻擊[1]。中毒攻擊發(fā)生在對抗聯(lián)邦學(xué)習(xí)的訓(xùn)練階段,可分為數(shù)據(jù)中毒和模型中毒兩種方式,數(shù)據(jù)中毒主要通過添加噪聲或者是翻轉(zhuǎn)標(biāo)簽來改變訓(xùn)練數(shù)據(jù)集,模型中毒通過操作模型更新導(dǎo)致全局模型偏離正常模型。
2.2后門攻擊和拜占庭攻擊
后門攻擊是指攻擊者在模型訓(xùn)練過程中通過某種方式對模型植入后門,當(dāng)后門沒有被激發(fā)的時候,被攻擊的模型與正常模型無異,但是當(dāng)后門被激活時,模型的輸出變成攻擊者事先指定好的標(biāo)簽來達(dá)到惡意攻擊的目的。而拜占庭攻擊旨在阻止全局模型收斂。
3、聯(lián)邦學(xué)習(xí)安全的研究進(jìn)展
3.1基于差分隱私的方法
這種技術(shù)是在聯(lián)邦學(xué)習(xí)服務(wù)器共享單個更新之前向客戶機的敏感屬性引入噪聲,因此,每個用戶的隱私都得到了保護,Kang Wei等人提出了一種基于差分隱私的新型框架,在聚合前就將人工噪聲添加到客戶端的參數(shù)中,也就是模型聚合前的噪聲聚合[2]。他們所提出的方案通過適當(dāng)調(diào)整方差滿足高斯噪聲在一定噪聲擾動水平下全局?jǐn)?shù)據(jù)對差分隱私的要求,并且給出了訓(xùn)練后的模型損失函數(shù)收斂界,實驗發(fā)現(xiàn),更好的收斂性能會導(dǎo)致較低的保護能力,但是在隱私保護水平固定的情況下,增加參與學(xué)習(xí)的客戶端數(shù)量可以適當(dāng)提高其收斂性,但是也存在一個最優(yōu)的最大聚合次數(shù)。在此基礎(chǔ)上,他們還提出了一種K-client隨機調(diào)整策略,從客戶端中隨機選擇K個客戶端參與每次聚合,這樣存在一個K的最優(yōu)值,在固定隱私保護水平下達(dá)到最佳的收斂性能。
3.2基于健壯的聚合和同態(tài)加密的方法
由于聯(lián)邦學(xué)習(xí)框架的中心性和客戶端的不可靠,聯(lián)邦學(xué)習(xí)容易受到惡意客戶端和服務(wù)器的攻擊,Yinbin Miao等人設(shè)計了一種基于區(qū)塊鏈的隱私保護拜占庭魯棒聯(lián)邦學(xué)習(xí)(PBFL)方案[3],他們使用余弦相似度來判斷惡意客戶端上傳的惡意梯度,提供一個安全的全局模型來抵御中毒攻擊,再采用全同態(tài)加密技術(shù)提供了一種隱私保護訓(xùn)練機制來實現(xiàn)安全聚合,這種方式可以有效阻止攻擊者窺探客戶端的本地數(shù)據(jù),最后使用區(qū)塊鏈技術(shù),服務(wù)器執(zhí)行鏈下計算并將結(jié)果上傳到區(qū)塊鏈。Xiaoyuan Liu等人也采用同態(tài)加密作為底層技術(shù),提出一個隱私增強的FL(PEEL)框架,通過對數(shù)函數(shù)去除惡意梯度[4],PEEL既可以防止服務(wù)器侵犯用戶的隱私,也可以保證惡意用戶無法通過上傳惡意梯度推斷出會員身份。
除此之外也可能存在某些用戶(這里稱作不規(guī)則用戶)提供的數(shù)據(jù)質(zhì)量低下導(dǎo)致模型不準(zhǔn)確的問題,基于這個問題Guowen Xun等人提出了PPFDL這樣的具有非規(guī)則用戶的隱私保護聯(lián)邦學(xué)習(xí)框架[5],在訓(xùn)練過程中,高度集成了加性同態(tài)和Yao’s亂碼電路技術(shù)來保證所有用戶信息的保密性。
3.3基于安全多方運算和驗證網(wǎng)絡(luò)的方法
針對訓(xùn)練過程中的局部梯度及從服務(wù)器返回的聚合結(jié)果完整性,Guowen Xu等人提出了第一個保護隱私和可驗證的聯(lián)邦學(xué)習(xí)框架——VerifyNet[6],他們首先提出了一種雙屏蔽協(xié)議來保證聯(lián)邦學(xué)習(xí)中用戶本地梯度的機密性,在訓(xùn)練過程中,允許一定數(shù)量的用戶退出,但是這些退出用戶的隱私仍然受其保護,再要求云服務(wù)器向每個用戶提供關(guān)于其聚合結(jié)果正確性的證明,他們利用與偽隨機技術(shù)相結(jié)合的同態(tài)哈希函數(shù)作為VerifyNet的底層結(jié)構(gòu),允許用戶在可接受的開銷下驗證從服務(wù)器返回的結(jié)果的正確性。
3.4基于去中心化的方法
在隱私保護和可驗證上,Jiaoqi Zhao等人提出了一種名為PVD-FL的去中心化聯(lián)邦學(xué)習(xí)框架[7],首先設(shè)計一種高效并且可驗證的基于密碼的矩陣乘法算法來執(zhí)行深度學(xué)習(xí)中最基本的計算,通過上述算法設(shè)計了一套去中心化算法來構(gòu)建PVD-FL框架保證全局模型和局部更新的保密性,同時,PVD-FL每一個訓(xùn)練步驟都是可以驗證的以此來保證訓(xùn)練的完整性。在PVD-FL中,可以在多個連接的參與者上構(gòu)建全局模型而不需要中心的幫助。
圖2去中心化的聯(lián)邦學(xué)習(xí)
3.5后門攻擊和拜占庭攻擊防御
現(xiàn)有的安全聚合解決方案無法解決分布式計算系統(tǒng)中常見的拜占庭問題,于是Lingcheng Zhao等人提出了一個安全高效的聚合框架SEAR[8],利用可信硬件Intel SGX在提供隱私保護的同時提供聚合效率,他們還提出了一種遠(yuǎn)程認(rèn)證協(xié)議,可以讓聚合服務(wù)器同時對多個客戶端進(jìn)行認(rèn)證,同時SEAR在基于采樣的檢測方式上能夠更有效聚合模型。
基于檢測和過濾惡意模型更新的針對后門攻擊的防御只考慮到非常具體和有限的攻擊者模型,而基于差分隱私啟發(fā)的噪聲注入的方式會降低聚合模型的性能,為了解決這些問題,Thien Duc Nguyen等人提出了一個防御框架FLAME[9],為了最小化所需要的噪聲量,F(xiàn)LAME使用模型聚類和權(quán)值剪裁來保證模型聚合的良好性能,同時也能夠有效消除對抗后門。
3.6針對垂直聯(lián)邦學(xué)習(xí)的安全問題
聯(lián)邦學(xué)習(xí)分為水平聯(lián)邦學(xué)習(xí)(HFL)、垂直聯(lián)邦學(xué)習(xí)(VFL)和聯(lián)邦遷移學(xué)習(xí),研究發(fā)現(xiàn)VFL的底層模型結(jié)構(gòu)和梯度更新機制可以被惡意參與者利用,從而獲得推斷私有標(biāo)簽的權(quán)力,更嚴(yán)重的情況是通過濫用底層模型甚至可以推斷出訓(xùn)練數(shù)據(jù)之外的標(biāo)簽,基于這個問題,Chong Fu等人提出了針對VFL的三種類型的標(biāo)簽推斷攻擊,并對這些攻擊討論了可能的防御方法[10],他們的研究提出了VFL的隱藏風(fēng)險,使得VFL的發(fā)展更加安全。
4、未來挑戰(zhàn)與機遇
4.1信任問題
參與聯(lián)邦學(xué)習(xí)的客戶端很多,其中如果存在惡意客戶端,攻擊者可以利用模型參數(shù)和訓(xùn)練數(shù)據(jù)實施攻擊,聯(lián)邦服務(wù)器如何信任來自客戶機的報告是一個值得思考的問題。
4.2安全通信
聯(lián)邦學(xué)習(xí)需要多輪通信,不安全的通信信道會是一個安全隱患。
4.3可信的可溯源性
在聯(lián)邦學(xué)習(xí)的過程中確保全局模型的可跟蹤性是FL設(shè)置中的另一個主要挑戰(zhàn),例如,當(dāng)一個模型參數(shù)在訓(xùn)練的時候被修改或者更新,那么模型就要有跟蹤能力來確定哪個客戶機的更新導(dǎo)致了參數(shù)的更改[1]。
5、結(jié)束語
聯(lián)邦學(xué)習(xí)能夠讓多個合作方不共享各自的本地數(shù)據(jù)就能更新參數(shù)而廣受歡迎,但是聯(lián)邦學(xué)習(xí)的安全問題也隨之而來。本文介紹了聯(lián)邦學(xué)習(xí)訓(xùn)練過程中常見的攻擊方式:隱私推理攻擊、中毒攻擊、后門攻擊和拜占庭攻擊。并總結(jié)了防御這些攻擊的方法最新研究進(jìn)展,雖然這些方法能夠有效保證聯(lián)邦學(xué)習(xí)的安全,但是聯(lián)邦學(xué)習(xí)仍然存在一些無法完全解決的問題例如安全與效率的平衡、通信信道安全等問題。未來的聯(lián)邦學(xué)習(xí)安全研究依然有許多等待解決的問題和新型的多技術(shù)路徑融合發(fā)展方向。
參考文獻(xiàn)
[1] Mourad Benmalek,Mohamed Ali Benrekia & Yacine Challal.(2022).Security of Federated Learning: Attacks, Defensive Mechanisms, and Challenges. RIA(1). doi:10.18280/RIA.360106.
[2] K. Wei et al., "Federated Learning With Differential Privacy: Algorithms and Performance Analysis," in IEEE Transactions on Information Forensics and Security, vol. 15, pp. 3454-3469, 2020, doi: 10.1109/TIFS.2020.2988575.
[3] Y. Miao, Z. Liu, H. Li, K. -K. R. Choo and R. H. Deng, "Privacy-Preserving Byzantine-Robust Federated Learning via Blockchain Systems," in IEEE Transactions on Information Forensics and Security, vol. 17, pp. 2848-2861, 2022, doi: 10.1109/TIFS.2022.3196274.
[4] X. Liu, H. Li, G. Xu, Z. Chen, X. Huang and R. Lu, "Privacy-Enhanced Federated Learning Against Poisoning Adversaries," in IEEE Transactions on Information Forensics and Security, vol. 16, pp. 4574-4588, 2021, doi: 10.1109/TIFS.2021.3108434.
[5] G. Xu, H. Li, Y. Zhang, S. Xu, J. Ning and R. H. Deng, "Privacy-Preserving Federated Deep Learning With Irregular Users," in IEEE Transactions on Dependable and Secure Computing, vol. 19, no. 2, pp. 1364-1381, 1 March-April 2022, doi: 10.1109/TDSC.2020.3005909.
[6] G. Xu, H. Li, S. Liu, K. Yang and X. Lin, "VerifyNet: Secure and Verifiable Federated Learning," in IEEE Transactions on Information Forensics and Security, vol. 15, pp. 911-926, 2020, doi: 10.1109/TIFS.2019.2929409.
[7] J. Zhao, H. Zhu, F. Wang, R. Lu, Z. Liu and H. Li, "PVD-FL: A Privacy-Preserving and Verifiable Decentralized Federated Learning Framework," in IEEE Transactions on Information Forensics and Security, vol. 17, pp. 2059-2073, 2022, doi: 10.1109/TIFS.2022.3176191.
[8] L. Zhao, J. Jiang, B. Feng, Q. Wang, C. Shen and Q. Li, "SEAR: Secure and Efficient Aggregation for Byzantine-Robust Federated Learning," in IEEE Transactions on Dependable and Secure Computing, vol. 19, no. 5, pp. 3329-3342, 1 Sept.-Oct. 2022, doi: 10.1109/TDSC.2021.3093711.
[9] Nguyen, T.D., Rieger, P., Chen, H., Yalame, H., Mollering, H., Fereidooni, H., Marchal, S., Miettinen, M., Mirhoseini, A., Zeitouni, S., Koushanfar, F., Sadeghi, A., & Schneider, T. (2022). FLAME: Taming Backdoors in Federated Learning. USENIX Security Symposium.
[10] Xuhong Zhang,Shouling Ji,Jinyin Chen,Jingzheng Wu,Shanqing Guo,Jun Zhou,Alex X. Liu,Ting Wang.T. (2021).Label Inference Attacks Against Vertical Federated Learning.USENIX Security Symposium.?