
譯者 | 李睿
審校 | 重樓
隨著機(jī)器學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)的需求與日俱增,傳統(tǒng)的集中式訓(xùn)練方式在隱私要求、運(yùn)營效率低下以及消費(fèi)者日益增長的懷疑態(tài)度下不堪重負(fù)。由于道德和法律限制,醫(yī)療記錄或支付歷史等責(zé)任信息已經(jīng)難以被簡單地集中采集與處理。
在此背景下,聯(lián)邦學(xué)習(xí)提供了一種截然不同的解決方案:它摒棄了“將數(shù)據(jù)傳輸至模型”的傳統(tǒng)思路,轉(zhuǎn)而采用“將模型推送至數(shù)據(jù)所在端”的創(chuàng)新模式。參與方基于自身數(shù)據(jù)在本地完成模型訓(xùn)練,僅共享訓(xùn)練所得的模型更新(如梯度或權(quán)重),而原始數(shù)據(jù)則始終保留于本地。
這種方式不僅從根本上保障了數(shù)據(jù)機(jī)密性,也使得原本因數(shù)據(jù)隔離而無法協(xié)作的各方能夠共建共享智能模型,在保護(hù)隱私的同時(shí)打破了“數(shù)據(jù)孤島”。
存在的問題
集中式數(shù)據(jù)管道雖然推動(dòng)了人工智能的許多重大進(jìn)步,但這種方法也存在著重大風(fēng)險(xiǎn):
?隱私泄露:歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)、美國《健康保險(xiǎn)流通與責(zé)任法案》(HIPAA)以及印度的《數(shù)字個(gè)人數(shù)據(jù)保護(hù)法案》(DPDP)等法規(guī)對(duì)數(shù)據(jù)的收集、存儲(chǔ)和傳輸設(shè)置了嚴(yán)格的限制。
?運(yùn)行效率低下:在網(wǎng)絡(luò)之間復(fù)制TB規(guī)模的數(shù)據(jù)既耗時(shí)又昂貴。
?基礎(chǔ)設(shè)施成本高昂:存儲(chǔ)、保護(hù)和處理龐大的集中式數(shù)據(jù)集需要成本昂貴的基礎(chǔ)設(shè)施,對(duì)規(guī)模較小的組織構(gòu)成沉重負(fù)擔(dān)。
?偏見放大:集中式數(shù)據(jù)集會(huì)過度代表某些特定群體或機(jī)構(gòu)的特征,導(dǎo)致基于此類數(shù)據(jù)訓(xùn)練的模型在廣泛現(xiàn)實(shí)場景中的泛化能力下降。
上述問題使得集中式訓(xùn)練在多數(shù)實(shí)際應(yīng)用場景中難以有效推行。
新范例:聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)(FL)顛覆了傳統(tǒng)流程。它不是將原始數(shù)據(jù)集中到一個(gè)中心點(diǎn),而是將模型安裝到每個(gè)客戶端(設(shè)備、醫(yī)院或機(jī)構(gòu))。在本地進(jìn)行訓(xùn)練,只將產(chǎn)生的模型更新內(nèi)容(如權(quán)重或梯度)傳輸回中心。
聯(lián)邦學(xué)習(xí)從根本上顛覆了傳統(tǒng)的數(shù)據(jù)處理流程。它不再將原始數(shù)據(jù)匯集至中央服務(wù)器,而是將模型部署于每個(gè)客戶端(例如設(shè)備、醫(yī)院或機(jī)構(gòu))??蛻舳死帽镜?cái)?shù)據(jù)完成訓(xùn)練,僅將產(chǎn)生的模型更新(例如權(quán)重或梯度)回傳至中央服務(wù)器進(jìn)行聚合。
下圖展示了聯(lián)邦學(xué)習(xí)的工作流程:客戶端在本地訓(xùn)練模型,并將更新結(jié)果發(fā)送至中央服務(wù)器;中央服務(wù)器將這些更新內(nèi)容整合為一個(gè)全局模型。

谷歌公司在2016年率先應(yīng)用這一技術(shù),在無需收集用戶擊鍵數(shù)據(jù)的前提下,成功提升了Gboard輸入法的下一個(gè)單詞預(yù)測(cè)能力。鍵盤在設(shè)備端進(jìn)行本地學(xué)習(xí),只上傳模型更新,由系統(tǒng)整合為統(tǒng)一的全局模型。最終,谷歌在不損害任何用戶輸入隱私的情況下,持續(xù)優(yōu)化了數(shù)百萬設(shè)備的預(yù)測(cè)準(zhǔn)確性。

這一突破使得聯(lián)邦學(xué)習(xí)受到關(guān)注。谷歌公司在2016年發(fā)表的論文中使用的聯(lián)邦平均(FedAvg)算法構(gòu)成了大多數(shù)現(xiàn)代聯(lián)邦學(xué)習(xí)系統(tǒng)的核心。到2018年,研究人員通過壓縮技術(shù)和安全聚合解決了通信開銷和隱私問題。從2019年開始,聯(lián)邦學(xué)習(xí)進(jìn)入醫(yī)療、金融和制藥等敏感領(lǐng)域,這些領(lǐng)域的合作基于嚴(yán)格的數(shù)據(jù)隱私。
通過讓敏感信息始終保留在本地,聯(lián)邦學(xué)習(xí)將這一理念的應(yīng)用范圍從移動(dòng)鍵盤延伸至更廣闊的領(lǐng)域,使得以往相互隔離的“數(shù)據(jù)孤島”得以實(shí)現(xiàn)協(xié)同智能,從而在不犧牲隱私的前提下開辟了新的可能性。
隱私優(yōu)先
聯(lián)邦學(xué)習(xí)在設(shè)計(jì)之初便將隱私保護(hù)作為其核心原則:原始數(shù)據(jù)無需離開本地,其訓(xùn)練過程均在終端設(shè)備或機(jī)構(gòu)內(nèi)部服務(wù)器上完成。這一架構(gòu)使其符合GDPR、HIPAA等數(shù)據(jù)法規(guī)的嚴(yán)格要求,使組織能夠在合規(guī)前提下持續(xù)推動(dòng)技術(shù)創(chuàng)新。
更重要的是,聯(lián)邦學(xué)習(xí)成功釋放了諸如醫(yī)療記錄、銀行交易歷史等敏感數(shù)據(jù)的潛力——這些信息曾因隱私與合規(guī)顧慮而長期分散孤立。與此同時(shí),該系統(tǒng)具備卓越的可擴(kuò)展性,能夠?qū)崟r(shí)協(xié)調(diào)數(shù)百萬臺(tái)設(shè)備同步參與訓(xùn)練。
在安全層面,聯(lián)邦學(xué)習(xí)憑借其分布式數(shù)據(jù)存儲(chǔ)特性,顯著降低了系統(tǒng)性風(fēng)險(xiǎn):單一節(jié)點(diǎn)的安全漏洞不會(huì)導(dǎo)致整個(gè)數(shù)據(jù)庫遭受威脅。此外,該技術(shù)還在保障隱私的同時(shí)實(shí)現(xiàn)了高效的個(gè)性化:本地模型持續(xù)學(xué)習(xí)用戶特定行為(如鍵盤輸入習(xí)慣與語音特征),而聚合后的全局模型則不斷迭代優(yōu)化,使所有用戶共同受益。
一個(gè)值得關(guān)注的案例研究是醫(yī)療領(lǐng)域:多家醫(yī)院使用聯(lián)邦學(xué)習(xí)來預(yù)測(cè)敗血癥風(fēng)險(xiǎn)。每家醫(yī)院都在本地進(jìn)行學(xué)習(xí),并只交換匿名化處理的信息,這使得這些醫(yī)院的預(yù)測(cè)性能都得到了提高,并且遵循了患者隱私與合規(guī)要求(Rodolfo,2022)。
由于數(shù)據(jù)保留在本地,僅共享模型更新仍可能隱含敏感模式泄露的風(fēng)險(xiǎn)。差分隱私(DP)被引入作為有效補(bǔ)充,通過在更新中注入可控噪聲,使得網(wǎng)絡(luò)攻擊者難以通過更新獲得用戶信息。
安全多方計(jì)算(SMPC)和同態(tài)加密(HE)在聚合時(shí)以一種任何人(甚至是服務(wù)器)無法知道原始貢獻(xiàn)的方式保護(hù)更新。
此外,聯(lián)邦學(xué)習(xí)仍面臨對(duì)抗性攻擊風(fēng)險(xiǎn)擊的挑戰(zhàn):例如模型中毒允許注入惡意更新,推理攻擊可能試圖獲取機(jī)密信息。目前防御方法包括:強(qiáng)大的聚合規(guī)則、異常檢測(cè)以及能夠在安全性和模型實(shí)用性之間取得平衡的隱私保護(hù)方法。
聯(lián)邦學(xué)習(xí)的類型
聯(lián)邦學(xué)習(xí)并不是“一刀切”的方案。其架構(gòu)需根據(jù)機(jī)構(gòu)的數(shù)據(jù)分布特點(diǎn)調(diào)整。有時(shí),不同組織收集不同用戶群體的相似信息;有時(shí)收集相似用戶群體的不同信息;有時(shí)甚至是用戶和特征部分重疊的信息。針對(duì)這些場景,聯(lián)邦學(xué)習(xí)被具體分為三類:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)。

橫向聯(lián)邦學(xué)習(xí)
橫向聯(lián)邦學(xué)習(xí)是指在多個(gè)組織間開展協(xié)作學(xué)習(xí)的一種模式,其特點(diǎn)是各參與方數(shù)據(jù)特征空間相同,但覆蓋的用戶群體不同。例如,不同醫(yī)院可能擁有結(jié)構(gòu)相同的患者信息(如年齡、血壓、血糖水平等),但這些數(shù)據(jù)來源于不同的患者群體。在該模式下,各方僅在本地進(jìn)行模型訓(xùn)練,只上傳模型參數(shù)更新(而不是原始數(shù)據(jù)),從而在無需共享數(shù)據(jù)的前提下,共同構(gòu)建更優(yōu)的全局模型,通過這種方式可以有效提升模型的泛化能力(Jose, 2024)。
垂直聯(lián)邦學(xué)習(xí)
在縱向聯(lián)邦學(xué)習(xí)中,多個(gè)組織擁有同一批客戶群體,但各自掌握不同的特征數(shù)據(jù)。例如,銀行可能持有客戶的資金流水記錄,而電子商務(wù)公司則擁有同一批用戶的購物歷史。雙方可通過加密信道安全地整合這些互補(bǔ)的數(shù)據(jù)特征,在不泄露原始數(shù)據(jù)的情況下訓(xùn)練聯(lián)邦共享的模型。該機(jī)制為欺詐檢測(cè)、風(fēng)險(xiǎn)評(píng)估與信用評(píng)分等場景提供了高效且合規(guī)的解決方案(Abdullah, 2025)。
聯(lián)邦遷移學(xué)習(xí)
聯(lián)邦遷移學(xué)習(xí)則適用于各方數(shù)據(jù)主體重疊度較低、特征交集極少的場景。例如,一家機(jī)構(gòu)可能擁有醫(yī)學(xué)影像數(shù)據(jù),而另一家機(jī)構(gòu)則掌握不同患者群體的實(shí)驗(yàn)室數(shù)據(jù)。即使在這樣的數(shù)據(jù)異構(gòu)條件下,聯(lián)邦遷移學(xué)習(xí)仍能借助聯(lián)邦模型更新,安全地遷移已經(jīng)學(xué)習(xí)到的特征表示,從而在不共享原始數(shù)據(jù)的前提下實(shí)現(xiàn)跨機(jī)構(gòu)協(xié)作。
WeiGuo(2024)指出,其所提出的方法進(jìn)一步將聯(lián)邦學(xué)習(xí)推廣至地理分散、數(shù)據(jù)高度異構(gòu)的環(huán)境中,顯著增強(qiáng)了跨行業(yè)、跨研究領(lǐng)域的隱私保護(hù)協(xié)作能力。
聯(lián)邦學(xué)習(xí)的工作原理
聯(lián)邦學(xué)習(xí)是一種分布式機(jī)器學(xué)習(xí)模式,多個(gè)客戶端(例如電話、醫(yī)院或公司)利用本地?cái)?shù)據(jù)訓(xùn)練模型。原始數(shù)據(jù)不會(huì)上傳到某個(gè)中間人服務(wù)器,而上傳的是模型更新內(nèi)容。
步驟1:客戶端選擇和模型初始化
中間人服務(wù)器初始化全局模型,并選擇符合條件的客戶端(在線狀態(tài)、空閑狀態(tài)、數(shù)據(jù)量是否充足)。
步驟2:本地訓(xùn)練
被選中的客戶端使用本地?cái)?shù)據(jù),通過小批量隨機(jī)梯度下降等常用算法對(duì)接收到的全局模型進(jìn)行訓(xùn)練。

可選的隱私保護(hù)措施:安全飛地(基于硬件的保護(hù))或差分隱私(添加噪聲)。
步驟3:模型更新共享
客戶端不發(fā)送原始數(shù)據(jù);與其相反,它們會(huì)發(fā)送參數(shù)更新(梯度/權(quán)重)。這些更新內(nèi)容可以通過安全聚合進(jìn)行加密或屏蔽。
步驟4:聯(lián)邦平均(FedAvg)
服務(wù)器使用聯(lián)邦平均(FedAvg)聚合客戶端更新:

其中Nk是客戶端k的數(shù)據(jù)集的大小。
異步或分層聚合可用于大規(guī)模部署以提高效率。
步驟5:全局模型分發(fā)和迭代
新生成的全局模型會(huì)被重新分發(fā)以進(jìn)行另一輪訓(xùn)練。迭代會(huì)持續(xù)進(jìn)行,直到模型收斂或達(dá)到性能目標(biāo)。
實(shí)際應(yīng)用示例
谷歌的“Hey Google”語音查詢功能使用了聯(lián)邦學(xué)習(xí),使得語音數(shù)據(jù)在每部手機(jī)上進(jìn)行本地處理。手機(jī)只傳輸模型更新內(nèi)容,而不是聲音片段,從而確保了在不犧牲隱私的情況下保證更好的模型(Jianyu, 2021)。
核心技術(shù)組件
聯(lián)邦學(xué)習(xí)使得多個(gè)分散的客戶端能夠在不共享原始數(shù)據(jù)的情況下協(xié)作學(xué)習(xí)機(jī)器學(xué)習(xí)模型。分布式模型依賴于多個(gè)管理計(jì)算、通信、聚合和安全的技術(shù)組件。由于這些組成部分之間的協(xié)同作用,聯(lián)邦學(xué)習(xí)的范式具有可擴(kuò)展性、高效性和隱私保護(hù)性。
1.聯(lián)邦平均(FedAvg)
聯(lián)邦平均(FedAvg)是聯(lián)邦學(xué)習(xí)的核心。在該模型中,每個(gè)客戶端都根據(jù)自己的數(shù)據(jù)在本地訓(xùn)練模型,并將參數(shù)更新發(fā)送到中央服務(wù)器,而不是模型本身。服務(wù)器將這些更新(最常見的是通過平均)整合到全局模型中。這個(gè)過程在訓(xùn)練中反復(fù)迭代,直到收斂。
以下摘錄提到了基本步驟:在客戶端數(shù)據(jù)上進(jìn)行本地訓(xùn)練,獨(dú)立地將更新內(nèi)容(而不是原始數(shù)據(jù))傳輸?shù)椒?wù)器,以及服務(wù)器對(duì)更新進(jìn)行平均以提高全局模型的準(zhǔn)確性。
Python
global_model = initialize_model()
for round in range(num_rounds):
client_weights = []
client_sizes = []
# Each client trains locally
for client in clients:
local_model = copy(global_model)
local_data = client.get_data()
# Local training (e.g., a few epochs of SGD)
local_model.train(local_data)
# Collect weights and data size
client_weights.append(local_model.get_weights())
client_sizes.append(len(local_data))
# Weighted average aggregation
total_size = sum(client_sizes)
avg_weights = sum((size/total_size) * weights
for size, weights in zip(client_sizes, client_weights))
# Update global model
global_model.set_weights(avg_weights)
print(f"Completed round {round+1}, global model updated.")2.同步機(jī)制
有兩種方法可以對(duì)模型更新內(nèi)容進(jìn)行同步:
- 同步訓(xùn)練:服務(wù)器保持空閑狀態(tài),直到所有客戶機(jī)完成更新并取其平均值。它提供了一致性,但可能會(huì)因運(yùn)行較慢的設(shè)備增加延遲(“滯后節(jié)點(diǎn)問題”)。
- 異步訓(xùn)練:服務(wù)器會(huì)在收到更新內(nèi)容時(shí)立即進(jìn)行更新,從而更快地完成工作,但偶爾會(huì)使用稍微過時(shí)的參數(shù)。
3.客戶端設(shè)備
客戶端是聯(lián)邦學(xué)習(xí)的基石。它們可能是智能手機(jī)、物聯(lián)網(wǎng)設(shè)備或大型企業(yè)服務(wù)器。每個(gè)客戶端在本地使用私有數(shù)據(jù)訓(xùn)練模型,并只共享更新內(nèi)容,這有助于保護(hù)隱私,同時(shí)還捕獲參與者之間非獨(dú)立同分布(non-IID)數(shù)據(jù)集的多樣性。
4.中央服務(wù)器(聚合器)
聚合器負(fù)責(zé)處理訓(xùn)練工作。它提供初始的全局模型,收集客戶端的更新內(nèi)容,將其整合,并重新分發(fā)改進(jìn)后的模型。它還必須應(yīng)對(duì)現(xiàn)實(shí)世界中的挑戰(zhàn),例如客戶流失、硬件能力的變化和參與水平的不平衡。
5.通信效率
由于聯(lián)邦學(xué)習(xí)在大多數(shù)情況下是在帶寬受限的設(shè)備和網(wǎng)絡(luò)上運(yùn)行的,因此必須最小化通信開銷。模型壓縮、稀疏化和量化等方法可以在不犧牲模型性能的情況下顯著降低數(shù)據(jù)傳輸成本。
6.處理異構(gòu)性
客戶端設(shè)備在數(shù)據(jù)分布、計(jì)算和網(wǎng)絡(luò)穩(wěn)定性方面具有高度的異構(gòu)性。為了解決這個(gè)問題,個(gè)性化聯(lián)邦學(xué)習(xí)和FedProx優(yōu)化等方法使模型能夠在動(dòng)態(tài)條件下表現(xiàn)良好,從而促進(jìn)公平性和魯棒性。
7.容錯(cuò)性和魯棒性
最后,聯(lián)邦學(xué)習(xí)系統(tǒng)對(duì)失敗甚至主動(dòng)的惡意嘗試具有彈性??蛻舳瞬蓸?、退出處理、異常檢測(cè)和信譽(yù)評(píng)估等技術(shù)即使在動(dòng)蕩的環(huán)境中也能確??煽啃?。
效率優(yōu)化技術(shù)
聯(lián)邦學(xué)習(xí)通過壓縮模型更新的方法將通信成本降至最低。稀疏化、量化和壓縮在不犧牲模型精度的情況下減少了數(shù)據(jù)大小,從而使得即使在低帶寬設(shè)備上也可以進(jìn)行訓(xùn)練。
壓縮技術(shù)
壓縮方法通過減少冗余信息的表示以最小化客戶端和服務(wù)器之間傳輸?shù)哪P透聝?nèi)容的大小。例如,預(yù)測(cè)編碼消除了模型梯度中的冗余,在不影響學(xué)習(xí)性能的情況下大幅降低了通信成本。

量化
量化通過使用更低精度的數(shù)值(例如將32位浮點(diǎn)數(shù)轉(zhuǎn)換為8位整數(shù))來表示模型權(quán)重或梯度,從而減少通信開銷。近年來的研究引入了誤差補(bǔ)償機(jī)制,以最大限度地減少精度損失,使量化成為帶寬受限聯(lián)邦系統(tǒng)的可行解決方案。
稀疏化
稀疏化通過僅傳輸對(duì)模型性能有關(guān)鍵影響的梯度更新,同時(shí)舍棄貢獻(xiàn)微小的部分,以此降低通信負(fù)載。在實(shí)際應(yīng)用中,這種方法能大幅減少傳輸數(shù)據(jù)量,如果與量化技術(shù)結(jié)合,則可實(shí)現(xiàn)更高的壓縮比。
構(gòu)建隱私優(yōu)先的未來
聯(lián)邦學(xué)習(xí)不僅是一種在沒有原始數(shù)據(jù)的情況下訓(xùn)練模型的方法,也是人工智能系統(tǒng)中數(shù)據(jù)、協(xié)作和信任管理的重新定義。
數(shù)據(jù)主權(quán)
通過保留原始數(shù)據(jù)或機(jī)器的信息,聯(lián)邦學(xué)習(xí)可以滿足GDPR和HIPAA等高度嚴(yán)格的隱私法規(guī),并且可以在不公開敏感數(shù)據(jù)的情況下實(shí)現(xiàn)跨國協(xié)作。
英偉達(dá)公司與倫敦國王學(xué)院、Owkin公司合作,使用聯(lián)邦學(xué)習(xí)在多家醫(yī)院訓(xùn)練腦腫瘤分割模型。各個(gè)機(jī)構(gòu)都在從BraTS 2018數(shù)據(jù)集中獲取的磁共振成像(MRI)掃描上進(jìn)行本地訓(xùn)練,并只共享匿名化更新內(nèi)容,并通過差分隱私技術(shù)增強(qiáng)隱私保護(hù)。最終,聯(lián)邦學(xué)習(xí)方案的準(zhǔn)確率與中心化訓(xùn)練相當(dāng),且患者信息全程未離開醫(yī)院服務(wù)器。這清晰地表明了聯(lián)邦學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的可行性(英偉達(dá)與倫敦國王學(xué)院,2019年)。
人工智能民主化
聯(lián)邦學(xué)習(xí)使得小型機(jī)構(gòu)與邊緣設(shè)備能夠通過共享模型更新(而非數(shù)據(jù))來參與協(xié)作訓(xùn)練。谷歌Gboard等案例表明,聯(lián)邦學(xué)習(xí)能夠優(yōu)化數(shù)百萬設(shè)備的系統(tǒng)性能,而無需集中任何數(shù)據(jù)。
魯棒性和安全性
聯(lián)邦學(xué)習(xí)通過引入安全聚合和差分隱私等技術(shù)來增強(qiáng)保護(hù)。這確保了即使是由設(shè)備發(fā)送的微小模型更改也不能被反編譯。也就是說,黑客甚至中央服務(wù)器都無法使用共享參數(shù)拼湊敏感的本地?cái)?shù)據(jù)。
更公平的代表性
聯(lián)邦學(xué)習(xí)基于各種分散的數(shù)據(jù)進(jìn)行訓(xùn)練,從而最大限度地減少了在小規(guī)模集中數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí)可能出現(xiàn)的偏差。這提高了模型在不同人群中的代表性,增強(qiáng)了醫(yī)療、金融服務(wù)和教育等領(lǐng)域的公平性。
結(jié)論
聯(lián)邦學(xué)習(xí)有力地證明,隱私保護(hù)與模型性能無需以犧牲對(duì)方為代價(jià)。通過將數(shù)據(jù)保留在源頭,同時(shí)實(shí)現(xiàn)協(xié)同智能,聯(lián)邦學(xué)習(xí)解決了人工智能面臨的一些核心挑戰(zhàn):合規(guī)性、信任、公平性和安全性。從數(shù)百萬臺(tái)智能手機(jī)優(yōu)化預(yù)測(cè)輸入法,到協(xié)助多家醫(yī)院改善患者治療效果,這項(xiàng)技術(shù)已經(jīng)在重塑智能系統(tǒng)的構(gòu)建方式。
人工智能的未來不再是以犧牲隱私為代價(jià),而是在其背后構(gòu)建智能系統(tǒng)。聯(lián)邦學(xué)習(xí)不僅僅是一項(xiàng)技術(shù)方案,更是引領(lǐng)人們邁向更安全、更民主、更具代表性的人工智能未來的路線圖。
原文標(biāo)題:Federated Learning: Training Models Without Sharing Raw Data,作者:Saisuman Singamsetty



































