GPT4規(guī)模大模型落地,Meta提ExFM框架:萬億參數(shù)基礎(chǔ)大模型的工業(yè)級落地成為可能
如何讓萬億級基礎(chǔ)大模型能夠高效、低成本地服務(wù)于大規(guī)模工業(yè)級應(yīng)用,并且讓能夠隨著模型規(guī)模的提升(Scaling)而得到持續(xù)的性能增長?這一直是眾多企業(yè)困擾良久的難題。
在線廣告推薦系統(tǒng)是互聯(lián)網(wǎng)平臺的核心服務(wù)之一,其模型性能直接影響用戶體驗與商業(yè)價值。近年來,隨著 GPT-4、 DeepSeek、 Llama 等萬億參數(shù)基礎(chǔ)模型的成功,工業(yè)界和學(xué)術(shù)界開始探索通過模型規(guī)?;⊿caling)的方式建立基礎(chǔ)大模型來提升推薦效果。
然而,受限于其巨額訓(xùn)練以及計算成本,以及工業(yè)級廣告實時推薦對延時性以及部署計算資源的嚴(yán)格要求,基礎(chǔ)大模型幾乎很難被直接地應(yīng)用于實時廣告排序以及推薦系統(tǒng),尤其是考慮到很多公司無法負(fù)擔(dān)大規(guī)模的 GPU 來服務(wù)巨量用戶群體。
因此,目前工業(yè)界廣泛考慮讓基礎(chǔ)大模型(Foundation Model)的能力遷移到線上小模型(Vertical Model)當(dāng)中以提高在線模型的能力,且主要采用教師-學(xué)生蒸餾(teacher-student distillation)。不過,此類解決方案在廣告工業(yè)中的應(yīng)用依舊面臨著兩大長期被忽視的挑戰(zhàn):受限的訓(xùn)練/推理預(yù)算,與動態(tài)變化的流式數(shù)據(jù)分布。這些挑戰(zhàn)的存在使得大模型對線上模型的幫助受限,且無法規(guī)模化提升線上模型的性能。
本周,在 Meta AI 研究團(tuán)隊提交的一篇論文中,研究團(tuán)隊提出 External Large Foundation Model(ExFM)框架,首次系統(tǒng)性地解決了上述問題,成功支持萬億參數(shù)大模型在廣告推薦中的高效服務(wù)。據(jù)文章描述,ExFM 框架實現(xiàn)了以下 SOTA 成果:
- 規(guī)模化大模型及線上模型的迭代部署:ExFM 解耦了教師模型和學(xué)生模型的迭代和部署,在接近于 0 服務(wù)成本的情況下成功部署萬億級別參數(shù)的工業(yè)級大模型(類 GPT-4 規(guī)模),顯著降低了工業(yè)界受益于大模型的門檻和成本。ExFM 創(chuàng)新的提出數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS),使得模型在等待線上用戶的真實訓(xùn)練標(biāo)簽(ground-truth label, 如用戶最終的點擊或購買行為)的時間里完成教師模型的參數(shù)更新與相應(yīng)的偽標(biāo)簽預(yù)測,達(dá)到對服務(wù)延遲沒有額外要求。
- 高效的知識遷移轉(zhuǎn)化率:ExFM 創(chuàng)新地提出了輔助頭(Auxiliary Head)以及學(xué)生適配器(Student Adapter)來解耦教師與學(xué)生模型,減少流式數(shù)據(jù)分布變化對教師模型與學(xué)生模型訓(xùn)練過程中引入的偏置對知識遷移的影響,從而提高教師模型到學(xué)生模型的知識遷移轉(zhuǎn)化率,并對此進(jìn)行了相應(yīng)的理論分析。經(jīng)驗結(jié)果表明,這兩項新技術(shù)在內(nèi)部以及公開數(shù)據(jù)上皆取得了 SOTA 的結(jié)果。
- 實現(xiàn) 1 到 N 的知識遷移轉(zhuǎn)化:在 ExFM 的賦能下,不同領(lǐng)域、任務(wù)、階段里負(fù)責(zé)廣告排序的線上模型均實現(xiàn)了 SOTA 表現(xiàn)。
- 新型的 Transfer Scaling Law:在 ExFM 的賦能下,當(dāng)不斷迭代和提升基礎(chǔ)大模型的模型規(guī)模時,其高效的知識轉(zhuǎn)化率使得線上的廣告排序模型的性能呈現(xiàn)出連續(xù)數(shù)年的持續(xù)提升(圖 1),且增速在不斷擴(kuò)大,展示了一種新型的 Transfer Scaling Law。
圖 1:內(nèi)部數(shù)據(jù)上基于不同規(guī)模的 FM 對 VM 進(jìn)行迭代下取得的 NE 增益(時間跨度從 2023 年至 2024 年)。1X 等于 60 Million training FLOPs,1T 指 1 Trillion。
目前該論文已被 WWW 2025 Industrial Track 錄用為口頭報告 (Oral Presentation,根據(jù)往年數(shù)據(jù)一般為 top 10% 的論文)。本文將深入解析這一技術(shù)突破的核心思想與創(chuàng)新實踐。
- 論文標(biāo)題:External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation
- 論文鏈接:https://arxiv.org/abs/2502.17494
規(guī)模化的隱形門檻
工業(yè)級推薦的兩大挑戰(zhàn)
現(xiàn)有廣告推薦方面的研究多聚焦于模型架構(gòu)創(chuàng)新與參數(shù)規(guī)模擴(kuò)展,但工業(yè)場景的特殊性導(dǎo)致線上部署的模型會面臨以下兩個主要挑戰(zhàn):
1. (C-1) 大流量下嚴(yán)格的延遲限制
- 廣告推薦需在毫秒級響應(yīng)中從海量候選廣告(O (100K))中實時篩選,模型推理延遲將直接影響用戶體驗。
- 傳統(tǒng)知識蒸餾(KD)需聯(lián)合訓(xùn)練師生模型,顯著增加計算成本和線上模型更新迭代的延遲,無法滿足工業(yè)級模型實時更新的需求。
2. (C-2) 流式數(shù)據(jù)的動態(tài)漂移
- 用戶與廣告數(shù)量會出現(xiàn)大規(guī)模的實時增減,這導(dǎo)致數(shù)據(jù)分布持續(xù)變化。傳統(tǒng)多輪訓(xùn)練易出現(xiàn)過時,具體指的是線上模型更新完成的時間點落后于即時數(shù)據(jù)到達(dá)的時間點而使得大量實時數(shù)據(jù)無法被納入訓(xùn)練,導(dǎo)致模型訓(xùn)練后性能不足。并且多輪訓(xùn)練的計算代價高昂,這是因為實時數(shù)據(jù)的規(guī)模異常龐大且與日俱增。
- 教師模型,如基礎(chǔ)模型(FM),與垂直模型(VM)間的跨域偏差與新鮮度差異進(jìn)一步加劇性能衰減。
圖 2:(a)聯(lián)合蒸餾(Co-Distillation)與外部蒸餾(External Distillation);(b)流式數(shù)據(jù)下的模型迭代更新示意圖;(c)ExFM 框架,以一次模型迭代為例的示意圖。
對于解決挑戰(zhàn) C-1,常見的解決手段基于知識蒸餾,如果圖 2(a)所示,即把一個參數(shù)量大的教師模型與一個參數(shù)量小的學(xué)生模型進(jìn)行聯(lián)合訓(xùn)練,而學(xué)生模型會用于在線廣告推薦。然而在現(xiàn)實場景中,聯(lián)合訓(xùn)練將增加學(xué)生模型的訓(xùn)練復(fù)雜度以至于無法滿足工業(yè)級應(yīng)用對在線模型進(jìn)行更新訓(xùn)練的延時要求。另一方面,廣告推薦往往涉及多個在線服務(wù)模型,每一個模型需要負(fù)責(zé)特定的階段的廣告排序任務(wù)。若對每個服務(wù)模型都建立對應(yīng)的教師模型將非常低效且無法規(guī)?;?/span>
因此,本文認(rèn)為一個理想的教師模型應(yīng)該滿足以下兩點需求:
- 教師模型應(yīng)該獨立于學(xué)生模型,即進(jìn)行外部整理,如圖 2(a)所示。
- 教師模型應(yīng)該像一個基礎(chǔ)模型一樣滿足 1-to-N,即一個教師模型可以幫助多個不同方向的學(xué)生模型的性能提升。
然而在線廣告工業(yè)中的流式及動態(tài)變化的數(shù)據(jù)分布(挑戰(zhàn) C-2)使得實現(xiàn)理想的教師模型變得相當(dāng)困難。如圖 2(b)所示,模型需要持續(xù)訓(xùn)練以應(yīng)對不斷出現(xiàn)的分布漂移。對此 Meta 內(nèi)部數(shù)據(jù)顯示,若模型停止更新,其歸一化熵?fù)p失(NE)隨延遲時間呈指數(shù)級上升(如圖 3 所示)。這迫使工業(yè)系統(tǒng)必須在「模型規(guī)?!古c「服務(wù)效率」間尋求平衡。
圖 3:點擊率預(yù)測(CTR)隨著模型更新延遲而出現(xiàn)嚴(yán)重的下滑。
為了解決上述的挑戰(zhàn),本文提出 ExFM 框架。ExFM的核心思想是通過外部蒸餾將基礎(chǔ)模型(FM)的知識高效遷移至多個垂直模型(VM),并結(jié)合動態(tài)適配機(jī)制應(yīng)對數(shù)據(jù)漂移。該框架的核心優(yōu)勢包括:
- 零額外推理延遲:通過外部蒸餾與數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS),萬億 FM 的預(yù)測離線生成,VM 服務(wù)延遲與基線持平。
- 動態(tài)適應(yīng)能力:流式訓(xùn)練與適配器設(shè)計使模型持續(xù)適應(yīng)數(shù)據(jù)分布變化,NE 增益能夠隨著時間推移以更大增速進(jìn)行擴(kuò)大。
ExFM 框架
外部蒸餾與動態(tài)適應(yīng)的雙重革新
具體而言,ExFM 的技術(shù)架構(gòu)如圖 2 (c) 所示,包含四大創(chuàng)新模塊:
1. 外部蒸餾與數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS, 見圖 4)
- 解耦師生訓(xùn)練:FM 獨立于 VM 訓(xùn)練,通過離線生成預(yù)測標(biāo)簽作為監(jiān)督信號,避免聯(lián)合訓(xùn)練的計算開銷。
- 1:N 資源共享:FM 聚合多個 VM 的數(shù)據(jù)進(jìn)行訓(xùn)練,以「基礎(chǔ)模型」形式服務(wù)多個垂直場景,顯著攤薄構(gòu)建成本。
- DAS 系統(tǒng)設(shè)計:通過分布式快照管理(Zeus)與數(shù)據(jù)流水線優(yōu)化,實現(xiàn) FM 預(yù)測的實時記錄與高效分發(fā),確保 VM 訓(xùn)練數(shù)據(jù)始終包含最新 FM 知識。
圖 4:數(shù)據(jù)增強(qiáng)系統(tǒng)(Data Augmentation Service,DAS)
2. 輔助頭
傳統(tǒng)蒸餾將 FM 預(yù)測與真實標(biāo)簽通過同一頭部融合,導(dǎo)致偏差傳遞。ExFM 創(chuàng)新性引入獨立輔助頭(圖 5a):
- 解耦監(jiān)督信號:真實標(biāo)簽由服務(wù)頭處理,F(xiàn)M 預(yù)測由輔助頭處理,阻斷偏差傳播路徑。
- 梯度/標(biāo)簽縮放技術(shù):通過放大 FM 預(yù)測的梯度影響與標(biāo)簽幅值,解決廣告點擊數(shù)據(jù)的長尾分布難題。
文中對此進(jìn)行理論分析顯示,輔助頭可確保 VM 在真實標(biāo)簽任務(wù)上收斂至最優(yōu)解,而傳統(tǒng)單頭架構(gòu)因偏差傳遞無法實現(xiàn)。
圖 5:(a)輔助頭(Auxiliary Head)(b)學(xué)生適配器(Student Adapter)
3. 學(xué)生適配器(Student Adapter)
針對 FM 與 VM 間的新鮮度差異,ExFM 提出輕量級適配模塊(圖 5b):
- 動態(tài)校正機(jī)制:通過小型 MLP 網(wǎng)絡(luò)實時調(diào)整 FM 預(yù)測,使其適配 VM 的當(dāng)前數(shù)據(jù)分布。
- 理論保障:文中給出理論分析表明,適配器可將模型偏差降低,顯著優(yōu)于傳統(tǒng)方法。
4. 流式訓(xùn)練范式
- FM 與 VM 均采用單輪流式訓(xùn)練,每日處理超 3000 億樣本,模型參數(shù)逐日迭代更新。
- 系統(tǒng)支持分鐘級快照切換,確保服務(wù)高可用性。
實驗結(jié)果
性能飛躍與工業(yè)驗證
ExFM 在 Meta 內(nèi)部數(shù)據(jù)集與公開數(shù)據(jù)集(TaobaoAd、Amazon 等)上均取得顯著效果:
1. 單 VM 性能提升
- 內(nèi)部場景中,3.2 萬億參數(shù)的 FM 使 VM 的歸一化熵(NE)持續(xù)降低,性能增益隨訓(xùn)練數(shù)據(jù)量增長呈類指數(shù)上升(圖 1)。
- 公開數(shù)據(jù)集上(表 1),ExFM 在不同 FM-VM 組合均取得性能的提升。
表 1:公開數(shù)據(jù)集上的表現(xiàn)
2. 跨場景泛化能力
- 單一 FM 可同時服務(wù)廣告系統(tǒng)的召回、粗排、精排多階段 VM(圖 6),NE 增益達(dá) 0.11%-0.25%。
- 在跨域(表 4)與多任務(wù)(表 5)場景中,ExFM 均顯著優(yōu)于無 FM 基線,驗證其通用性。
圖 6:內(nèi)部數(shù)據(jù)上 1000X,3.2T FM 對 跨階段(cross-stage) VM 的 NE 增益
表 4(左)及 表 5(右):公開數(shù)據(jù)集上 FM 對跨域以及跨任務(wù)的 VM 的性能提升
3. 模塊消融實驗
- 輔助頭(AH)貢獻(xiàn)主要性能增益,使學(xué)生模型 NE 降低 4%(圖 7)。
- 學(xué)生適配器(SA)在 FM 更新延遲時仍能維持 0.08% 的 NE 增益(圖 8),但其效果依賴 FM 的持續(xù)迭代(圖 9)。
圖 7(左):對 1000X 3.2T 的 FM 增加輔助頭(AH)后的 NE 變化; 圖 8(右):對 1800X,2.2T 的 FM 增加學(xué)生適配器(SA)后的 NE 變化
圖 9:公開數(shù)據(jù)集上,當(dāng) FM 的更新出現(xiàn)延遲的時,學(xué)生適配器的性能變化
結(jié)論
在本論文中,Meta AI 研究團(tuán)隊提出了 ExFM 框架以實現(xiàn)萬億參數(shù)量的基礎(chǔ)大模型對實時廣告推薦模型進(jìn)行持續(xù)、規(guī)?;男阅芴嵘?。降低了LLM規(guī)模的大模型在 recsys domain 的門檻,開啟了「foundation model for RecSys 」領(lǐng)域的時代。