GPT4規(guī)模大模型落地,Meta提ExFM框架:萬(wàn)億參數(shù)基礎(chǔ)大模型的工業(yè)級(jí)落地成為可能
如何讓萬(wàn)億級(jí)基礎(chǔ)大模型能夠高效、低成本地服務(wù)于大規(guī)模工業(yè)級(jí)應(yīng)用,并且讓能夠隨著模型規(guī)模的提升(Scaling)而得到持續(xù)的性能增長(zhǎng)?這一直是眾多企業(yè)困擾良久的難題。
在線廣告推薦系統(tǒng)是互聯(lián)網(wǎng)平臺(tái)的核心服務(wù)之一,其模型性能直接影響用戶體驗(yàn)與商業(yè)價(jià)值。近年來,隨著 GPT-4、 DeepSeek、 Llama 等萬(wàn)億參數(shù)基礎(chǔ)模型的成功,工業(yè)界和學(xué)術(shù)界開始探索通過模型規(guī)?;⊿caling)的方式建立基礎(chǔ)大模型來提升推薦效果。
然而,受限于其巨額訓(xùn)練以及計(jì)算成本,以及工業(yè)級(jí)廣告實(shí)時(shí)推薦對(duì)延時(shí)性以及部署計(jì)算資源的嚴(yán)格要求,基礎(chǔ)大模型幾乎很難被直接地應(yīng)用于實(shí)時(shí)廣告排序以及推薦系統(tǒng),尤其是考慮到很多公司無(wú)法負(fù)擔(dān)大規(guī)模的 GPU 來服務(wù)巨量用戶群體。
因此,目前工業(yè)界廣泛考慮讓基礎(chǔ)大模型(Foundation Model)的能力遷移到線上小模型(Vertical Model)當(dāng)中以提高在線模型的能力,且主要采用教師-學(xué)生蒸餾(teacher-student distillation)。不過,此類解決方案在廣告工業(yè)中的應(yīng)用依舊面臨著兩大長(zhǎng)期被忽視的挑戰(zhàn):受限的訓(xùn)練/推理預(yù)算,與動(dòng)態(tài)變化的流式數(shù)據(jù)分布。這些挑戰(zhàn)的存在使得大模型對(duì)線上模型的幫助受限,且無(wú)法規(guī)?;嵘€上模型的性能。
本周,在 Meta AI 研究團(tuán)隊(duì)提交的一篇論文中,研究團(tuán)隊(duì)提出 External Large Foundation Model(ExFM)框架,首次系統(tǒng)性地解決了上述問題,成功支持萬(wàn)億參數(shù)大模型在廣告推薦中的高效服務(wù)。據(jù)文章描述,ExFM 框架實(shí)現(xiàn)了以下 SOTA 成果:
- 規(guī)模化大模型及線上模型的迭代部署:ExFM 解耦了教師模型和學(xué)生模型的迭代和部署,在接近于 0 服務(wù)成本的情況下成功部署萬(wàn)億級(jí)別參數(shù)的工業(yè)級(jí)大模型(類 GPT-4 規(guī)模),顯著降低了工業(yè)界受益于大模型的門檻和成本。ExFM 創(chuàng)新的提出數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS),使得模型在等待線上用戶的真實(shí)訓(xùn)練標(biāo)簽(ground-truth label, 如用戶最終的點(diǎn)擊或購(gòu)買行為)的時(shí)間里完成教師模型的參數(shù)更新與相應(yīng)的偽標(biāo)簽預(yù)測(cè),達(dá)到對(duì)服務(wù)延遲沒有額外要求。
- 高效的知識(shí)遷移轉(zhuǎn)化率:ExFM 創(chuàng)新地提出了輔助頭(Auxiliary Head)以及學(xué)生適配器(Student Adapter)來解耦教師與學(xué)生模型,減少流式數(shù)據(jù)分布變化對(duì)教師模型與學(xué)生模型訓(xùn)練過程中引入的偏置對(duì)知識(shí)遷移的影響,從而提高教師模型到學(xué)生模型的知識(shí)遷移轉(zhuǎn)化率,并對(duì)此進(jìn)行了相應(yīng)的理論分析。經(jīng)驗(yàn)結(jié)果表明,這兩項(xiàng)新技術(shù)在內(nèi)部以及公開數(shù)據(jù)上皆取得了 SOTA 的結(jié)果。
- 實(shí)現(xiàn) 1 到 N 的知識(shí)遷移轉(zhuǎn)化:在 ExFM 的賦能下,不同領(lǐng)域、任務(wù)、階段里負(fù)責(zé)廣告排序的線上模型均實(shí)現(xiàn)了 SOTA 表現(xiàn)。
- 新型的 Transfer Scaling Law:在 ExFM 的賦能下,當(dāng)不斷迭代和提升基礎(chǔ)大模型的模型規(guī)模時(shí),其高效的知識(shí)轉(zhuǎn)化率使得線上的廣告排序模型的性能呈現(xiàn)出連續(xù)數(shù)年的持續(xù)提升(圖 1),且增速在不斷擴(kuò)大,展示了一種新型的 Transfer Scaling Law。
圖 1:內(nèi)部數(shù)據(jù)上基于不同規(guī)模的 FM 對(duì) VM 進(jìn)行迭代下取得的 NE 增益(時(shí)間跨度從 2023 年至 2024 年)。1X 等于 60 Million training FLOPs,1T 指 1 Trillion。
目前該論文已被 WWW 2025 Industrial Track 錄用為口頭報(bào)告 (Oral Presentation,根據(jù)往年數(shù)據(jù)一般為 top 10% 的論文)。本文將深入解析這一技術(shù)突破的核心思想與創(chuàng)新實(shí)踐。
- 論文標(biāo)題:External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation
- 論文鏈接:https://arxiv.org/abs/2502.17494
規(guī)模化的隱形門檻
工業(yè)級(jí)推薦的兩大挑戰(zhàn)
現(xiàn)有廣告推薦方面的研究多聚焦于模型架構(gòu)創(chuàng)新與參數(shù)規(guī)模擴(kuò)展,但工業(yè)場(chǎng)景的特殊性導(dǎo)致線上部署的模型會(huì)面臨以下兩個(gè)主要挑戰(zhàn):
1. (C-1) 大流量下嚴(yán)格的延遲限制
- 廣告推薦需在毫秒級(jí)響應(yīng)中從海量候選廣告(O (100K))中實(shí)時(shí)篩選,模型推理延遲將直接影響用戶體驗(yàn)。
- 傳統(tǒng)知識(shí)蒸餾(KD)需聯(lián)合訓(xùn)練師生模型,顯著增加計(jì)算成本和線上模型更新迭代的延遲,無(wú)法滿足工業(yè)級(jí)模型實(shí)時(shí)更新的需求。
2. (C-2) 流式數(shù)據(jù)的動(dòng)態(tài)漂移
- 用戶與廣告數(shù)量會(huì)出現(xiàn)大規(guī)模的實(shí)時(shí)增減,這導(dǎo)致數(shù)據(jù)分布持續(xù)變化。傳統(tǒng)多輪訓(xùn)練易出現(xiàn)過時(shí),具體指的是線上模型更新完成的時(shí)間點(diǎn)落后于即時(shí)數(shù)據(jù)到達(dá)的時(shí)間點(diǎn)而使得大量實(shí)時(shí)數(shù)據(jù)無(wú)法被納入訓(xùn)練,導(dǎo)致模型訓(xùn)練后性能不足。并且多輪訓(xùn)練的計(jì)算代價(jià)高昂,這是因?yàn)閷?shí)時(shí)數(shù)據(jù)的規(guī)模異常龐大且與日俱增。
- 教師模型,如基礎(chǔ)模型(FM),與垂直模型(VM)間的跨域偏差與新鮮度差異進(jìn)一步加劇性能衰減。
圖 2:(a)聯(lián)合蒸餾(Co-Distillation)與外部蒸餾(External Distillation);(b)流式數(shù)據(jù)下的模型迭代更新示意圖;(c)ExFM 框架,以一次模型迭代為例的示意圖。
對(duì)于解決挑戰(zhàn) C-1,常見的解決手段基于知識(shí)蒸餾,如果圖 2(a)所示,即把一個(gè)參數(shù)量大的教師模型與一個(gè)參數(shù)量小的學(xué)生模型進(jìn)行聯(lián)合訓(xùn)練,而學(xué)生模型會(huì)用于在線廣告推薦。然而在現(xiàn)實(shí)場(chǎng)景中,聯(lián)合訓(xùn)練將增加學(xué)生模型的訓(xùn)練復(fù)雜度以至于無(wú)法滿足工業(yè)級(jí)應(yīng)用對(duì)在線模型進(jìn)行更新訓(xùn)練的延時(shí)要求。另一方面,廣告推薦往往涉及多個(gè)在線服務(wù)模型,每一個(gè)模型需要負(fù)責(zé)特定的階段的廣告排序任務(wù)。若對(duì)每個(gè)服務(wù)模型都建立對(duì)應(yīng)的教師模型將非常低效且無(wú)法規(guī)?;?/span>
因此,本文認(rèn)為一個(gè)理想的教師模型應(yīng)該滿足以下兩點(diǎn)需求:
- 教師模型應(yīng)該獨(dú)立于學(xué)生模型,即進(jìn)行外部整理,如圖 2(a)所示。
- 教師模型應(yīng)該像一個(gè)基礎(chǔ)模型一樣滿足 1-to-N,即一個(gè)教師模型可以幫助多個(gè)不同方向的學(xué)生模型的性能提升。
然而在線廣告工業(yè)中的流式及動(dòng)態(tài)變化的數(shù)據(jù)分布(挑戰(zhàn) C-2)使得實(shí)現(xiàn)理想的教師模型變得相當(dāng)困難。如圖 2(b)所示,模型需要持續(xù)訓(xùn)練以應(yīng)對(duì)不斷出現(xiàn)的分布漂移。對(duì)此 Meta 內(nèi)部數(shù)據(jù)顯示,若模型停止更新,其歸一化熵?fù)p失(NE)隨延遲時(shí)間呈指數(shù)級(jí)上升(如圖 3 所示)。這迫使工業(yè)系統(tǒng)必須在「模型規(guī)模」與「服務(wù)效率」間尋求平衡。
圖 3:點(diǎn)擊率預(yù)測(cè)(CTR)隨著模型更新延遲而出現(xiàn)嚴(yán)重的下滑。
為了解決上述的挑戰(zhàn),本文提出 ExFM 框架。ExFM的核心思想是通過外部蒸餾將基礎(chǔ)模型(FM)的知識(shí)高效遷移至多個(gè)垂直模型(VM),并結(jié)合動(dòng)態(tài)適配機(jī)制應(yīng)對(duì)數(shù)據(jù)漂移。該框架的核心優(yōu)勢(shì)包括:
- 零額外推理延遲:通過外部蒸餾與數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS),萬(wàn)億 FM 的預(yù)測(cè)離線生成,VM 服務(wù)延遲與基線持平。
- 動(dòng)態(tài)適應(yīng)能力:流式訓(xùn)練與適配器設(shè)計(jì)使模型持續(xù)適應(yīng)數(shù)據(jù)分布變化,NE 增益能夠隨著時(shí)間推移以更大增速進(jìn)行擴(kuò)大。
ExFM 框架
外部蒸餾與動(dòng)態(tài)適應(yīng)的雙重革新
具體而言,ExFM 的技術(shù)架構(gòu)如圖 2 (c) 所示,包含四大創(chuàng)新模塊:
1. 外部蒸餾與數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS, 見圖 4)
- 解耦師生訓(xùn)練:FM 獨(dú)立于 VM 訓(xùn)練,通過離線生成預(yù)測(cè)標(biāo)簽作為監(jiān)督信號(hào),避免聯(lián)合訓(xùn)練的計(jì)算開銷。
- 1:N 資源共享:FM 聚合多個(gè) VM 的數(shù)據(jù)進(jìn)行訓(xùn)練,以「基礎(chǔ)模型」形式服務(wù)多個(gè)垂直場(chǎng)景,顯著攤薄構(gòu)建成本。
- DAS 系統(tǒng)設(shè)計(jì):通過分布式快照管理(Zeus)與數(shù)據(jù)流水線優(yōu)化,實(shí)現(xiàn) FM 預(yù)測(cè)的實(shí)時(shí)記錄與高效分發(fā),確保 VM 訓(xùn)練數(shù)據(jù)始終包含最新 FM 知識(shí)。
圖 4:數(shù)據(jù)增強(qiáng)系統(tǒng)(Data Augmentation Service,DAS)
2. 輔助頭
傳統(tǒng)蒸餾將 FM 預(yù)測(cè)與真實(shí)標(biāo)簽通過同一頭部融合,導(dǎo)致偏差傳遞。ExFM 創(chuàng)新性引入獨(dú)立輔助頭(圖 5a):
- 解耦監(jiān)督信號(hào):真實(shí)標(biāo)簽由服務(wù)頭處理,F(xiàn)M 預(yù)測(cè)由輔助頭處理,阻斷偏差傳播路徑。
- 梯度/標(biāo)簽縮放技術(shù):通過放大 FM 預(yù)測(cè)的梯度影響與標(biāo)簽幅值,解決廣告點(diǎn)擊數(shù)據(jù)的長(zhǎng)尾分布難題。
文中對(duì)此進(jìn)行理論分析顯示,輔助頭可確保 VM 在真實(shí)標(biāo)簽任務(wù)上收斂至最優(yōu)解,而傳統(tǒng)單頭架構(gòu)因偏差傳遞無(wú)法實(shí)現(xiàn)。
圖 5:(a)輔助頭(Auxiliary Head)(b)學(xué)生適配器(Student Adapter)
3. 學(xué)生適配器(Student Adapter)
針對(duì) FM 與 VM 間的新鮮度差異,ExFM 提出輕量級(jí)適配模塊(圖 5b):
- 動(dòng)態(tài)校正機(jī)制:通過小型 MLP 網(wǎng)絡(luò)實(shí)時(shí)調(diào)整 FM 預(yù)測(cè),使其適配 VM 的當(dāng)前數(shù)據(jù)分布。
- 理論保障:文中給出理論分析表明,適配器可將模型偏差降低,顯著優(yōu)于傳統(tǒng)方法。
4. 流式訓(xùn)練范式
- FM 與 VM 均采用單輪流式訓(xùn)練,每日處理超 3000 億樣本,模型參數(shù)逐日迭代更新。
- 系統(tǒng)支持分鐘級(jí)快照切換,確保服務(wù)高可用性。
實(shí)驗(yàn)結(jié)果
性能飛躍與工業(yè)驗(yàn)證
ExFM 在 Meta 內(nèi)部數(shù)據(jù)集與公開數(shù)據(jù)集(TaobaoAd、Amazon 等)上均取得顯著效果:
1. 單 VM 性能提升
- 內(nèi)部場(chǎng)景中,3.2 萬(wàn)億參數(shù)的 FM 使 VM 的歸一化熵(NE)持續(xù)降低,性能增益隨訓(xùn)練數(shù)據(jù)量增長(zhǎng)呈類指數(shù)上升(圖 1)。
- 公開數(shù)據(jù)集上(表 1),ExFM 在不同 FM-VM 組合均取得性能的提升。
表 1:公開數(shù)據(jù)集上的表現(xiàn)
2. 跨場(chǎng)景泛化能力
- 單一 FM 可同時(shí)服務(wù)廣告系統(tǒng)的召回、粗排、精排多階段 VM(圖 6),NE 增益達(dá) 0.11%-0.25%。
- 在跨域(表 4)與多任務(wù)(表 5)場(chǎng)景中,ExFM 均顯著優(yōu)于無(wú) FM 基線,驗(yàn)證其通用性。
圖 6:內(nèi)部數(shù)據(jù)上 1000X,3.2T FM 對(duì) 跨階段(cross-stage) VM 的 NE 增益
表 4(左)及 表 5(右):公開數(shù)據(jù)集上 FM 對(duì)跨域以及跨任務(wù)的 VM 的性能提升
3. 模塊消融實(shí)驗(yàn)
- 輔助頭(AH)貢獻(xiàn)主要性能增益,使學(xué)生模型 NE 降低 4%(圖 7)。
- 學(xué)生適配器(SA)在 FM 更新延遲時(shí)仍能維持 0.08% 的 NE 增益(圖 8),但其效果依賴 FM 的持續(xù)迭代(圖 9)。
圖 7(左):對(duì) 1000X 3.2T 的 FM 增加輔助頭(AH)后的 NE 變化; 圖 8(右):對(duì) 1800X,2.2T 的 FM 增加學(xué)生適配器(SA)后的 NE 變化
圖 9:公開數(shù)據(jù)集上,當(dāng) FM 的更新出現(xiàn)延遲的時(shí),學(xué)生適配器的性能變化
結(jié)論
在本論文中,Meta AI 研究團(tuán)隊(duì)提出了 ExFM 框架以實(shí)現(xiàn)萬(wàn)億參數(shù)量的基礎(chǔ)大模型對(duì)實(shí)時(shí)廣告推薦模型進(jìn)行持續(xù)、規(guī)模化的性能提升。降低了LLM規(guī)模的大模型在 recsys domain 的門檻,開啟了「foundation model for RecSys 」領(lǐng)域的時(shí)代。