偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT4規(guī)模大模型落地,Meta提ExFM框架:萬億參數(shù)基礎(chǔ)大模型的工業(yè)級落地成為可能

人工智能 新聞
在 Meta AI 研究團(tuán)隊提交的一篇論文中,研究團(tuán)隊提出 External Large Foundation Model(ExFM)框架,首次系統(tǒng)性地解決了上述問題,成功支持萬億參數(shù)大模型在廣告推薦中的高效服務(wù)。

如何讓萬億級基礎(chǔ)大模型能夠高效、低成本地服務(wù)于大規(guī)模工業(yè)級應(yīng)用,并且讓能夠隨著模型規(guī)模的提升(Scaling)而得到持續(xù)的性能增長?這一直是眾多企業(yè)困擾良久的難題。

在線廣告推薦系統(tǒng)是互聯(lián)網(wǎng)平臺的核心服務(wù)之一,其模型性能直接影響用戶體驗與商業(yè)價值。近年來,隨著 GPT-4、 DeepSeek、 Llama 等萬億參數(shù)基礎(chǔ)模型的成功,工業(yè)界和學(xué)術(shù)界開始探索通過模型規(guī)?;⊿caling)的方式建立基礎(chǔ)大模型來提升推薦效果。

然而,受限于其巨額訓(xùn)練以及計算成本,以及工業(yè)級廣告實時推薦對延時性以及部署計算資源的嚴(yán)格要求,基礎(chǔ)大模型幾乎很難被直接地應(yīng)用于實時廣告排序以及推薦系統(tǒng),尤其是考慮到很多公司無法負(fù)擔(dān)大規(guī)模的 GPU 來服務(wù)巨量用戶群體。

因此,目前工業(yè)界廣泛考慮讓基礎(chǔ)大模型(Foundation Model)的能力遷移到線上小模型(Vertical Model)當(dāng)中以提高在線模型的能力,且主要采用教師-學(xué)生蒸餾(teacher-student distillation)。不過,此類解決方案在廣告工業(yè)中的應(yīng)用依舊面臨著兩大長期被忽視的挑戰(zhàn):受限的訓(xùn)練/推理預(yù)算,與動態(tài)變化的流式數(shù)據(jù)分布。這些挑戰(zhàn)的存在使得大模型對線上模型的幫助受限,且無法規(guī)模化提升線上模型的性能。

本周,在 Meta AI 研究團(tuán)隊提交的一篇論文中,研究團(tuán)隊提出 External Large Foundation Model(ExFM)框架,首次系統(tǒng)性地解決了上述問題,成功支持萬億參數(shù)大模型在廣告推薦中的高效服務(wù)。據(jù)文章描述,ExFM 框架實現(xiàn)了以下 SOTA 成果:

  • 規(guī)模化大模型及線上模型的迭代部署:ExFM 解耦了教師模型和學(xué)生模型的迭代和部署,在接近于 0 服務(wù)成本的情況下成功部署萬億級別參數(shù)的工業(yè)級大模型(類 GPT-4 規(guī)模),顯著降低了工業(yè)界受益于大模型的門檻和成本。ExFM 創(chuàng)新的提出數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS),使得模型在等待線上用戶的真實訓(xùn)練標(biāo)簽(ground-truth label, 如用戶最終的點擊或購買行為)的時間里完成教師模型的參數(shù)更新與相應(yīng)的偽標(biāo)簽預(yù)測,達(dá)到對服務(wù)延遲沒有額外要求。
  • 高效的知識遷移轉(zhuǎn)化率:ExFM 創(chuàng)新地提出了輔助頭(Auxiliary Head)以及學(xué)生適配器(Student Adapter)來解耦教師與學(xué)生模型,減少流式數(shù)據(jù)分布變化對教師模型與學(xué)生模型訓(xùn)練過程中引入的偏置對知識遷移的影響,從而提高教師模型到學(xué)生模型的知識遷移轉(zhuǎn)化率,并對此進(jìn)行了相應(yīng)的理論分析。經(jīng)驗結(jié)果表明,這兩項新技術(shù)在內(nèi)部以及公開數(shù)據(jù)上皆取得了 SOTA 的結(jié)果。
  • 實現(xiàn) 1 到 N 的知識遷移轉(zhuǎn)化:在 ExFM 的賦能下,不同領(lǐng)域、任務(wù)、階段里負(fù)責(zé)廣告排序的線上模型均實現(xiàn)了 SOTA 表現(xiàn)。
  • 新型的 Transfer Scaling Law:在 ExFM 的賦能下,當(dāng)不斷迭代和提升基礎(chǔ)大模型的模型規(guī)模時,其高效的知識轉(zhuǎn)化率使得線上的廣告排序模型的性能呈現(xiàn)出連續(xù)數(shù)年的持續(xù)提升(圖 1),且增速在不斷擴(kuò)大,展示了一種新型的 Transfer Scaling Law。

圖片

圖 1:內(nèi)部數(shù)據(jù)上基于不同規(guī)模的 FM 對 VM 進(jìn)行迭代下取得的 NE 增益(時間跨度從 2023 年至 2024 年)。1X 等于 60 Million training FLOPs,1T 指 1 Trillion。

目前該論文已被 WWW 2025 Industrial Track 錄用為口頭報告 (Oral Presentation,根據(jù)往年數(shù)據(jù)一般為 top 10% 的論文)。本文將深入解析這一技術(shù)突破的核心思想與創(chuàng)新實踐。

圖片


  • 論文標(biāo)題:External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation
  • 論文鏈接:https://arxiv.org/abs/2502.17494

規(guī)模化的隱形門檻

工業(yè)級推薦的兩大挑戰(zhàn)

現(xiàn)有廣告推薦方面的研究多聚焦于模型架構(gòu)創(chuàng)新與參數(shù)規(guī)模擴(kuò)展,但工業(yè)場景的特殊性導(dǎo)致線上部署的模型會面臨以下兩個主要挑戰(zhàn):

1. (C-1) 大流量下嚴(yán)格的延遲限制

  • 廣告推薦需在毫秒級響應(yīng)中從海量候選廣告(O (100K))中實時篩選,模型推理延遲將直接影響用戶體驗。
  • 傳統(tǒng)知識蒸餾(KD)需聯(lián)合訓(xùn)練師生模型,顯著增加計算成本和線上模型更新迭代的延遲,無法滿足工業(yè)級模型實時更新的需求。

2. (C-2) 流式數(shù)據(jù)的動態(tài)漂移

  • 用戶與廣告數(shù)量會出現(xiàn)大規(guī)模的實時增減,這導(dǎo)致數(shù)據(jù)分布持續(xù)變化。傳統(tǒng)多輪訓(xùn)練易出現(xiàn)過時,具體指的是線上模型更新完成的時間點落后于即時數(shù)據(jù)到達(dá)的時間點而使得大量實時數(shù)據(jù)無法被納入訓(xùn)練,導(dǎo)致模型訓(xùn)練后性能不足。并且多輪訓(xùn)練的計算代價高昂,這是因為實時數(shù)據(jù)的規(guī)模異常龐大且與日俱增。
  • 教師模型,如基礎(chǔ)模型(FM),與垂直模型(VM)間的跨域偏差新鮮度差異進(jìn)一步加劇性能衰減。

圖片圖 2:(a)聯(lián)合蒸餾(Co-Distillation)與外部蒸餾(External Distillation);(b)流式數(shù)據(jù)下的模型迭代更新示意圖;(c)ExFM 框架,以一次模型迭代為例的示意圖。

對于解決挑戰(zhàn) C-1,常見的解決手段基于知識蒸餾,如果圖 2(a)所示,即把一個參數(shù)量大的教師模型與一個參數(shù)量小的學(xué)生模型進(jìn)行聯(lián)合訓(xùn)練,而學(xué)生模型會用于在線廣告推薦。然而在現(xiàn)實場景中,聯(lián)合訓(xùn)練將增加學(xué)生模型的訓(xùn)練復(fù)雜度以至于無法滿足工業(yè)級應(yīng)用對在線模型進(jìn)行更新訓(xùn)練的延時要求。另一方面,廣告推薦往往涉及多個在線服務(wù)模型,每一個模型需要負(fù)責(zé)特定的階段的廣告排序任務(wù)。若對每個服務(wù)模型都建立對應(yīng)的教師模型將非常低效且無法規(guī)?;?/span>

因此,本文認(rèn)為一個理想的教師模型應(yīng)該滿足以下兩點需求:

  1. 教師模型應(yīng)該獨立于學(xué)生模型,即進(jìn)行外部整理,如圖 2(a)所示。
  2. 教師模型應(yīng)該像一個基礎(chǔ)模型一樣滿足 1-to-N,即一個教師模型可以幫助多個不同方向的學(xué)生模型的性能提升。

然而在線廣告工業(yè)中的流式及動態(tài)變化的數(shù)據(jù)分布(挑戰(zhàn) C-2)使得實現(xiàn)理想的教師模型變得相當(dāng)困難。如圖 2(b)所示,模型需要持續(xù)訓(xùn)練以應(yīng)對不斷出現(xiàn)的分布漂移。對此 Meta 內(nèi)部數(shù)據(jù)顯示,若模型停止更新,其歸一化熵?fù)p失(NE)隨延遲時間呈指數(shù)級上升(如圖 3 所示)。這迫使工業(yè)系統(tǒng)必須在「模型規(guī)?!古c「服務(wù)效率」間尋求平衡。

圖片圖 3:點擊率預(yù)測(CTR)隨著模型更新延遲而出現(xiàn)嚴(yán)重的下滑。

為了解決上述的挑戰(zhàn),本文提出 ExFM 框架。ExFM的核心思想是通過外部蒸餾將基礎(chǔ)模型(FM)的知識高效遷移至多個垂直模型(VM),并結(jié)合動態(tài)適配機(jī)制應(yīng)對數(shù)據(jù)漂移。該框架的核心優(yōu)勢包括:

  • 零額外推理延遲:通過外部蒸餾與數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS),萬億 FM 的預(yù)測離線生成,VM 服務(wù)延遲與基線持平。
  • 動態(tài)適應(yīng)能力:流式訓(xùn)練與適配器設(shè)計使模型持續(xù)適應(yīng)數(shù)據(jù)分布變化,NE 增益能夠隨著時間推移以更大增速進(jìn)行擴(kuò)大。

ExFM 框架

外部蒸餾與動態(tài)適應(yīng)的雙重革新

具體而言,ExFM 的技術(shù)架構(gòu)如圖 2 (c) 所示,包含四大創(chuàng)新模塊:

1. 外部蒸餾與數(shù)據(jù)增強(qiáng)系統(tǒng)(DAS, 見圖 4)

  • 解耦師生訓(xùn)練:FM 獨立于 VM 訓(xùn)練,通過離線生成預(yù)測標(biāo)簽作為監(jiān)督信號,避免聯(lián)合訓(xùn)練的計算開銷。
  • 1:N 資源共享:FM 聚合多個 VM 的數(shù)據(jù)進(jìn)行訓(xùn)練,以「基礎(chǔ)模型」形式服務(wù)多個垂直場景,顯著攤薄構(gòu)建成本。
  • DAS 系統(tǒng)設(shè)計:通過分布式快照管理(Zeus)與數(shù)據(jù)流水線優(yōu)化,實現(xiàn) FM 預(yù)測的實時記錄與高效分發(fā),確保 VM 訓(xùn)練數(shù)據(jù)始終包含最新 FM 知識。

圖片圖 4:數(shù)據(jù)增強(qiáng)系統(tǒng)(Data Augmentation Service,DAS)

2. 輔助頭

傳統(tǒng)蒸餾將 FM 預(yù)測與真實標(biāo)簽通過同一頭部融合,導(dǎo)致偏差傳遞。ExFM 創(chuàng)新性引入獨立輔助頭(圖 5a):

  • 解耦監(jiān)督信號:真實標(biāo)簽由服務(wù)頭處理,F(xiàn)M 預(yù)測由輔助頭處理,阻斷偏差傳播路徑。
  • 梯度/標(biāo)簽縮放技術(shù):通過放大 FM 預(yù)測的梯度影響與標(biāo)簽幅值,解決廣告點擊數(shù)據(jù)的長尾分布難題。

文中對此進(jìn)行理論分析顯示,輔助頭可確保 VM 在真實標(biāo)簽任務(wù)上收斂至最優(yōu)解,而傳統(tǒng)單頭架構(gòu)因偏差傳遞無法實現(xiàn)。

圖片圖 5:(a)輔助頭(Auxiliary Head)(b)學(xué)生適配器(Student Adapter)

3. 學(xué)生適配器(Student Adapter)

針對 FM 與 VM 間的新鮮度差異,ExFM 提出輕量級適配模塊(圖 5b):

  • 動態(tài)校正機(jī)制:通過小型 MLP 網(wǎng)絡(luò)實時調(diào)整 FM 預(yù)測,使其適配 VM 的當(dāng)前數(shù)據(jù)分布。
  • 理論保障:文中給出理論分析表明,適配器可將模型偏差降低,顯著優(yōu)于傳統(tǒng)方法。

4. 流式訓(xùn)練范式

  • FM 與 VM 均采用單輪流式訓(xùn)練,每日處理超 3000 億樣本,模型參數(shù)逐日迭代更新。
  • 系統(tǒng)支持分鐘級快照切換,確保服務(wù)高可用性。

實驗結(jié)果

性能飛躍與工業(yè)驗證

ExFM 在 Meta 內(nèi)部數(shù)據(jù)集與公開數(shù)據(jù)集(TaobaoAd、Amazon 等)上均取得顯著效果:

1. 單 VM 性能提升

  • 內(nèi)部場景中,3.2 萬億參數(shù)的 FM 使 VM 的歸一化熵(NE)持續(xù)降低,性能增益隨訓(xùn)練數(shù)據(jù)量增長呈類指數(shù)上升(圖 1)。
  • 公開數(shù)據(jù)集上(表 1),ExFM 在不同 FM-VM 組合均取得性能的提升。

圖片表 1:公開數(shù)據(jù)集上的表現(xiàn)

2. 跨場景泛化能力

  • 單一 FM 可同時服務(wù)廣告系統(tǒng)的召回、粗排、精排多階段 VM(圖 6),NE 增益達(dá) 0.11%-0.25%。
  • 在跨域(表 4)與多任務(wù)(表 5)場景中,ExFM 均顯著優(yōu)于無 FM 基線,驗證其通用性。

圖片圖 6:內(nèi)部數(shù)據(jù)上 1000X,3.2T FM 對 跨階段(cross-stage) VM 的 NE 增益

圖片表 4(左)及 表 5(右):公開數(shù)據(jù)集上 FM 對跨域以及跨任務(wù)的 VM 的性能提升

3. 模塊消融實驗

  • 輔助頭(AH)貢獻(xiàn)主要性能增益,使學(xué)生模型 NE 降低 4%(圖 7)。
  • 學(xué)生適配器(SA)在 FM 更新延遲時仍能維持 0.08% 的 NE 增益(圖 8),但其效果依賴 FM 的持續(xù)迭代(圖 9)。

圖片圖 7(左):對 1000X 3.2T 的 FM 增加輔助頭(AH)后的 NE 變化;  圖 8(右):對 1800X,2.2T 的 FM 增加學(xué)生適配器(SA)后的 NE 變化

圖片圖 9:公開數(shù)據(jù)集上,當(dāng) FM 的更新出現(xiàn)延遲的時,學(xué)生適配器的性能變化

結(jié)論

在本論文中,Meta AI 研究團(tuán)隊提出了 ExFM 框架以實現(xiàn)萬億參數(shù)量的基礎(chǔ)大模型對實時廣告推薦模型進(jìn)行持續(xù)、規(guī)?;男阅芴嵘?。降低了LLM規(guī)模的大模型在 recsys domain 的門檻,開啟了「foundation model for RecSys 」領(lǐng)域的時代。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-02-02 13:00:30

快手參數(shù)推薦精排模型

2024-03-18 07:48:00

大語言模型NVIDIA生成式 AI

2025-01-03 08:26:17

2024-08-01 13:46:08

2024-04-09 07:28:05

2023-11-05 10:04:47

2023-11-15 13:40:00

訓(xùn)練數(shù)據(jù)

2023-09-11 13:28:00

AI模型

2024-03-14 11:55:33

AI訓(xùn)練

2024-05-10 08:29:59

2024-02-27 11:45:59

2023-04-20 14:43:38

Linux模型GPT4

2024-09-09 12:55:28

2023-10-20 17:53:05

2023-09-28 08:19:57

語言模型數(shù)倉數(shù)據(jù)

2024-04-15 07:50:25

大語言模型AI Agent人工智能
點贊
收藏

51CTO技術(shù)棧公眾號