偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws

發(fā)布于 2025-2-14 12:34
瀏覽
0收藏

眾所周知,知識蒸餾技術(shù)當(dāng)前正被大模型領(lǐng)域廣泛使用,它可以在大幅壓縮模型體量的同時(shí)保持一定的性能、降低模型時(shí)延、提升模型精度,與此同時(shí)還能對知識域進(jìn)行集成和遷移。


近日,蘋果研究人員提出了一種蒸餾擴(kuò)展定律(Distillation Scaling Laws),基于計(jì)算預(yù)算及其在學(xué)生和教師之間的分配,我們現(xiàn)在開始可以估算蒸餾模型的性能了。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

圖 1. 蒸餾擴(kuò)展定律的外推。蒸餾擴(kuò)展定律適用于一系列損失為 LT 的教師的弱學(xué)生模型(L_S > 2.3)。實(shí)線表示給定學(xué)生配置(插值)下未見過的教師的預(yù)測模型行為,虛線表示見過的教師之外和強(qiáng)學(xué)生區(qū)域(L_S ≤ 2.3)的預(yù)測模型行為。如圖所示,學(xué)生的表現(xiàn)可以勝過老師(詳情見圖 2、3 和 41)。


蘋果研究者認(rèn)為,該發(fā)現(xiàn)降低了大規(guī)模使用蒸餾的風(fēng)險(xiǎn),現(xiàn)在我們可以基于此優(yōu)化教師和學(xué)生模型的計(jì)算分配,以最大化學(xué)生模型的性能。該工作提供的計(jì)算最優(yōu)的蒸餾方案適用于兩種情況:1)已有教師模型,或 2)需要訓(xùn)練教師模型。


如果要蒸餾多個學(xué)生模型,或者已有教師模型,蒸餾在計(jì)算水平上優(yōu)于監(jiān)督預(yù)訓(xùn)練,直到計(jì)算水平隨著學(xué)生模型規(guī)模的增加而可預(yù)測地增長。如果要蒸餾一個學(xué)生模型且還需要訓(xùn)練教師模型,則應(yīng)采用監(jiān)督學(xué)習(xí)。此外,作者在大規(guī)模蒸餾研究中提供了深入的見解,這些見解增加了我們對蒸餾的理解,并為實(shí)驗(yàn)設(shè)計(jì)提供了信息。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

  • 論文標(biāo)題:Distillation Scaling Laws
  • 論文鏈接:https://arxiv.org/pdf/2502.08606

大模型的擴(kuò)展定律(Scaling Laws)表明,如果先前訓(xùn)練的語言模型(LM)遵循計(jì)算最優(yōu)訓(xùn)練范式,就可以隨著計(jì)算力提升而提升。由于推理成本的持續(xù)增長,目前這種定律難以持續(xù),人們嘗試使用過度訓(xùn)練(其中訓(xùn)練數(shù)據(jù)量遠(yuǎn)大于計(jì)算最優(yōu)情況)來實(shí)現(xiàn)小型、功能強(qiáng)大的模型。這些模型的構(gòu)建既昂貴又耗時(shí)。


我們正在尋求與訓(xùn)練算力投入相匹配,但訓(xùn)練成本更低的模型,蒸餾是一種流行的方法。但長期以來,學(xué)界對蒸餾缺乏共識,并不了解如何分配計(jì)算資源,以產(chǎn)生最強(qiáng)大的模型。為了彌補(bǔ)這一知識差距,研究人員對蒸餾進(jìn)行了廣泛研究,學(xué)生和老師的參數(shù)范圍從 1.43 億到 126 億,使用訓(xùn)練數(shù)據(jù)最多達(dá) 5120 億 token。

研究發(fā)現(xiàn):

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

  1. 一個大小為 N_S 的學(xué)生模型,通過從大小為 N_T 的教師模型中蒸餾 D_S 個 token 所得到的交叉熵,可以通過蒸餾擴(kuò)展定律(公式 8)進(jìn)行預(yù)測。
  2. 老師大小 N_T 和老師訓(xùn)練 token 數(shù)量 D_T 僅通過確定老師的交叉熵 L_T = L_T (N_T , D_T) 來確定學(xué)生交叉熵;
  3. 老師交叉熵對學(xué)生損失的影響遵循冪律,該冪律根據(jù)學(xué)生和老師的相對學(xué)習(xí)能力在兩種行為之間轉(zhuǎn)換,反映了蒸餾中稱為能力差距的現(xiàn)象,即較強(qiáng)的老師會產(chǎn)生較差的學(xué)生。該工作的參數(shù)化解決了有關(guān)能力差距懸而未決的問題,表明這是老師和學(xué)生之間學(xué)習(xí)能力(假設(shè)空間和優(yōu)化能力)的差距,而不僅僅是他們的相對大小,后者其實(shí)是一種特殊情況。


該結(jié)果表明,當(dāng)兩個學(xué)習(xí)過程都有足夠的數(shù)據(jù)或計(jì)算時(shí),蒸餾不能產(chǎn)生比監(jiān)督學(xué)習(xí)更低的模型交叉熵。但是,如果以下兩個條件都成立,則蒸餾比監(jiān)督學(xué)習(xí)更有效:


1. 用于學(xué)生的總計(jì)算或 token 不大于新擴(kuò)展定律給出的學(xué)生大小相關(guān)閾值;

2. 老師已經(jīng)存在,或者要訓(xùn)練的老師有超出單次蒸餾的用途。


新的定律和分析有望指導(dǎo) AI 社區(qū)構(gòu)建更強(qiáng)大的模型,實(shí)現(xiàn)更低的推理成本和總計(jì)算成本。

蒸餾擴(kuò)展率

文章概述了他們?nèi)绾蔚贸稣麴s擴(kuò)展率所采取的步驟。


首先是實(shí)驗(yàn)設(shè)置。本文的目標(biāo)是理解教師模型在蒸餾過程中的作用,因此,該研究在純蒸餾情況下(λ = 1,公式 7)進(jìn)行蒸餾,以避免數(shù)據(jù)帶來的混淆。本文驗(yàn)證了 λ = 1 的選擇能夠產(chǎn)生與最優(yōu) λ? 統(tǒng)計(jì)相似的結(jié)果。同樣,所有實(shí)驗(yàn)均使用蒸餾溫度(τ = 1),因?yàn)樵撗芯堪l(fā)現(xiàn)這能產(chǎn)生性能最佳的學(xué)生模型。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)


蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

表 1 是文中出現(xiàn)的符號代表內(nèi)容:

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

對應(yīng)中文版本

此外,對于實(shí)驗(yàn)數(shù)據(jù)的選擇,本文結(jié)合了三種方案:


固定 M 的教師 / 學(xué)生 IsoFLOP 實(shí)驗(yàn):


本文預(yù)測在固定教師模型的情況下,學(xué)生模型的參數(shù)(N_S)和訓(xùn)練 token 數(shù)量(D_S)之間會呈現(xiàn)出冪律行為。


為了在給定的計(jì)算預(yù)算內(nèi)生成盡可能多樣的教師模型,本文訓(xùn)練了六個 Chinchilla 最優(yōu)教師模型,其參數(shù)范圍從 1.98 億到 77.5 億。對于每一個教師模型,本文按照標(biāo)準(zhǔn)訓(xùn)練成本,將其蒸餾到具有四種 IsoFLOP 配置的學(xué)生模型中。最終得到的學(xué)生模型交叉熵如圖 2 所示。作者還注意到,在某些情況下,學(xué)生模型能夠超越教師模型的表現(xiàn),即展現(xiàn)出弱到強(qiáng)的泛化能力。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

注:為實(shí)現(xiàn)擴(kuò)展系數(shù)的可靠識別,此前有研究使用了兩種策略:

  • (固定模型,變化數(shù)據(jù)) 對于一個固定的模型族,變化訓(xùn)練 token 的數(shù)量。
  • (IsoFLOP 配置) 在總計(jì)算約束下,同時(shí)變化模型大小和訓(xùn)練 token 的數(shù)量。


為了確保實(shí)驗(yàn)?zāi)軌驒z測到這種影響,本文設(shè)定學(xué)生(N_S,D_S)是固定的,而 N_T 和 D_T 在計(jì)算約束下變化。本文進(jìn)行了蒸餾實(shí)驗(yàn),將四個 Chinchilla 最優(yōu)(M_S = D_S/N_S ≈ 20)的學(xué)生(其參數(shù)范圍從 1.98 億到 18.2 億),從根據(jù)四種 IsoFLOP 配置訓(xùn)練的教師中蒸餾出來。最終得到的學(xué)生交叉熵如圖 3 所示。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

最后,本文訓(xùn)練了固定 M 的教師模型與固定 M 的學(xué)生模型的組合,其中包含十個教師模型(M_T ≈ 20)和五種規(guī)模的學(xué)生模型,每個學(xué)生模型至少對應(yīng)四種 M_S 選擇。其中兩個學(xué)生模型的交叉熵結(jié)果如圖 4 所示。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

此外,本文還需要確定蒸餾擴(kuò)展定律的函數(shù)形式。首先,本文觀察到教師模型的大小 N_T 和預(yù)訓(xùn)練 token 數(shù)量 D_T 的貢獻(xiàn)可以通過教師模型的交叉熵 L_T 來總結(jié)。這可以從圖 1 和圖 3b 中看出:

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

總之,本文提出,學(xué)生交叉熵在 L_T 中遵循 broken 冪律,在 N_S 和 D_S 中遵循冪律:

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

在此之后,論文分析了在不同計(jì)算預(yù)算下如何最優(yōu)地分配教師和學(xué)生模型的資源,包括教師模型的訓(xùn)練成本和學(xué)生模型的蒸餾成本,并比較了蒸餾和監(jiān)督學(xué)習(xí)在不同計(jì)算預(yù)算下的性能,發(fā)現(xiàn)當(dāng)教師模型的訓(xùn)練成本被考慮時(shí),監(jiān)督學(xué)習(xí)通常更有效。


這項(xiàng)工作代表了已知最大規(guī)模的蒸餾受控實(shí)證研究,系統(tǒng)消融了常見的蒸餾技術(shù)。正如監(jiān)督擴(kuò)展減輕了監(jiān)督預(yù)訓(xùn)練中的風(fēng)險(xiǎn)一樣,新工作為生產(chǎn)更小、更強(qiáng)大的模型提供了路線圖,并增強(qiáng)了測試時(shí)擴(kuò)展的可行性。


本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/ahHtRBok0jVzyYUKRihvVg??

標(biāo)簽
已于2025-2-14 14:02:39修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦