偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Scaling Law還有救?MIT破解LLM進(jìn)化新路!測試時訓(xùn)練讓性能暴漲6倍,準(zhǔn)確率媲美人類

人工智能 新聞
Scaling Law并未失效,只是不再局限于參數(shù)規(guī)模的增加。MIT團(tuán)隊(duì)最新研究發(fā)現(xiàn),測試時訓(xùn)練在Scaling大模型上,顯現(xiàn)出突破性潛力,ARC公共基準(zhǔn)測試中拿下61.9%成績,媲美人類選手。

OpenAI被曝出下代旗艦?zāi)P蚈rion進(jìn)展緩慢,內(nèi)部成立團(tuán)隊(duì)大改方向,一時間在全網(wǎng)掀起巨大的風(fēng)暴。

大模型Scaling Law撞墻了、失效了....各種論調(diào)甚囂塵上,OpenAI大牛不得不下場親自挽救這場被懷疑論淹沒的局面。

他們篤定的是,推理/測試時計(jì)算(test-time compute),是Scaling大模型另一個「齒輪」。

圖片

好巧不巧,MIT團(tuán)隊(duì)最新力作又延展了o1 Scaling路線,證明了「測試時訓(xùn)練」(TTT)能夠讓模型性能暴漲。

圖片

論文地址:https://ekinakyurek.github.io/papers/ttt.pdf

TTT能夠?qū)?B微調(diào)模型的性能,提升高達(dá)6倍。

并且,TTT與8B參數(shù)模型結(jié)合后,在ARC中取得53%準(zhǔn)確率,比純神經(jīng)網(wǎng)絡(luò)模型的SOTA提升近25%。

圖片

不僅如此,將TTT與程序生成方法集成,更是創(chuàng)下61.9%的最優(yōu)性能,相當(dāng)于人類平均得分。

圖片

具體來說,研究人員在推理過程中,使用從輸入數(shù)據(jù)中得到的損失函數(shù)臨時更新模型參數(shù),并在ARC中驗(yàn)證了TTT在提升LLM推理能力上有效性。

他們系統(tǒng)性分析了ARC任務(wù)上進(jìn)行TTT所需的關(guān)鍵組件,并提出了一種新穎的「TTT數(shù)據(jù)生成」和自洽性(self-consistency)組件。

最終結(jié)果表明,配備TTT的大模型,也能夠匹敵甚至超越ARC上許多基于顯示符號推理模型的性能。

OpenAI研究科學(xué)家、德?lián)渲窷oam Brown第一時間轉(zhuǎn)發(fā)了新研究,并稱我們通過o1開發(fā)了一種scale測試時計(jì)算的新方法,但它并不是唯一的方法,也可能不是最好的方法。很興奮可以看到學(xué)術(shù)研究人員朝著這個方向,探索出新的方法。

圖片

OpenAI研究員Jason Wei站在更高層面上,打開了scaling的思路:

當(dāng)前,擁有完美想法已經(jīng)不再是關(guān)鍵的因素了。深度學(xué)習(xí)有很強(qiáng)的靈活性,解決同一問題可能會有多種可行的方法。一旦一個想法基本可行,真正的競爭就在于有多少有實(shí)力、有信念且擁有資源的人在做這件事。

圖片

GensynAI聯(lián)創(chuàng)表示,「訓(xùn)練和推理的之間的界限,正加速模糊」。

圖片

Scaling大模型新方向:測試時訓(xùn)練

o1發(fā)布之后,愈加凸顯了使用額外的「測試時計(jì)算」增加大模型解碼,能夠顯著提升其性能的重要性。

此類方法,還包括思維鏈提示、多數(shù)投票采樣、代碼執(zhí)行、搜索等等。

圖片

最近引起普遍關(guān)注的另一種擴(kuò)展策略是「測試時訓(xùn)練」(Test-time training),模型通過基于測試時輸入的顯式梯度步驟進(jìn)行更新。

它與標(biāo)準(zhǔn)微調(diào)不同之處在于,TTT在極少數(shù)據(jù)條件下可以運(yùn)行——通常通過單個輸入進(jìn)行「無監(jiān)督學(xué)習(xí)」,或從一兩個上下文中標(biāo)記示例進(jìn)行「監(jiān)督學(xué)習(xí)」。

TTT最初是由UC伯克利、UCSD機(jī)構(gòu)研究人員于2020年在視覺模型中首次提出,并在2022年發(fā)表的序列模型中得到應(yīng)用。

圖片

論文地址:https://arxiv.org/pdf/1909.13231

TTT方法的設(shè)計(jì)空間很大,然而目前對于哪些設(shè)計(jì)選擇對大模型,尤其是新任務(wù)學(xué)習(xí)最有效的了解有限。

由此,MIT團(tuán)隊(duì)在最新論文中,系統(tǒng)性研究了各種TTT設(shè)計(jì)選擇的影響,及其與預(yù)訓(xùn)練和采樣方案的相互作用。

在此過程中,他們確定了TTT有效應(yīng)用于少樣本學(xué)習(xí)的幾個關(guān)鍵要素:

  1. 測試時遇到的類似合成任務(wù)上進(jìn)行「初始微調(diào)」
  2. 采用增強(qiáng)的「留一法」(leave-one-out)任務(wù)生成策略來構(gòu)建測試時數(shù)據(jù)集
  3. 「每個實(shí)例」適配器訓(xùn)練和
  4. 可逆變換下的「自洽性」

通過這些組件的精選選擇,正如我們開篇所見,TTT顯著提升了大模型在ARC上的表現(xiàn)。

事實(shí)上,研究結(jié)果證明了,以前只能通過程序合成解決的任務(wù),配備了TTT框架之后,也可以通過純神經(jīng)網(wǎng)絡(luò)的方法解決。

這些結(jié)果挑戰(zhàn)了符號組件,是解決此類復(fù)雜任務(wù)的絕對必要條件這一假設(shè)。

相反,在解決新穎推理問題的關(guān)鍵因素可能是在測試時分配適當(dāng)?shù)挠?jì)算資源,或許與這些資源是通過符號還是神經(jīng)機(jī)制部署無關(guān)。

那么,「測試時訓(xùn)練」是如何定義的?

論文中,研究人員指出TTT在推理過程中,通過動態(tài)參數(shù)更新進(jìn)行自適應(yīng),這是大模型時代相對未被深入探索的方法。

直白講,TTT是一種遷移學(xué)習(xí)的形式,模型利用測試數(shù)據(jù)結(jié)構(gòu)來改善其預(yù)測。

MIT研究人員解釋了,測試時訓(xùn)練就是指,在測試時調(diào)整模型自身。

圖片

另一位論文作者表示,在通過CoT、搜索等Scaling「測試時計(jì)算」方面已經(jīng)取得了很大的進(jìn)展。在我們的新工作中,我們證明了TTT可以是這個工具包的另一個強(qiáng)大的補(bǔ)充。

圖片

Keras之父同樣表示,測試時微調(diào),是一種對DL模型中包含的向量函數(shù),進(jìn)行動態(tài)重組以適應(yīng)新任務(wù)的方法。

圖片

還有網(wǎng)友解釋了o1和TTT區(qū)別在于:梯度更新。TTT通過改變模型參數(shù)來適應(yīng)數(shù)據(jù),而o1使用內(nèi)部對話來實(shí)現(xiàn)適應(yīng)。

總之,「測試時」范式革命在于——即時適應(yīng)能力。

圖片

一般的TTT工作原理如下:從初始模型參數(shù)θ_0開始,對于每個測試輸入(或輸入批),首先從測試輸入生成訓(xùn)練數(shù)據(jù)D_TTT(d_input)。

然后,優(yōu)化這些參數(shù)以最小化損失函數(shù)L(D_TTT; θ),生成用于預(yù)測的臨時更新參數(shù)θd。

生成預(yù)測后,模型恢復(fù)到原始參數(shù)θ_0,以便處理下一個實(shí)例或批次。

因此,TTT為每個測試輸入訓(xùn)練一個專門的預(yù)測模型,該模型是通過在從該測試輸入生成的測試時數(shù)據(jù)集上微調(diào)基礎(chǔ)模型獲得的。

研究人員考慮到上下文學(xué)習(xí)設(shè)置,會提供更豐富的上下文形式,即示例對(x_1, y_1), ..., (x_K, y_K)。

在這里,應(yīng)用TTT-FT首先構(gòu)建一個初始語言模型LM,將每個測試輸入x映射到特定于輸入的數(shù)據(jù)集D_TTT,微調(diào)LM以根據(jù)數(shù)據(jù)集上的某個損失函數(shù)L進(jìn)行優(yōu)化:圖片,最后從更新后的模型中采樣以獲得最終預(yù)測。

TTT期間有哪些數(shù)據(jù)集和損失?

數(shù)據(jù)生成

給定一個任務(wù),將訓(xùn)練輸入輸出對圖片轉(zhuǎn)換為增強(qiáng)的測試時訓(xùn)練任務(wù)集(D_TTT)。

研究人員通過一個兩步過程獲得D_TTT:

首先,從給定的訓(xùn)練輸入輸出對中,創(chuàng)建一個「留一法」的上下文學(xué)習(xí)任務(wù)集。

其次,對該集合應(yīng)用可逆的基于規(guī)則的轉(zhuǎn)換,以獲得增強(qiáng)的數(shù)據(jù)集。

圖片

步驟1 - 留一法任務(wù)

通過從訓(xùn)練示例中排除第j個示例對,可以創(chuàng)建以下合成任務(wù):

圖片

其中d_j是一個合成訓(xùn)練任務(wù),第j個示例對被視為測試案例。在此,可以生成n個不同的任務(wù),每個任務(wù)包含n?1個示例對。

步驟2 - 基于規(guī)則的轉(zhuǎn)換

考慮一個可逆轉(zhuǎn)換t,使得t^?1(t(x)) = x。對于步驟1中獲得的每個任務(wù),可以使用t生成一個新的增強(qiáng)任務(wù)圖片,其中t應(yīng)用于任務(wù)中的每個單獨(dú)網(wǎng)格。

研究人員選擇了簡單的轉(zhuǎn)換,這些轉(zhuǎn)換在引入受控變化的同時保留基本關(guān)系,例如旋轉(zhuǎn)、翻轉(zhuǎn)、顏色置換、示例置換、尺寸縮放等。最后,獲得:

圖片

基線 - 端到端學(xué)習(xí)任務(wù)

為了與上述「測試時上下文學(xué)習(xí)」方法進(jìn)行比較,研究人員還評估了「測試時端到端學(xué)習(xí)」方法。

通過將每個輸入輸出對視為獨(dú)立的訓(xùn)練實(shí)例,直接從示例演示中創(chuàng)建一個監(jiān)督數(shù)據(jù)集。

與上下文學(xué)習(xí)設(shè)置不同,不使用上下文進(jìn)行預(yù)測:

圖片

值得注意的是,這相當(dāng)于ICL設(shè)置中「留(n?1)法」任務(wù)集,因?yàn)闆]有提供訓(xùn)練示例作為上下文。與ICL情況類似,可以應(yīng)用基于規(guī)則的轉(zhuǎn)換來擴(kuò)充數(shù)據(jù)集:

圖片

這種方法在計(jì)算上更加高效,因?yàn)樗苯訉W(xué)習(xí)輸入輸出映射,而無需管理示例上下文(即幾次提示)的開銷。

優(yōu)化目標(biāo)

接下來,在TTT期間,研究人員使用LoRA優(yōu)化了一組特定于任務(wù)的參數(shù),同時凍結(jié)大部分基礎(chǔ)模型。這種方法在保持模型一般能力的同時,還能實(shí)現(xiàn)高效適應(yīng)性計(jì)算。

結(jié)果如下圖3所示,TTT方法將微調(diào)模型準(zhǔn)確率提高了6倍(從5提高到29)。

另外,使用上下文學(xué)習(xí)任務(wù)明顯優(yōu)于端到端的任務(wù),在相同條件下,顯示出出11個任務(wù)(38%)的相對性能下降。

研究人員還對TTT優(yōu)化的多個組件進(jìn)行消融實(shí)驗(yàn),來分析其對性能的貢獻(xiàn)。

在所有任務(wù)中使用單個LoRA適配器,會降低7個任務(wù)的性能(降低24%)。

這是符合預(yù)期的,因?yàn)槭褂脤S眠m配器允許每個任務(wù)訓(xùn)練更多參數(shù)。

其次,他們在輸出示例上采取損失的決定略微改善了性能(26提升到29),這是因?yàn)樗仁鼓P驮谔幚硎纠龝r思考轉(zhuǎn)換。

最后,研究人員還觀察到使用量化LoRA(QLoRA)僅導(dǎo)致性能略微下降(29降到26)——在內(nèi)存受限的情況下,使用QLoRA可能是可行的。

圖片

TTT后推理策略是什么?

增強(qiáng)推理

推理時Scaling替代方案是什么?

研究人員對此采用一種增強(qiáng)推理策略,通過幾何變換生成多個預(yù)測候選方案,并結(jié)合貪婪解碼方案。

對于給定的任務(wù),其中包含訓(xùn)練樣例圖片和測試輸入x_test,研究人員使用可逆的幾何變換來生成任務(wù)的等效變換版本,如上圖3所示。

假設(shè)T是一組可逆幾何變換的集合(例如,旋轉(zhuǎn)和反射)。

對于每個變換t∈T,研究人員將t應(yīng)用于所有訓(xùn)練示例和測試輸入,并使用這些變換后的輸入運(yùn)行模型。

然后,應(yīng)用逆變換來獲得該變換的最終預(yù)測。

圖片

之后,研究人員通過打亂訓(xùn)練示例的順序來進(jìn)一步增強(qiáng)預(yù)測。對于每個變換g,他們對示例序列采樣n=2個不同的排列,從而為每個任務(wù)產(chǎn)生n·|T|個總預(yù)測。

這是為了減輕模型在處理示范序列時的任何偏差。

集成預(yù)測(投票策略)

這一方法涉及了兩階段的投票,以逐步縮小最佳候選圖片的范圍:

1. 轉(zhuǎn)換內(nèi)部投票(Intra Transformation Voting)

首先按照轉(zhuǎn)換類型t對預(yù)測結(jié)果進(jìn)行分組,在組內(nèi)選擇出現(xiàn)頻率最高的TOP 3預(yù)測。

如果一個組內(nèi)獨(dú)特預(yù)測少于3個,會通過以下方式補(bǔ)充候選項(xiàng):基于行的多數(shù),以及基于列的多數(shù)。

2. 全局投票(Global Voting)

使用第一階段得到的特定轉(zhuǎn)換候選項(xiàng)進(jìn)行整體投票,選出出現(xiàn)頻率最高的前2個預(yù)測作為最終提交結(jié)果。

如果出現(xiàn)平局,優(yōu)先選擇恒等轉(zhuǎn)換(identity transformation)的預(yù)測。

結(jié)果如圖5所示,單獨(dú)使用特定的轉(zhuǎn)換版本,性能普遍較差。其中,轉(zhuǎn)置(transpose)的轉(zhuǎn)換準(zhǔn)確率最低。

通過投票程序?qū)⑦@些轉(zhuǎn)換結(jié)果進(jìn)行聚合后,性能得到顯著提升,而且使用自洽性(self-consistency)投票進(jìn)行聚合通常是有益的,這個發(fā)現(xiàn)與之前的研究結(jié)果一致。

此外,扁平化投票程序(flattened voting)能提高準(zhǔn)確率,分層投票程序(hierarchical voting)表現(xiàn)更優(yōu),超越了前者。

圖片

TTT前要微調(diào)什么?

準(zhǔn)備微調(diào)數(shù)據(jù)

1. 使用現(xiàn)有生成器

REARC中的生成器函數(shù)gs已經(jīng)通過為相同任務(wù)生成不同實(shí)例提供了一種有效的數(shù)據(jù)增強(qiáng)工具。

可以通過多次運(yùn)行生成器代碼并隨機(jī)將這些新示例(d~eval(g_i))分割為訓(xùn)練和測試示例集,從這些訓(xùn)練任務(wù)中生成額外樣本。

2. 少樣本提示大模型

在利用模型生成新任務(wù)時,最簡單的方法是通過少樣本示例生成新的任務(wù)生成器:

圖片

其中,g′是一個新的生成器函數(shù),g_1,…,g_m是現(xiàn)有生成器函數(shù)(如圖6所示)。

圖片

從現(xiàn)有訓(xùn)練集中均勻采樣不同的m個示例,并多次重復(fù)此過程以獲得大量任務(wù)。然后,通過任務(wù)描述增強(qiáng)生成器函數(shù),并聯(lián)合生成描述和生成器:

圖片

其中,si代表任務(wù)i的描述。

為了獲得任務(wù)描述,研究人員手動為10個訓(xùn)練任務(wù)創(chuàng)建了種子描述。這些種子描述隨后通過少樣本提示生成訓(xùn)練和驗(yàn)證任務(wù)的描述。為了增加任務(wù)多樣性,研究人員使用了包含層次字段(類別、摘要和描述)的任務(wù)描述。

除了聯(lián)合生成任務(wù)描述和函數(shù)生成,研究人員還采用了如下所述的兩階段方法:

圖片

這種方法首先生成一個任務(wù)描述s′,然后在現(xiàn)有任務(wù)對和新描述的基礎(chǔ)上進(jìn)行生成器創(chuàng)建。

通過這些基于大模型的方法,研究人員共收集了6426個生成器。圖11展示了這些語言模型生成任務(wù)的定性樣本。

圖片

3. 幾何變換

最后,這些合成任務(wù)通過各種幾何變換得以增強(qiáng),例如基本變換(旋轉(zhuǎn)、反射、隨機(jī)位移和尺寸縮放)、模式操作(隨機(jī)拼接、平鋪和重復(fù))、顏色置換以及順序應(yīng)用多個基本變換的復(fù)合變換。

這些變換通過三種方式應(yīng)用:

- 僅輸入網(wǎng)格:(x,y)→(t(x),y)

- 僅輸出網(wǎng)格:(x,y)→(x,t(y))

- 輸入和輸出均變換:(x,y)→(t(x),t(y))

圖片

微調(diào)數(shù)據(jù)如何影響TTT性能?

研究人員在圖7中,比較了使用不同微調(diào)數(shù)據(jù)的模型。

結(jié)果發(fā)現(xiàn),使用REARC和基于規(guī)則的增強(qiáng)訓(xùn)練的模型表現(xiàn)最佳。

令人驚訝的是,包含LM生成的任務(wù)導(dǎo)致性能下降了5%,這表明當(dāng)前基于LM的任務(wù)生成方法可能需要更復(fù)雜的過濾機(jī)制。

最后,他們還發(fā)現(xiàn)微調(diào)性能與TTT性能幾乎沒有相關(guān)性。

模型大小和TTT Scaling

圖7中還展示了不同模型大小的結(jié)果。增加模型大小持續(xù)提高微調(diào)性能,其中8B模型取得了36%最高準(zhǔn)確率。

研究人員還觀察到TTT有效地彌合了較小模型的性能差距,1B和3B模型在應(yīng)用TTT后達(dá)到了相似的準(zhǔn)確率。

ARC基準(zhǔn)以及與其他系統(tǒng)比較

測試時訓(xùn)練影響

研究人員將TTT方法和推理程序應(yīng)用到基礎(chǔ)微調(diào)模型(8B微調(diào)模型沒有使用任何LM數(shù)據(jù))。結(jié)果表明,TTT將準(zhǔn)確率從39.3%提高到47.1%,超越了現(xiàn)有的端到端神經(jīng)模型結(jié)果。

與現(xiàn)有方法集成

BARC通過結(jié)合神經(jīng)網(wǎng)絡(luò)和程序合成方法實(shí)現(xiàn)了54.4%的準(zhǔn)確率。雖然這兩種方法有相似之處,但TTT和推理管線有幾個額外的組件可以提升性能。

特別是,研究人員提出的測試時訓(xùn)練包括每個任務(wù)的LoRA和更大范圍的增強(qiáng),而預(yù)測管線包括在可逆變換下進(jìn)行的增強(qiáng)推理和層次化自洽性投票機(jī)制。

結(jié)果顯示,最終配置在ARC公共評估集上憑借這61.9%的準(zhǔn)確率刷新了SOTA——與人類平均表現(xiàn)的60.2%相當(dāng),但仍低于最佳的97.8%。

圖片

程序生成和端到端建模比較

此前研究發(fā)現(xiàn),即使在相同任務(wù)上訓(xùn)練,程序合成和完全神經(jīng)網(wǎng)絡(luò)預(yù)測器對于ARC來說是高度互補(bǔ)的。

端到端神經(jīng)模型只能解決,程序合成模型所能解決任務(wù)的42.2%。

然而,研究人員發(fā)現(xiàn),當(dāng)配備TTT架構(gòu)時,BARC微調(diào)的完全神經(jīng)網(wǎng)絡(luò)模型解決了程序合成模型解決的任務(wù)的73.5%。

這表明,TTT顯著提高了神經(jīng)模型學(xué)習(xí)系統(tǒng)性推理模式的能力,這與程序合成模型所捕獲的模式類似。

在論文最后局限性中,有一個值得注意的點(diǎn)是:數(shù)據(jù)泄露。

盡管Llama 3在公開驗(yàn)證集中表現(xiàn)較差,但數(shù)據(jù)集在多個公開平臺(如GitHub、Kaggle)上可獲得,或許已被用于模型的訓(xùn)練過程。

因此,數(shù)據(jù)泄露可能會導(dǎo)致模型性能被高估。

結(jié)論

這項(xiàng)工作證明,測試時訓(xùn)練可以顯著提升在廣泛使用的ARC數(shù)據(jù)集上的LM性能,同時學(xué)習(xí)任務(wù)特定的LoRA適配器和使用幾何變換生成增強(qiáng)的測試時數(shù)據(jù)集至關(guān)重要。

此外,研究人員還開發(fā)了一種通過使用可逆變換生成多個預(yù)測,然后使用自洽性選擇最佳候選項(xiàng)的增強(qiáng)推理管線。整體管線應(yīng)用了多種測試時計(jì)算方法,每個組件都產(chǎn)生了積極的貢獻(xiàn)。

這表明,不僅測試時計(jì)算可以提高LM性能,不同的測試時方法也可以相互補(bǔ)充。

結(jié)果顯示,新的TTT管線結(jié)合了現(xiàn)有方法(BARC),在ARC公共集上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,并與人類平均水平60.2%相當(dāng)。

總而言之,測試時方法可能在推動下一代LM的發(fā)展中發(fā)揮關(guān)鍵作用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-04-15 11:48:09

2025-04-09 10:40:32

2024-11-13 09:43:03

2020-01-13 09:39:52

工具代碼開發(fā)

2024-02-26 00:50:00

數(shù)據(jù)AI

2019-01-03 09:04:04

谷歌系統(tǒng)機(jī)器

2024-12-16 07:15:00

2022-02-07 09:10:00

計(jì)算機(jī)視覺人工智能

2022-08-05 14:38:16

機(jī)器學(xué)習(xí)AI

2020-10-29 15:58:43

阿里AI雙11

2025-03-27 10:04:27

2024-10-30 14:50:00

系統(tǒng)語音模型

2022-09-25 17:07:27

訓(xùn)練圖像

2025-02-24 09:55:47

2023-10-28 13:36:48

模型ChatGPT

2022-11-14 10:04:36

AI模型

2024-09-24 13:00:00

大語言模型AI

2025-05-19 14:53:07

AILLM模型

2021-03-08 15:45:43

AI 數(shù)據(jù)人工智能

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號