偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="qemky"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Scaling Law還有救？MIT破解LLM進(jìn)化新路！測試時訓(xùn)練讓性能暴漲6倍，準(zhǔn)確率媲美人類

作者：新智元 2024-11-13 12:48:30

人工智能新聞

Scaling Law并未失效，只是不再局限于參數(shù)規(guī)模的增加。MIT團(tuán)隊(duì)最新研究發(fā)現(xiàn)，測試時訓(xùn)練在Scaling大模型上，顯現(xiàn)出突破性潛力，ARC公共基準(zhǔn)測試中拿下61.9%成績，媲美人類選手。

OpenAI被曝出下代旗艦?zāi)Ｐ蚈rion進(jìn)展緩慢，內(nèi)部成立團(tuán)隊(duì)大改方向，一時間在全網(wǎng)掀起巨大的風(fēng)暴。

大模型Scaling Law撞墻了、失效了....各種論調(diào)甚囂塵上，OpenAI大牛不得不下場親自挽救這場被懷疑論淹沒的局面。

他們篤定的是，推理/測試時計(jì)算（test-time compute），是Scaling大模型另一個「齒輪」。

好巧不巧，MIT團(tuán)隊(duì)最新力作又延展了o1 Scaling路線，證明了「測試時訓(xùn)練」（TTT）能夠讓模型性能暴漲。

論文地址：https://ekinakyurek.github.io/papers/ttt.pdf

TTT能夠?qū)?B微調(diào)模型的性能，提升高達(dá)6倍。

并且，TTT與8B參數(shù)模型結(jié)合后，在ARC中取得53%準(zhǔn)確率，比純神經(jīng)網(wǎng)絡(luò)模型的SOTA提升近25%。

不僅如此，將TTT與程序生成方法集成，更是創(chuàng)下61.9%的最優(yōu)性能，相當(dāng)于人類平均得分。

具體來說，研究人員在推理過程中，使用從輸入數(shù)據(jù)中得到的損失函數(shù)臨時更新模型參數(shù)，并在ARC中驗(yàn)證了TTT在提升LLM推理能力上有效性。

他們系統(tǒng)性分析了ARC任務(wù)上進(jìn)行TTT所需的關(guān)鍵組件，并提出了一種新穎的「TTT數(shù)據(jù)生成」和自洽性（self-consistency）組件。

最終結(jié)果表明，配備TTT的大模型，也能夠匹敵甚至超越ARC上許多基于顯示符號推理模型的性能。

OpenAI研究科學(xué)家、德?lián)渲窷oam Brown第一時間轉(zhuǎn)發(fā)了新研究，并稱我們通過o1開發(fā)了一種scale測試時計(jì)算的新方法，但它并不是唯一的方法，也可能不是最好的方法。很興奮可以看到學(xué)術(shù)研究人員朝著這個方向，探索出新的方法。

OpenAI研究員Jason Wei站在更高層面上，打開了scaling的思路：

當(dāng)前，擁有完美想法已經(jīng)不再是關(guān)鍵的因素了。深度學(xué)習(xí)有很強(qiáng)的靈活性，解決同一問題可能會有多種可行的方法。一旦一個想法基本可行，真正的競爭就在于有多少有實(shí)力、有信念且擁有資源的人在做這件事。

GensynAI聯(lián)創(chuàng)表示，「訓(xùn)練和推理的之間的界限，正加速模糊」。

Scaling大模型新方向：測試時訓(xùn)練

o1發(fā)布之后，愈加凸顯了使用額外的「測試時計(jì)算」增加大模型解碼，能夠顯著提升其性能的重要性。

此類方法，還包括思維鏈提示、多數(shù)投票采樣、代碼執(zhí)行、搜索等等。

最近引起普遍關(guān)注的另一種擴(kuò)展策略是「測試時訓(xùn)練」（Test-time training），模型通過基于測試時輸入的顯式梯度步驟進(jìn)行更新。

它與標(biāo)準(zhǔn)微調(diào)不同之處在于，TTT在極少數(shù)據(jù)條件下可以運(yùn)行——通常通過單個輸入進(jìn)行「無監(jiān)督學(xué)習(xí)」，或從一兩個上下文中標(biāo)記示例進(jìn)行「監(jiān)督學(xué)習(xí)」。

TTT最初是由UC伯克利、UCSD機(jī)構(gòu)研究人員于2020年在視覺模型中首次提出，并在2022年發(fā)表的序列模型中得到應(yīng)用。

論文地址：https://arxiv.org/pdf/1909.13231

TTT方法的設(shè)計(jì)空間很大，然而目前對于哪些設(shè)計(jì)選擇對大模型，尤其是新任務(wù)學(xué)習(xí)最有效的了解有限。

由此，MIT團(tuán)隊(duì)在最新論文中，系統(tǒng)性研究了各種TTT設(shè)計(jì)選擇的影響，及其與預(yù)訓(xùn)練和采樣方案的相互作用。

在此過程中，他們確定了TTT有效應(yīng)用于少樣本學(xué)習(xí)的幾個關(guān)鍵要素：

測試時遇到的類似合成任務(wù)上進(jìn)行「初始微調(diào)」
采用增強(qiáng)的「留一法」（leave-one-out）任務(wù)生成策略來構(gòu)建測試時數(shù)據(jù)集
「每個實(shí)例」適配器訓(xùn)練和
可逆變換下的「自洽性」

通過這些組件的精選選擇，正如我們開篇所見，TTT顯著提升了大模型在ARC上的表現(xiàn)。

事實(shí)上，研究結(jié)果證明了，以前只能通過程序合成解決的任務(wù)，配備了TTT框架之后，也可以通過純神經(jīng)網(wǎng)絡(luò)的方法解決。

這些結(jié)果挑戰(zhàn)了符號組件，是解決此類復(fù)雜任務(wù)的絕對必要條件這一假設(shè)。

相反，在解決新穎推理問題的關(guān)鍵因素可能是在測試時分配適當(dāng)?shù)挠?jì)算資源，或許與這些資源是通過符號還是神經(jīng)機(jī)制部署無關(guān)。

那么，「測試時訓(xùn)練」是如何定義的？

論文中，研究人員指出TTT在推理過程中，通過動態(tài)參數(shù)更新進(jìn)行自適應(yīng)，這是大模型時代相對未被深入探索的方法。

直白講，TTT是一種遷移學(xué)習(xí)的形式，模型利用測試數(shù)據(jù)結(jié)構(gòu)來改善其預(yù)測。

MIT研究人員解釋了，測試時訓(xùn)練就是指，在測試時調(diào)整模型自身。

另一位論文作者表示，在通過CoT、搜索等Scaling「測試時計(jì)算」方面已經(jīng)取得了很大的進(jìn)展。在我們的新工作中，我們證明了TTT可以是這個工具包的另一個強(qiáng)大的補(bǔ)充。

Keras之父同樣表示，測試時微調(diào)，是一種對DL模型中包含的向量函數(shù)，進(jìn)行動態(tài)重組以適應(yīng)新任務(wù)的方法。

還有網(wǎng)友解釋了o1和TTT區(qū)別在于：梯度更新。TTT通過改變模型參數(shù)來適應(yīng)數(shù)據(jù)，而o1使用內(nèi)部對話來實(shí)現(xiàn)適應(yīng)。

總之，「測試時」范式革命在于——即時適應(yīng)能力。

一般的TTT工作原理如下：從初始模型參數(shù)θ_0開始，對于每個測試輸入（或輸入批），首先從測試輸入生成訓(xùn)練數(shù)據(jù)D_TTT（d_input）。

然后，優(yōu)化這些參數(shù)以最小化損失函數(shù)L（D_TTT; θ），生成用于預(yù)測的臨時更新參數(shù)θd。

生成預(yù)測后，模型恢復(fù)到原始參數(shù)θ_0，以便處理下一個實(shí)例或批次。

因此，TTT為每個測試輸入訓(xùn)練一個專門的預(yù)測模型，該模型是通過在從該測試輸入生成的測試時數(shù)據(jù)集上微調(diào)基礎(chǔ)模型獲得的。

研究人員考慮到上下文學(xué)習(xí)設(shè)置，會提供更豐富的上下文形式，即示例對(x_1, y_1), ..., (x_K, y_K)。

在這里，應(yīng)用TTT-FT首先構(gòu)建一個初始語言模型LM，將每個測試輸入x映射到特定于輸入的數(shù)據(jù)集D_TTT，微調(diào)LM以根據(jù)數(shù)據(jù)集上的某個損失函數(shù)L進(jìn)行優(yōu)化：，最后從更新后的模型中采樣以獲得最終預(yù)測。

TTT期間有哪些數(shù)據(jù)集和損失？

數(shù)據(jù)生成

給定一個任務(wù)，將訓(xùn)練輸入輸出對轉(zhuǎn)換為增強(qiáng)的測試時訓(xùn)練任務(wù)集（D_TTT）。

研究人員通過一個兩步過程獲得D_TTT：

首先，從給定的訓(xùn)練輸入輸出對中，創(chuàng)建一個「留一法」的上下文學(xué)習(xí)任務(wù)集。

其次，對該集合應(yīng)用可逆的基于規(guī)則的轉(zhuǎn)換，以獲得增強(qiáng)的數(shù)據(jù)集。

步驟1 - 留一法任務(wù)

通過從訓(xùn)練示例中排除第j個示例對，可以創(chuàng)建以下合成任務(wù)：

其中d_j是一個合成訓(xùn)練任務(wù)，第j個示例對被視為測試案例。在此，可以生成n個不同的任務(wù)，每個任務(wù)包含n?1個示例對。

步驟2 - 基于規(guī)則的轉(zhuǎn)換

考慮一個可逆轉(zhuǎn)換t，使得t^?1(t(x)) = x。對于步驟1中獲得的每個任務(wù)，可以使用t生成一個新的增強(qiáng)任務(wù)，其中t應(yīng)用于任務(wù)中的每個單獨(dú)網(wǎng)格。

研究人員選擇了簡單的轉(zhuǎn)換，這些轉(zhuǎn)換在引入受控變化的同時保留基本關(guān)系，例如旋轉(zhuǎn)、翻轉(zhuǎn)、顏色置換、示例置換、尺寸縮放等。最后，獲得：

基線 - 端到端學(xué)習(xí)任務(wù)

為了與上述「測試時上下文學(xué)習(xí)」方法進(jìn)行比較，研究人員還評估了「測試時端到端學(xué)習(xí)」方法。

通過將每個輸入輸出對視為獨(dú)立的訓(xùn)練實(shí)例，直接從示例演示中創(chuàng)建一個監(jiān)督數(shù)據(jù)集。

與上下文學(xué)習(xí)設(shè)置不同，不使用上下文進(jìn)行預(yù)測：

值得注意的是，這相當(dāng)于ICL設(shè)置中「留(n?1)法」任務(wù)集，因?yàn)闆]有提供訓(xùn)練示例作為上下文。與ICL情況類似，可以應(yīng)用基于規(guī)則的轉(zhuǎn)換來擴(kuò)充數(shù)據(jù)集：

這種方法在計(jì)算上更加高效，因?yàn)樗苯訉W(xué)習(xí)輸入輸出映射，而無需管理示例上下文（即幾次提示）的開銷。

優(yōu)化目標(biāo)

接下來，在TTT期間，研究人員使用LoRA優(yōu)化了一組特定于任務(wù)的參數(shù)，同時凍結(jié)大部分基礎(chǔ)模型。這種方法在保持模型一般能力的同時，還能實(shí)現(xiàn)高效適應(yīng)性計(jì)算。

結(jié)果如下圖3所示，TTT方法將微調(diào)模型準(zhǔn)確率提高了6倍（從5提高到29）。

另外，使用上下文學(xué)習(xí)任務(wù)明顯優(yōu)于端到端的任務(wù)，在相同條件下，顯示出出11個任務(wù)（38%）的相對性能下降。

研究人員還對TTT優(yōu)化的多個組件進(jìn)行消融實(shí)驗(yàn)，來分析其對性能的貢獻(xiàn)。

在所有任務(wù)中使用單個LoRA適配器，會降低7個任務(wù)的性能（降低24%）。

這是符合預(yù)期的，因?yàn)槭褂脤Ｓ眠m配器允許每個任務(wù)訓(xùn)練更多參數(shù)。

其次，他們在輸出示例上采取損失的決定略微改善了性能（26提升到29），這是因?yàn)樗仁鼓Ｐ驮谔幚硎纠龝r思考轉(zhuǎn)換。

最后，研究人員還觀察到使用量化LoRA（QLoRA）僅導(dǎo)致性能略微下降（29降到26）——在內(nèi)存受限的情況下，使用QLoRA可能是可行的。

TTT后推理策略是什么？

增強(qiáng)推理

推理時Scaling替代方案是什么？

研究人員對此采用一種增強(qiáng)推理策略，通過幾何變換生成多個預(yù)測候選方案，并結(jié)合貪婪解碼方案。

對于給定的任務(wù)，其中包含訓(xùn)練樣例和測試輸入x_test，研究人員使用可逆的幾何變換來生成任務(wù)的等效變換版本，如上圖3所示。

假設(shè)T是一組可逆幾何變換的集合（例如，旋轉(zhuǎn)和反射）。

對于每個變換t∈T，研究人員將t應(yīng)用于所有訓(xùn)練示例和測試輸入，并使用這些變換后的輸入運(yùn)行模型。

然后，應(yīng)用逆變換來獲得該變換的最終預(yù)測。

之后，研究人員通過打亂訓(xùn)練示例的順序來進(jìn)一步增強(qiáng)預(yù)測。對于每個變換g，他們對示例序列采樣n=2個不同的排列，從而為每個任務(wù)產(chǎn)生n·|T|個總預(yù)測。

這是為了減輕模型在處理示范序列時的任何偏差。

集成預(yù)測（投票策略）

這一方法涉及了兩階段的投票，以逐步縮小最佳候選的范圍：

1. 轉(zhuǎn)換內(nèi)部投票（Intra Transformation Voting）

首先按照轉(zhuǎn)換類型t對預(yù)測結(jié)果進(jìn)行分組，在組內(nèi)選擇出現(xiàn)頻率最高的TOP 3預(yù)測。

如果一個組內(nèi)獨(dú)特預(yù)測少于3個，會通過以下方式補(bǔ)充候選項(xiàng)：基于行的多數(shù)，以及基于列的多數(shù)。

2. 全局投票（Global Voting）

使用第一階段得到的特定轉(zhuǎn)換候選項(xiàng)進(jìn)行整體投票，選出出現(xiàn)頻率最高的前2個預(yù)測作為最終提交結(jié)果。

如果出現(xiàn)平局，優(yōu)先選擇恒等轉(zhuǎn)換（identity transformation）的預(yù)測。

結(jié)果如圖5所示，單獨(dú)使用特定的轉(zhuǎn)換版本，性能普遍較差。其中，轉(zhuǎn)置（transpose）的轉(zhuǎn)換準(zhǔn)確率最低。

通過投票程序?qū)⑦@些轉(zhuǎn)換結(jié)果進(jìn)行聚合后，性能得到顯著提升，而且使用自洽性(self-consistency)投票進(jìn)行聚合通常是有益的，這個發(fā)現(xiàn)與之前的研究結(jié)果一致。

此外，扁平化投票程序（flattened voting）能提高準(zhǔn)確率，分層投票程序（hierarchical voting）表現(xiàn)更優(yōu)，超越了前者。

TTT前要微調(diào)什么？

準(zhǔn)備微調(diào)數(shù)據(jù)

1. 使用現(xiàn)有生成器

REARC中的生成器函數(shù)gs已經(jīng)通過為相同任務(wù)生成不同實(shí)例提供了一種有效的數(shù)據(jù)增強(qiáng)工具。

可以通過多次運(yùn)行生成器代碼并隨機(jī)將這些新示例（d～eval(g_i)）分割為訓(xùn)練和測試示例集，從這些訓(xùn)練任務(wù)中生成額外樣本。

2. 少樣本提示大模型

在利用模型生成新任務(wù)時，最簡單的方法是通過少樣本示例生成新的任務(wù)生成器：

其中，g′是一個新的生成器函數(shù)，g_1,…,g_m是現(xiàn)有生成器函數(shù)（如圖6所示）。

從現(xiàn)有訓(xùn)練集中均勻采樣不同的m個示例，并多次重復(fù)此過程以獲得大量任務(wù)。然后，通過任務(wù)描述增強(qiáng)生成器函數(shù)，并聯(lián)合生成描述和生成器：

其中，si代表任務(wù)i的描述。

為了獲得任務(wù)描述，研究人員手動為10個訓(xùn)練任務(wù)創(chuàng)建了種子描述。這些種子描述隨后通過少樣本提示生成訓(xùn)練和驗(yàn)證任務(wù)的描述。為了增加任務(wù)多樣性，研究人員使用了包含層次字段（類別、摘要和描述）的任務(wù)描述。

除了聯(lián)合生成任務(wù)描述和函數(shù)生成，研究人員還采用了如下所述的兩階段方法：

這種方法首先生成一個任務(wù)描述s′，然后在現(xiàn)有任務(wù)對和新描述的基礎(chǔ)上進(jìn)行生成器創(chuàng)建。

通過這些基于大模型的方法，研究人員共收集了6426個生成器。圖11展示了這些語言模型生成任務(wù)的定性樣本。

3. 幾何變換

最后，這些合成任務(wù)通過各種幾何變換得以增強(qiáng)，例如基本變換（旋轉(zhuǎn)、反射、隨機(jī)位移和尺寸縮放）、模式操作（隨機(jī)拼接、平鋪和重復(fù)）、顏色置換以及順序應(yīng)用多個基本變換的復(fù)合變換。

這些變換通過三種方式應(yīng)用：

- 僅輸入網(wǎng)格：(x,y)→(t(x),y)

- 僅輸出網(wǎng)格：(x,y)→(x,t(y))

- 輸入和輸出均變換：(x,y)→(t(x),t(y))

微調(diào)數(shù)據(jù)如何影響TTT性能？

研究人員在圖7中，比較了使用不同微調(diào)數(shù)據(jù)的模型。

結(jié)果發(fā)現(xiàn)，使用REARC和基于規(guī)則的增強(qiáng)訓(xùn)練的模型表現(xiàn)最佳。

令人驚訝的是，包含LM生成的任務(wù)導(dǎo)致性能下降了5%，這表明當(dāng)前基于LM的任務(wù)生成方法可能需要更復(fù)雜的過濾機(jī)制。

最后，他們還發(fā)現(xiàn)微調(diào)性能與TTT性能幾乎沒有相關(guān)性。

模型大小和TTT Scaling

圖7中還展示了不同模型大小的結(jié)果。增加模型大小持續(xù)提高微調(diào)性能，其中8B模型取得了36%最高準(zhǔn)確率。

研究人員還觀察到TTT有效地彌合了較小模型的性能差距，1B和3B模型在應(yīng)用TTT后達(dá)到了相似的準(zhǔn)確率。

ARC基準(zhǔn)以及與其他系統(tǒng)比較

測試時訓(xùn)練影響

研究人員將TTT方法和推理程序應(yīng)用到基礎(chǔ)微調(diào)模型（8B微調(diào)模型沒有使用任何LM數(shù)據(jù)）。結(jié)果表明，TTT將準(zhǔn)確率從39.3%提高到47.1%，超越了現(xiàn)有的端到端神經(jīng)模型結(jié)果。

與現(xiàn)有方法集成

BARC通過結(jié)合神經(jīng)網(wǎng)絡(luò)和程序合成方法實(shí)現(xiàn)了54.4%的準(zhǔn)確率。雖然這兩種方法有相似之處，但TTT和推理管線有幾個額外的組件可以提升性能。

特別是，研究人員提出的測試時訓(xùn)練包括每個任務(wù)的LoRA和更大范圍的增強(qiáng)，而預(yù)測管線包括在可逆變換下進(jìn)行的增強(qiáng)推理和層次化自洽性投票機(jī)制。

結(jié)果顯示，最終配置在ARC公共評估集上憑借這61.9%的準(zhǔn)確率刷新了SOTA——與人類平均表現(xiàn)的60.2%相當(dāng)，但仍低于最佳的97.8%。

程序生成和端到端建模比較

此前研究發(fā)現(xiàn)，即使在相同任務(wù)上訓(xùn)練，程序合成和完全神經(jīng)網(wǎng)絡(luò)預(yù)測器對于ARC來說是高度互補(bǔ)的。

端到端神經(jīng)模型只能解決，程序合成模型所能解決任務(wù)的42.2%。

然而，研究人員發(fā)現(xiàn)，當(dāng)配備TTT架構(gòu)時，BARC微調(diào)的完全神經(jīng)網(wǎng)絡(luò)模型解決了程序合成模型解決的任務(wù)的73.5%。

這表明，TTT顯著提高了神經(jīng)模型學(xué)習(xí)系統(tǒng)性推理模式的能力，這與程序合成模型所捕獲的模式類似。

在論文最后局限性中，有一個值得注意的點(diǎn)是：數(shù)據(jù)泄露。

盡管Llama 3在公開驗(yàn)證集中表現(xiàn)較差，但數(shù)據(jù)集在多個公開平臺（如GitHub、Kaggle）上可獲得，或許已被用于模型的訓(xùn)練過程。

因此，數(shù)據(jù)泄露可能會導(dǎo)致模型性能被高估。

結(jié)論

這項(xiàng)工作證明，測試時訓(xùn)練可以顯著提升在廣泛使用的ARC數(shù)據(jù)集上的LM性能，同時學(xué)習(xí)任務(wù)特定的LoRA適配器和使用幾何變換生成增強(qiáng)的測試時數(shù)據(jù)集至關(guān)重要。

此外，研究人員還開發(fā)了一種通過使用可逆變換生成多個預(yù)測，然后使用自洽性選擇最佳候選項(xiàng)的增強(qiáng)推理管線。整體管線應(yīng)用了多種測試時計(jì)算方法，每個組件都產(chǎn)生了積極的貢獻(xiàn)。

這表明，不僅測試時計(jì)算可以提高LM性能，不同的測試時方法也可以相互補(bǔ)充。

結(jié)果顯示，新的TTT管線結(jié)合了現(xiàn)有方法（BARC），在ARC公共集上實(shí)現(xiàn)了最先進(jìn)的結(jié)果，并與人類平均水平60.2%相當(dāng)。

總而言之，測試時方法可能在推動下一代LM的發(fā)展中發(fā)揮關(guān)鍵作用。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="n80vl"><code id="n80vl"></code></nobr>

<table id="n80vl"><strong id="n80vl"></strong></table>

<nobr id="n80vl"><code id="n80vl"></code></nobr>