偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

連OpenAI都推不動(dòng)Scaling Law了?MIT把「測試時(shí)訓(xùn)練」系統(tǒng)研究了一遍,發(fā)現(xiàn)還有路

人工智能 新聞
這篇文章透露,OpenAI 下一代旗艦?zāi)P偷馁|(zhì)量提升幅度不及前兩款旗艦?zāi)P椭g的質(zhì)量提升,因?yàn)楦哔|(zhì)量文本和其他數(shù)據(jù)的供應(yīng)量正在減少,原本的 Scaling Law(用更多的數(shù)據(jù)訓(xùn)練更大的模型)可能無以為繼。

昨天,The Information 的一篇文章讓 AI 社區(qū)炸了鍋。

這篇文章透露,OpenAI 下一代旗艦?zāi)P偷馁|(zhì)量提升幅度不及前兩款旗艦?zāi)P椭g的質(zhì)量提升,因?yàn)楦哔|(zhì)量文本和其他數(shù)據(jù)的供應(yīng)量正在減少,原本的 Scaling Law(用更多的數(shù)據(jù)訓(xùn)練更大的模型)可能無以為繼。此外,OpenAI 研究者 Noam Brown 指出,更先進(jìn)的模型可能在經(jīng)濟(jì)上也不具有可行性,因?yàn)榛ㄙM(fèi)數(shù)千億甚至數(shù)萬億美元訓(xùn)練出的模型會(huì)很難盈利。

這篇文章引發(fā)了業(yè)界對(duì)于未來 AI 迭代方向的討論 —— 雖然 Scaling Law 放緩這一說法令人擔(dān)憂,但其中也不乏樂觀的聲音。有人認(rèn)為,雖然從預(yù)訓(xùn)練來看,Scaling Law 可能會(huì)放緩;但有關(guān)推理的 Scaling Law 還未被充分挖掘,OpenAI o1 的發(fā)布就證明了這一點(diǎn)。它從后訓(xùn)練階段入手,借助強(qiáng)化學(xué)習(xí)、原生的思維鏈和更長的推理時(shí)間,把大模型的能力又往前推了一步。這種范式被稱為「測試時(shí)計(jì)算」,相關(guān)方法包括思維鏈提示、多數(shù)投票采樣(self-consistency)、代碼執(zhí)行和搜索等。

圖片

其實(shí),除了測試時(shí)計(jì)算,還有另外一個(gè)近來非常受關(guān)注的概念 —— 測試時(shí)訓(xùn)練( Test-Time Training ,TTT),二者都試圖在測試(推理)階段通過不同的手段來提升模型的性能,但 TTT 會(huì)根據(jù)測試時(shí)輸入,通過顯式的梯度步驟更新模型。這種方法不同于標(biāo)準(zhǔn)的微調(diào),因?yàn)樗窃谝粋€(gè)數(shù)據(jù)量極低的環(huán)境中運(yùn)行的 —— 通常是通過單個(gè)輸入的無監(jiān)督目標(biāo),或應(yīng)用于一個(gè)或兩個(gè) in-context 標(biāo)注示例的有監(jiān)督目標(biāo)。

不過,TTT 方法的設(shè)計(jì)空間很大。目前,對(duì)于哪些設(shè)計(jì)選擇對(duì) LM(特別是對(duì)新任務(wù)學(xué)習(xí))最有效,人們的了解還很有限。

在一篇新論文中,來自 MIT 的研究者系統(tǒng)地研究了各種 TTT 設(shè)計(jì)選擇的影響,以及它與預(yù)訓(xùn)練和采樣方案之間的相互作用??雌饋恚琓TT 的效果非常好,至少從論文標(biāo)題上看,它的抽象推理能力驚人(surprising)。

圖片

  • 論文標(biāo)題:The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
  • 論文鏈接:https://ekinakyurek.github.io/papers/ttt.pdf

具體來說,作者確定了將 TTT 有效應(yīng)用于 few-shot 學(xué)習(xí)的幾個(gè)關(guān)鍵要素:

  1. 在與測試時(shí)類似的合成任務(wù)上進(jìn)行初始微調(diào);
  2. 用于構(gòu)建測試時(shí)數(shù)據(jù)集的增強(qiáng)型 leave-1-out 任務(wù)生成策略;
  3. 訓(xùn)練適用于每個(gè)實(shí)例的適應(yīng)器;
  4. 可逆變換下的自我一致性(self-consistency)方法。

實(shí)驗(yàn)環(huán)節(jié),研究者在抽象與推理語料庫(ARC)中對(duì)這些方法進(jìn)行了評(píng)估。ARC 語料庫收集了很多極具挑戰(zhàn)性的 few-shot 視覺推理問題,被認(rèn)為是測試 LM 泛化極限的理想基準(zhǔn)。目前的大多語言模型在 ARC 上均表現(xiàn)不佳。

圖片ARC 推理任務(wù)示例。可以看到,這是一組類似于智力測試的問題,模型需要找到圖形變換的規(guī)則,以推導(dǎo)最后的輸出結(jié)果。

通過對(duì)這些部分的精心選擇,TTT 可以顯著提高 LM 在 ARC 上的性能 —— 在 1B 模型上將準(zhǔn)確率提高到原來的 6 倍,使用 8B 模型時(shí)也超過其它已發(fā)布的 SOTA 純神經(jīng)模型方法。

圖片

事實(shí)上,他們的研究結(jié)果表明,當(dāng)配備測試時(shí)訓(xùn)練時(shí),普通的語言模型可以在 ARC 任務(wù)上達(dá)到或超過許多神經(jīng) - 符號(hào)方法的性能。

這些結(jié)果挑戰(zhàn)了這樣一個(gè)假設(shè):解決這類復(fù)雜任務(wù)必須嚴(yán)格依賴符號(hào)組件。相反,它們表明解決新推理問題的關(guān)鍵因素可能是在測試時(shí)分配適當(dāng)?shù)挠?jì)算資源,也許與這些資源是通過符號(hào)還是神經(jīng)機(jī)制部署無關(guān)。

數(shù)據(jù)科學(xué)家 Yam Peleg 高度評(píng)價(jià)了這項(xiàng)研究:

圖片

美國 Jackson 實(shí)驗(yàn)室基因組學(xué)部教授 Derya Unutmaz 則表示這是一項(xiàng)「令人震驚的研究」,因?yàn)槿绻?TTT 與 LLM 相結(jié)合足以實(shí)現(xiàn)抽象推理,我們就有可能消除對(duì)顯式、老式符號(hào)邏輯的需求,并找到實(shí)現(xiàn) AGI 的可行途徑。

圖片

不過,過完一關(guān)還有一關(guān):Epoch AI 與 60 多位頂尖數(shù)學(xué)家合作打造的 FrontierMath,已經(jīng)成為評(píng)估人工智能高級(jí)數(shù)學(xué)推理能力的新基準(zhǔn),恐怕接下來各位 AI 研究者有的忙了。

圖片

論文概覽

作者研究了現(xiàn)有的測試時(shí)訓(xùn)練理念:根據(jù)測試輸入構(gòu)建輔助數(shù)據(jù)集,并在預(yù)測前更新模型。但目前還不清楚的是,應(yīng)該在哪些任務(wù)上進(jìn)行訓(xùn)練、進(jìn)行哪種推理以及從哪個(gè)基礎(chǔ)模型開始?

他們?yōu)?ARC 挑戰(zhàn)賽提供了一組廣泛的消融數(shù)據(jù)。具體來說,他們進(jìn)行了三項(xiàng)分析,以回答如何進(jìn)行 TTT,以及 TTT 之前和之后要做什么。

TTT 需要什么數(shù)據(jù)?  

作者嘗試了兩種不同的 TTT 數(shù)據(jù)生成方式:一是 in-context learning(ICL)格式;另一種是端到端格式。在 ICL 中,作者從給定的測試演示中創(chuàng)建 leave-1-out 任務(wù)。在 E2E 中,他們將每個(gè) i/o 對(duì)視為一個(gè)單獨(dú)的任務(wù)。

圖片

他們還應(yīng)用了一些幾何變換來擴(kuò)充數(shù)據(jù);請(qǐng)看上圖中 ICL 任務(wù)是如何生成的。他們使用這些生成的任務(wù),用 LoRA 更新他們的模型。他們發(fā)現(xiàn),ICL 優(yōu)于 e2e 任務(wù),數(shù)據(jù)增強(qiáng)至關(guān)重要。

圖片

他們用 LoRA 更新了模型。但問題是,應(yīng)該為每個(gè)測試任務(wù)訓(xùn)練一個(gè)新的 LoRA,還是使用從所有測試任務(wù)生成的數(shù)據(jù)集訓(xùn)練一個(gè)共享的 LoRA?他們發(fā)現(xiàn),為每個(gè)任務(wù)訓(xùn)練 LoRA 要好得多 (FT + TTT vs Shared-TTT)。

圖片

TTT 之后的推理

ARC 中沒有 CoT,因此無法通過多數(shù)投票來改進(jìn)推理。研究者對(duì)此的做法與 TTT 相同:創(chuàng)建少量任務(wù),然后用可逆函數(shù)對(duì)其進(jìn)行變換。于是有了一堆經(jīng)過變換的原始任務(wù)輸入。

圖片

研究者輸入變換后的輸入,然后將輸出反轉(zhuǎn)回來?,F(xiàn)在,他們可以從多數(shù)表決中獲益更多。他們將其命名為「可逆變換下的 self-consistency」。它比任何單一變換的預(yù)測效果都要好,分層投票的優(yōu)勢更大。

圖片

TTT 前的微調(diào)

你需要微調(diào)一個(gè)基礎(chǔ) LM,但不需要太多新數(shù)據(jù)。根據(jù)訓(xùn)練任務(wù)的重現(xiàn) + 少量幾何變換對(duì)模型進(jìn)行微調(diào),就能獲得不錯(cuò)的得分。

圖片

研究者嘗試了大量基于 LM 的合成數(shù)據(jù),但意外地發(fā)現(xiàn),這些數(shù)據(jù)并沒有什么幫助。有趣的是,TTT 縮小了不同級(jí)別模型之間的差距。

圖片

以 ARC 來檢驗(yàn)

抽象推理語料庫(ARC)旨在通過語言模型解決視覺謎題的能力來評(píng)估其抽象推理能力。如圖 1 (b) 所示,每個(gè)謎題(以下簡稱任務(wù))都是由輸入 - 輸出對(duì)組成的二維網(wǎng)格(最大尺寸為 30 × 30),其中包含最多 10 種不同顏色的形狀或圖案。通過應(yīng)用直觀、共享的變換規(guī)則或函數(shù) y = f (x),可以獲得每對(duì)網(wǎng)格的輸出。在實(shí)踐中,這些變換具有高度多樣性和復(fù)合性,既有簡單的概念,如反射和計(jì)數(shù),也有更復(fù)雜的概念,如施加引力和路徑查找。

圖片

ARC 中的每項(xiàng)任務(wù)都由訓(xùn)練和測試兩部分組成。給定訓(xùn)練樣本集,目標(biāo)是通過推理潛在變換,預(yù)測測試輸入 x^test 的測試輸出 y^test。

研究者用圖片表示一個(gè)任務(wù),其中圖片,即 ARC 任務(wù)的集合。ARC 數(shù)據(jù)集的原始訓(xùn)練集和驗(yàn)證集各由 400 個(gè)任務(wù)組成。成功標(biāo)準(zhǔn)要求對(duì)所有測試輸出結(jié)果進(jìn)行精確匹配(如果沒有給出部分分?jǐn)?shù))。

大多數(shù) ARC 方法可分為兩大類:程序合成和 fully neural(全神經(jīng)網(wǎng)絡(luò)方法)。程序合成試圖首先找到變換函數(shù) f,然后將其應(yīng)用于測試樣本。另一方面,全神經(jīng)方法試圖直接預(yù)測輸出 y 測試,只是隱含地推理底層變換。在這項(xiàng)工作中,研究者采用了全神經(jīng)網(wǎng)絡(luò)方法,使用 LM 來預(yù)測測試輸出。

研究者首先使用了在文本數(shù)據(jù)(沒有視覺編碼器)上預(yù)訓(xùn)練過的 LM。為了向這些模型提供 ARC 樣本作為輸入,需要一個(gè)格式化函數(shù)(用 str 表示),將二維網(wǎng)格轉(zhuǎn)換為文本表示。以前的一些工作將樣本表示為一串?dāng)?shù)字或 color word,或標(biāo)有形狀和位置的連接組件列表。給定任務(wù)的任何此類字符串表示,都可以將其呈現(xiàn)給 LM,并通過簡短提示進(jìn)行預(yù)測。

實(shí)驗(yàn)結(jié)果

最終,在對(duì) 80 項(xiàng)任務(wù)進(jìn)行開發(fā)實(shí)驗(yàn)之后,研究者展示了 ARC 全部公共評(píng)估集的綜合結(jié)果,并將本文系統(tǒng)與現(xiàn)有方法進(jìn)行了比較。分析主要集中在三個(gè)方面:本文 TTT 方法的影響、本文方法與現(xiàn)有方法相結(jié)合的益處、全神經(jīng)方法與程序合成方法之間的差異。

測試時(shí)訓(xùn)練的影響。研究者將測試時(shí)訓(xùn)練和推理過程應(yīng)用于本文的基礎(chǔ)微調(diào)模型(沒有任何 LM 數(shù)據(jù)的微調(diào) 8B 模型)。TTT 將準(zhǔn)確率從 39.3% 提高到 47.1%,超過了現(xiàn)有端到端神經(jīng)模型的結(jié)果。

與現(xiàn)有方法的整合。最近的一項(xiàng)工作引入了 BARC,通過結(jié)合神經(jīng)和程序合成方法實(shí)現(xiàn)了 54.4% 的準(zhǔn)確率,這是此前公開發(fā)表的最高結(jié)果。雖然這里的全神經(jīng)方法與本文系統(tǒng)有相似之處,但本文 TTT 和推理 pipeline 有幾個(gè)額外的組件可以提高性能。特別是,本文的測試時(shí)訓(xùn)練包括每個(gè)任務(wù)的 LoRA 和更大的增強(qiáng)集,而預(yù)測 pipeline 包括可逆變換下的增強(qiáng)推理和分層 self-consistency 投票方案。為了驗(yàn)證這種改進(jìn),研究者將本文的 TTT pipeline 應(yīng)用于 BARC 的全神經(jīng)模型,準(zhǔn)確率達(dá)到了 53%,比最初的 TTT 方法提高了 35%。

在這些結(jié)果的基礎(chǔ)上,研究者探索了本文方法與 BARC 組件的各種組合:

  • 將本文的 TTT pipeline 與神經(jīng)模型與 BARC 合成器相結(jié)合,準(zhǔn)確率提高到 58.5%。
  • 將本文的 TTT pipeline 與 BARC 神經(jīng)模型和合成器相結(jié)合,準(zhǔn)確率提高到 61.9%。

圖片這一最終配置在 ARC 公共評(píng)估集上實(shí)現(xiàn)了新的 SOTA 水平,與 60.2% 的人類平均性能相當(dāng)。當(dāng)然,這是一次重大進(jìn)步,但與人類 97.8% 的最佳表現(xiàn)仍有很大差距,表明仍有進(jìn)一步提高的空間。

程序生成和端到端建模的對(duì)比。程序合成和用于 ARC 的全神經(jīng)預(yù)測器具有很強(qiáng)的互補(bǔ)性,即使在相同的任務(wù)上進(jìn)行訓(xùn)練也是如此。此前的端到端神經(jīng)模型只能解決程序合成模型所解決任務(wù)的 42.2%。然而研究者發(fā)現(xiàn),當(dāng)配備本文的 TTT pipeline 時(shí),BARC 的微調(diào)全神經(jīng)模型可以解決程序合成模型所解決任務(wù)的 73.5%。這表明,本文的 TTT pipeline 大大提高了神經(jīng)模型學(xué)習(xí)系統(tǒng)推理模式的能力,與程序合成模型所捕捉到的推理模式類似。

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-13 12:48:30

2024-12-16 07:15:00

2024-11-11 17:35:11

2021-03-11 07:14:01

Epoll原理線程

2024-05-21 08:40:21

分庫分表源碼

2021-03-04 08:06:13

Java代理機(jī)制

2024-11-14 18:40:57

2025-09-16 12:46:04

2024-12-23 00:43:19

2025-06-03 17:40:30

AIDeepSeekOpenAI

2025-09-17 14:46:05

2021-08-12 10:36:18

order byMySQL數(shù)據(jù)庫

2023-01-10 19:47:47

Redis原理多線程

2017-12-26 14:17:24

潤乾報(bào)表

2023-08-14 07:49:42

AI訓(xùn)練

2021-09-23 16:50:19

芯片摩根士丹利半導(dǎo)體

2024-11-18 10:15:00

AI模型

2024-11-12 13:07:44

2024-02-27 18:42:45

人工智能

2021-06-15 07:15:15

Oracle底層explain
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)