偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

400萬(wàn)人圍觀的分層推理模型,「分層架構(gòu)」竟不起作用?性能提升另有隱情?

人工智能 新聞
鑒于該方法的普及度和新穎性,來(lái)自 ARC PRIZE 團(tuán)隊(duì)的研究者著手在 ARC-AGI-1 半私有數(shù)據(jù)集(一個(gè)用于驗(yàn)證解決方案是否過(guò)擬合的隱藏保留任務(wù)集)上驗(yàn)證 HRM 的性能。

還記得分層推理模型(Hierarchical Reasoning Model,HRM)嗎?

這項(xiàng)工作于 6 月份發(fā)布,當(dāng)時(shí)引起了不小的轟動(dòng)——X/Twitter 上的相關(guān)討論獲得了超過(guò) 400 萬(wàn)的瀏覽量和數(shù)萬(wàn)個(gè)點(diǎn)贊,剖析這項(xiàng)工作的 YouTube 視頻觀看量也超過(guò)了 47.5 萬(wàn)次。

b38f0cb5-c1e4-4a70-93da-d9d791775eba.png

在論文中,作者表示:他們提出了一種受大腦啟發(fā)的 HRM 架構(gòu),僅用 1000 個(gè)訓(xùn)練任務(wù)和一個(gè) 2700 萬(wàn)參數(shù)(相對(duì)較小)的模型,就在 ARC-AGI-1 基準(zhǔn)上取得了 41% 的得分。

論文還指出,這一架構(gòu)有潛力成為邁向通用計(jì)算和通用推理系統(tǒng)的變革性進(jìn)展。

鑒于該方法的普及度和新穎性,來(lái)自 ARC PRIZE 團(tuán)隊(duì)的研究者著手在 ARC-AGI-1 半私有數(shù)據(jù)集(一個(gè)用于驗(yàn)證解決方案是否過(guò)擬合的隱藏保留任務(wù)集)上驗(yàn)證 HRM 的性能。

他們的發(fā)現(xiàn)有些出人意料。

首先:他們能夠近似復(fù)現(xiàn)論文中聲稱的數(shù)字。HRM 在 ARC-AGI 半私有集上的表現(xiàn),就其模型大小而言,令人印象深刻:

  • ARC-AGI-1:32%——雖然不是 SOTA 水平,但對(duì)于如此小的模型來(lái)說(shuō),這已經(jīng)非常出色。
  • ARC-AGI-2:2%——盡管得分大于 0% 顯示出一些積極信號(hào),但 ARC PRIZE 團(tuán)隊(duì)不認(rèn)為這在 ARC-AGI-2 上取得了實(shí)質(zhì)性進(jìn)展。

與此同時(shí),通過(guò)運(yùn)行一系列消融分析,他們得到了一些令人驚訝的發(fā)現(xiàn),這些發(fā)現(xiàn)對(duì)圍繞 HRM 的主流論述提出了質(zhì)疑:

  1. 與同等規(guī)模的 Transformer 相比,其「分層」架構(gòu)對(duì)性能的影響微乎其微。
  2. 然而,論文中相對(duì)提及較少的「外循環(huán)」優(yōu)化過(guò)程,尤其是在訓(xùn)練期間,極大地提升了性能。
  3. 跨任務(wù)遷移學(xué)習(xí)的益處有限;大部分性能來(lái)自于對(duì)評(píng)估時(shí)所用特定任務(wù)解決方案的記憶。
  4. 預(yù)訓(xùn)練的任務(wù)增強(qiáng)至關(guān)重要,盡管只需 300 次增強(qiáng)就已足夠(而非論文中報(bào)告的 1000 次)。推理時(shí)的任務(wù)增強(qiáng)影響有限。

發(fā)現(xiàn) 2 和 3 表明,該論文的方法在根本上與 Liao 和 Gu 提出的「無(wú)預(yù)訓(xùn)練的 ARC-AGI」方法相似。

有人認(rèn)為,ARC PRIZE 團(tuán)隊(duì)的這些分析結(jié)果表明,HRM 是一個(gè)失敗的探索。

62416a74-862c-4c23-aa7d-97f42c92dd47.png

但更多人反駁說(shuō),與在同一基準(zhǔn)上表現(xiàn)類似的模型相比,HRM 要小得多。雖然分層架構(gòu)的作用沒(méi)有得到驗(yàn)證,但論文在其他方面的創(chuàng)新依然值得研究,畢竟模型的表現(xiàn)還是很好的。

b4e8bd91-2511-415d-b1f3-00d952050528.png

03c28451-5698-4d11-8b6e-26e01db8f763.png

針對(duì)這一分析,ARC PRIZE 團(tuán)隊(duì)專門(mén)寫(xiě)了一篇博客來(lái)詳細(xì)介紹。以下是博客內(nèi)容。

a5b72adf-f4a0-4ccf-ae0c-759e46943942.png

  • 博客地址:https://arcprize.org/blog/hrm-analysis
  • Github:https://github.com/arcprize/hierarchical-reasoning-model-analysis

「分層推理模型」回顧

image.png

圖 1:HRM 方法從大腦中不同頻率的信號(hào)處理中汲取靈感。

分層推理模型由新加坡 AI 研究實(shí)驗(yàn)室 Sapient 發(fā)表,據(jù)稱其靈感來(lái)源于人腦的分層和多時(shí)間尺度處理機(jī)制。

HRM 是一個(gè) 2700 萬(wàn)參數(shù)的模型,它通過(guò)幾次簡(jiǎn)短的「思考」脈沖進(jìn)行迭代優(yōu)化。

每次脈沖產(chǎn)生:

  • 一個(gè)預(yù)測(cè)輸出網(wǎng)格——這是模型對(duì) ARC-AGI 任務(wù)的「處理中」預(yù)測(cè)。
  • 一個(gè)「停止或繼續(xù)」得分——該得分決定是繼續(xù)優(yōu)化預(yù)測(cè)還是將其作為最終結(jié)果提交。

如果模型選擇繼續(xù)優(yōu)化,這個(gè)「處理中」的預(yù)測(cè)會(huì)再次經(jīng)過(guò)一個(gè)「思考」脈沖。這就是外循環(huán):預(yù)測(cè)、詢問(wèn)「我完成了嗎?」,然后停止或繼續(xù)優(yōu)化。

在外循環(huán)內(nèi)部,HRM 運(yùn)行兩個(gè)耦合的循環(huán)模塊:「H」(慢速規(guī)劃器)和「L」(快速執(zhí)行器)。這兩個(gè)模塊協(xié)同工作,共同更新一個(gè)共享隱藏狀態(tài),而非各自產(chǎn)生獨(dú)立的輸出。其最終效果是模型在「規(guī)劃」(H)和「細(xì)節(jié)」(L)之間交替進(jìn)行,直到內(nèi)部狀態(tài)「自我達(dá)成一致」并產(chǎn)生答案。

該模型使用一個(gè)學(xué)習(xí)到的「停止」信號(hào),這是一種自適應(yīng)計(jì)算機(jī)制,用于控制優(yōu)化的次數(shù)。

這個(gè)過(guò)程的一個(gè)關(guān)鍵部分是任務(wù)增強(qiáng)。這是一個(gè)對(duì)每個(gè)任務(wù)應(yīng)用變換(如對(duì)象旋轉(zhuǎn)、翻轉(zhuǎn)等)的過(guò)程,目的是挖掘出任務(wù)的潛在規(guī)則,而不是對(duì)特定的形狀或顏色產(chǎn)生過(guò)擬合。

在測(cè)試時(shí),模型會(huì)運(yùn)行相同的增強(qiáng)來(lái)生成預(yù)測(cè)。這些預(yù)測(cè)隨后被「去增強(qiáng)」(以恢復(fù)到原始任務(wù)格式),然后通過(guò)簡(jiǎn)單的多數(shù)投票來(lái)決定最終的預(yù)測(cè)結(jié)果。

預(yù)測(cè)是通過(guò)轉(zhuǎn)導(dǎo)(深度學(xué)習(xí)的直接輸出)在嵌入空間中進(jìn)行的,而不是通過(guò)歸納(生成一個(gè)可應(yīng)用變換的程序)。關(guān)于 ARC-AGI 中轉(zhuǎn)導(dǎo)與歸納的更多信息,請(qǐng)參閱 2024 年 ARC Prize 獲獎(jiǎng)?wù)撐摹督Y(jié)合歸納與轉(zhuǎn)導(dǎo)進(jìn)行抽象推理》,作者為 Wen-Ding Li 等人。

ARC-AGI 驗(yàn)證流程

ARC-AGI 基準(zhǔn)有 3 個(gè)主要的數(shù)據(jù)集用于測(cè)試:

  • 公開(kāi)訓(xùn)練集 - 用于介紹 ARC-AGI 數(shù)據(jù)格式的公開(kāi)數(shù)據(jù)。研究人員在此數(shù)據(jù)上訓(xùn)練和迭代模型。
  • 公開(kāi)評(píng)估集 - 供研究人員在訓(xùn)練后自我評(píng)估模型性能的公開(kāi)數(shù)據(jù)。
  • 半私有評(píng)估集 - 一個(gè)保留數(shù)據(jù)集,用于驗(yàn)證在 ARC-AGI 上的聲明。該數(shù)據(jù)集無(wú)法在線獲取用于訓(xùn)練,從而增加了其提供模型性能純凈信號(hào)的可信度。它被稱為「半私有」,因?yàn)轵?yàn)證第三方服務(wù)(如來(lái)自 OpenAI、xAI 的模型)意味著我們無(wú)法保證數(shù)據(jù)永遠(yuǎn)完全保密,并且計(jì)劃最終會(huì)替換它。

除了這些數(shù)據(jù)集類型,ARC-AGI 目前有 2 個(gè)已發(fā)布的版本:

  • ARC-AGI-1——2019 年,旨在挑戰(zhàn)深度學(xué)習(xí)系統(tǒng)。
  • ARC-AGI-2——2025 年,旨在挑戰(zhàn)推理系統(tǒng)。

我們根據(jù)測(cè)試政策,對(duì)像 HRM 這樣的特定定制解決方案進(jìn)行測(cè)試。要獲得驗(yàn)證資格,解決方案必須開(kāi)源,運(yùn)行成本低于 1 萬(wàn)美元,并在 12 小時(shí)內(nèi)完成。

官方驗(yàn)證的 HRM ARC-AGI 得分

image.png

圖 2:ARC-AGI-1 排行榜,HRM 性能與每項(xiàng)任務(wù)成本。

ARC-AGI-1(100 個(gè)任務(wù))

  • 得分:32%,運(yùn)行時(shí)間:9 小時(shí) 16 分鐘,總成本:$148.50($1.48 / 任務(wù))

在 ARC-AGI-1 上獲得 32% 的得分,對(duì)于如此小的模型來(lái)說(shuō)是令人印象深刻的。從 HRM 聲稱的公開(kāi)評(píng)估集得分(41%)下降到半私有集得分,這種輕微的下降是預(yù)料之中的。ARC-AGI-1 的公開(kāi)集和半私有集并未進(jìn)行難度校準(zhǔn)。觀察到的 9 個(gè)百分點(diǎn)的下降幅度處于正常波動(dòng)的偏高范圍。如果模型對(duì)公開(kāi)集過(guò)擬合,其在半私有集上的性能可能會(huì)崩潰(例如,降至 10% 或更低)。但我們并未觀察到這種情況。這個(gè)結(jié)果表明,HRM 確實(shí)有一些值得關(guān)注的亮點(diǎn)。

注意:運(yùn)行 HRM 的成本相對(duì)較高,是因?yàn)橛?xùn)練和推理被耦合在單次運(yùn)行中。論文作者提到他們正在努力解耦這個(gè)過(guò)程,以便將其解決方案提交給 ARC Prize 2025 Kaggle 競(jìng)賽。

ARC-AGI-2(120 個(gè)任務(wù))

  • 得分:2%,運(yùn)行時(shí)間:12 小時(shí) 35 分鐘,總成本:$201($1.68 / 任務(wù))

ARC-AGI-2 明顯比 ARC-AGI-1 更難,因此性能大幅下降是預(yù)料之中的。與 ARC-AGI-1 不同,ARC-AGI-2 的公開(kāi)集和半私有集是經(jīng)過(guò)難度校準(zhǔn)的。原則上,兩者上的得分應(yīng)該相似。盡管大于 0% 的得分顯示出模型的某些能力,但我們不認(rèn)為 2% 的得分是在 ARC-AGI-2 上取得的有意義的進(jìn)展。

注意:我們選擇包含 10 個(gè)可選的檢查點(diǎn)(每個(gè)約 5 分鐘),總共增加了約 50 分鐘。雖然 HRM 的提交超出了 12 小時(shí)的運(yùn)行限制,我們?nèi)匀徽J(rèn)為它是有效的。

分析 HRM 對(duì) ARC 得分的貢獻(xiàn)

在更深入的分析中,我們最想回答的問(wèn)題是:「HRM 架構(gòu)中對(duì) ARC-AGI 的成功貢獻(xiàn)最大的關(guān)鍵組件是什么?」

我們仔細(xì)研究了 HRM 論文的 4 個(gè)主要組成部分:HRM 模型架構(gòu)、H-L 分層計(jì)算、外層優(yōu)化循環(huán),以及數(shù)據(jù)增強(qiáng)的使用。Ndea 研究員 Konstantin Schürholt 主導(dǎo)了這項(xiàng)分析。

我們測(cè)試了:

  • 「分層」H 和 L 循環(huán)的性能貢獻(xiàn)

    相比于基礎(chǔ)的 Transformer,HRM 提供了多少性能提升?

    改變分層計(jì)算的參數(shù)有何影響?

  • 改變最大「停止或繼續(xù)」循環(huán)次數(shù)

    自適應(yīng)計(jì)算時(shí)間(ACT)評(píng)分器與固定循環(huán)次數(shù)(沒(méi)有停止決策)相比表現(xiàn)如何?

  • 跨任務(wù)遷移學(xué)習(xí)的影響

    與僅在評(píng)估任務(wù)上訓(xùn)練相比,在訓(xùn)練時(shí)加入訓(xùn)練集任務(wù)和 ConceptARC 任務(wù)有何影響?

  • 增強(qiáng)數(shù)量

    改變從每個(gè)任務(wù)創(chuàng)建的增強(qiáng)數(shù)量。

  • 模型/訓(xùn)練的變體(大小和時(shí)長(zhǎng))

發(fā)現(xiàn) 1:與同等規(guī)模的 Transformer 相比,「分層」架構(gòu)對(duì)性能的影響微乎其微

論文提出,HRM 架構(gòu)是實(shí)現(xiàn)分層推理的關(guān)鍵——結(jié)合了慢節(jié)奏的指導(dǎo)(H-level)和快節(jié)奏的思考(L-level)。

為了理解該架構(gòu)的影響,我們進(jìn)行了 2 個(gè)實(shí)驗(yàn):

  • 改變分層組件中的迭代次數(shù)。
  • 將 HRM 模型替換為類似規(guī)模的 Transformer。

為便于比較,該 Transformer 擁有與 HRM 模型相同的參數(shù)數(shù)量(約 2700 萬(wàn))。在所有實(shí)驗(yàn)中,我們保持 HRM 流程的其他所有組件不變。

將 HRM 與常規(guī) Transformer 進(jìn)行比較,得到了兩個(gè)有趣的結(jié)果,見(jiàn)圖 3。首先,一個(gè)常規(guī)的 Transformer 在沒(méi)有任何超參數(shù)優(yōu)化的情況下,性能與 HRM 模型相差約 5 個(gè)百分點(diǎn)。當(dāng)只有一個(gè)外循環(huán)時(shí),差距最小,此時(shí)兩個(gè)模型的性能不相上下。

image.png

圖 3:HRM 模型和相同尺寸的 Transformer 在不同外循環(huán)步數(shù)下的 pass@2 性能。Transformer 在沒(méi)有任何超參數(shù)優(yōu)化的情況下,性能與 HRM 相差幾個(gè)百分點(diǎn)。

當(dāng)外循環(huán)次數(shù)多于 1 次時(shí),HRM 表現(xiàn)更好,但隨著外循環(huán)次數(shù)的增加,差距會(huì)縮小。請(qǐng)注意,盡管參數(shù)數(shù)量匹配,HRM 使用了更多的計(jì)算資源,這可能部分解釋了性能差異。增加計(jì)算資源帶來(lái)的好處可能會(huì)隨著外循環(huán)次數(shù)的增多而出現(xiàn)收益遞減,這與我們的結(jié)果相符。

我們進(jìn)一步改變了 H-level 和 L-level 的步數(shù)來(lái)分析其影響。我們發(fā)現(xiàn),增加或減少迭代次數(shù)(基線為 L = 2, H = 2)都會(huì)導(dǎo)致性能下降。

這些結(jié)果表明,在 ARC-AGI 上的性能并非 HRM 架構(gòu)本身帶來(lái)的。雖然它確實(shí)提供了一點(diǎn)好處,但在 HRM 訓(xùn)練流程中換用一個(gè)基線 Transformer 也能達(dá)到相當(dāng)?shù)男阅堋?/span>

發(fā)現(xiàn) 2:論文中提及較少的「外循環(huán)」優(yōu)化過(guò)程帶來(lái)了顯著的性能提升

除了分層架構(gòu),HRM 論文還提出在模型外部使用一個(gè)外循環(huán)(「循環(huán)連接」)。這將模型的輸出反饋給自己,允許模型迭代地優(yōu)化其預(yù)測(cè)。

此外,它使用「自適應(yīng)計(jì)算時(shí)間」(ACT)來(lái)控制在特定任務(wù)上花費(fèi)的迭代次數(shù)。ACT 決定是停止預(yù)測(cè)還是繼續(xù)優(yōu)化。

HRM 方法的這一部分類似于 Universal Transformer,后者既有圍繞 Transformer 模型的循環(huán)優(yōu)化循環(huán),也有一個(gè) ACT 的版本。

在我們的第二組實(shí)驗(yàn)中,我們想了解外層優(yōu)化循環(huán)以及 ACT 對(duì)整體性能的影響。我們改變了訓(xùn)練期間的最大外循環(huán)次數(shù),并在推理時(shí)使用最大循環(huán)次數(shù)(遵循 HRM 的實(shí)現(xiàn))。

image.png

圖 4:在不同數(shù)量的訓(xùn)練和推理優(yōu)化循環(huán)下的 pass@2 性能。通過(guò)迭代優(yōu)化數(shù)據(jù)會(huì)產(chǎn)生強(qiáng)大的影響,正如從 1 次循環(huán)(無(wú)優(yōu)化)到 2 次循環(huán)(1 次優(yōu)化)的性能飛躍所示。

如圖 4 所示,外循環(huán)的次數(shù)對(duì)模型性能有顯著影響——從無(wú)優(yōu)化(1 次循環(huán))到僅 1 次優(yōu)化,性能躍升了 13 個(gè)百分點(diǎn)。從 1 次優(yōu)化循環(huán)增加到 8 次,公開(kāi)評(píng)估集上的性能翻了一番。

一個(gè)次要發(fā)現(xiàn)是,在訓(xùn)練期間使用 ACT 確實(shí)能減少每個(gè)任務(wù)的實(shí)際優(yōu)化步數(shù)。然而,雖然使用 ACT 能提高性能,但與固定的 16 次循環(huán)運(yùn)行相比,差異僅在幾個(gè)百分點(diǎn)之內(nèi)。

結(jié)果表明,優(yōu)化外循環(huán)是 HRM 性能的關(guān)鍵驅(qū)動(dòng)力。

為了理解訓(xùn)練時(shí)優(yōu)化與推理時(shí)優(yōu)化的影響,我們進(jìn)一步獨(dú)立地改變了推理優(yōu)化循環(huán)的次數(shù)。

image.png

圖 5:在不同數(shù)量的推理優(yōu)化循環(huán)下的 pass@2 性能。藍(lán)色條表示使用相同循環(huán)次數(shù)進(jìn)行訓(xùn)練和推理的模型。橙色條表示使用 16 個(gè)優(yōu)化循環(huán)訓(xùn)練,但在推理時(shí)使用不同循環(huán)次數(shù)的模型。例如,1-Loop 處的藍(lán)色條表示用一個(gè)優(yōu)化步驟訓(xùn)練并用一個(gè)優(yōu)化步驟推理的模型。橙色條表示用 16 個(gè)優(yōu)化步驟訓(xùn)練但僅用一個(gè)優(yōu)化步驟推理的模型。

為此,我們比較了兩種設(shè)置。第一種,我們?cè)谟?xùn)練和推理中使用相同數(shù)量的優(yōu)化循環(huán)。第二種,我們用最多 16 個(gè)優(yōu)化循環(huán)步驟訓(xùn)練一個(gè)模型,并分別用 1、4、8 和 16 個(gè)優(yōu)化步驟來(lái)評(píng)估它。

比較這兩類模型顯示出實(shí)質(zhì)性差異,尤其是在低推理優(yōu)化步數(shù)(1 和 4)時(shí),見(jiàn)圖 5。用更多的優(yōu)化步驟進(jìn)行訓(xùn)練,可以將單次優(yōu)化循環(huán)預(yù)測(cè)的性能提高超過(guò) 15 個(gè)百分點(diǎn),盡管一次循環(huán)意味著沒(méi)有任何優(yōu)化的單次前向傳播。在推理時(shí)增加更多的優(yōu)化循環(huán),影響則沒(méi)有那么大。這表明,帶優(yōu)化的訓(xùn)練比在推理時(shí)使用優(yōu)化更重要。

發(fā)現(xiàn) 3:跨任務(wù)遷移學(xué)習(xí)的影響有限

在原始論文中,HRM 在 960 個(gè)任務(wù)的演示對(duì)的增強(qiáng)版本上進(jìn)行訓(xùn)練:

  • 來(lái)自 ARC-AGI-1 訓(xùn)練集的 400 個(gè)任務(wù)。
  • 來(lái)自密切相關(guān)的 ConceptARC 基準(zhǔn)的 160 個(gè)任務(wù)。
  • 來(lái)自 ARC-AGI-1 評(píng)估集的 400 個(gè)任務(wù),這些任務(wù)也是評(píng)估時(shí)要解決的目標(biāo)。

需要注意的是,這并不意味著數(shù)據(jù)泄露,因?yàn)槟P驮谟?xùn)練時(shí)從未看到評(píng)估任務(wù)的測(cè)試對(duì)——而這正是模型被評(píng)估的內(nèi)容。

我們想了解跨任務(wù)遷移學(xué)習(xí)與推斷并記憶評(píng)估時(shí)特定任務(wù)的解決方案相比,其影響如何。我們進(jìn)行了以下實(shí)驗(yàn):我們只在 400 個(gè)評(píng)估任務(wù)上進(jìn)行訓(xùn)練——去掉了來(lái)自訓(xùn)練集的 400 個(gè)任務(wù)和來(lái)自 ConceptARC 數(shù)據(jù)集的 160 個(gè)任務(wù)。

在這種設(shè)置下,模型達(dá)到了 31% 的 pass@2 準(zhǔn)確率,與最初的 41% 相比僅有小幅下降。這表明,絕大部分性能是由在評(píng)估時(shí)見(jiàn)過(guò)的任務(wù)上進(jìn)行訓(xùn)練所驅(qū)動(dòng)的。這意味著 HRM 的做法本質(zhì)上是一種零預(yù)訓(xùn)練的測(cè)試時(shí)訓(xùn)練方法,類似于 Liao 和 Gu 的「無(wú)預(yù)訓(xùn)練的 ARC-AGI」。這相當(dāng)于將模型用作一種程序合成基底——在任務(wù)的演示對(duì)上使用梯度下降,將執(zhí)行該任務(wù)的程序編碼到模型的權(quán)重中。

值得注意的是,在我們的實(shí)驗(yàn)中,仍然存在一定程度的跨任務(wù)遷移學(xué)習(xí)——在評(píng)估集的不同任務(wù)之間。我們實(shí)驗(yàn)的一個(gè)更強(qiáng)的版本是,在每個(gè)評(píng)估任務(wù)上單獨(dú)運(yùn)行 HRM 流程,這樣模型在訓(xùn)練時(shí)只會(huì)看到它將被評(píng)估的那一個(gè)任務(wù)的演示對(duì)的增強(qiáng)版本。這將使 HRM 的設(shè)置與 Liao 和 Gu 的設(shè)置完全一致。我們沒(méi)有時(shí)間運(yùn)行這個(gè)實(shí)驗(yàn),但我們推測(cè)結(jié)果將與 Liao 和 Gu 的(21% pass@2)非常接近。

發(fā)現(xiàn) 4:預(yù)訓(xùn)練的任務(wù)增強(qiáng)至關(guān)重要

我們研究的 HRM 流程中另一個(gè)重要組成部分是任務(wù)增強(qiáng)。

數(shù)據(jù)增強(qiáng)是深度學(xué)習(xí)中一種常用方法,用于增加數(shù)據(jù)集中的樣本數(shù)量并提高模型的泛化能力。這意味著對(duì)任務(wù)應(yīng)用旋轉(zhuǎn)、翻轉(zhuǎn)或顏色交換,從而在不改變?nèi)蝿?wù)基本概念的情況下生成新數(shù)據(jù)。

HRM 對(duì)任務(wù)的所有增強(qiáng)版本進(jìn)行預(yù)測(cè),然后將增強(qiáng)后的預(yù)測(cè)還原(或「去增強(qiáng)」),使其恢復(fù)到原始任務(wù)格式。然后,模型對(duì)這些預(yù)測(cè)進(jìn)行多數(shù)投票以選出最終候選。

我們測(cè)試了對(duì)基線 HRM 的以下修改:

  • 編譯數(shù)據(jù)集時(shí)最大增強(qiáng)的數(shù)量。
  • 用于多數(shù)投票的最大預(yù)測(cè)數(shù)量。

因?yàn)?HRM 只能處理訓(xùn)練期間遇到過(guò)的增強(qiáng)類型,所以我們?cè)谕评頃r(shí)對(duì)第 2 點(diǎn)的改變僅限于減少增強(qiáng)數(shù)量,而不能增加。

圖 7 中的結(jié)果顯示了兩個(gè)趨勢(shì)。首先,使用數(shù)據(jù)增強(qiáng)確實(shí)能顯著提高性能。然而,僅使用 300 次增強(qiáng),而不是論文中使用的 1000 次,就已接近最大性能。僅使用 30 次增強(qiáng)(論文中總數(shù)的 3%)的性能與最大性能相差不到 4%。

其次,在訓(xùn)練期間使用數(shù)據(jù)增強(qiáng)似乎比為多數(shù)投票獲得更大的池子更重要。用更多增強(qiáng)訓(xùn)練的模型,在用較小池子進(jìn)行推理時(shí),性能下降得要少得多。

其他技術(shù)性學(xué)習(xí)

深入研究 HRM 的內(nèi)部機(jī)制還帶來(lái)了一些其他有趣的發(fā)現(xiàn)。

首先也是最重要的一點(diǎn),HRM 將 ARC-AGI 任務(wù)分解為單個(gè)的輸入-輸出對(duì),他們稱之為謎題(puzzles)。每個(gè)謎題會(huì)獲得一個(gè) puzzle_id,它由任務(wù)哈希值和應(yīng)用于此特定謎題的增強(qiáng)代碼組成。

在訓(xùn)練和推理時(shí),模型只接收輸入和 puzzle_id——沒(méi)有包含任務(wù)其他輸入-輸出示例的少樣本上下文。HRM 模型必須學(xué)會(huì)將一個(gè) puzzle_id 與一個(gè)特定的轉(zhuǎn)換關(guān)聯(lián)起來(lái),以便它能從輸入預(yù)測(cè)輸出。

為此,它將 puzzle_id 輸入一個(gè)大的嵌入層。這個(gè)嵌入層是關(guān)鍵——沒(méi)有它,模型就不知道如何處理輸入。這帶來(lái)了一個(gè)主要限制:該模型只能應(yīng)用于它在訓(xùn)練時(shí)見(jiàn)過(guò)的 puzzle_id。

在與作者就此話題的交流中,他們解釋說(shuō),為少樣本上下文更改謎題嵌入是一個(gè)復(fù)雜的工程挑戰(zhàn)。在早期版本中,他們做過(guò)比較,發(fā)現(xiàn)在更大的類 ARC 數(shù)據(jù)集上,少樣本上下文效果很好,但在樣本受限的 ARC 上,謎題嵌入的表現(xiàn)明顯更好。我們沒(méi)有復(fù)現(xiàn)這些實(shí)驗(yàn),但這為未來(lái)的工作指明了有趣的方向。

出于同樣的原因,在這個(gè)版本的 HRM 中,推理數(shù)據(jù)必須是訓(xùn)練數(shù)據(jù)集的一部分。例如,獨(dú)立地改變?cè)鰪?qiáng)數(shù)量并不是一件直接的事情。

最后,雖然優(yōu)化循環(huán)對(duì)性能有明顯影響,但 HRM 是純粹轉(zhuǎn)導(dǎo)性的。雖然可以展開(kāi)優(yōu)化步驟,但底層的程序仍然是隱式的。我們的假設(shè)是,這種方法不具備泛化能力。

待解決的問(wèn)題與未來(lái)工作

我們對(duì) HRM 的實(shí)驗(yàn)為我們揭示了其在 ARC-AGI 上表現(xiàn)出色的原因,但其他問(wèn)題依然存在。除了上面提到的,我們還邀請(qǐng)社區(qū)探索以下更多問(wèn)題:

  • puzzle_id 嵌入對(duì)模型性能有多大影響?與將任務(wù)中的其余示例作為上下文提供相比如何?
  • HRM 在其訓(xùn)練數(shù)據(jù)之外的泛化能力如何?是否有任何方法可以在新數(shù)據(jù)上微調(diào) HRM?
  • 在推理時(shí),學(xué)習(xí)到的停止機(jī)制有何影響?其好處僅限于節(jié)省計(jì)算資源,還是也能提高性能?
  • 優(yōu)化的思想是否能推廣到其他方法,例如合成顯式程序的歸納方法?
  • 通過(guò)在每個(gè)評(píng)估任務(wù)上單獨(dú)進(jìn)行訓(xùn)練和評(píng)估,可以達(dá)到什么樣的性能?(消除所有跨任務(wù)遷移學(xué)習(xí)。)
  • 哪些特定的增強(qiáng)類型能帶來(lái)更高的性能?旋轉(zhuǎn)?顏色交換?為什么?

結(jié)語(yǔ)

來(lái)自 ARC Prize 的分析非常詳盡,不少人感嘆說(shuō),這才是真正的「同行評(píng)審」。

88028134-0e5b-4a15-8b37-19fa3fd4ce83.png

還有人說(shuō),這個(gè)分析本身和論文一樣重要。如果大家以后能夠更多地用這種方式去分析一些備受關(guān)注的研究,相信社區(qū)可以更加高效地獲取一些新知識(shí)。

2c6d958d-c0af-4a16-bf6a-4d37e08368fa.png

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2011-10-18 11:31:33

Power7+服務(wù)器

2018-03-07 15:11:04

饑餓營(yíng)銷(xiāo)顯卡

2015-02-05 16:56:17

2022-01-13 06:49:23

開(kāi)源項(xiàng)目刪庫(kù)

2009-05-13 09:19:30

2015-02-09 15:01:51

IT技術(shù)周刊

2023-05-31 08:41:23

分層架構(gòu)對(duì)象模型

2023-08-02 08:51:46

服務(wù)架構(gòu)分層架構(gòu)

2023-11-16 18:53:36

AI人工智能

2025-07-01 09:08:00

2025-03-05 00:22:00

2025-08-11 09:00:00

2021-05-18 07:33:20

模型分層

2010-07-15 13:54:25

最“搞”服務(wù)器

2009-07-27 10:03:02

分層模型網(wǎng)絡(luò)故障

2024-09-26 16:43:26

2022-06-29 08:00:00

SQL分層表數(shù)據(jù)

2019-12-10 10:59:11

分層架構(gòu)項(xiàng)目

2022-12-07 07:35:20

B站裁員隱情
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)