測(cè)試時(shí)訓(xùn)練(TTT)太強(qiáng)了!
論文筆記分享,標(biāo)題:The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
測(cè)試時(shí)訓(xùn)練(TTT)是個(gè)新概念:在推理過程中使用從輸入數(shù)據(jù)派生的損失暫時(shí)更新模型參數(shù)
文章的結(jié)論:
TTT 顯著提高了 ARC 任務(wù)上的性能,與基線微調(diào)模型相比,準(zhǔn)確率提高了高達(dá) 6 倍;將 TTT 應(yīng)用于一個(gè) 8B 參數(shù)的語言模型,在 ARC 的公共驗(yàn)證集上達(dá)到了 53%的準(zhǔn)確率,將公共和純神經(jīng)網(wǎng)絡(luò)方法的最新水平提高了近 25%。通過將我們的方法與最近的程序生成方法相結(jié)合,獲得了 61.9%的 SoTA 公共驗(yàn)證準(zhǔn)確率,與人類評(píng)分接近。
ARC 任務(wù):一個(gè)評(píng)估語言模型抽象推理能力的基準(zhǔn)測(cè)試。通過一系列視覺謎題任務(wù)來考驗(yàn)?zāi)P徒鉀Q新問題的能力。 每個(gè)任務(wù)由2D網(wǎng)格(大小可達(dá)30×30)組成,網(wǎng)格中包含由多達(dá)10種不同顏色的形狀或模式。輸出是通過將一個(gè)直觀且共同的變換規(guī)則或函數(shù)應(yīng)用于輸入網(wǎng)格來獲得的。
算法步驟:
- 從訓(xùn)練輸入-輸出對(duì)中創(chuàng)建留一法任務(wù),然后通過基于規(guī)則的變換來增強(qiáng)數(shù)據(jù)集。
- 在測(cè)試時(shí)訓(xùn)練期間,使用LoRA來優(yōu)化。為每個(gè)任務(wù)學(xué)習(xí)一個(gè)特定的LoRA適配器,而不是為所有任務(wù)學(xué)習(xí)一個(gè)單一的適配器。
- 使用幾何變換生成多個(gè)預(yù)測(cè)候選,然后通過貪婪解碼方案進(jìn)行預(yù)測(cè)。采用分層投票策略,首先在每個(gè)變換內(nèi)進(jìn)行投票,然后對(duì)每個(gè)變換的候選進(jìn)行全局投票,以確定最終預(yù)測(cè)。
本文轉(zhuǎn)載自??NLP前沿??
