偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

超越Claude 3.5和o1！8B模型靠「分層投票+測試時訓(xùn)練」逆襲

2025-07-22 10:22:02

人工智能新聞

小時候完成月考測試后，老師會通過講解考試卷中吃錯題讓同學(xué)們在未來取得好成績。近日MIT的研究者，發(fā)現(xiàn)測試時訓(xùn)練在大模型應(yīng)對復(fù)雜推理問題時，能通過將任務(wù)分解，大幅提升回答的準確率。拿到題目后模型開始訓(xùn)練，效果意外的好！

測試時訓(xùn)練（test-time training）是一種通用的訓(xùn)練方法。

該方法將單個未標記的測試實例轉(zhuǎn)化為自監(jiān)督學(xué)習(xí)問題，在對測試樣本進行預(yù)測之前更新模型參數(shù)。

而對于大模型訓(xùn)練，通常會使用一種稱為情境學(xué)習(xí)的技術(shù)來提高其模型在新任務(wù)上的性能。

該方法通過將新任務(wù)的幾個示例作為文本提示輸入模型，從而指導(dǎo)模型的輸出。

但情境學(xué)習(xí)并不總是適用于需要邏輯和推理的問題。因為邏輯和推理問題是環(huán)環(huán)相扣的，需要先做好對問題的拆解，才能夠解決對應(yīng)的問題。

只是給出例子，而不教會大模型推理方法，相當(dāng)于只是給學(xué)生幾道例題和答案，卻不教解題思路，對成績的提升于事無補。

圖1：大模型測試時學(xué)習(xí)的框架

測試時訓(xùn)練的第一步，是數(shù)據(jù)重構(gòu)，即通過留一法，將K個示例拆分為K個偽任務(wù)，每個任務(wù)用K-1個樣本作訓(xùn)練，留1個作測試。

同時修改訓(xùn)練優(yōu)化的損失函數(shù)，涵蓋所有的示例，讓模型不僅學(xué)到訓(xùn)練集，還能擴展到測試集上。

測試時訓(xùn)練涉及使用少量特定于當(dāng)前任務(wù)的新數(shù)據(jù)來更新某些模型參數(shù)——即模型用于進行預(yù)測的內(nèi)部變量。

下面的圖2，對應(yīng)的是在抽象推理數(shù)據(jù)集（ARC）和BBH兩個基準測試集應(yīng)用測試時訓(xùn)練后，成功給出回答的示例。

圖2：使用測試時訓(xùn)練解決抽象推理問題的示例

測試中使用的模型，其參數(shù)量不過是8B的lemma3，而其性能提升相當(dāng)顯著，對于ARC數(shù)據(jù)集，準確性翻了近兩倍，從17.5%提高到45%；在BBH數(shù)據(jù)集上，也從50.5%提升到57.8%。

圖3：在80個隨機選擇的ARC驗證任務(wù)子集上和全部BBH任務(wù)上的準確性

讓大模型的思考邏輯問題如人類專家

為了擴展測試時給出數(shù)據(jù)集的大小，研究者還通過略微改變示例中的問題和解決方案來創(chuàng)建新的數(shù)據(jù)，例如通過水平翻轉(zhuǎn)一些輸入數(shù)據(jù)。

他們發(fā)現(xiàn)，在新增的數(shù)據(jù)集上訓(xùn)練模型可以使得模型獲得最佳性能。

在使用留一法和可逆幾何變換后，可通過測使用分層投票策略，對訓(xùn)練后的模型預(yù)測進行聚合：首先，在每個變換內(nèi)部進行投票，然后從每個變換中選出的頂級候選者進行全局投票以產(chǎn)生最終的前兩個預(yù)測。

圖4：分層投票策略示例

使用分層投票和測試時訓(xùn)練后，即使是1B參數(shù)的模型，其在抽象推理問題上的性能提升也相當(dāng)顯著，性能與8B模型相近，如圖5所示。

圖5 1B 3B和8B參數(shù)量模型面對抽象推理問題的回答準確率對比

經(jīng)過了微調(diào)并使用測試時訓(xùn)練的8B模型，其在抽象推理任務(wù)上的準確率高達62.8，已經(jīng)超過了人類的均值60.2%，對比主流的Claude3.5，Deepseek R1，openAI o1更是遙遙領(lǐng)先。

相比在提示詞中給出示例，測試時訓(xùn)練這一策略模仿了人類的思維方式，將大任務(wù)分解為數(shù)個小目標，每一步都包含可管理的邏輯步驟。

不僅適用于抽象推理問題，對于很多涉及多步驟推理的問題，都會帶來顯著的性能提升。

例如物體計數(shù)問題,即跟蹤打亂順序的五個物體, 跟蹤打亂順序后的物體順序，或是電影推薦，即選擇滿足多個條件的電影。

在Big-Bench hard數(shù)據(jù)集的10類任務(wù)中，通過消融分析，也可對比使用了測試訓(xùn)練及分層投票策略所帶來的性能提升（圖6）。

這意味著測試時訓(xùn)練解決了大模型應(yīng)用的一個核心痛點，即它們能生成流暢的文本，但在需要嚴密邏輯鏈條的復(fù)雜推理任務(wù)中，往往會走捷徑或產(chǎn)生邏輯謬誤。

例如雖然會計公司的大模型可能擅長總結(jié)財務(wù)報告，但如果要求該模型預(yù)測市場趨勢或識別欺詐交易，它可能會意外地失敗。

圖7：在Big-Bench hard數(shù)據(jù)集上，的特定任務(wù)進行消融實驗的完整結(jié)果

而測試時訓(xùn)練的引入，讓大模型的思考方式變得類似人類專家，能夠讓大模型學(xué)習(xí)如何將一個大問題分解成多個子問題，然后按計劃、有條不紊地解決，并在得出最終答案前對中間步驟進行自我審視和驗證。

其意義不僅在于提升了模型的測試分數(shù)，更重要的是，它為構(gòu)建更值得信賴的AI系統(tǒng)提供了可能。

一個能夠清晰展示其推理步驟并進行自我糾錯的AI，將在科學(xué)發(fā)現(xiàn)、醫(yī)療診斷、法律分析等高風(fēng)險領(lǐng)域具有更廣闊的應(yīng)用前景。

這些說明測試時訓(xùn)練在處理新型推理任務(wù)方面的潛力，表明其在推動下一代語言模型的發(fā)展方面具有巨大前景。

然而，該研究一作Akyürek指出，即使采取了低秩適配的技術(shù)，只更新少量模型參數(shù)，從而提升測試時訓(xùn)練的部署效率，由于使用該策略意味著大模型每回答一個問題，都要重新進行訓(xùn)練。

這會導(dǎo)致一個通常在不到一分鐘內(nèi)回答查詢的模型，在測試時訓(xùn)練下可能需要五到十分鐘來提供答案。

因此Akyürek并不希望對所有用戶查詢都這樣做，但如果您有一個非常困難的任務(wù)，希望模型能夠很好地解決，那么測試是就是有用的。

而另一些任務(wù)，不需要使用該方法，上下文情境學(xué)習(xí)就夠用了。

而研究者的長期目標是建立一個能持續(xù)學(xué)習(xí)的大模型，可根據(jù)查詢自動判斷是否需要使用測試時訓(xùn)練來更新參數(shù)，或者是否可以使用情境學(xué)習(xí)來完成任務(wù)，然后無需人工干預(yù)即可實施最佳測試時訓(xùn)練策略。

責(zé)任編輯：張燕妮來源：新智元

AI 測試模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營