偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

監(jiān)督學(xué)習(xí)未死,一題訓(xùn)練五小時起飛!華人學(xué)者新方法20倍訓(xùn)練效率釋放大模型推理能力

人工智能 新聞
加拿大滑鐵盧大學(xué)TIGER Lab的華人學(xué)者團(tuán)隊提出了一種名為One-Shot Critique Fine-Tuning(One-Shot CFT)的新方法。

大模型推理能力研究中,可驗證獎勵的強(qiáng)化學(xué)習(xí)(RL with Verifiable Rewards, 簡稱 RLVR)技術(shù)頻頻突破,尤其是“一題強(qiáng)化學(xué)習(xí)”(RL on One Example)在多個任務(wù)中表現(xiàn)亮眼,引發(fā)了廣泛討論。

但與此同時,一個現(xiàn)實難題也隨之而來:

哪怕只使用一個樣本,RL的訓(xùn)練也往往需要上百小時的A100GPU支撐,資源成本極高;而訓(xùn)練過程的高度不穩(wěn)定,也給復(fù)現(xiàn)和實際部署帶來了極大障礙;相比之下,傳統(tǒng)的監(jiān)督式微調(diào)(SFT)雖然計算負(fù)擔(dān)小,但在低數(shù)據(jù)量下極易過擬合,效果難以保證。

有沒有一種方法,不依賴復(fù)雜的反饋信號,也不需要成千上萬的數(shù)據(jù)樣本,就能有效激發(fā)LLM中已蘊(yùn)藏的推理能力?

加拿大滑鐵盧大學(xué)TIGER Lab的華人學(xué)者團(tuán)隊提出了一種名為One-Shot Critique Fine-Tuning(One-Shot CFT)的新方法。

本質(zhì)上,這也是一種監(jiān)督學(xué)習(xí),只不過與傳統(tǒng)SFT的“模仿答案”不同,CFT訓(xùn)練模型“逐步分析判斷一個答案的好壞”。在這個過程中,模型能接觸到多樣的推理路徑和錯誤類型,更貼近人類真實的學(xué)習(xí)方式。

圖片

一題、多解、多點評:One-Shot CFT如何工作?

One-Shot CFT的整體流程設(shè)計并不復(fù)雜,但背后的思想?yún)s極具啟發(fā)性。

研究者首先選取一個具有代表性的任務(wù)問題(如數(shù)學(xué)推理題),然后利用多個主流開源模型(如MiMo、Qwen3、Phi-4等)生成多個不同版本的解答。這些答案再交由GPT-4、Claude等更強(qiáng)大的“點評者”模型進(jìn)行點評,解釋每個答案的優(yōu)劣。

最終,研究者將這些點評作為監(jiān)督信號,訓(xùn)練目標(biāo)模型(如Qwen2.5、LLaMA3.2等),讓其從“批判答案”中學(xué)習(xí)推理規(guī)律。

整個過程只需要一題數(shù)據(jù) + 多個解答 + 多個點評,便能完成微調(diào)。而令人驚訝的是,完整訓(xùn)練僅需約5個GPU小時,遠(yuǎn)遠(yuǎn)低于RL方法的資源消耗,而且One-Shot CFT在多個領(lǐng)域均展現(xiàn)了驚人的效果。

圖片

數(shù)學(xué)與邏輯雙線突破,超越RLVR與小規(guī)模SFT

在實驗中,研究團(tuán)隊圍繞數(shù)學(xué)和邏輯推理兩大方向展開驗證,使用主流基準(zhǔn)任務(wù)(如MATH-500、OlympiadBench、AMC、BBEH等)進(jìn)行全面評測。

圖片

在數(shù)學(xué)任務(wù)上,Qwen2.5-Math-7B僅用一題進(jìn)行CFT微調(diào)后,準(zhǔn)確率即提升+15%,不僅超越了RLVR框架下的One-Example RL表現(xiàn),甚至超過了在DeepScaleR上使用4萬多個訓(xùn)練樣本的全監(jiān)督微調(diào)模型。

圖片

在BBEH邏輯推理任務(wù)中,包括因果推理、歧義消解等子任務(wù)也獲得了+10~16%的準(zhǔn)確率增幅,表現(xiàn)出極強(qiáng)的跨任務(wù)遷移能力

圖片

更重要的是,實驗表明One-Shot CFT的效果對具體任務(wù)和種子選擇不敏感,具有良好的穩(wěn)定性和復(fù)現(xiàn)性。

“點評”憑什么比“答案”更有用?

One-Shot CFT的顯著效果,歸因于三個核心機(jī)制:

首先,它強(qiáng)調(diào)批判性學(xué)習(xí)。傳統(tǒng)SFT是讓模型去模仿參考答案,而CFT是讓模型理解“一個答案為何正確或錯誤”,其學(xué)習(xí)信號更具深度;

其次,它引入了多視角輸入。一個任務(wù)下生成多個答案,每個答案再生成多個點評,等于用一個問題模擬出多種推理路徑與錯誤類型,這種多樣性非常接近人類的學(xué)習(xí)方式;

第三,CFT的訓(xùn)練信號具有強(qiáng)泛化性。與RL或SFT中的獎勵信號不同,點評語言往往包含更通用的邏輯判斷規(guī)則,因此能更自然地遷移至新任務(wù)中,降低過擬合風(fēng)險。

這一機(jī)制的有效性也被多項ablation study所驗證:無論更換問題、模型、甚至點評風(fēng)格,CFT訓(xùn)練的提升幅度都能保持在穩(wěn)定區(qū)間內(nèi)。

一題五小時,人人可復(fù)現(xiàn):低門檻、強(qiáng)效果的新選擇

相比RL動輒幾十甚至上百GPU小時的訓(xùn)練需求,One-Shot CFT的“低成本”屬性無疑讓它具備了更強(qiáng)的落地潛力。

  • 訓(xùn)練只需5 GPU小時,一張A100也能輕松搞定;
  • 無需RL框架與獎勵模型,訓(xùn)練與推理過程更透明、易調(diào)試;
  • 全流程開源,包括訓(xùn)練腳本、模型參數(shù)、數(shù)據(jù)集等,極大降低復(fù)現(xiàn)門檻。

對個人研究者、資源有限的實驗室,甚至初創(chuàng)團(tuán)隊而言,One-Shot CFT提供了一種極具性價比的推理能力增強(qiáng)方案。

圖片

論文地址:https://arxiv.org/abs/2506.03295
項目主頁:https://tiger-ai-lab.github.io/One-Shot-CFT/
Hugging Face 數(shù)據(jù)集與模型合集:https://huggingface.co/collections/TIGER-Lab/one-shot-cft-683fbb4d2bcf698dbea8fb21
GitHub 倉庫:https://github.com/TIGER-AI-Lab/One-Shot-CFT

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-10-28 15:16:52

檢測數(shù)據(jù)

2024-07-10 12:42:53

2021-02-20 16:07:27

神經(jīng)網(wǎng)絡(luò)AI算法

2025-04-14 02:00:00

標(biāo)簽頁網(wǎng)站技巧

2025-04-17 09:58:32

2025-07-16 09:58:47

2025-10-27 08:30:00

AI模型算法

2011-07-28 21:28:12

筆記本評測

2015-09-24 09:07:06

亞馬遜數(shù)據(jù)中心斷電

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2024-11-08 09:30:00

2025-03-05 04:00:00

2025-07-09 01:22:00

AI強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)

2024-11-27 14:30:00

模型訓(xùn)練

2025-06-05 08:40:00

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2025-06-30 09:08:00

2020-01-20 14:25:19

數(shù)據(jù)平臺架構(gòu)

2021-11-26 10:02:22

擴(kuò)展業(yè)務(wù)領(lǐng)導(dǎo)者CIO

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能
點贊
收藏

51CTO技術(shù)棧公眾號