監(jiān)督學(xué)習(xí)未死,一題訓(xùn)練五小時起飛!華人學(xué)者新方法20倍訓(xùn)練效率釋放大模型推理能力
大模型推理能力研究中,可驗證獎勵的強(qiáng)化學(xué)習(xí)(RL with Verifiable Rewards, 簡稱 RLVR)技術(shù)頻頻突破,尤其是“一題強(qiáng)化學(xué)習(xí)”(RL on One Example)在多個任務(wù)中表現(xiàn)亮眼,引發(fā)了廣泛討論。
但與此同時,一個現(xiàn)實難題也隨之而來:
哪怕只使用一個樣本,RL的訓(xùn)練也往往需要上百小時的A100GPU支撐,資源成本極高;而訓(xùn)練過程的高度不穩(wěn)定,也給復(fù)現(xiàn)和實際部署帶來了極大障礙;相比之下,傳統(tǒng)的監(jiān)督式微調(diào)(SFT)雖然計算負(fù)擔(dān)小,但在低數(shù)據(jù)量下極易過擬合,效果難以保證。
有沒有一種方法,不依賴復(fù)雜的反饋信號,也不需要成千上萬的數(shù)據(jù)樣本,就能有效激發(fā)LLM中已蘊(yùn)藏的推理能力?
加拿大滑鐵盧大學(xué)TIGER Lab的華人學(xué)者團(tuán)隊提出了一種名為One-Shot Critique Fine-Tuning(One-Shot CFT)的新方法。
本質(zhì)上,這也是一種監(jiān)督學(xué)習(xí),只不過與傳統(tǒng)SFT的“模仿答案”不同,CFT訓(xùn)練模型“逐步分析判斷一個答案的好壞”。在這個過程中,模型能接觸到多樣的推理路徑和錯誤類型,更貼近人類真實的學(xué)習(xí)方式。

一題、多解、多點評:One-Shot CFT如何工作?
One-Shot CFT的整體流程設(shè)計并不復(fù)雜,但背后的思想?yún)s極具啟發(fā)性。
研究者首先選取一個具有代表性的任務(wù)問題(如數(shù)學(xué)推理題),然后利用多個主流開源模型(如MiMo、Qwen3、Phi-4等)生成多個不同版本的解答。這些答案再交由GPT-4、Claude等更強(qiáng)大的“點評者”模型進(jìn)行點評,解釋每個答案的優(yōu)劣。
最終,研究者將這些點評作為監(jiān)督信號,訓(xùn)練目標(biāo)模型(如Qwen2.5、LLaMA3.2等),讓其從“批判答案”中學(xué)習(xí)推理規(guī)律。
整個過程只需要一題數(shù)據(jù) + 多個解答 + 多個點評,便能完成微調(diào)。而令人驚訝的是,完整訓(xùn)練僅需約5個GPU小時,遠(yuǎn)遠(yuǎn)低于RL方法的資源消耗,而且One-Shot CFT在多個領(lǐng)域均展現(xiàn)了驚人的效果。

數(shù)學(xué)與邏輯雙線突破,超越RLVR與小規(guī)模SFT
在實驗中,研究團(tuán)隊圍繞數(shù)學(xué)和邏輯推理兩大方向展開驗證,使用主流基準(zhǔn)任務(wù)(如MATH-500、OlympiadBench、AMC、BBEH等)進(jìn)行全面評測。

在數(shù)學(xué)任務(wù)上,Qwen2.5-Math-7B僅用一題進(jìn)行CFT微調(diào)后,準(zhǔn)確率即提升+15%,不僅超越了RLVR框架下的One-Example RL表現(xiàn),甚至超過了在DeepScaleR上使用4萬多個訓(xùn)練樣本的全監(jiān)督微調(diào)模型。

在BBEH邏輯推理任務(wù)中,包括因果推理、歧義消解等子任務(wù)也獲得了+10~16%的準(zhǔn)確率增幅,表現(xiàn)出極強(qiáng)的跨任務(wù)遷移能力。

更重要的是,實驗表明One-Shot CFT的效果對具體任務(wù)和種子選擇不敏感,具有良好的穩(wěn)定性和復(fù)現(xiàn)性。
“點評”憑什么比“答案”更有用?
One-Shot CFT的顯著效果,歸因于三個核心機(jī)制:
首先,它強(qiáng)調(diào)批判性學(xué)習(xí)。傳統(tǒng)SFT是讓模型去模仿參考答案,而CFT是讓模型理解“一個答案為何正確或錯誤”,其學(xué)習(xí)信號更具深度;
其次,它引入了多視角輸入。一個任務(wù)下生成多個答案,每個答案再生成多個點評,等于用一個問題模擬出多種推理路徑與錯誤類型,這種多樣性非常接近人類的學(xué)習(xí)方式;
第三,CFT的訓(xùn)練信號具有強(qiáng)泛化性。與RL或SFT中的獎勵信號不同,點評語言往往包含更通用的邏輯判斷規(guī)則,因此能更自然地遷移至新任務(wù)中,降低過擬合風(fēng)險。
這一機(jī)制的有效性也被多項ablation study所驗證:無論更換問題、模型、甚至點評風(fēng)格,CFT訓(xùn)練的提升幅度都能保持在穩(wěn)定區(qū)間內(nèi)。
一題五小時,人人可復(fù)現(xiàn):低門檻、強(qiáng)效果的新選擇
相比RL動輒幾十甚至上百GPU小時的訓(xùn)練需求,One-Shot CFT的“低成本”屬性無疑讓它具備了更強(qiáng)的落地潛力。
- 訓(xùn)練只需5 GPU小時,一張A100也能輕松搞定;
 - 無需RL框架與獎勵模型,訓(xùn)練與推理過程更透明、易調(diào)試;
 - 全流程開源,包括訓(xùn)練腳本、模型參數(shù)、數(shù)據(jù)集等,極大降低復(fù)現(xiàn)門檻。
 
對個人研究者、資源有限的實驗室,甚至初創(chuàng)團(tuán)隊而言,One-Shot CFT提供了一種極具性價比的推理能力增強(qiáng)方案。

論文地址:https://arxiv.org/abs/2506.03295
項目主頁:https://tiger-ai-lab.github.io/One-Shot-CFT/
Hugging Face 數(shù)據(jù)集與模型合集:https://huggingface.co/collections/TIGER-Lab/one-shot-cft-683fbb4d2bcf698dbea8fb21
GitHub 倉庫:https://github.com/TIGER-AI-Lab/One-Shot-CFT















 
 
 
















 
 
 
 