偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<s id="igmux"></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

監(jiān)督學(xué)習(xí)未死，一題訓(xùn)練五小時起飛！華人學(xué)者新方法20倍訓(xùn)練效率釋放大模型推理能力

2025-08-05 09:05:00

人工智能新聞

加拿大滑鐵盧大學(xué)TIGER Lab的華人學(xué)者團(tuán)隊提出了一種名為One-Shot Critique Fine-Tuning（One-Shot CFT）的新方法。

大模型推理能力研究中，可驗證獎勵的強(qiáng)化學(xué)習(xí)（RL with Verifiable Rewards, 簡稱 RLVR）技術(shù)頻頻突破，尤其是“一題強(qiáng)化學(xué)習(xí)”（RL on One Example）在多個任務(wù)中表現(xiàn)亮眼，引發(fā)了廣泛討論。

但與此同時，一個現(xiàn)實難題也隨之而來：

哪怕只使用一個樣本，RL的訓(xùn)練也往往需要上百小時的A100GPU支撐，資源成本極高；而訓(xùn)練過程的高度不穩(wěn)定，也給復(fù)現(xiàn)和實際部署帶來了極大障礙；相比之下，傳統(tǒng)的監(jiān)督式微調(diào)（SFT）雖然計算負(fù)擔(dān)小，但在低數(shù)據(jù)量下極易過擬合，效果難以保證。

有沒有一種方法，不依賴復(fù)雜的反饋信號，也不需要成千上萬的數(shù)據(jù)樣本，就能有效激發(fā)LLM中已蘊(yùn)藏的推理能力？

加拿大滑鐵盧大學(xué)TIGER Lab的華人學(xué)者團(tuán)隊提出了一種名為One-Shot Critique Fine-Tuning（One-Shot CFT）的新方法。

本質(zhì)上，這也是一種監(jiān)督學(xué)習(xí)，只不過與傳統(tǒng)SFT的“模仿答案”不同，CFT訓(xùn)練模型“逐步分析判斷一個答案的好壞”。在這個過程中，模型能接觸到多樣的推理路徑和錯誤類型，更貼近人類真實的學(xué)習(xí)方式。

一題、多解、多點評：One-Shot CFT如何工作？

One-Shot CFT的整體流程設(shè)計并不復(fù)雜，但背后的思想?yún)s極具啟發(fā)性。

研究者首先選取一個具有代表性的任務(wù)問題（如數(shù)學(xué)推理題），然后利用多個主流開源模型（如MiMo、Qwen3、Phi-4等）生成多個不同版本的解答。這些答案再交由GPT-4、Claude等更強(qiáng)大的“點評者”模型進(jìn)行點評，解釋每個答案的優(yōu)劣。

最終，研究者將這些點評作為監(jiān)督信號，訓(xùn)練目標(biāo)模型（如Qwen2.5、LLaMA3.2等），讓其從“批判答案”中學(xué)習(xí)推理規(guī)律。

整個過程只需要一題數(shù)據(jù) + 多個解答 + 多個點評，便能完成微調(diào)。而令人驚訝的是，完整訓(xùn)練僅需約5個GPU小時，遠(yuǎn)遠(yuǎn)低于RL方法的資源消耗,而且One-Shot CFT在多個領(lǐng)域均展現(xiàn)了驚人的效果。

數(shù)學(xué)與邏輯雙線突破，超越RLVR與小規(guī)模SFT

在實驗中，研究團(tuán)隊圍繞數(shù)學(xué)和邏輯推理兩大方向展開驗證，使用主流基準(zhǔn)任務(wù)（如MATH-500、OlympiadBench、AMC、BBEH等）進(jìn)行全面評測。

在數(shù)學(xué)任務(wù)上，Qwen2.5-Math-7B僅用一題進(jìn)行CFT微調(diào)后，準(zhǔn)確率即提升+15%，不僅超越了RLVR框架下的One-Example RL表現(xiàn)，甚至超過了在DeepScaleR上使用4萬多個訓(xùn)練樣本的全監(jiān)督微調(diào)模型。

在BBEH邏輯推理任務(wù)中，包括因果推理、歧義消解等子任務(wù)也獲得了+10~16%的準(zhǔn)確率增幅，表現(xiàn)出極強(qiáng)的跨任務(wù)遷移能力。

更重要的是，實驗表明One-Shot CFT的效果對具體任務(wù)和種子選擇不敏感，具有良好的穩(wěn)定性和復(fù)現(xiàn)性。

“點評”憑什么比“答案”更有用？

One-Shot CFT的顯著效果，歸因于三個核心機(jī)制：

首先，它強(qiáng)調(diào)批判性學(xué)習(xí)。傳統(tǒng)SFT是讓模型去模仿參考答案，而CFT是讓模型理解“一個答案為何正確或錯誤”，其學(xué)習(xí)信號更具深度；

其次，它引入了多視角輸入。一個任務(wù)下生成多個答案，每個答案再生成多個點評，等于用一個問題模擬出多種推理路徑與錯誤類型，這種多樣性非常接近人類的學(xué)習(xí)方式；

第三，CFT的訓(xùn)練信號具有強(qiáng)泛化性。與RL或SFT中的獎勵信號不同，點評語言往往包含更通用的邏輯判斷規(guī)則，因此能更自然地遷移至新任務(wù)中，降低過擬合風(fēng)險。

這一機(jī)制的有效性也被多項ablation study所驗證：無論更換問題、模型、甚至點評風(fēng)格，CFT訓(xùn)練的提升幅度都能保持在穩(wěn)定區(qū)間內(nèi)。

一題五小時，人人可復(fù)現(xiàn)：低門檻、強(qiáng)效果的新選擇

相比RL動輒幾十甚至上百GPU小時的訓(xùn)練需求，One-Shot CFT的“低成本”屬性無疑讓它具備了更強(qiáng)的落地潛力。

訓(xùn)練只需5 GPU小時，一張A100也能輕松搞定；
無需RL框架與獎勵模型，訓(xùn)練與推理過程更透明、易調(diào)試；
全流程開源，包括訓(xùn)練腳本、模型參數(shù)、數(shù)據(jù)集等，極大降低復(fù)現(xiàn)門檻。

對個人研究者、資源有限的實驗室，甚至初創(chuàng)團(tuán)隊而言，One-Shot CFT提供了一種極具性價比的推理能力增強(qiáng)方案。

論文地址：https://arxiv.org/abs/2506.03295
項目主頁：https://tiger-ai-lab.github.io/One-Shot-CFT/
Hugging Face 數(shù)據(jù)集與模型合集：https://huggingface.co/collections/TIGER-Lab/one-shot-cft-683fbb4d2bcf698dbea8fb21
GitHub 倉庫：https://github.com/TIGER-AI-Lab/One-Shot-CFT

責(zé)任編輯：張燕妮來源：量子位

AI 模型推理

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<table id="6rwma"><optgroup id="6rwma"></optgroup></table>

<nobr id="6rwma"><code id="6rwma"><optgroup id="6rwma"></optgroup></code></nobr>

<tfoot id="6rwma"></tfoot>