偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="vn6s0"></cite>

<samp id="vn6s0"><option id="vn6s0"></option></samp>

<s id="vn6s0"><nav id="vn6s0"></nav></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

超越GPT-4o！華人團隊新框架讓Qwen跨領(lǐng)域推理提升10%，刷新12項基準測試

2025-06-04 09:05:18

人工智能新聞

來自加拿大滑鐵盧大學(xué)與TikTok新加坡，M-A-P的華人團隊提出了一種全新訓(xùn)練框架：General-Reasoner。

一項新的強化學(xué)習(xí)方法，直接讓Qwen性能大增，GPT-4o被趕超！

來自加拿大滑鐵盧大學(xué)與TikTok新加坡，M-A-P的華人團隊提出了一種全新訓(xùn)練框架：General-Reasoner。

結(jié)果直接讓Qwen系列大模型的跨領(lǐng)域推理準確率提升近10%，在多個基準測試中甚至超越GPT-4o。

上圖顯示出General-Reasoner在多項跨領(lǐng)域評測中顯著提升基礎(chǔ)模型推理能力。

當(dāng)前，強化學(xué)習(xí)（RL）被視為提升模型推理能力的關(guān)鍵手段。其中，Zero-RL方法通過直接訓(xùn)練基礎(chǔ)模型，已在數(shù)學(xué)和編程等結(jié)構(gòu)化任務(wù)上展現(xiàn)出強大效果。

問題是，這些方法往往局限于數(shù)據(jù)豐富、答案結(jié)構(gòu)清晰的領(lǐng)域，在面對物理、金融或人文社科等更廣泛的領(lǐng)域時，模型難以有效泛化。

接下來看看研究團隊是如何解決這些推理難題的？

相較現(xiàn)有方法的關(guān)鍵革新

目前的Zero-RL框架如SimpleRL通常聚焦于單一領(lǐng)域數(shù)據(jù)，采用簡單的規(guī)則式答案驗證，存在以下不足：

數(shù)據(jù)單一多為數(shù)學(xué)競賽或代碼任務(wù)，泛化能力有限；
驗證方式僵化僅能識別明確結(jié)構(gòu)化答案，無法靈活處理多樣化的答案表述。

針對這些問題，General-Reasoner提出兩個核心創(chuàng)新：

全領(lǐng)域推理數(shù)據(jù)集（WebInstruct-verified）

通過大規(guī)模網(wǎng)絡(luò)爬取與嚴格篩選，創(chuàng)建了覆蓋物理、化學(xué)、金融等多個領(lǐng)域約23萬個高質(zhì)量、可驗證的推理問題。

為了支持更廣泛的跨領(lǐng)域推理能力，研究團隊構(gòu)建了一個大規(guī)模、多樣且高質(zhì)量的可驗證推理任務(wù)數(shù)據(jù)集。

數(shù)據(jù)最初來源于WebInstruct，其中包含約500萬個從StackExchange和教育門戶網(wǎng)站爬取的自然指令。這些數(shù)據(jù)雖然適用于一般的指令調(diào)優(yōu)，但大部分缺乏可驗證答案或推理結(jié)構(gòu)。

研究人員追溯數(shù)據(jù)源網(wǎng)頁提取問題-答案對，并剔除沒有明確人類答案的問題以確保質(zhì)量。

隨后利用Gemini-1.5-Pro識別具有簡潔答案的可驗證問題，獲得100萬個候選問題。再通過Gemini-2.0-Flash進行元數(shù)據(jù)標注，并適當(dāng)減少簡單的數(shù)學(xué)問題以保持數(shù)據(jù)平衡。

進一步質(zhì)量篩選時，研究人員使用Gemini-2.0-Flash生成8個候選答案：

剔除所有8個候選答案均錯誤的問題（模糊或噪聲）；
剔除所有8個候選答案均正確的問題（過于簡單）。

最終的高質(zhì)量示例用于訓(xùn)練此框架的模型驗證器。

生成的數(shù)據(jù)集涵蓋約23萬道具有不同答案格式和主題的推理問題。

上圖為WebInstruct-Verified數(shù)據(jù)生成過程以及最終答案種類和學(xué)科種類的分布

生成式答案驗證器（General-Verifier）

以僅有1.5B參數(shù)的小型生成式模型，取代傳統(tǒng)規(guī)則式驗證，大幅提高了不同領(lǐng)域答案的驗證準確率。

傳統(tǒng)的規(guī)則式驗證器通常依賴嚴格匹配或符號比較進行答案判定，雖然適合數(shù)學(xué)任務(wù)，但在更廣泛的推理領(lǐng)域存在明顯不足，如匹配規(guī)則僵化，缺乏語義理解，難以適應(yīng)復(fù)雜領(lǐng)域。

為克服這些局限，研究人員開發(fā)了一個緊湊的生成式模型驗證器（General-Verifier）。此模型以僅1.5B參數(shù)，通過團隊自建的數(shù)據(jù)集從Qwen2.5-Math-1.5B模型微調(diào)而成。

General-Verifier接收問題、標準答案和模型生成的答案后，生成一個推理過程，隨后輸出一個二元（對/錯）判定結(jié)果，為強化學(xué)習(xí)提供準確且可解釋的反饋信號。

實測顯示，這種新型驗證器與Gemini-2.0-Flash高度一致，并顯著超越傳統(tǒng)規(guī)則式方法，具有更高的魯棒性與泛化能力。

△傳統(tǒng)規(guī)則式答案驗證與生成式模型驗證的比較

性能實測

團隊以Qwen2.5/Qwen3系列模型（4B/7B/14B）為基礎(chǔ)，進行了包括MMLU-Pro、GPQA、SuperGPQA、TheoremQA等12個基準測試，結(jié)果表明：

在跨領(lǐng)域任務(wù)中，General-Reasoner相比基礎(chǔ)模型提升約10%。例如，基于Qwen2.5-7B-Base的General-Reasoner在MMLU-Pro的準確率達到58.9%，高于基礎(chǔ)模型（47.7%）和指令模型（57.0%）；
在數(shù)學(xué)推理任務(wù)中，表現(xiàn)略優(yōu)于專業(yè)的數(shù)學(xué)強化學(xué)習(xí)框架SimpleRL；
最優(yōu)模型General-Reasoner-Qw3-14B在多個基準測試中可匹敵甚至超越GPT-4o。例如，General-Reasoner-Qwen3-14B在GPQA任務(wù)中的準確率達56.1%，在TheoremQA任務(wù)中達54.4%，均超越GPT-4o。

上表為General-Reasoner與基準方法在MMLU-Pro，GPQA，SuperGPQA，TheoremQA和BBEH測試集上的詳細比較。

未來展望

研究團隊表示，將繼續(xù)優(yōu)化模型性能，擴展更多領(lǐng)域的高質(zhì)量推理數(shù)據(jù)，并持續(xù)提升驗證器魯棒性，推動大語言模型在更復(fù)雜現(xiàn)實任務(wù)中的廣泛應(yīng)用。

相關(guān)論文與項目資源已公開發(fā)布，感興趣的讀者可進一步探索。

論文鏈接：https://arxiv.org/abs/2505.14652

資源鏈接：https://tiger-ai-lab.github.io/General-Reasoner/

責(zé)任編輯：張燕妮來源：量子位

模型訓(xùn)練框架

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營