超越GPT-4o!華人團隊新框架讓Qwen跨領域推理提升10%,刷新12項基準測試
一項新的強化學習方法,直接讓Qwen性能大增,GPT-4o被趕超!
來自加拿大滑鐵盧大學與TikTok新加坡,M-A-P的華人團隊提出了一種全新訓練框架:General-Reasoner。
結果直接讓Qwen系列大模型的跨領域推理準確率提升近10%,在多個基準測試中甚至超越GPT-4o。

上圖顯示出General-Reasoner在多項跨領域評測中顯著提升基礎模型推理能力。
當前,強化學習(RL)被視為提升模型推理能力的關鍵手段。其中,Zero-RL方法通過直接訓練基礎模型,已在數(shù)學和編程等結構化任務上展現(xiàn)出強大效果。
問題是,這些方法往往局限于數(shù)據(jù)豐富、答案結構清晰的領域,在面對物理、金融或人文社科等更廣泛的領域時,模型難以有效泛化。
接下來看看研究團隊是如何解決這些推理難題的?
相較現(xiàn)有方法的關鍵革新
目前的Zero-RL框架如SimpleRL通常聚焦于單一領域數(shù)據(jù),采用簡單的規(guī)則式答案驗證,存在以下不足:
- 數(shù)據(jù)單一多為數(shù)學競賽或代碼任務,泛化能力有限;
- 驗證方式僵化僅能識別明確結構化答案,無法靈活處理多樣化的答案表述。
針對這些問題,General-Reasoner提出兩個核心創(chuàng)新:
全領域推理數(shù)據(jù)集(WebInstruct-verified)
通過大規(guī)模網(wǎng)絡爬取與嚴格篩選,創(chuàng)建了覆蓋物理、化學、金融等多個領域約23萬個高質量、可驗證的推理問題。
為了支持更廣泛的跨領域推理能力,研究團隊構建了一個大規(guī)模、多樣且高質量的可驗證推理任務數(shù)據(jù)集。
數(shù)據(jù)最初來源于WebInstruct,其中包含約500萬個從StackExchange和教育門戶網(wǎng)站爬取的自然指令。這些數(shù)據(jù)雖然適用于一般的指令調優(yōu),但大部分缺乏可驗證答案或推理結構。
研究人員追溯數(shù)據(jù)源網(wǎng)頁提取問題-答案對,并剔除沒有明確人類答案的問題以確保質量。
隨后利用Gemini-1.5-Pro識別具有簡潔答案的可驗證問題,獲得100萬個候選問題。再通過Gemini-2.0-Flash進行元數(shù)據(jù)標注,并適當減少簡單的數(shù)學問題以保持數(shù)據(jù)平衡。
進一步質量篩選時,研究人員使用Gemini-2.0-Flash生成8個候選答案:
- 剔除所有8個候選答案均錯誤的問題(模糊或噪聲);
- 剔除所有8個候選答案均正確的問題(過于簡單)。
最終的高質量示例用于訓練此框架的模型驗證器。
生成的數(shù)據(jù)集涵蓋約23萬道具有不同答案格式和主題的推理問題。

上圖為WebInstruct-Verified數(shù)據(jù)生成過程以及最終答案種類和學科種類的分布
生成式答案驗證器(General-Verifier)
以僅有1.5B參數(shù)的小型生成式模型,取代傳統(tǒng)規(guī)則式驗證,大幅提高了不同領域答案的驗證準確率。
傳統(tǒng)的規(guī)則式驗證器通常依賴嚴格匹配或符號比較進行答案判定,雖然適合數(shù)學任務,但在更廣泛的推理領域存在明顯不足,如匹配規(guī)則僵化,缺乏語義理解,難以適應復雜領域。
為克服這些局限,研究人員開發(fā)了一個緊湊的生成式模型驗證器(General-Verifier)。此模型以僅1.5B參數(shù),通過團隊自建的數(shù)據(jù)集從Qwen2.5-Math-1.5B模型微調而成。
General-Verifier接收問題、標準答案和模型生成的答案后,生成一個推理過程,隨后輸出一個二元(對/錯)判定結果,為強化學習提供準確且可解釋的反饋信號。
實測顯示,這種新型驗證器與Gemini-2.0-Flash高度一致,并顯著超越傳統(tǒng)規(guī)則式方法,具有更高的魯棒性與泛化能力。

△傳統(tǒng)規(guī)則式答案驗證與生成式模型驗證的比較
性能實測
團隊以Qwen2.5/Qwen3系列模型(4B/7B/14B)為基礎,進行了包括MMLU-Pro、GPQA、SuperGPQA、TheoremQA等12個基準測試,結果表明:
- 在跨領域任務中,General-Reasoner相比基礎模型提升約10%。例如,基于Qwen2.5-7B-Base的General-Reasoner在MMLU-Pro的準確率達到58.9%,高于基礎模型(47.7%)和指令模型(57.0%);
- 在數(shù)學推理任務中,表現(xiàn)略優(yōu)于專業(yè)的數(shù)學強化學習框架SimpleRL;
- 最優(yōu)模型General-Reasoner-Qw3-14B在多個基準測試中可匹敵甚至超越GPT-4o。例如,General-Reasoner-Qwen3-14B在GPQA任務中的準確率達56.1%,在TheoremQA任務中達54.4%,均超越GPT-4o。

上表為General-Reasoner與基準方法在MMLU-Pro,GPQA,SuperGPQA,TheoremQA和BBEH測試集上的詳細比較。
未來展望
研究團隊表示,將繼續(xù)優(yōu)化模型性能,擴展更多領域的高質量推理數(shù)據(jù),并持續(xù)提升驗證器魯棒性,推動大語言模型在更復雜現(xiàn)實任務中的廣泛應用。
相關論文與項目資源已公開發(fā)布,感興趣的讀者可進一步探索。
論文鏈接:https://arxiv.org/abs/2505.14652
資源鏈接:https://tiger-ai-lab.github.io/General-Reasoner/






































