混合數(shù)學(xué)編程邏輯數(shù)據(jù),一次性提升AI多領(lǐng)域強(qiáng)化學(xué)習(xí)能力 | 上海AI Lab
近年來,AI大模型在數(shù)學(xué)計(jì)算、邏輯推理和代碼生成領(lǐng)域的推理能力取得了顯著突破。特別是DeepSeek-R1等先進(jìn)模型的出現(xiàn),可驗(yàn)證強(qiáng)化學(xué)習(xí)(RLVR)技術(shù)展現(xiàn)出強(qiáng)大的性能提升潛力。
然而,現(xiàn)有關(guān)于強(qiáng)化學(xué)習(xí)和模型的研究多聚焦于單一領(lǐng)域優(yōu)化,缺乏對(duì)跨領(lǐng)域知識(shí)遷移和協(xié)同推理能力的系統(tǒng)性探索,讓模型能夠在多領(lǐng)域協(xié)同工作,發(fā)揮更好的推理能力。
上海AI Lab的OpenDataLab團(tuán)隊(duì)通過大規(guī)模實(shí)驗(yàn),深入剖析了RLVR在多領(lǐng)域推理中的復(fù)雜機(jī)制,為構(gòu)建更強(qiáng)大、更具魯棒性的AI推理模型提供了多個(gè)維度的關(guān)鍵發(fā)現(xiàn)。

團(tuán)隊(duì)構(gòu)建了一個(gè)涵蓋數(shù)學(xué)(Math)、編程(Code)和邏輯謎題(Puzzle)三大類數(shù)據(jù)的多領(lǐng)域評(píng)估框架,并為不同訓(xùn)練數(shù)據(jù)設(shè)計(jì)了定制化的獎(jiǎng)勵(lì)策略。
實(shí)驗(yàn)基于Qwen2.5-7B系列模型,在將數(shù)學(xué)、代碼和謎題三大領(lǐng)域數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練后,模型的整體平均性能達(dá)到了56.57,顯著優(yōu)于任何雙領(lǐng)域組合。

研究團(tuán)隊(duì)通過大規(guī)模實(shí)驗(yàn),有以下關(guān)鍵發(fā)現(xiàn):
Puzzle與Math數(shù)據(jù)的相互支持:邏輯推理與數(shù)學(xué)能力相輔相成,顯著提升模型的整體性能。
Code推理的跨領(lǐng)域混合效應(yīng):指令遵循能力較強(qiáng)的Instruct模型可以較好的將代碼能力泛化到其他領(lǐng)域,而Base模型則不然。
跨領(lǐng)域數(shù)據(jù)提升魯棒性:多樣化數(shù)據(jù)通常能提升模型能力或?qū)崿F(xiàn)更均衡的表現(xiàn),但需要更復(fù)雜的設(shè)計(jì)來解決Math、Code和Puzzle領(lǐng)域間的潛在沖突。
SFT可以提升強(qiáng)化學(xué)習(xí)效果:在強(qiáng)化學(xué)習(xí)前加入SFT階段可顯著改善模型性能。
Template一致性至關(guān)重要:訓(xùn)練與評(píng)估Template的不匹配會(huì)導(dǎo)致性能大幅下降,表明RLVR在特定領(lǐng)域訓(xùn)練時(shí)的泛化能力魯棒性面臨挑戰(zhàn)。
Policy Refresh的益處:在課程學(xué)習(xí)中定期更新參考模型和優(yōu)化器狀態(tài)可提升模型穩(wěn)定性和性能。
獎(jiǎng)勵(lì)設(shè)計(jì)需適應(yīng)任務(wù)難度:根據(jù)模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)調(diào)整獎(jiǎng)勵(lì)設(shè)置,可提高學(xué)習(xí)效率。
RLVR對(duì)語言敏感:中文訓(xùn)練的模型性能低于英文訓(xùn)練的模型,存在一定的性能差距。
研究過程與性能表現(xiàn)
領(lǐng)域劃分與數(shù)據(jù)構(gòu)建:多域推理的“基石”
上海AI Lab的OpenDataLab團(tuán)隊(duì)構(gòu)建了一個(gè)涵蓋數(shù)學(xué)(Math)、編程(Code)和邏輯謎題(Puzzle)三大類數(shù)據(jù)的多領(lǐng)域評(píng)估框架,并為不同訓(xùn)練數(shù)據(jù)設(shè)計(jì)了定制化的獎(jiǎng)勵(lì)策略。
實(shí)驗(yàn)基于Qwen2.5-7B系列模型,探索了以下幾方面:
模型在數(shù)據(jù)上的表現(xiàn)與泛化能力:重點(diǎn)關(guān)注單領(lǐng)域數(shù)據(jù)優(yōu)化與跨領(lǐng)域泛化,以及跨領(lǐng)域數(shù)據(jù)間的相互影響。
訓(xùn)練方法與策略的有效性:評(píng)估Template在RLVR中的作用,以及課程學(xué)習(xí)策略的有效性。
模型優(yōu)化要素:研究不同獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)原則,以及訓(xùn)練語言對(duì)模型性能的影響。

通過系統(tǒng)性實(shí)驗(yàn),研究揭示了強(qiáng)化學(xué)習(xí)(RLVR)在多領(lǐng)域推理中的內(nèi)在機(jī)制,為優(yōu)化大模型推理能力提供了新視角。
單領(lǐng)域訓(xùn)練:各領(lǐng)域“內(nèi)卷”大比拼
在單領(lǐng)域訓(xùn)練中,模型在特定任務(wù)上展現(xiàn)出顯著的性能提升,但跨領(lǐng)域效應(yīng)復(fù)雜,既有協(xié)同增效也有相互削弱。
數(shù)學(xué)領(lǐng)域:RLVR提升數(shù)學(xué)性能,但跨域效應(yīng)復(fù)雜
經(jīng)過針對(duì)性訓(xùn)練,Base模型在CountDown任務(wù)上準(zhǔn)確率提升了約75個(gè)百分點(diǎn)。同時(shí),數(shù)學(xué)訓(xùn)練還能有效提升模型解決邏輯謎題的能力,平均得分得到提高。然而,深度優(yōu)化數(shù)學(xué)能力的同時(shí),也可能對(duì)代碼任務(wù)產(chǎn)生負(fù)面影響,提示了不同領(lǐng)域技能間存在一定的權(quán)衡關(guān)系。

代碼領(lǐng)域:指令微調(diào)助力編程,展現(xiàn)更強(qiáng)的跨域泛化
代碼訓(xùn)練提升了模型在編程任務(wù)上的表現(xiàn),尤其是經(jīng)過SFT的Instruct模型表現(xiàn)出更高的性能上限。同時(shí),Base模型在代碼訓(xùn)練后往往在多數(shù)域外任務(wù)上出現(xiàn)性能下降,而Instruct模型則展現(xiàn)出更強(qiáng)的跨域泛化能力,能夠在多數(shù)域外任務(wù)上保持甚至提升表現(xiàn)。

謎題領(lǐng)域:邏輯推理實(shí)力強(qiáng)勁,部分訓(xùn)練利于數(shù)學(xué)遷移
在KK數(shù)據(jù)集上,Instruct模型準(zhǔn)確率高達(dá)99.14,在Zebra任務(wù)中,得分提升至36.20。此外,KK謎題的訓(xùn)練效果還能遷移到數(shù)學(xué)任務(wù)上,甚至在部分?jǐn)?shù)學(xué)基準(zhǔn)中,使得Base模型的表現(xiàn)接近或超過Instruct模型,進(jìn)一步體現(xiàn)了跨領(lǐng)域遷移的潛力。
跨域互動(dòng):協(xié)同與沖突的探究
雙領(lǐng)域組合:探索協(xié)同與權(quán)衡
- 存在顯著協(xié)同效應(yīng)的組合:Math+Puzzle組合使Math任務(wù)表現(xiàn)提升至49.72(優(yōu)于單Math訓(xùn)練的47.48),證明跨領(lǐng)域知識(shí)遷移的有效性;Code任務(wù)在添加Puzzle或Math數(shù)據(jù)后均獲得提升,顯示組合訓(xùn)練的潛在優(yōu)勢(shì)。
- 需要謹(jǐn)慎處理的組合情況:Puzzle任務(wù)在所有多領(lǐng)域訓(xùn)練中表現(xiàn)均不及單領(lǐng)域訓(xùn)練,凸顯其高度專業(yè)化特性;值得注意的是Math+Puzzle組合會(huì)顯著降低Code任務(wù)表現(xiàn);而Puzzle+Code的組合實(shí)現(xiàn)了平均最大19.39的提升。

三領(lǐng)域全家桶:平衡與魯棒性
緊接著,將三個(gè)領(lǐng)域的數(shù)據(jù)全部組合在一起,結(jié)果如下所示,多領(lǐng)域聯(lián)合訓(xùn)練展現(xiàn)出更優(yōu)的整體表現(xiàn)與魯棒性:

- 三領(lǐng)域聯(lián)合訓(xùn)練實(shí)現(xiàn)整體性能突破:將數(shù)學(xué)、代碼和謎題三大領(lǐng)域數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,模型的整體平均性能達(dá)到了56.57,顯著優(yōu)于任何雙領(lǐng)域組合。
- 數(shù)據(jù)多樣性與邊際收益:增加訓(xùn)練數(shù)據(jù)的多樣性(領(lǐng)域組合數(shù)量)確實(shí)能提升整體性能,但這種提升存在邊際效應(yīng)遞減的趨勢(shì)。
- 防止性能塌陷,實(shí)現(xiàn)均衡發(fā)展:與某些雙領(lǐng)域組合(如Math+Puzzle可能導(dǎo)致Code任務(wù)性能驟降)不同,三領(lǐng)域聯(lián)合訓(xùn)練有效地避免了特定任務(wù)的性能“崩潰”,確保了模型在所有任務(wù)上均能保持競(jìng)爭(zhēng)力。
Template一致性:最佳表現(xiàn)
在RL訓(xùn)練中,一個(gè)常被忽略的問題是訓(xùn)練和測(cè)試的Template不匹配。這可能導(dǎo)致模型性能大幅下降。研究團(tuán)隊(duì)在不同Template(R1、Qwen、Base)下進(jìn)行測(cè)試,揭示了Template一致性的重要性。
- 不匹配Template會(huì)嚴(yán)重拖累性能:例如,Base模型在使用不匹配模板時(shí),CountDown準(zhǔn)確率從19.36暴跌至0,MBPP從51.80降至3.00。Instruct模型在MATH500上從73.20跌至1.80。
- 一致性Template通常帶來最佳表現(xiàn):R1模板下,Base模型平均性能達(dá)47.84,Instruct模型達(dá)54.56,遠(yuǎn)超不匹配情況。這強(qiáng)調(diào)了Template一致性的必要性——RLVR在特定領(lǐng)域訓(xùn)練時(shí)的泛化魯棒性仍面臨挑戰(zhàn)。

課程學(xué)習(xí):從易到難,逐步征服
課程學(xué)習(xí)在SFT中已證明有效,但在RLVR中的應(yīng)用仍未全面探索。研究團(tuán)隊(duì)在Puzzle中的KK數(shù)據(jù)集上進(jìn)行測(cè)試,基于子問題數(shù)量(3PPL到8PPL)設(shè)置難度梯度,并設(shè)計(jì)了”Policy Refresh”策略——在每個(gè)難度階段后更新參考模型并重置優(yōu)化器狀態(tài)。

通過實(shí)驗(yàn)發(fā)現(xiàn),
- 課程學(xué)習(xí)提升性能上限:標(biāo)準(zhǔn)課程學(xué)習(xí)最終準(zhǔn)確率達(dá)97.29,遠(yuǎn)超混合訓(xùn)練的94.29。這種方法幫助模型逐步掌握復(fù)雜依賴關(guān)系,提升泛化能力。
- Policy Refresh加速收斂:采用刷新策略后,模型在6PPL階段就達(dá)到97.43的準(zhǔn)確率,最終結(jié)果近乎完美(99.71),甚至超過了指令模型的混合訓(xùn)練結(jié)果(99.14)。
獎(jiǎng)勵(lì)設(shè)計(jì):個(gè)性化定制
獎(jiǎng)勵(lì)設(shè)計(jì)是強(qiáng)化學(xué)習(xí)的核心。研究團(tuán)隊(duì)在KK和LPB數(shù)據(jù)集上測(cè)試了四種策略:(1)二元獎(jiǎng)勵(lì)要求答案全對(duì)才得分;(2)部分獎(jiǎng)勵(lì)按正確比例計(jì)分;(3)格式獎(jiǎng)勵(lì)用標(biāo)簽引導(dǎo)推理;(4)重縮放獎(jiǎng)勵(lì)則將分?jǐn)?shù)范圍調(diào)整為[-1,1]并對(duì)錯(cuò)誤施加懲罰。不同設(shè)計(jì)為模型塑造了截然不同的學(xué)習(xí)信號(hào)。

研究團(tuán)隊(duì)發(fā)現(xiàn),在簡(jiǎn)單任務(wù)KK上,二元獎(jiǎng)勵(lì)R1憑借直接明了的獎(jiǎng)勵(lì)設(shè)置實(shí)現(xiàn)了最優(yōu)表現(xiàn);但在復(fù)雜任務(wù)LPB中,R1因信號(hào)稀疏反而訓(xùn)練崩潰。部分獎(jiǎng)勵(lì)R2能在LPB初期迅速起效,卻難以長(zhǎng)期維持優(yōu)勢(shì);格式獎(jiǎng)勵(lì)R3和重縮放獎(jiǎng)勵(lì)R4則憑借穩(wěn)定推理和放大行為差異,后來居上奪得LPB冠軍。不過,復(fù)雜設(shè)計(jì)在KK上反成累贅。結(jié)果表明,數(shù)據(jù)集稀疏性和任務(wù)難度,是決定RLVR獎(jiǎng)勵(lì)機(jī)制成敗的關(guān)鍵因素。

展望未來,團(tuán)隊(duì)呼吁拓展Science、General Reasoning等新領(lǐng)域數(shù)據(jù)分類,并探索Llama、DeepSeek等模型的適配性。RLVR已經(jīng)在多個(gè)領(lǐng)域被證明其有效性,但無論訓(xùn)練方式如何,數(shù)據(jù)永遠(yuǎn)是模型能力來源的基石,也希望未來的研究能夠更深入地探究數(shù)據(jù)對(duì)RLVR的影響。
論文地址:https://arxiv.org/abs/2507.17512
訓(xùn)練代碼:https://github.com/Leey21/A-Data-Centric-Study






























