跨領(lǐng)域強(qiáng)化學(xué)習(xí)樣本數(shù)據(jù)集;符號(hào)表達(dá)的分層推理基準(zhǔn)
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation
2025-06-18|MSRC-UK, Microsoft Research India|ICML 2025|??2
??http://arxiv.org/abs/2506.15455v1???
???https://huggingface.co/papers/2506.15455??
研究背景與意義
- 問題定義與現(xiàn)狀
當(dāng)前大型語(yǔ)言模型(LLMs)在多種推理基準(zhǔn)測(cè)試中表現(xiàn)出較高準(zhǔn)確率,但仍存在爭(zhēng)議,即這些結(jié)果是否源自真正的推理能力,還是僅僅是訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)記憶。推理作為一種認(rèn)知過程,涉及基于事實(shí)或前提進(jìn)行推斷,區(qū)別于簡(jiǎn)單的模式匹配。
- 挑戰(zhàn)與目標(biāo)
現(xiàn)有推理評(píng)估多依賴固定基準(zhǔn),且通常缺乏系統(tǒng)性和可擴(kuò)展性,難以全面反映模型的推理層級(jí)和泛化能力。本文旨在構(gòu)建一個(gè)基于符號(hào)表達(dá)的分層推理評(píng)估框架——RE-IMAGINE,系統(tǒng)化地生成多層次、可擴(kuò)展的推理問題變體,進(jìn)而揭示和量化LLMs的真實(shí)推理能力和局限。
研究方法與創(chuàng)新
- 技術(shù)描述
RE-IMAGINE框架基于Pearl的因果推理階梯理論,提出三層推理層級(jí):“觀察”(Observe)、“變異”(Mutate)和“想象”(Imagine),分別對(duì)應(yīng)模型對(duì)原始問題的解答能力、對(duì)問題變體的泛化能力以及對(duì)新邏輯整合的能力。框架設(shè)計(jì)了自動(dòng)化的符號(hào)表示轉(zhuǎn)換和變異生成流水線,支持從自然語(yǔ)言問題到符號(hào)代碼的雙向轉(zhuǎn)換,并通過符號(hào)計(jì)算圖進(jìn)行多種變異操作。
- 創(chuàng)新點(diǎn)
統(tǒng)一分層推理體系:首次將推理能力劃分為三層,系統(tǒng)整合了之前零散的變異測(cè)試方法,明確區(qū)分了不同推理能力的評(píng)估目標(biāo)。
可擴(kuò)展自動(dòng)變異流水線:實(shí)現(xiàn)了跨多個(gè)領(lǐng)域(數(shù)學(xué)、因果推理、代碼理解等)的自動(dòng)化、可執(zhí)行的符號(hào)變異生成,極大提升了評(píng)估規(guī)模和多樣性,降低了人工干預(yù)。
結(jié)合因果推理度量:引入了基于二元反事實(shí)的因果一致性指標(biāo)(必要性和充分性不一致率),豐富了推理能力的定量評(píng)估手段。
- 優(yōu)勢(shì)與對(duì)比相較于以往依賴手工設(shè)計(jì)模板或固定基準(zhǔn)的評(píng)估,RE-IMAGINE能夠生成海量“未見過”的問題變體,避免訓(xùn)練數(shù)據(jù)泄露帶來(lái)的記憶偏差,更全面地考察模型的推理泛化和創(chuàng)新能力。其自動(dòng)化流水線和統(tǒng)一層級(jí)框架為未來(lái)推理評(píng)估樹立了標(biāo)準(zhǔn)。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
- 實(shí)驗(yàn)設(shè)計(jì)
- 選取四個(gè)主流推理基準(zhǔn):GSM8K(數(shù)學(xué))、CLadder(因果推理)、CRUXEval和Loop(代碼理解)。
- 對(duì)原始問題進(jìn)行三層次變異,生成大量自動(dòng)標(biāo)注的變體問題。
- 測(cè)試多款主流LLM(包括GPT系列、Llama、Phi等),采用8-shot鏈?zhǔn)剿伎继崾尽?/li>
- 評(píng)估指標(biāo)包括準(zhǔn)確率、反事實(shí)推理一致性指標(biāo)(N-IR、S-IR)等。
- 主要結(jié)果
- 模型在原始問題(Level-1)上表現(xiàn)較好,準(zhǔn)確率普遍較高。
- Level-2變異(輕微修改問題參數(shù)或添加無(wú)關(guān)信息)導(dǎo)致模型性能明顯下降,揭示模型對(duì)簡(jiǎn)單變異的泛化能力有限。
- Level-3變異(引入新邏輯或反事實(shí)條件)對(duì)模型構(gòu)成更大挑戰(zhàn),性能大幅下滑,表明模型難以有效整合和推理復(fù)雜新信息。
- 反事實(shí)指標(biāo)顯示,盡管部分模型如GPT-4o表現(xiàn)較優(yōu),但整體仍存在因果推理能力不足問題。
- 代碼理解任務(wù)中,盡管變異設(shè)計(jì)盡量保持代碼復(fù)雜度不變,模型表現(xiàn)仍顯著下降,表明記憶與泛化之間的權(quán)衡問題普遍存在。
- 引入變異樣例作為上下文示例能有效提升模型對(duì)變異問題的適應(yīng)能力,說(shuō)明訓(xùn)練和提示策略對(duì)推理泛化影響顯著。
- 統(tǒng)計(jì)顯著性與多場(chǎng)景表現(xiàn)
- 通過多組樣本和多模型驗(yàn)證,結(jié)果具有統(tǒng)計(jì)顯著性,且跨數(shù)學(xué)、因果和代碼領(lǐng)域均表現(xiàn)一致,表明RE-IMAGINE框架的通用性和有效性。
結(jié)論與展望
- 總結(jié)貢獻(xiàn)
RE-IMAGINE實(shí)現(xiàn)了對(duì)LLMs推理能力的系統(tǒng)、層級(jí)化評(píng)估,明確揭示了當(dāng)前模型在面對(duì)復(fù)雜變異時(shí)的性能瓶頸和記憶依賴問題。該框架推動(dòng)了推理評(píng)估從靜態(tài)基準(zhǔn)向動(dòng)態(tài)、多樣化、因果邏輯驅(qū)動(dòng)的方向轉(zhuǎn)變。
- 局限分析
- 當(dāng)前變異主要基于符號(hào)代碼層面,部分自然語(yǔ)言表達(dá)的復(fù)雜性和多樣性尚未充分覆蓋。
- 評(píng)估集中于數(shù)學(xué)、因果和代碼領(lǐng)域,尚需擴(kuò)展到更多推理類型和實(shí)際應(yīng)用場(chǎng)景。
- 反事實(shí)推理指標(biāo)計(jì)算成本較高,限制了大規(guī)模應(yīng)用。
- 未來(lái)展望
- 推動(dòng)RE-IMAGINE向更廣泛的推理任務(wù)和多模態(tài)場(chǎng)景擴(kuò)展,提升評(píng)估的全面性。
- 結(jié)合模型訓(xùn)練過程,探索如何利用變異生成技術(shù)提升模型的推理泛化能力。
- 優(yōu)化因果推理指標(biāo)的計(jì)算效率,促進(jìn)其在實(shí)際評(píng)估中的廣泛應(yīng)用。
- 利用該框架促進(jìn)開發(fā)更具魯棒性和真正推理能力的AI系統(tǒng),推動(dòng)AI安全和可信賴性研究。
綜上,RE-IMAGINE為理解和提升大型語(yǔ)言模型的推理能力提供了堅(jiān)實(shí)的理論基礎(chǔ)和實(shí)踐工具,具有重要的學(xué)術(shù)價(jià)值和應(yīng)用前景。
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
2025-06-17|UC San Diego, MBZUAI, Carnegie Mellon U, Purdue U|??31
??http://arxiv.org/abs/2506.14965v1???
???https://huggingface.co/papers/2506.14965???
???https://github.com/LLM360/Reasoning360??
研究背景與意義
- 研究背景
近年來(lái),強(qiáng)化學(xué)習(xí)(RL)被廣泛應(yīng)用于提升大型語(yǔ)言模型(LLM)的推理能力,尤其在數(shù)學(xué)和編程領(lǐng)域取得顯著進(jìn)展。然而,現(xiàn)有研究多聚焦于這兩個(gè)狹窄領(lǐng)域,限制了對(duì)RL在更廣泛推理任務(wù)中適用性的理解??珙I(lǐng)域推理的RL研究受到缺乏可靠且可擴(kuò)展的獎(jiǎng)勵(lì)信號(hào)的制約,導(dǎo)致模型在多樣推理任務(wù)中的表現(xiàn)和泛化能力受限。
- 研究意義
本研究提出了GURU數(shù)據(jù)集——一個(gè)涵蓋數(shù)學(xué)、代碼、科學(xué)、邏輯、模擬和表格六大推理領(lǐng)域的92K條經(jīng)嚴(yán)格篩選和驗(yàn)證的強(qiáng)化學(xué)習(xí)訓(xùn)練樣本。GURU不僅彌補(bǔ)了多領(lǐng)域推理訓(xùn)練數(shù)據(jù)的缺失,也為系統(tǒng)研究RL在不同推理領(lǐng)域的適用性和機(jī)制提供了基礎(chǔ)。通過此數(shù)據(jù)集,研究者能夠更全面地理解RL如何促進(jìn)LLM的推理技能提升,推動(dòng)通用推理能力的發(fā)展。
研究方法與創(chuàng)新
- 數(shù)據(jù)集構(gòu)建與創(chuàng)新
研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)處理流水線,包括多源數(shù)據(jù)采集、去重、領(lǐng)域特定獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)、啟發(fā)式及模型驅(qū)動(dòng)的過濾,以及難度過濾,確保訓(xùn)練樣本的高質(zhì)量和獎(jiǎng)勵(lì)信號(hào)的準(zhǔn)確性。創(chuàng)新點(diǎn)在于跨領(lǐng)域覆蓋廣泛,獎(jiǎng)勵(lì)設(shè)計(jì)多樣(規(guī)則匹配、代碼執(zhí)行驗(yàn)證、模型判別驗(yàn)證),有效解決了多領(lǐng)域推理中獎(jiǎng)勵(lì)信號(hào)不足和數(shù)據(jù)噪聲問題。
- 強(qiáng)化學(xué)習(xí)訓(xùn)練策略
基于GURU數(shù)據(jù)集,作者對(duì)Qwen系列模型(7B與32B參數(shù)規(guī)模)進(jìn)行了單領(lǐng)域與混合領(lǐng)域的強(qiáng)化學(xué)習(xí)訓(xùn)練。通過系統(tǒng)性對(duì)比,揭示了RL在不同領(lǐng)域的表現(xiàn)差異,首次明確了預(yù)訓(xùn)練覆蓋度對(duì)RL跨領(lǐng)域轉(zhuǎn)移能力的影響:數(shù)學(xué)、代碼、科學(xué)領(lǐng)域因預(yù)訓(xùn)練數(shù)據(jù)豐富,能通過跨領(lǐng)域訓(xùn)練快速提升;而邏輯、模擬、表格等領(lǐng)域因預(yù)訓(xùn)練覆蓋不足,需依賴領(lǐng)域內(nèi)訓(xùn)練實(shí)現(xiàn)實(shí)質(zhì)性技能增長(zhǎng)。
- 理論貢獻(xiàn)與優(yōu)勢(shì)
本研究突破了以往只關(guān)注數(shù)學(xué)和代碼領(lǐng)域的局限,提出了多領(lǐng)域RL訓(xùn)練的新范式,強(qiáng)調(diào)了領(lǐng)域特異性和跨領(lǐng)域數(shù)據(jù)混合訓(xùn)練的重要性。通過細(xì)致的獎(jiǎng)勵(lì)設(shè)計(jì)與數(shù)據(jù)篩選,提升了RL訓(xùn)練的穩(wěn)定性和效果,促進(jìn)了模型對(duì)復(fù)雜推理任務(wù)的適應(yīng)能力。相比現(xiàn)有方法,GURU及其訓(xùn)練策略顯著提高了模型的通用推理性能和泛化能力。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
- 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)采用GURU數(shù)據(jù)集中的單領(lǐng)域3K樣本和混合領(lǐng)域18K樣本,分別對(duì)Qwen2.5-7B和32B基模型進(jìn)行RL訓(xùn)練。評(píng)估涵蓋17個(gè)任務(wù),跨六大推理領(lǐng)域,綜合考察模型在本領(lǐng)域和跨領(lǐng)域的表現(xiàn)。訓(xùn)練過程中監(jiān)控獎(jiǎng)勵(lì)信號(hào)和響應(yīng)長(zhǎng)度變化,分析訓(xùn)練難度對(duì)性能的影響。
- 結(jié)果分析
- 跨領(lǐng)域轉(zhuǎn)移能力差異顯著:數(shù)學(xué)、代碼、科學(xué)領(lǐng)域表現(xiàn)出強(qiáng)烈的跨領(lǐng)域轉(zhuǎn)移能力,訓(xùn)練于任一領(lǐng)域均有助于提升其他兩個(gè)領(lǐng)域的性能;而邏輯、模擬、表格領(lǐng)域僅在本領(lǐng)域訓(xùn)練時(shí)表現(xiàn)明顯提升,表明這些領(lǐng)域需要專門的領(lǐng)域內(nèi)訓(xùn)練來(lái)獲得技能增長(zhǎng)。
- 混合領(lǐng)域訓(xùn)練效果優(yōu)異:將所有領(lǐng)域樣本混合訓(xùn)練,模型表現(xiàn)達(dá)到或超過單領(lǐng)域訓(xùn)練效果,顯示多領(lǐng)域數(shù)據(jù)的融合能夠促進(jìn)模型獲得更廣泛的推理能力。
- 獎(jiǎng)勵(lì)與響應(yīng)長(zhǎng)度動(dòng)態(tài):不同領(lǐng)域RL訓(xùn)練對(duì)響應(yīng)長(zhǎng)度的影響存在差異,部分領(lǐng)域如數(shù)學(xué)和科學(xué)傾向于生成更長(zhǎng)答案,而代碼和邏輯領(lǐng)域則可能縮短輸出,說(shuō)明RL訓(xùn)練調(diào)整了模型的表達(dá)策略以適應(yīng)任務(wù)需求。
- 訓(xùn)練難度過濾的雙刃劍效應(yīng):針對(duì)數(shù)學(xué)領(lǐng)域,篩選高難度樣本提升了本領(lǐng)域性能,但對(duì)跨領(lǐng)域簡(jiǎn)單任務(wù)產(chǎn)生負(fù)面影響,提示訓(xùn)練數(shù)據(jù)難度的平衡對(duì)于提升泛化能力至關(guān)重要。
- 統(tǒng)計(jì)顯著性與多場(chǎng)景表現(xiàn)GURU-7B和GURU-32B模型在17個(gè)任務(wù)上的平均準(zhǔn)確率分別領(lǐng)先最優(yōu)公開基線7.9%和6.7%。尤其在復(fù)雜且預(yù)訓(xùn)練中較少出現(xiàn)的任務(wù)(如ZebraPuzzle)中,模型表現(xiàn)出顯著提升,驗(yàn)證了RL訓(xùn)練擴(kuò)展模型推理邊界的能力。
結(jié)論與展望
- 總結(jié)貢獻(xiàn)
本研究首次構(gòu)建了涵蓋六大推理領(lǐng)域的高質(zhì)量強(qiáng)化學(xué)習(xí)數(shù)據(jù)集GURU,系統(tǒng)揭示了RL訓(xùn)練在不同推理領(lǐng)域的表現(xiàn)差異和機(jī)制,提出了多領(lǐng)域混合訓(xùn)練的有效策略,顯著提升了開放模型的通用推理能力。GURU-7B/32B模型刷新了公開數(shù)據(jù)訓(xùn)練模型的性能紀(jì)錄,推動(dòng)了LLM推理研究的多領(lǐng)域發(fā)展。
- 局限性分析
盡管GURU數(shù)據(jù)集廣泛且精細(xì),但仍存在領(lǐng)域覆蓋不全、獎(jiǎng)勵(lì)設(shè)計(jì)依賴預(yù)定義規(guī)則或判別模型的局限。此外,混合領(lǐng)域訓(xùn)練的長(zhǎng)期影響及多領(lǐng)域間潛在的干擾效應(yīng)尚需進(jìn)一步探究,尤其在更多領(lǐng)域和更大規(guī)模模型上的適用性有待驗(yàn)證。
- 未來(lái)展望
未來(lái)研究可聚焦于:
- 設(shè)計(jì)更為靈活和自適應(yīng)的獎(jiǎng)勵(lì)機(jī)制,提升開放式推理任務(wù)的評(píng)價(jià)準(zhǔn)確性和多樣性;
- 探索更精細(xì)的領(lǐng)域平衡和樣本難度調(diào)控策略,優(yōu)化跨領(lǐng)域知識(shí)遷移和泛化;
- 擴(kuò)展GURU數(shù)據(jù)集覆蓋更多推理類型和實(shí)際應(yīng)用場(chǎng)景,推動(dòng)RL在LLM推理中的普適性提升;
- 結(jié)合其他訓(xùn)練范式(如監(jiān)督學(xué)習(xí)、對(duì)比學(xué)習(xí))與RL融合,構(gòu)建更強(qiáng)大的通用推理模型。
本研究為多領(lǐng)域強(qiáng)化學(xué)習(xí)推動(dòng)LLM推理能力提供了堅(jiān)實(shí)基礎(chǔ),期待后續(xù)工作在理論和應(yīng)用層面持續(xù)深化和拓展。
本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇
