Meta-Think ≠ 記套路,多智能體強(qiáng)化學(xué)習(xí)解鎖大模型元思考泛化
本文第一作者為上海交通大學(xué)計(jì)算機(jī)科學(xué)四年級(jí)博士生萬(wàn)梓煜,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、基礎(chǔ)模型的復(fù)雜推理,通訊作者為上海交通大學(xué)人工智能學(xué)院溫穎副教授和上海人工智能實(shí)驗(yàn)室胡舒悅老師。團(tuán)隊(duì)其他成員包括來(lái)自英屬哥倫比亞大學(xué)的共同第一作者李云想、Mark Schmidt 教授,倫敦大學(xué)學(xué)院的宋研、楊林易和汪軍教授,上海交通大學(xué)的溫瀟雨,王翰竟和張偉楠教授。
引言
最近,關(guān)于大模型推理的測(cè)試時(shí)間擴(kuò)展(Test time scaling law )的探索不斷涌現(xiàn)出新的范式,包括① 結(jié)構(gòu)化搜索結(jié)(如 MCTS),② 過(guò)程獎(jiǎng)勵(lì)模型(Process Reward Model )+ PPO,③ 可驗(yàn)證獎(jiǎng)勵(lì) (Verifiable Reward)+ GRPO(DeepSeek?R1)。然而,大模型何時(shí)產(chǎn)生 “頓悟(Aha?Moment)” 的機(jī)理仍未明晰。近期多項(xiàng)研究提出推理模式(reasoning pattern)對(duì)于推理能力的重要作用。類似的,本研究認(rèn)為
大模型復(fù)雜推理的能力強(qiáng)弱本質(zhì)在于元思維能力的強(qiáng)弱。
所謂 “元思維” (meta-thinking),即監(jiān)控、評(píng)估和控制自身的推理過(guò)程,以實(shí)現(xiàn)更具適應(yīng)性和有效性的問(wèn)題解決,是智能體完成長(zhǎng)時(shí)間復(fù)雜任務(wù)的必要手段。大語(yǔ)言模型(LLM)雖展現(xiàn)出強(qiáng)大推理能力,但如何實(shí)現(xiàn)類似人類更深層次、更有條理的 "元思維" 仍是關(guān)鍵挑戰(zhàn)。
上圖通過(guò)兩臺(tái)機(jī)器人求三角形高線的截距的解決樣例,直觀展示了元思維與推理的分工:推理機(jī)器人執(zhí)行計(jì)算,元思維機(jī)器人則在關(guān)鍵節(jié)點(diǎn)介入進(jìn)行規(guī)劃、拆解或糾錯(cuò)?;谶@個(gè)動(dòng)機(jī),本研究提出從多智能體的角度建模并解決這個(gè)問(wèn)題并引入強(qiáng)化元思維智能體(Reinforced Meta-thinking Agents, 簡(jiǎn)稱 ReMA)框架,利用多智能體間的交互來(lái)建模大模型推理時(shí)的元思維和推理步驟,并通過(guò)強(qiáng)化學(xué)習(xí)鼓勵(lì)整個(gè)系統(tǒng)協(xié)同思考如何思考,以兼顧探索效率與分布外泛化能力。
- 論文題目:ReMA: Learning to Meta-think for LLMs withMulti-agent Reinforcement Learning
- 論文鏈接:https://arxiv.org/abs/2503.09501
- Github 代碼鏈接: https://github.com/ziyuwan/ReMA-public
當(dāng)前,提升大模型推理能力的研究主要分為兩種思路:
一是構(gòu)造式的方法:通過(guò)在結(jié)構(gòu)化的元思維模板上采樣與搜索構(gòu)造數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),但這類方法往往只是讓模型記住了這種回答范式,而沒(méi)有利用模型內(nèi)在的推理能力進(jìn)行靈活探索以發(fā)現(xiàn)模型本身最適合的元思維模式,因此難以泛化到分布外的問(wèn)題集上;
二是 Deepseek R1 式的單智能體強(qiáng)化學(xué)習(xí)(SARL)方法:通過(guò)引入高質(zhì)量退火數(shù)據(jù)獲得具備一定的混合思維能力的基礎(chǔ)模型后,直接使用規(guī)則獎(jiǎng)勵(lì)函數(shù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),習(xí)得混合元思維和詳細(xì)推理步驟。但這類方法通常依賴強(qiáng)大的基礎(chǔ)模型,對(duì)于能力欠缺的基礎(chǔ)模型來(lái)說(shuō)在過(guò)大的動(dòng)作空間內(nèi)無(wú)法進(jìn)行高效探索,且不用說(shuō)可能導(dǎo)致的可讀性差等問(wèn)題。
圖一:ReMA框架與現(xiàn)有大模型復(fù)雜推理訓(xùn)練框架對(duì)比
針對(duì)這些挑戰(zhàn),ReMA 框架采取了一套全新的解決思路,將復(fù)雜的推理過(guò)程解耦為兩個(gè)層級(jí)化的智能體:
1. 元思維智能體 (Meta-thinking agent): 負(fù)責(zé)產(chǎn)生戰(zhàn)略性的監(jiān)督和計(jì)劃,進(jìn)行宏觀的思考和指導(dǎo),并在必要的時(shí)刻對(duì)當(dāng)前的推理結(jié)果進(jìn)行反思和修正。
2. 推理智能體 (Reasoning agent) : 負(fù)責(zé)根據(jù)元思維智能體的指導(dǎo),執(zhí)行詳細(xì)的子任務(wù),如單步推理和具體計(jì)算等。
這兩個(gè)智能體通過(guò)具有一致目標(biāo)的迭代強(qiáng)化學(xué)習(xí)過(guò)程進(jìn)行探索和協(xié)作學(xué)習(xí)。這種多智能體系統(tǒng)(MAS)的設(shè)計(jì),將單智能體強(qiáng)化學(xué)習(xí)的探索空間分散到多個(gè)智能體中,使得每個(gè)智能體都能在訓(xùn)練中更結(jié)構(gòu)化、更有效地進(jìn)行探索。ReMA 通過(guò)這種方式來(lái)平衡了泛化能力和探索效率之間的權(quán)衡。
方法
ReMA 的生成建模
本研究首先給出單輪多智能體元思維推理過(guò)程(Multi-Agent Meta-thinking reasoning process,MAMRP)的定義。
在單輪交互場(chǎng)景下,當(dāng)給定一個(gè)任務(wù)問(wèn)題時(shí),元思維智能體會(huì)對(duì)問(wèn)題進(jìn)行宏觀分析和必要拆解,產(chǎn)生求解計(jì)劃,而推理智能體會(huì)根據(jù)元思維的逐步指令完成任務(wù)內(nèi)容。具體來(lái)說(shuō),給定問(wèn)題,元思維智能體首先給出元思維,接著推理智能體給出問(wèn)題求解,該過(guò)程如下所示:
而在多輪交互場(chǎng)景中,元思維智能體給出的元思維可以以一種更加均勻的方式加入到整個(gè)思考過(guò)程中,元思維智能體可以顯式地對(duì)求解的過(guò)程進(jìn)行計(jì)劃、拆解、反思、回溯和修正,其交互歷史會(huì)不斷疊加直至結(jié)束。類似的,本研究可以給出多輪 MAMRP 的定義,該過(guò)程如下所示:
整個(gè)系統(tǒng)的求解過(guò)程可以用以下有向圖來(lái)直觀理解:
圖二:不同算法框架的訓(xùn)練方式對(duì)比
單輪 ReMA 的訓(xùn)練
單輪場(chǎng)景下,考慮兩個(gè)智能體和 ,團(tuán)隊(duì)通過(guò)迭代優(yōu)化的方式最大化兩個(gè)智能體各自的獎(jiǎng)勵(lì),從而更新智能體們各自的權(quán)重:
其中每個(gè)智能體的獎(jiǎng)勵(lì)函數(shù)分別考慮了總體回答正確性與各自的格式正確性。對(duì)于策略梯度的更新算法,本研究使用目前主流的 GRPO 和 REINFORCE++ 來(lái)節(jié)省顯存和加速訓(xùn)練。
多輪 ReMA 的訓(xùn)練
在擴(kuò)展到多輪場(chǎng)景下時(shí),為了提升計(jì)算效率和系統(tǒng)可擴(kuò)展性,團(tuán)隊(duì)做了如下改變:
(1)首先是通過(guò)共享參數(shù)的方式降低維護(hù)兩份模型參數(shù)的部署開(kāi)銷,同時(shí)簡(jiǎn)化調(diào)度兩份模型參數(shù)的依賴關(guān)系,提高效率。具體來(lái)說(shuō),本研究使用不同的角色的系統(tǒng)提示詞來(lái)表示不同智能體的策略
,在優(yōu)化時(shí)同時(shí)使用兩個(gè)智能體的采樣數(shù)據(jù)進(jìn)行訓(xùn)練,更新一份參數(shù)。
(2)其次是針對(duì)多輪交互場(chǎng)景的強(qiáng)化學(xué)習(xí),不同于本研究將每一輪的完整輸出定義為一個(gè)動(dòng)作,通過(guò)引入輪次級(jí)比率(turn-level ratio)來(lái)進(jìn)行 loss 歸一化與剪切, 具體優(yōu)化目標(biāo)如下所示:
其中:
通過(guò)這樣的方式,在多輪訓(xùn)練的過(guò)程中,能夠消除 token-level loss 對(duì)于長(zhǎng)度的 bias,另外通過(guò)考慮單輪所有 token 的整體裁切,可以一定程度上穩(wěn)定訓(xùn)練過(guò)程。
實(shí)驗(yàn)結(jié)果
單輪 ReMA 的實(shí)驗(yàn)
首先團(tuán)隊(duì)在單輪設(shè)定上對(duì)比了一般 CoT 的 Vanila Reasoning Process (VRP),以及其 RL 訓(xùn)練后的結(jié)果 VRP_RL, MRP_RL。團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)(如 MATH, GSM8K, AIME24, AMC23 等)和 LLM-as-a-Judge 基準(zhǔn)(如 RewardBench, JudgeBench)上對(duì) ReMA 進(jìn)行了領(lǐng)域內(nèi)外泛化的廣泛評(píng)估。在數(shù)學(xué)問(wèn)題上,團(tuán)隊(duì)使用了 MATH 的訓(xùn)練集(7.5k)進(jìn)行訓(xùn)練,在 LLM-as-a-Judge 任務(wù)上則將 RewardBench 按子類比例劃分為了 5k 訓(xùn)練樣本和 970 個(gè)測(cè)試樣本進(jìn)行訓(xùn)練和領(lǐng)域內(nèi)測(cè)試。
表一:?jiǎn)屋哛eMA的實(shí)驗(yàn)對(duì)比
結(jié)果顯示,在多種骨干預(yù)訓(xùn)練模型(如 Llama-3-8B-Instruct, Llama-3.1-8B-Instruct, Qwen2.5-7B-Instruct)上,ReMA 在平均性能上一致優(yōu)于所有基線方法。特別是在分布外數(shù)據(jù)集上,ReMA 在大多數(shù)基準(zhǔn)測(cè)試中都取得了最佳性能,充分證明了其元思索機(jī)制帶來(lái)的卓越泛化能力。例如,在使用 Llama3-8B-Instruct 模型時(shí),ReMA 在 AMC23 數(shù)據(jù)集上的性能提升高達(dá) 20%。
消融實(shí)驗(yàn)
為了證明 ReMA 中多智能體系統(tǒng)的引入對(duì)于推理能力的訓(xùn)練有益,團(tuán)隊(duì)在單輪設(shè)定下分別對(duì)二者的強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)制進(jìn)行了消融實(shí)驗(yàn)。
問(wèn)題一:元思維是否可以幫助推理智能體進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練?
團(tuán)隊(duì)分別對(duì)比了三種強(qiáng)化學(xué)習(xí)訓(xùn)練策略,RL from base 采用了基礎(chǔ)模型直接進(jìn)行 RL 訓(xùn)練;RL from SFT 在 RL 訓(xùn)練開(kāi)始前先用 GPT-4o 的專家數(shù)據(jù)進(jìn)行 SFT 作為初始化;RL under Meta-thinking 則在 RL 訓(xùn)練時(shí)使用從 GPT-4o 生成的元思維數(shù)據(jù) SFT 過(guò)后的元思維智能體提供高層指導(dǎo)。
圖三展示了訓(xùn)練過(guò)程中三種不同難度的測(cè)試集上的準(zhǔn)確率變化趨勢(shì),實(shí)驗(yàn)結(jié)果證明了元思維對(duì)于推理模型的強(qiáng)化學(xué)習(xí)具有促進(jìn)作用,尤其是在更困難的任務(wù)上具有更好的泛化性。
問(wèn)題二:LLM 是否能夠通過(guò)強(qiáng)化學(xué)習(xí)演化出多樣的元思維?
圖四:不同規(guī)模的元思維智能體的強(qiáng)化學(xué)習(xí)訓(xùn)練演化過(guò)程
接著團(tuán)隊(duì)探索了不同規(guī)模的元思維智能體的強(qiáng)化學(xué)習(xí)訓(xùn)練演化過(guò)程,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)可解釋性動(dòng)作集合。通過(guò)讓模型輸出 JSON 格式的動(dòng)作(先確定動(dòng)作類型(DECOMPOSE,REWRITE,EMPTY),再輸出相應(yīng)的內(nèi)容),以實(shí)現(xiàn)對(duì)模型輸出動(dòng)作類型的監(jiān)控。圖四展示了三種動(dòng)作類型對(duì)應(yīng)的問(wèn)題難度在訓(xùn)練中的變化,實(shí)驗(yàn)發(fā)現(xiàn),在小模型上進(jìn)行訓(xùn)練時(shí)(Llama3.2-1B-Instruct),元思維策略會(huì)快速收斂到輸出簡(jiǎn)單策略,即 “什么都不做”;而稍大一些的模型(如 Llama3.1-8B-Instruct)則能夠?qū)W會(huì)根據(jù)問(wèn)題難度自適應(yīng)的選擇不同的元思維動(dòng)作。這個(gè)結(jié)果也意味著,現(xiàn)在越來(lái)越受到關(guān)注的自主快慢思考選擇的問(wèn)題,一定程度上可以被 ReMA 有效解決。
多輪 ReMA 的實(shí)驗(yàn)
圖五:多輪ReMA的實(shí)驗(yàn)結(jié)果
最后,團(tuán)隊(duì)擴(kuò)展到多輪設(shè)定下進(jìn)行了實(shí)驗(yàn)。首先,由于大多數(shù)語(yǔ)言模型本身不具備將問(wèn)題拆解成多輪對(duì)話來(lái)完成的能力,團(tuán)隊(duì)先從 LIMO 數(shù)據(jù)集中轉(zhuǎn)換了 800 條多輪 MAMRP 的樣本作為冷啟動(dòng)數(shù)據(jù),接著使用 SFT 后的權(quán)重進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。圖五左側(cè)展示了在 MATH level 3-5 (8.5k)數(shù)據(jù)集上的訓(xùn)練曲線和在七個(gè)測(cè)試集上的平均準(zhǔn)確率。團(tuán)隊(duì)發(fā)現(xiàn)了以下結(jié)論:
- 1. 多輪 ReMA 訓(xùn)練在訓(xùn)練集上可以進(jìn)一步提升,但是在測(cè)試集上的提升不明顯。
- 2. 訓(xùn)練具有不穩(wěn)定性,并且對(duì)超參數(shù)很敏感,不同的采樣設(shè)定(單輪最大 token 數(shù)和最大對(duì)話輪數(shù))間會(huì)有不同的訓(xùn)練趨勢(shì)。
圖五右側(cè)展示了前文中提出的兩個(gè)改進(jìn)(共享參數(shù)更新和輪次級(jí)比率)對(duì)于多輪訓(xùn)練的影響,團(tuán)隊(duì)采樣了一個(gè)包含所有問(wèn)題類型的小數(shù)據(jù)集以觀察算法在其上的收斂速度和樣本效率。不同采樣設(shè)定下的實(shí)驗(yàn)結(jié)果均表明該方案能夠有效提升樣本效率。
總結(jié)
總的來(lái)說(shuō),團(tuán)隊(duì)嘗試了一種新的復(fù)雜推理范式,即使用兩個(gè)層次化的智能體來(lái)顯式區(qū)分推理過(guò)程中的元思維,并通過(guò)強(qiáng)化學(xué)習(xí)促使他們協(xié)作完成復(fù)雜推理任務(wù)。團(tuán)隊(duì)在單輪與多輪的實(shí)驗(yàn)上取得了一定的效果,但是在多輪訓(xùn)練的中還需要進(jìn)一步解決訓(xùn)練崩潰的問(wèn)題。這表明目前基于 Deterministic MDP 的訓(xùn)練流程也許并不適用于 Stochastic/Non-stationary MDP,對(duì)于這類問(wèn)題的數(shù)據(jù)、模型方面還需要有更多的探索。