首個(gè)多輪LLM Router問世, Router-R1可讓大模型學(xué)會(huì)「思考–路由–聚合」
Haozhen Zhang 現(xiàn)為南洋理工大學(xué)(NTU)博士一年級(jí)學(xué)生,本工作完成于其在伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)實(shí)習(xí)期間。Tao Feng 為 UIUC 博士二年級(jí)學(xué)生,Jiaxuan You 為 UIUC 計(jì)算機(jī)系助理教授。團(tuán)隊(duì)長期聚焦 LLM Router 方向,已產(chǎn)出 GraphRouter、FusionFactory 及本文 Router-R1 等多項(xiàng)代表性研究成果。
“如果一個(gè)問題只需小模型就能回答,為什么還要讓更貴的大模型去思考?”
在大語言模型(LLM)種類爆炸的時(shí)代,這個(gè)看似簡(jiǎn)單的問題,正成為 AI 系統(tǒng)設(shè)計(jì)的關(guān)鍵瓶頸。面對(duì)性能、延遲與成本的多重平衡,如何智能地在不同 LLM 之間分配任務(wù),已經(jīng)成為 AI 基礎(chǔ)設(shè)施的新挑戰(zhàn)。
近日,來自伊利諾伊大學(xué)香檳分校(UIUC)的研究團(tuán)隊(duì)在 NeurIPS 2025 上發(fā)布了新作:《Router-R1:Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》,本文提出了首個(gè)多輪 LLM Router 框架 Router-R1,讓 LLM 不止會(huì) “回答”,還會(huì) “思考、調(diào)度與協(xié)調(diào)其他模型” 來達(dá)到可控的性能與成本平衡。

- 論文標(biāo)題:Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
- 作者團(tuán)隊(duì): Haozhen Zhang, Tao Feng, Jiaxuan You
- 機(jī)構(gòu): University of Illinois at Urbana-Champaign
- 論文地址: https://arxiv.org/abs/2506.09033
- 代碼地址: https://github.com/ulab-uiuc/Router-R1
背景:從「一個(gè)模型回答所有問題」到「智能調(diào)度」
ChatGPT、Claude、Gemini、Qwen、LLaMA……,短短兩年,LLM 家族已從寥寥數(shù)個(gè)增長到百余種。不同模型各有優(yōu)勢(shì),有的擅長邏輯推理,有的在知識(shí)問答上精準(zhǔn),有的響應(yīng)快、成本低。
但如今的 AI 應(yīng)用,大多依賴單一模型推理,即用戶問題會(huì)直接被送入某個(gè)固定的 LLM 中進(jìn)行回答。這種方式雖然簡(jiǎn)單,但卻意味著:簡(jiǎn)單問題可能導(dǎo)致算力浪費(fèi);復(fù)雜問題又可能因模型能力不足而回答錯(cuò)誤。
因此,“LLM Router” 應(yīng)運(yùn)而生并正在成為 AI 系統(tǒng)的新前臺(tái)大腦:不同于 Token-level Router(如 MoE),LLM Router 在 Query-level 層面進(jìn)行路由,它能夠判斷一個(gè)問題的復(fù)雜度、匹配最合適的模型,甚至動(dòng)態(tài)組合多個(gè)模型完成推理。
然而,現(xiàn)有的 LLM Router(如 GraphRouter、RouterDC 等)大多采用單輪決策機(jī)制:給定一個(gè)問題,只路由到一個(gè)候選模型完成回答,這種單輪路由機(jī)制難以處理多跳推理或跨領(lǐng)域的復(fù)雜任務(wù)。
Router-R1:讓 Router 本身成為一個(gè)「會(huì)思考的 LLM」
本文提出的 Router-R1 的核心創(chuàng)新在于讓 Router 自身成為一個(gè)具備推理能力的 Policy LLM。
也就是說,Router-R1 不再只是一個(gè) “Query 分發(fā)器”,而是一個(gè)擁有思維鏈,能主動(dòng)進(jìn)行 “思考 — 選擇模型 — 聚合” 的智能體,可以在思考,路由,聚合幾種行為之間反復(fù)切換并進(jìn)行多輪路由迭代,逐步構(gòu)建最終答案:
1?? Think(思考):在接收到 User Query 后,Router-R1 會(huì)首先執(zhí)行 “思考” 階段進(jìn)行內(nèi)部推理分析,并判斷是否需要外部信息進(jìn)行輔助;
2?? Route(路由):若發(fā)現(xiàn)需要額外信息,Router-R1 則觸發(fā) “路由” 指令根據(jù)每個(gè) LLM 的 Descriptor Prompt 動(dòng)態(tài)調(diào)用合適的外部候選模型(如 Qwen、LLaMA、Gemma、Mixtral 等)進(jìn)行回答子問題;
3?? Aggregate(聚合):外部模型調(diào)用的回復(fù)結(jié)果返回后繼續(xù)插入 Policy LLM 的 Evolving Context 進(jìn)行聚合,并繼續(xù)進(jìn)行后續(xù)的多輪推理逐步生成最終答案。
這種 “思考–路由–聚合” 的交替機(jī)制,使 Router-R1 能充分利用不同 LLM 的互補(bǔ)優(yōu)勢(shì)(例如一個(gè)擅長數(shù)學(xué)推理、另一個(gè)擅長知識(shí)檢索),潛在實(shí)現(xiàn)真正的多模型協(xié)同推理。

用強(qiáng)化學(xué)習(xí)教 Router 平衡性能與成本
Router-R1 將整個(gè)多輪路由過程形式化為一個(gè)序列決策問題,并通過強(qiáng)化學(xué)習(xí)訓(xùn)練 Router 使之學(xué)會(huì)在復(fù)雜決策空間中優(yōu)化 Performance-Cost Trade-off。論文中設(shè)計(jì)了三類直觀的獎(jiǎng)勵(lì)函數(shù):
1?? Format Reward:輸出 Format 正確性獎(jiǎng)勵(lì)
確保模型輸出嚴(yán)格遵守如 <think>、<answer> 等格式約束,防止訓(xùn)練早期生成無效文本。

2?? Final Outcome Reward:結(jié)果正確性獎(jiǎng)勵(lì)
采用 Exact Match(EM)指標(biāo)衡量生成答案與標(biāo)準(zhǔn)答案是否完全一致,直接激勵(lì) Router 輸出正確結(jié)果。

其中
是 LLM 輸出的 prediction,
是 ground truth。
3?? Cost Reward:成本約束獎(jiǎng)勵(lì)
Router-R1 創(chuàng)新地引入了計(jì)算成本獎(jiǎng)勵(lì)機(jī)制,根據(jù)被調(diào)用模型的參數(shù)規(guī)模及輸出 Token 數(shù)設(shè)計(jì)反比例獎(jiǎng)勵(lì)函數(shù):

其中
表示 API 服務(wù)的單位 Token 成本函數(shù),
為被調(diào)用的外部模型的參數(shù)量,
為輸出的 Token 數(shù)量。該機(jī)制可促使 Router-R1 在回答問題時(shí)考慮到性能與成本的權(quán)衡,以實(shí)現(xiàn)可控且動(dòng)態(tài)的成本感知路由與推理。
綜合三者后,Router-R1 的總獎(jiǎng)勵(lì)為:

其中超參 α 控制性能與成本的權(quán)衡程度。

七大基準(zhǔn)全面領(lǐng)先:準(zhǔn)確率 + 泛化性雙提升
研究團(tuán)隊(duì)在 7 個(gè) QA Benchmark 上對(duì) Router-R1 進(jìn)行了系統(tǒng)評(píng)測(cè),涵蓋單跳與多跳推理任務(wù),包括 NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle。Router-R1 僅在 NQ 與 HotpotQA 數(shù)據(jù)集上進(jìn)行訓(xùn)練,在其余數(shù)據(jù)集上執(zhí)行 Out-of-domain Evaluation。

如上圖所示,當(dāng) α=0 時(shí)(即只優(yōu)化 performance 不考慮 cost),Router-R1 在所有數(shù)據(jù)集上達(dá)到了綜合最強(qiáng)的性能,擊敗了如 GraphRouter/RouterDC 等單輪路由方法,并展現(xiàn)出了對(duì) Unseen Dataset 的較強(qiáng)泛化性。

如上圖所示,當(dāng)繼續(xù)改變超參 α 來探究性能成本權(quán)衡時(shí),隨著 α 增加,調(diào)用成本顯著下降,為可控成本的 LLM 智能調(diào)度策略開辟了新的范式。

同時(shí),為了檢測(cè) Router-R1 對(duì)外部候選 LLM 的泛化性,如上圖所示在未參與訓(xùn)練的外部模型加入后,無需重新訓(xùn)練即可保證性能的相對(duì)穩(wěn)定并在此基礎(chǔ)上實(shí)現(xiàn)提升,顯示出 Router-R1 優(yōu)異的零樣本遷移能力。
總結(jié):邁向「多模型協(xié)同智能體」的時(shí)代
本文提出的 Router-R1 不是又一個(gè) “更大的模型”,而是讓多個(gè)模型協(xié)同工作的新范式。Router-R1 通過強(qiáng)化學(xué)習(xí),讓 LLM 從 “單一回答者” 進(jìn)化為「多智能體協(xié)調(diào)者」,在性能與成本之間實(shí)現(xiàn)動(dòng)態(tài)平衡。得益于此,Router-R1 能在減少算力和成本開銷的同時(shí)保持高質(zhì)量輸出,降低大模型部署的環(huán)境與資源壓力。Router-R1 天然支持模型重用與模塊化組合,只需添加新模型描述即可快速集成,為構(gòu)建可擴(kuò)展、多模型共生的 AI 基礎(chǔ)設(shè)施奠定了基礎(chǔ)。
值得注意的是,最新的 GPT-5 技術(shù)報(bào)告也已明確采用 LLM Router 機(jī)制來進(jìn)行不同版本模型的動(dòng)態(tài)調(diào)度,這進(jìn)一步印證了 Router-R1 所代表的趨勢(shì):多模型協(xié)同路由將成為未來大模型生態(tài)不可或缺的底層基礎(chǔ)設(shè)施。































