首個(gè)多輪LLM Router問世, Router-R1可讓大模型學(xué)會(huì)「思考–路由–聚合」

2025-10-16 08:59:00

本文提出的 Router-R1 不是又一個(gè) “更大的模型”，而是讓多個(gè)模型協(xié)同工作的新范式。

Haozhen Zhang 現(xiàn)為南洋理工大學(xué)（NTU）博士一年級(jí)學(xué)生，本工作完成于其在伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）實(shí)習(xí)期間。Tao Feng 為 UIUC 博士二年級(jí)學(xué)生，Jiaxuan You 為 UIUC 計(jì)算機(jī)系助理教授。團(tuán)隊(duì)長期聚焦 LLM Router 方向，已產(chǎn)出 GraphRouter、FusionFactory 及本文 Router-R1 等多項(xiàng)代表性研究成果。

“如果一個(gè)問題只需小模型就能回答，為什么還要讓更貴的大模型去思考？”

在大語言模型（LLM）種類爆炸的時(shí)代，這個(gè)看似簡(jiǎn)單的問題，正成為 AI 系統(tǒng)設(shè)計(jì)的關(guān)鍵瓶頸。面對(duì)性能、延遲與成本的多重平衡，如何智能地在不同 LLM 之間分配任務(wù)，已經(jīng)成為 AI 基礎(chǔ)設(shè)施的新挑戰(zhàn)。

近日，來自伊利諾伊大學(xué)香檳分校（UIUC）的研究團(tuán)隊(duì)在 NeurIPS 2025 上發(fā)布了新作：《Router-R1：Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》，本文提出了首個(gè)多輪 LLM Router 框架 Router-R1，讓 LLM 不止會(huì) “回答”，還會(huì) “思考、調(diào)度與協(xié)調(diào)其他模型” 來達(dá)到可控的性能與成本平衡。

論文標(biāo)題：Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
作者團(tuán)隊(duì): Haozhen Zhang, Tao Feng, Jiaxuan You
機(jī)構(gòu): University of Illinois at Urbana-Champaign
論文地址: https://arxiv.org/abs/2506.09033
代碼地址: https://github.com/ulab-uiuc/Router-R1

背景：從「一個(gè)模型回答所有問題」到「智能調(diào)度」

ChatGPT、Claude、Gemini、Qwen、LLaMA……，短短兩年，LLM 家族已從寥寥數(shù)個(gè)增長到百余種。不同模型各有優(yōu)勢(shì)，有的擅長邏輯推理，有的在知識(shí)問答上精準(zhǔn)，有的響應(yīng)快、成本低。

但如今的 AI 應(yīng)用，大多依賴單一模型推理，即用戶問題會(huì)直接被送入某個(gè)固定的 LLM 中進(jìn)行回答。這種方式雖然簡(jiǎn)單，但卻意味著：簡(jiǎn)單問題可能導(dǎo)致算力浪費(fèi)；復(fù)雜問題又可能因模型能力不足而回答錯(cuò)誤。

因此，“LLM Router” 應(yīng)運(yùn)而生并正在成為 AI 系統(tǒng)的新前臺(tái)大腦：不同于 Token-level Router（如 MoE），LLM Router 在 Query-level 層面進(jìn)行路由，它能夠判斷一個(gè)問題的復(fù)雜度、匹配最合適的模型，甚至動(dòng)態(tài)組合多個(gè)模型完成推理。

然而，現(xiàn)有的 LLM Router（如 GraphRouter、RouterDC 等）大多采用單輪決策機(jī)制：給定一個(gè)問題，只路由到一個(gè)候選模型完成回答，這種單輪路由機(jī)制難以處理多跳推理或跨領(lǐng)域的復(fù)雜任務(wù)。

Router-R1：讓 Router 本身成為一個(gè)「會(huì)思考的 LLM」

本文提出的 Router-R1 的核心創(chuàng)新在于讓 Router 自身成為一個(gè)具備推理能力的 Policy LLM。

也就是說，Router-R1 不再只是一個(gè) “Query 分發(fā)器”，而是一個(gè)擁有思維鏈，能主動(dòng)進(jìn)行 “思考 — 選擇模型 — 聚合” 的智能體，可以在思考，路由，聚合幾種行為之間反復(fù)切換并進(jìn)行多輪路由迭代，逐步構(gòu)建最終答案：

1?? Think（思考）：在接收到 User Query 后，Router-R1 會(huì)首先執(zhí)行 “思考” 階段進(jìn)行內(nèi)部推理分析，并判斷是否需要外部信息進(jìn)行輔助；

2?? Route（路由）：若發(fā)現(xiàn)需要額外信息，Router-R1 則觸發(fā) “路由” 指令根據(jù)每個(gè) LLM 的 Descriptor Prompt 動(dòng)態(tài)調(diào)用合適的外部候選模型（如 Qwen、LLaMA、Gemma、Mixtral 等）進(jìn)行回答子問題；

3?? Aggregate（聚合）：外部模型調(diào)用的回復(fù)結(jié)果返回后繼續(xù)插入 Policy LLM 的 Evolving Context 進(jìn)行聚合，并繼續(xù)進(jìn)行后續(xù)的多輪推理逐步生成最終答案。

這種 “思考–路由–聚合” 的交替機(jī)制，使 Router-R1 能充分利用不同 LLM 的互補(bǔ)優(yōu)勢(shì)（例如一個(gè)擅長數(shù)學(xué)推理、另一個(gè)擅長知識(shí)檢索），潛在實(shí)現(xiàn)真正的多模型協(xié)同推理。

用強(qiáng)化學(xué)習(xí)教 Router 平衡性能與成本

Router-R1 將整個(gè)多輪路由過程形式化為一個(gè)序列決策問題，并通過強(qiáng)化學(xué)習(xí)訓(xùn)練 Router 使之學(xué)會(huì)在復(fù)雜決策空間中優(yōu)化 Performance-Cost Trade-off。論文中設(shè)計(jì)了三類直觀的獎(jiǎng)勵(lì)函數(shù)：

1?? Format Reward：輸出 Format 正確性獎(jiǎng)勵(lì)

確保模型輸出嚴(yán)格遵守如 <think>、<answer> 等格式約束，防止訓(xùn)練早期生成無效文本。

2?? Final Outcome Reward：結(jié)果正確性獎(jiǎng)勵(lì)

采用 Exact Match（EM）指標(biāo)衡量生成答案與標(biāo)準(zhǔn)答案是否完全一致，直接激勵(lì) Router 輸出正確結(jié)果。

其中是 LLM 輸出的 prediction，是 ground truth。

3?? Cost Reward：成本約束獎(jiǎng)勵(lì)

Router-R1 創(chuàng)新地引入了計(jì)算成本獎(jiǎng)勵(lì)機(jī)制，根據(jù)被調(diào)用模型的參數(shù)規(guī)模及輸出 Token 數(shù)設(shè)計(jì)反比例獎(jiǎng)勵(lì)函數(shù)：

其中表示 API 服務(wù)的單位 Token 成本函數(shù)，為被調(diào)用的外部模型的參數(shù)量，為輸出的 Token 數(shù)量。該機(jī)制可促使 Router-R1 在回答問題時(shí)考慮到性能與成本的權(quán)衡，以實(shí)現(xiàn)可控且動(dòng)態(tài)的成本感知路由與推理。

綜合三者后，Router-R1 的總獎(jiǎng)勵(lì)為：

其中超參 α 控制性能與成本的權(quán)衡程度。

七大基準(zhǔn)全面領(lǐng)先：準(zhǔn)確率 + 泛化性雙提升

研究團(tuán)隊(duì)在 7 個(gè) QA Benchmark 上對(duì) Router-R1 進(jìn)行了系統(tǒng)評(píng)測(cè)，涵蓋單跳與多跳推理任務(wù)，包括 NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle。Router-R1 僅在 NQ 與 HotpotQA 數(shù)據(jù)集上進(jìn)行訓(xùn)練，在其余數(shù)據(jù)集上執(zhí)行 Out-of-domain Evaluation。

如上圖所示，當(dāng) α=0 時(shí)（即只優(yōu)化 performance 不考慮 cost），Router-R1 在所有數(shù)據(jù)集上達(dá)到了綜合最強(qiáng)的性能，擊敗了如 GraphRouter/RouterDC 等單輪路由方法，并展現(xiàn)出了對(duì) Unseen Dataset 的較強(qiáng)泛化性。

如上圖所示，當(dāng)繼續(xù)改變超參 α 來探究性能成本權(quán)衡時(shí)，隨著 α 增加，調(diào)用成本顯著下降，為可控成本的 LLM 智能調(diào)度策略開辟了新的范式。

同時(shí)，為了檢測(cè) Router-R1 對(duì)外部候選 LLM 的泛化性，如上圖所示在未參與訓(xùn)練的外部模型加入后，無需重新訓(xùn)練即可保證性能的相對(duì)穩(wěn)定并在此基礎(chǔ)上實(shí)現(xiàn)提升，顯示出 Router-R1 優(yōu)異的零樣本遷移能力。

總結(jié)：邁向「多模型協(xié)同智能體」的時(shí)代

本文提出的 Router-R1 不是又一個(gè) “更大的模型”，而是讓多個(gè)模型協(xié)同工作的新范式。Router-R1 通過強(qiáng)化學(xué)習(xí)，讓 LLM 從 “單一回答者” 進(jìn)化為「多智能體協(xié)調(diào)者」，在性能與成本之間實(shí)現(xiàn)動(dòng)態(tài)平衡。得益于此，Router-R1 能在減少算力和成本開銷的同時(shí)保持高質(zhì)量輸出，降低大模型部署的環(huán)境與資源壓力。Router-R1 天然支持模型重用與模塊化組合，只需添加新模型描述即可快速集成，為構(gòu)建可擴(kuò)展、多模型共生的 AI 基礎(chǔ)設(shè)施奠定了基礎(chǔ)。

值得注意的是，最新的 GPT-5 技術(shù)報(bào)告也已明確采用 LLM Router 機(jī)制來進(jìn)行不同版本模型的動(dòng)態(tài)調(diào)度，這進(jìn)一步印證了 Router-R1 所代表的趨勢(shì)：多模型協(xié)同路由將成為未來大模型生態(tài)不可或缺的底層基礎(chǔ)設(shè)施。

責(zé)任編輯：張燕妮來源：機(jī)器之心