偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首個(gè)多輪LLM Router問世, Router-R1可讓大模型學(xué)會(huì)「思考–路由–聚合」

人工智能 新聞
本文提出的 Router-R1 不是又一個(gè) “更大的模型”,而是讓多個(gè)模型協(xié)同工作的新范式。

Haozhen Zhang 現(xiàn)為南洋理工大學(xué)(NTU)博士一年級(jí)學(xué)生,本工作完成于其在伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)實(shí)習(xí)期間。Tao Feng 為 UIUC 博士二年級(jí)學(xué)生,Jiaxuan You 為 UIUC 計(jì)算機(jī)系助理教授。團(tuán)隊(duì)長期聚焦 LLM Router 方向,已產(chǎn)出 GraphRouter、FusionFactory 及本文 Router-R1 等多項(xiàng)代表性研究成果。

“如果一個(gè)問題只需小模型就能回答,為什么還要讓更貴的大模型去思考?”

在大語言模型(LLM)種類爆炸的時(shí)代,這個(gè)看似簡(jiǎn)單的問題,正成為 AI 系統(tǒng)設(shè)計(jì)的關(guān)鍵瓶頸。面對(duì)性能、延遲與成本的多重平衡,如何智能地在不同 LLM 之間分配任務(wù),已經(jīng)成為 AI 基礎(chǔ)設(shè)施的新挑戰(zhàn)。

近日,來自伊利諾伊大學(xué)香檳分校(UIUC)的研究團(tuán)隊(duì)在 NeurIPS 2025 上發(fā)布了新作:《Router-R1:Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》,本文提出了首個(gè)多輪 LLM Router 框架 Router-R1,讓 LLM 不止會(huì) “回答”,還會(huì) “思考、調(diào)度與協(xié)調(diào)其他模型” 來達(dá)到可控的性能與成本平衡。

  • 論文標(biāo)題:Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
  • 作者團(tuán)隊(duì): Haozhen Zhang, Tao Feng, Jiaxuan You
  • 機(jī)構(gòu): University of Illinois at Urbana-Champaign
  • 論文地址: https://arxiv.org/abs/2506.09033
  • 代碼地址: https://github.com/ulab-uiuc/Router-R1

背景:從「一個(gè)模型回答所有問題」到「智能調(diào)度」

ChatGPT、Claude、Gemini、Qwen、LLaMA……,短短兩年,LLM 家族已從寥寥數(shù)個(gè)增長到百余種。不同模型各有優(yōu)勢(shì),有的擅長邏輯推理,有的在知識(shí)問答上精準(zhǔn),有的響應(yīng)快、成本低。

但如今的 AI 應(yīng)用,大多依賴單一模型推理,即用戶問題會(huì)直接被送入某個(gè)固定的 LLM 中進(jìn)行回答。這種方式雖然簡(jiǎn)單,但卻意味著:簡(jiǎn)單問題可能導(dǎo)致算力浪費(fèi);復(fù)雜問題又可能因模型能力不足而回答錯(cuò)誤。

因此,“LLM Router” 應(yīng)運(yùn)而生并正在成為 AI 系統(tǒng)的新前臺(tái)大腦:不同于 Token-level Router(如 MoE),LLM Router 在 Query-level 層面進(jìn)行路由,它能夠判斷一個(gè)問題的復(fù)雜度、匹配最合適的模型,甚至動(dòng)態(tài)組合多個(gè)模型完成推理。

然而,現(xiàn)有的 LLM Router(如 GraphRouter、RouterDC 等)大多采用單輪決策機(jī)制:給定一個(gè)問題,只路由到一個(gè)候選模型完成回答,這種單輪路由機(jī)制難以處理多跳推理或跨領(lǐng)域的復(fù)雜任務(wù)。

Router-R1:讓 Router 本身成為一個(gè)「會(huì)思考的 LLM」

本文提出的 Router-R1 的核心創(chuàng)新在于讓 Router 自身成為一個(gè)具備推理能力的 Policy LLM。

也就是說,Router-R1 不再只是一個(gè) “Query 分發(fā)器”,而是一個(gè)擁有思維鏈,能主動(dòng)進(jìn)行 “思考 — 選擇模型 — 聚合” 的智能體,可以在思考,路由,聚合幾種行為之間反復(fù)切換并進(jìn)行多輪路由迭代,逐步構(gòu)建最終答案:

1?? Think(思考):在接收到 User Query 后,Router-R1 會(huì)首先執(zhí)行 “思考” 階段進(jìn)行內(nèi)部推理分析,并判斷是否需要外部信息進(jìn)行輔助;

2?? Route(路由):若發(fā)現(xiàn)需要額外信息,Router-R1 則觸發(fā) “路由” 指令根據(jù)每個(gè) LLM 的 Descriptor Prompt 動(dòng)態(tài)調(diào)用合適的外部候選模型(如 Qwen、LLaMA、Gemma、Mixtral 等)進(jìn)行回答子問題;

3?? Aggregate(聚合):外部模型調(diào)用的回復(fù)結(jié)果返回后繼續(xù)插入 Policy LLM 的 Evolving Context 進(jìn)行聚合,并繼續(xù)進(jìn)行后續(xù)的多輪推理逐步生成最終答案。

這種 “思考–路由–聚合” 的交替機(jī)制,使 Router-R1 能充分利用不同 LLM 的互補(bǔ)優(yōu)勢(shì)(例如一個(gè)擅長數(shù)學(xué)推理、另一個(gè)擅長知識(shí)檢索),潛在實(shí)現(xiàn)真正的多模型協(xié)同推理。

用強(qiáng)化學(xué)習(xí)教 Router 平衡性能與成本

Router-R1 將整個(gè)多輪路由過程形式化為一個(gè)序列決策問題,并通過強(qiáng)化學(xué)習(xí)訓(xùn)練 Router 使之學(xué)會(huì)在復(fù)雜決策空間中優(yōu)化 Performance-Cost Trade-off。論文中設(shè)計(jì)了三類直觀的獎(jiǎng)勵(lì)函數(shù):

1?? Format Reward:輸出 Format 正確性獎(jiǎng)勵(lì)

確保模型輸出嚴(yán)格遵守如 <think>、<answer> 等格式約束,防止訓(xùn)練早期生成無效文本。

2?? Final Outcome Reward:結(jié)果正確性獎(jiǎng)勵(lì)

采用 Exact Match(EM)指標(biāo)衡量生成答案與標(biāo)準(zhǔn)答案是否完全一致,直接激勵(lì) Router 輸出正確結(jié)果。

其中 是 LLM 輸出的 prediction, 是 ground truth。

3?? Cost Reward:成本約束獎(jiǎng)勵(lì)

Router-R1 創(chuàng)新地引入了計(jì)算成本獎(jiǎng)勵(lì)機(jī)制,根據(jù)被調(diào)用模型的參數(shù)規(guī)模及輸出 Token 數(shù)設(shè)計(jì)反比例獎(jiǎng)勵(lì)函數(shù):

其中  表示 API 服務(wù)的單位 Token 成本函數(shù), 為被調(diào)用的外部模型的參數(shù)量, 為輸出的 Token 數(shù)量。該機(jī)制可促使 Router-R1 在回答問題時(shí)考慮到性能與成本的權(quán)衡,以實(shí)現(xiàn)可控且動(dòng)態(tài)的成本感知路由與推理。

綜合三者后,Router-R1 的總獎(jiǎng)勵(lì)為:

其中超參 α 控制性能與成本的權(quán)衡程度。

七大基準(zhǔn)全面領(lǐng)先:準(zhǔn)確率 + 泛化性雙提升

研究團(tuán)隊(duì)在 7 個(gè) QA Benchmark 上對(duì) Router-R1 進(jìn)行了系統(tǒng)評(píng)測(cè),涵蓋單跳與多跳推理任務(wù),包括 NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle。Router-R1 僅在 NQ 與 HotpotQA 數(shù)據(jù)集上進(jìn)行訓(xùn)練,在其余數(shù)據(jù)集上執(zhí)行 Out-of-domain Evaluation。

如上圖所示,當(dāng) α=0 時(shí)(即只優(yōu)化 performance 不考慮 cost),Router-R1 在所有數(shù)據(jù)集上達(dá)到了綜合最強(qiáng)的性能,擊敗了如 GraphRouter/RouterDC 等單輪路由方法,并展現(xiàn)出了對(duì) Unseen Dataset 的較強(qiáng)泛化性。

如上圖所示,當(dāng)繼續(xù)改變超參 α 來探究性能成本權(quán)衡時(shí),隨著 α 增加,調(diào)用成本顯著下降,為可控成本的 LLM 智能調(diào)度策略開辟了新的范式。

同時(shí),為了檢測(cè) Router-R1 對(duì)外部候選 LLM 的泛化性,如上圖所示在未參與訓(xùn)練的外部模型加入后,無需重新訓(xùn)練即可保證性能的相對(duì)穩(wěn)定并在此基礎(chǔ)上實(shí)現(xiàn)提升,顯示出 Router-R1 優(yōu)異的零樣本遷移能力。

總結(jié):邁向「多模型協(xié)同智能體」的時(shí)代

本文提出的 Router-R1 不是又一個(gè) “更大的模型”,而是讓多個(gè)模型協(xié)同工作的新范式。Router-R1 通過強(qiáng)化學(xué)習(xí),讓 LLM 從 “單一回答者” 進(jìn)化為「多智能體協(xié)調(diào)者」,在性能與成本之間實(shí)現(xiàn)動(dòng)態(tài)平衡。得益于此,Router-R1 能在減少算力和成本開銷的同時(shí)保持高質(zhì)量輸出,降低大模型部署的環(huán)境與資源壓力。Router-R1 天然支持模型重用與模塊化組合,只需添加新模型描述即可快速集成,為構(gòu)建可擴(kuò)展、多模型共生的 AI 基礎(chǔ)設(shè)施奠定了基礎(chǔ)。

值得注意的是,最新的 GPT-5 技術(shù)報(bào)告也已明確采用 LLM Router 機(jī)制來進(jìn)行不同版本模型的動(dòng)態(tài)調(diào)度,這進(jìn)一步印證了 Router-R1 所代表的趨勢(shì):多模型協(xié)同路由將成為未來大模型生態(tài)不可或缺的底層基礎(chǔ)設(shè)施。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-08 08:21:16

2023-05-24 08:14:55

2009-12-04 15:01:43

Router介紹

2025-04-09 09:00:00

開源模型數(shù)據(jù)

2025-06-13 09:29:51

2015-02-03 16:09:35

2012-11-12 10:26:12

SSH協(xié)議路由器Router

2025-09-28 09:00:00

2025-09-19 09:46:53

2023-10-06 20:30:33

大模型LLMtoken

2024-12-18 18:57:58

2021-12-14 19:40:07

Node路由Vue

2015-04-14 11:19:21

2025-09-18 09:00:47

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-03-21 13:00:54

2010-11-08 11:49:54

2021-05-14 07:35:06

Vue Router 特性變化

2022-02-02 21:29:39

路由模式Vue-Router
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)