R-HORIZON:長程推理時代來臨,復(fù)旦NLP&美團(tuán)LongCat重磅發(fā)布LRMs能力邊界探測新范式
陸毅,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室碩士生,在 ACL、EMNLP、COLM、NeurIPS 等頂會發(fā)表論文十余篇,LongCat Team 核心成員,研究方向?yàn)榇竽P偷膹?fù)雜推理和長序列建模,指導(dǎo)老師為桂韜老師。
郭林森,碩士畢業(yè)于東南大學(xué),在 NAACL、EMNLP、Recsys 等會議發(fā)表論文多篇,目前就職于美團(tuán),LongCat Team 核心成員,研究方向?yàn)榇竽P驮u測與數(shù)據(jù)價(jià)值挖掘。
王嘉寧,獲得華東師范大學(xué)博士學(xué)位,曾前往 UCSD 訪問學(xué)習(xí),在 ACL、EMNLP、AAAI、ICLR 等頂會發(fā)表論文數(shù)十篇,目前就職于美團(tuán),LongCat Team 核心成員,研究方向?yàn)榇竽P陀?xùn)練與復(fù)雜推理。
研究背景:從「單步推理」到「長鏈決策」
OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的出現(xiàn),標(biāo)志著 AI 推理能力進(jìn)入了「測試時擴(kuò)展」的新紀(jì)元。通過長鏈推理 Long Chain-of-Thought(CoT),這些模型在數(shù)學(xué)推理、代碼生成、智能體任務(wù)等領(lǐng)域取得了令人矚目的突破。
然而,當(dāng)前的訓(xùn)練與評測范式存在一個根本性的局限:幾乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的單步問題,問題之間相互獨(dú)立,模型只需「回答一個問題,然后結(jié)束」。但真實(shí)世界的推理場景往往截然不同:
- 一個軟件工程師需要連續(xù)調(diào)試多個相互依賴的代碼模塊
- 一個數(shù)學(xué)研究者需要基于前序定理推導(dǎo)后續(xù)結(jié)論
- 一個智能助手需要在多輪對話中逐步完成復(fù)雜任務(wù)規(guī)劃
這些場景要求模型具備跨問題的長鏈推理能力 —— 不僅要解決單個問題,還要在多個相互關(guān)聯(lián)的子問題間維持推理連貫性、合理分配思考資源、進(jìn)行跨步驟的反思與糾錯。
這引出了一個核心問題:大型推理模型的長鏈推理能力邊界究竟在哪里?
現(xiàn)有評測無法回答這個問題,傳統(tǒng)訓(xùn)練數(shù)據(jù)也無法培養(yǎng)這種能力(如圖所示,模型在長程推理場景下性能下降嚴(yán)重)。

R1 系列模型在長程推理場景下理論準(zhǔn)確率和實(shí)際準(zhǔn)確率的差異
為填補(bǔ)這一空白,復(fù)旦大學(xué)與美團(tuán) LongCat Team 聯(lián)合推出 R-HORIZON—— 首個系統(tǒng)性評估與增強(qiáng) LRMs 長鏈推理能力的方法與基準(zhǔn)。

- 論文標(biāo)題: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
- 論文地址: https://arxiv.org/abs/2510.08189
- 項(xiàng)目主頁: https://reasoning-horizon.github.io
- 代碼地址: https://github.com/meituan-longcat/R-HORIZON
- 數(shù)據(jù)集: https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879
R-HORIZON:揭開推理模型「能力地平線」
核心創(chuàng)新:Query Composition 方法
R-HORIZON 提出了一種簡潔而強(qiáng)大的問題組合(Query Composition)方法,通過建立問題間的依賴關(guān)系,將孤立任務(wù)轉(zhuǎn)化為復(fù)雜的多步驟推理場景。
以數(shù)學(xué)任務(wù)為例:
1. 提取關(guān)鍵信息:從多個獨(dú)立問題中提取核心數(shù)值、變量等信息
2. 建立依賴關(guān)系:將前一個問題的答案嵌入到后一個問題的條件中
3. 形成推理鏈:模型必須按順序正確解決所有問題才能得到最終答案
這種方法具有三大優(yōu)勢:
- 可擴(kuò)展性:可靈活控制推理鏈長度(n=2, 4, 8...)
- 可控性:可靈活設(shè)定問題間的依賴關(guān)系
- 低成本:基于現(xiàn)有數(shù)據(jù)集即可構(gòu)建,無需額外標(biāo)注
基于這一方法,我們構(gòu)建了長鏈推理的評測基準(zhǔn) R-HORIZON Benchmark,用于系統(tǒng)性評估 LRMs 在多步推理場景下的真實(shí)能力;同時,我們還構(gòu)建了長鏈推理的訓(xùn)練數(shù)據(jù),通過強(qiáng)化學(xué)習(xí)(RLVR)訓(xùn)練來提升模型的長鏈推理能力。

R-HORIZON 方法示意圖 —— 從單一問題到復(fù)雜推理鏈的轉(zhuǎn)化過程以及 R-HORIZON 的應(yīng)用場景
R-HORIZON Benchmark:全面的長鏈推理評測基準(zhǔn)
基于 Query Composition 方法,我們構(gòu)建了 R-HORIZON Benchmark,涵蓋 6 大代表性數(shù)據(jù)集:

核心發(fā)現(xiàn):頂級模型的「推理斷崖」
我們評測了 20+ 個主流 LRMs(包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等頂級商業(yè)模型以及開源模型),結(jié)果揭示了一個令人震驚的現(xiàn)象:即使是最先進(jìn)的模型,在長鏈推理場景下也會出現(xiàn)性能斷崖式下降。
關(guān)鍵發(fā)現(xiàn):
- 普遍性能衰退:所有模型隨著問題數(shù)量增加都出現(xiàn)顯著性能下降。DeepSeek-R1 在 AIME25 單問題場景下準(zhǔn)確率達(dá) 87.3%,但在 5 個組合問題場景下暴跌至 24.6%
- 模型規(guī)模影響:更大的模型對多步推理挑戰(zhàn)展現(xiàn)出更強(qiáng)的韌性
- 任務(wù)依賴性衰退:代碼生成任務(wù)相比數(shù)學(xué)任務(wù)表現(xiàn)出更陡峭的性能下降;許多推理模型在網(wǎng)頁搜索場景中失去了工具調(diào)用能力

R-HORIZON Benchmark 評測結(jié)果 —— 所有模型均出現(xiàn)顯著性能衰退
深度分析:推理模型的三大瓶頸
為了理解性能斷崖背后的原因,我們進(jìn)行了深入的機(jī)制分析,發(fā)現(xiàn)當(dāng)前 LRMs 存在三個關(guān)鍵瓶頸:
1. 有效推理長度受限
隨著相互依賴問題數(shù)量的增加,LRMs 難以維持其性能。實(shí)際準(zhǔn)確率與理論準(zhǔn)確率之間的差距顯著擴(kuò)大,表明模型無法在更長的推理范圍內(nèi)保持原有性能。
深入分析發(fā)現(xiàn):
- 模型錯誤穩(wěn)定在特定的上下文范圍內(nèi)
- 7B 模型的主要錯誤范圍在 (4-6K tokens)
- 32B 模型將范圍擴(kuò)展到 (8-10K tokens)
- 這表明更大的模型擁有更長的有效推理邊界

R1-Qwen-7B 和 R1-Qwen-32B 在準(zhǔn)確率和錯誤位置上的分析
2. 反思機(jī)制高度局部化
我們分析了模型的「反思」行為,發(fā)現(xiàn):
- 模型的反思頻率隨著問題數(shù)量增加而上升并趨于收斂
- 超過半數(shù)的復(fù)雜任務(wù)完全缺乏長程反思(跨越當(dāng)前問題的反思)
- 這表明當(dāng)前 LRMs 的反思機(jī)制高度局部化,不足以支撐長鏈場景

MATH500 數(shù)據(jù)集上的反思行為分析
3. 思考預(yù)算分配失衡
最令人意外的發(fā)現(xiàn)是:包括 DeepSeek-R1 在內(nèi)的主流 LRMs 都無法有效地在推理范圍內(nèi)分配思考預(yù)算。
- 模型傾向于過度分配 tokens 給早期推理階段
- 未能合理地將資源分配給后續(xù)的關(guān)鍵問題
- 這種失衡嚴(yán)重影響了整體推理鏈的完成質(zhì)量

不同組合問題數(shù)量下各模型的思考預(yù)算分配
R-HORIZON 訓(xùn)練:重塑推理模型的能力邊界
發(fā)現(xiàn)問題只是第一步,我們進(jìn)一步探索:能否通過使用組合數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練來突破這些瓶頸?
RLVR with R-HORIZON:用長鏈數(shù)據(jù)訓(xùn)練推理模型
我們使用 R-HORIZON 構(gòu)建的長鏈推理數(shù)據(jù)并使用 GRPO 算法進(jìn)行訓(xùn)練,訓(xùn)練策略:
- 基于主流 RLVR 算法 GRPO 進(jìn)行訓(xùn)練
- 使用 R-HORIZON 組合數(shù)據(jù)(n=2, n=4)
- 設(shè)計(jì)不同的獎勵函數(shù)進(jìn)行對比實(shí)驗(yàn)
突破性成果:雙重性能提升
實(shí)驗(yàn)結(jié)果令人振奮:R-HORIZON 訓(xùn)練不僅顯著提升長鏈任務(wù)表現(xiàn),連單問題性能也大幅增強(qiáng)。

加粗?jǐn)?shù)字表示該列最佳成績

不同訓(xùn)練配置下的性能對比。"Origin" 表示單問題場景,"n=X" 表示 X 個組合問題場景,"Multi" 表示多問題場景的平均性能
關(guān)鍵發(fā)現(xiàn):
1. 雙重性能提升:使用 n=2 組合問題訓(xùn)練,不僅大幅提升多步推理性能(AIME24 n=2 +17.4 分),單問題性能也顯著增強(qiáng)(AIME24 單題 +7.5 分)
2. 可擴(kuò)展復(fù)雜度:增加組合復(fù)雜度(n=4)增強(qiáng)了模型處理需要更多推理步驟問題的能力,在 MATH500 (n=8) 上達(dá)到 50.6%
訓(xùn)練帶來的質(zhì)變
R-HORIZON 訓(xùn)練不僅提升了性能數(shù)字,更帶來了推理機(jī)制的深層改變:
- 更高效的推理長度:訓(xùn)練顯著改善了模型在組合任務(wù)上的性能,展現(xiàn)出更好的泛化到更長推理鏈的能力,同時緩解了「overthinking」現(xiàn)象(生成更短、更高效的回答)。
- 更合理的預(yù)算分配:模型學(xué)會了在多步問題中進(jìn)行更合理的 token 預(yù)算分配,不再「重頭輕尾」。
- 更長程的反思能力:R-HORIZON 促進(jìn)了模型進(jìn)行更長程反思的頻率增加,直接改善了長鏈推理性能。

圖:使用標(biāo)準(zhǔn)數(shù)據(jù)集和組合數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí)的效果分析
結(jié)論與展望:開啟長鏈推理新紀(jì)元
R-HORIZON 的推出,標(biāo)志著大型推理模型研究進(jìn)入了一個新的階段 —— 從「能解決什么問題」到「能走多遠(yuǎn)」的范式轉(zhuǎn)變。
技術(shù)貢獻(xiàn)
- 首個長鏈推理評測基準(zhǔn):系統(tǒng)性揭示了 LRMs 的能力邊界,包括有效推理長度、反思范圍和思考預(yù)算分配的局限性
- 可擴(kuò)展訓(xùn)練范式:提供了低成本、高效率的能力提升路徑,通過 Query Composition 方法實(shí)現(xiàn)可控的長鏈推理數(shù)據(jù)構(gòu)建
- 深度機(jī)制分析:為未來的推理模型指明了改進(jìn)方向,揭示了當(dāng)前模型在長鏈推理中的三大瓶頸
開放生態(tài)
R-HORIZON 框架已全面開源,包括:
- 完整評測代碼與 Benchmark 數(shù)據(jù)
- 訓(xùn)練數(shù)據(jù)和訓(xùn)練代碼
- 數(shù)據(jù)構(gòu)建流程
- 詳細(xì)文檔與使用教程
期待與全球研究者攜手,共同推動下一代推理模型的發(fā)展,讓人工智能在現(xiàn)實(shí)世界中展現(xiàn)出更卓越的長鏈推理能力。






























