NeurIPS 2025 Spotlight | 讓檢索、推理真正「合體」的小而強模型,AceSearcher來了
如何讓一個并不巨大的開源大模型,在面對需要多步檢索與復(fù)雜邏輯整合的問題時,依然像 “冷靜的研究員” 那樣先拆解、再查證、后歸納,最后給出可核實的結(jié)論?
近期,來自埃默里大學(xué),佐治亞理工大學(xué),羅格斯大學(xué),紐約州立大學(xué)奧爾巴尼分校,得克薩斯大學(xué)西南醫(yī)學(xué)中心的研究團(tuán)隊發(fā)布 AceSearcher 模型,一個讓同一語言模型在推理時兼任 “問題分解者(Decomposer)” 與 “答案求解者(Solver)” 的合作式自博弈框架:它以兩階段訓(xùn)練(SFT→RFT)為骨架,把 “會拆題、會找料、會整合” 的完整能力鏈擰成了一根繩。更重要的是,這不是單純的 “又一個新模型”,而是一個更優(yōu)的框架:它把公開的推理數(shù)據(jù)集引入到檢索增強的訓(xùn)練流程中,讓模型真正學(xué)會如何把推理與檢索結(jié)合起來,顯著提升了復(fù)雜檢索任務(wù)的效果。
在三大類推理密集任務(wù)、十個數(shù)據(jù)集上,它拿到了平均 EM +7.6% 的優(yōu)勢;32B 版本在文檔級金融推理上,表現(xiàn)可對標(biāo) 685B 的 DeepSeek-V3,但參數(shù)量卻不到 5%。

- 論文題目:AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
- 接收會議:NeurIPS 2025 Spotlight
- 論文地址:https://arxiv.org/pdf/2509.24193
- 模型 / 數(shù)據(jù)集地址:https://huggingface.co/AceSearcher
- 代碼地址:https://github.com/ritaranx/AceSearcher/
把人類的 “拆解 — 檢索 — 整合” 過程,規(guī)約成一個統(tǒng)一策略
現(xiàn)實世界的問題,常常不是 “一問一答” 能解決:線索散落在不同文檔,需要多跳檢索把證據(jù)拼齊,還要在此基礎(chǔ)上進(jìn)行跨段落乃至跨文檔的整合推理。傳統(tǒng) RAG 在這里容易 “卡殼”—— 單步檢索召回不足、推理鏈整合不穩(wěn)、推理時擴展又容易帶來延遲和資源開銷。
AceSearcher 的關(guān)鍵,是把這一流程變成一個單模型、雙角色的閉環(huán):
- 分解者
:把原始問題
拆成子問題序列
,以子問題為查詢錨點,逐跳拉起相關(guān)證據(jù); - 求解者
:在每一跳證據(jù)
上產(chǎn)出中間答案
,最終基于
匯總出答案
。
直觀來說:分解更好 → 檢索更準(zhǔn) → 整合更穩(wěn) → 答案更對。AceSearcher 就是沿著這條因果鏈,推動
與
在一個模型體內(nèi)彼此成就。

AceSearcher 到底 “練” 了什么?
一、Stage I:監(jiān)督微調(diào)(SFT)——“打底三件套”:會搜、會拆、會想
SFT 階段的訓(xùn)練集是一個覆蓋面很廣的混合拼盤(約 18 萬樣本),包括:
1. 上下文豐富的 QA(NQ、SQuAD、DROP、NarrativeQA、Quoref、ROPES、FEVER、TAT-QA),讓模型學(xué)會在證據(jù)上作答;
2. 問題分解數(shù)據(jù)(GSM8K、ConvFinQA、StrategyQA),讓模型學(xué)會把復(fù)雜問題拆成子目標(biāo);
3. 鏈?zhǔn)酵评頂?shù)據(jù)(GSM8K、TabMWP、IfQA、MathInstruct 等 CoT/PoT),讓模型形成多步推理的 “肌肉記憶”。
這一步的關(guān)鍵是:AceSearcher 首次系統(tǒng)地把這些公開的推理數(shù)據(jù)集,與檢索增強任務(wù)結(jié)合起來。我們希望模型不僅學(xué)會了 “如何在上下文中找答案”,更學(xué)會了 “如何通過推理去驅(qū)動檢索、再通過檢索去支撐推理”。這是它與以往 RAG 方法最大的差別之一。
二、Stage II:偏好強化微調(diào)(RFT)—— 只看 “最終答案”,也能學(xué)會 “更好的過程”
現(xiàn)實里很難拿到 “中間推理步驟” 的標(biāo)注。AceSearcher 的 RFT 階段因此選擇只用最終答案來給獎勵:
- 在 RAG 環(huán)境(HotpotQA、2WikiMHQA、HOVER 等)下,
先采樣 m 條分解路徑,每條分解上
再采樣
條完整解答軌跡; - 在上下文推理環(huán)境(GSM8K、TabMWP、ConvFinQA 等)下,
仍負(fù)責(zé)拆題,
在表格 / 文本等上下文上生成中間答案與最終解; - 獎勵基于 EM(Exact Match) 與格式校驗,對整條軌跡
評分; - 把 “最好 vs 最差” 的分解、子問答、最終回答構(gòu)造成偏好對,合并成
,用 DPO(Direct Preference Optimization) 類目標(biāo)訓(xùn)練;并采用在線多輪迭代(第 t 輪用當(dāng)前策略采樣偏好,再更新到 t+1 輪)。
實現(xiàn)上還有兩個細(xì)節(jié)很 “工程”:
- 控制長度與成本:中間子問題階段只產(chǎn)出短答案,僅在最終回答處生成較完整的推理;
- 檢索預(yù)算分配:總檢索配額 N=15,如果分解出 n 個子問題,則每個子問題最多分到
個文檔,以免某一步 “吃太多”。
在這里,利用推理數(shù)據(jù)集預(yù)訓(xùn)練出來的 “分解與推理能力”,在 RFT 階段通過最終答案獎勵被進(jìn)一步固化和遷移到復(fù)雜檢索任務(wù),形成了推理與檢索的真正耦合。

評測設(shè)置:任務(wù)譜系、檢索器與指標(biāo)
論文的評測覆蓋三個任務(wù)大類,共十個公開數(shù)據(jù)集:
- 多跳問答:2WikiMHQA、HotpotQA、Bamboogle、MusiQue;
- 多跳事實驗證:HOVER、ExFEVER;
- 文檔級金融 / 數(shù)學(xué)推理:我們使用 DocMath-Eval 基準(zhǔn),包含 TAT-QA、FinQA、MultiHiertt、TAT-HQA 等任務(wù)。
實驗結(jié)果分析:既要 “能搜會拆”,也要 “合并同類項”
1)多跳 QA / 事實驗證:平均提升 7.6%,小中模型亦能 “越級”
在六個數(shù)據(jù)集的綜合評測中(2WikiMHQA、HotpotQA、Bamboogle、MusiQue、HOVER、ExFEVER),AceSearcher 全面優(yōu)于近期開源 / 閉源基線;其中 32B 版本的綜合得分達(dá)到 60.7,相對多種強基線的平均 EM 最高可增 7.6%。更具代表性的是 “參數(shù)效率”:1.5B 版本已可對標(biāo) / 超越 8B 級基線,8B 版本還壓過 70B 級模型。

2)文檔級推理:32B ≈ DeepSeek-V3@685B(≈1/20 參數(shù))
在 DocMath-Eval 上,AceSearcher-32B 的平均準(zhǔn)確率與 DeepSeek-V3(685B) 幾乎持平;14B 版本還超過了若干 72B 級模型;8B 相對同量級 / 略大模型亦有明顯優(yōu)勢。這表明 “分解→檢索→整合” 的統(tǒng)一范式,能在長文檔與表格混合的復(fù)雜情境里保持穩(wěn)健的泛化。

3)效率與可擴展性:少量數(shù)據(jù)就能 “拉滿”,推理 - 時間性價比更優(yōu)
- 數(shù)據(jù)效率:SFT 只取 2K 樣本時,性能已可追平如 Search-R1 等強基線;RFT 追加 5K 提示后進(jìn)一步拉升。
- 推理效率:雖然比分步 RAG 多了 “分解 + 多跳” 的環(huán)節(jié),但相對樹搜索 / 思維鏈擴展等方法,AceSearcher 在相近推理時間下拿到更高分。

消融:為什么一定要 “分解 + 求解” 都練?
系統(tǒng)消融清晰地回答了這個問題:
- 缺哪樣都不行:去掉 RFT 或 SFT,成績明顯下滑;把
替換成 “凍結(jié)” 的通用指令模型,也會失分; - 只練上下文 QA 遠(yuǎn)遠(yuǎn)不夠:不加入 “分解 / 推理” 類數(shù)據(jù),泛化與魯棒性都不如 “全配方”;
- RL 替代方案不如在線迭代 DPO 穩(wěn)定:RAFT、REST-EM、離線 DPO、迭代 SimPO 都做了橫比,AceSearcher 綜合更優(yōu)。
這背后,其實是
與
的正反饋回路:好分解讓好檢索與好整合更容易發(fā)生,而持續(xù)的最終答案獎勵又把這條路走得更穩(wěn)。這再次印證:AceSearcher 的貢獻(xiàn)不僅是性能超越,更是框架的超越。它證明了推理與檢索不該被割裂開來,而應(yīng)在一個統(tǒng)一框架中通過數(shù)據(jù)與優(yōu)化手段協(xié)同提升。

未來:從 “固定檢索器” 到 “聯(lián)合優(yōu)化”,再到更廣的任務(wù)譜系
AceSearcher 證明了:聰明的訓(xùn)練范式勝過盲目擴參。接下來有三條有潛力的路:
1. 檢索 - 推理聯(lián)合優(yōu)化:目前檢索器固定,未來可嘗試把檢索表征、重排與生成策略聯(lián)學(xué),進(jìn)一步提高 “證據(jù)命中→推理穩(wěn)定” 的閉環(huán)質(zhì)量;
2. 極端時延場景的工程優(yōu)化:在保持性能的前提下做緩存、動態(tài)步長與早停機制;
3. 更廣任務(wù)類型:從多跳問答 / 事實驗證 / 長文檔,擴展到對話式信息采集、實時工具使用、跨模態(tài)檢索等。




































