UIUC聯(lián)手谷歌發(fā)布Search-R1:大模型學(xué)會「邊想邊查」,推理、搜索無縫切換
本文的作者來自伊利諾伊大學(xué)香檳分校(UIUC)、馬薩諸塞大學(xué)(UMass)和谷歌。本文的第一作者為 UIUC 博士生金博文,主要研究方向為與大語言模型相關(guān)的智能體、推理和強化學(xué)習(xí)研究。其余學(xué)生作者為 UMass 博士生曾翰偲和 UIUC 博士生岳真銳。本文的通信作者為 UIUC 教授韓家煒。
DeepSeek-R1 展示了強化學(xué)習(xí)在提升模型推理能力方面的巨大潛力,尤其是在無需人工標(biāo)注推理過程的設(shè)定下,模型可以學(xué)習(xí)到如何更合理地組織回答。然而,這類模型缺乏對外部數(shù)據(jù)源的實時訪問能力,一旦訓(xùn)練語料中不存在某些關(guān)鍵信息,推理過程往往會因知識缺失而失敗。
與此同時,另一個研究方向——搜索增強生成(Retrieval-Augmented Generation, RAG),試圖通過引入外部搜索引擎緩解上述問題。現(xiàn)有 RAG 方法主要分為兩類:
- 基于 Prompting 的方法:直接在提示詞中引導(dǎo)大模型調(diào)用搜索引擎。這種方式雖無需額外訓(xùn)練,但存在明顯局限:大模型本身可能并不具備如何與搜索引擎交互的能力,例如何時觸發(fā)搜索、搜索什么關(guān)鍵詞等,往往導(dǎo)致調(diào)用行為不穩(wěn)定或冗余。
- 基于監(jiān)督微調(diào)(SFT)的訓(xùn)練方法:通過構(gòu)建高質(zhì)量的數(shù)據(jù)集,訓(xùn)練模型學(xué)習(xí)合理的搜索調(diào)用策略。這類方法具有更強的適應(yīng)性,但卻面臨可擴展性差的問題:一方面,構(gòu)建高質(zhì)量、覆蓋豐富推理路徑的搜索數(shù)據(jù)非常昂貴;另一方面,由于搜索操作本身不可微分,無法直接納入梯度下降優(yōu)化流程,阻礙了端到端訓(xùn)練的有效性。
為此,我們提出了一個新的訓(xùn)練范式——Search-R1,它基于強化學(xué)習(xí),通過環(huán)境交互式學(xué)習(xí)方式訓(xùn)練大模型自主掌握推理與搜索交替進行的策略,實現(xiàn)真正意義上的「邊推理,邊搜索」的閉環(huán)智能體。
- 論文標(biāo)題:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
- 論文地址:https://arxiv.org/abs/2503.09516
- 代碼地址:https://github.com/PeterGriffinJin/Search-R1
- huggingface 主頁:https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5
方法
搜索增強的強化學(xué)習(xí)框架
傳統(tǒng) RL 方法通常讓大模型僅在固定輸入上學(xué)習(xí)生成答案。而 Search-R1 引入了一個可交互的「搜索引擎模塊」,模型可以在生成過程中隨時發(fā)起搜索請求,獲取外部知識,從而提升推理質(zhì)量。
為了避免訓(xùn)練時對搜索結(jié)果本身產(chǎn)生不必要的「記憶」,我們對搜索引擎返回的文本進行了損失屏蔽(loss masking),確保模型僅學(xué)習(xí)如何在檢索增強背景下進行合理推理,而非簡單復(fù)制外部知識。
多輪搜索調(diào)用的生成機制
Search-R1 允許模型在回答前進行多輪推理與搜索交替進行。具體流程如下:
- 模型首先通過 <think>...</think> 標(biāo)簽進行推理;
- 如果模型判斷當(dāng)前知識不夠,會觸發(fā) <search>關(guān)鍵詞</search>;
- 系統(tǒng)自動調(diào)用搜索引擎,將搜索結(jié)果以 <information>...</information> 的形式插入上下文;
- 模型根據(jù)新信息繼續(xù)推理,直到輸出 <answer>答案</answer>為止。
整個過程高度模塊化且可擴展,支持多個搜索引擎與自定義檢索策略。
結(jié)構(gòu)化的訓(xùn)練模板
我們設(shè)計了簡單但有效的訓(xùn)練模板(instruction),統(tǒng)一所有訓(xùn)練樣本的格式:
這種訓(xùn)練模板(instruction)指導(dǎo)大語言模型以結(jié)構(gòu)化的方式與外部搜索引擎進行交互,同時保留策略空間的靈活性,使模型在強化學(xué)習(xí)過程中能夠自主探索更優(yōu)的搜索—推理策略。
輕量的獎勵設(shè)計
為減少訓(xùn)練成本與復(fù)雜性,我們采用了基于最終回答準(zhǔn)確性的獎勵函數(shù),無需構(gòu)建額外的神經(jīng)網(wǎng)絡(luò)打分模型,提升了訓(xùn)練效率并降低了策略對獎勵信號偏差的敏感性。
實驗結(jié)果
主要性能表現(xiàn)
- Search-R1 在所有數(shù)據(jù)集上均取得領(lǐng)先表現(xiàn),其中 Qwen2.5-7B 模型平均相對提升 41%,3B 模型提升 20%,相較 RAG 和 CoT 等方法具有顯著優(yōu)勢;
- 引入搜索引擎的 RL 優(yōu)于純推理 RL(R1),驗證了搜索在知識稀缺問題中的重要性;
- 在零樣本和跨任務(wù)遷移場景中也具有穩(wěn)健表現(xiàn),如在 PopQA、Musique、Bamboogle 等模型未見過的任務(wù)中依然保持顯著優(yōu)勢;
- 更大的模型對搜索行為更敏感、效果更好,7B 模型相較 3B 展現(xiàn)出更大性能提升。
PPO vs. GRPO
我們對兩種 RL 優(yōu)化策略進行了系統(tǒng)比較:GRPO 收斂更快,但在訓(xùn)練后期可能存在不穩(wěn)定性;PPO 表現(xiàn)更穩(wěn)定,最終性能略高于 GRPO,成為默認(rèn)推薦配置;兩者最終訓(xùn)練 reward 相近,均適用于 Search-R1 的優(yōu)化目標(biāo)。
Base 模型 vs. Instruct 模型
實驗顯示:Instruct 模型初始表現(xiàn)更好,訓(xùn)練收斂更快;但隨著訓(xùn)練推進,Base 模型最終可達到相近甚至更優(yōu)的效果;強化學(xué)習(xí)彌合了兩者在結(jié)構(gòu)化推理任務(wù)中的能力差異。
搜索行為與響應(yīng)結(jié)構(gòu)的動態(tài)學(xué)習(xí)
訓(xùn)練初期模型輸出較短,搜索行為少;隨著訓(xùn)練推進,模型逐漸學(xué)會更頻繁調(diào)用搜索,響應(yīng)長度增加;表明模型逐步掌握了「推理中搜索」的動態(tài)交互式策略。
總結(jié)
本文提出了 Search-R1,一種全新的強化學(xué)習(xí)框架,使大語言模型能夠在生成過程中靈活調(diào)用搜索引擎,實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案,Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù),而是通過 RL 自主學(xué)習(xí)查詢與信息利用策略。
我們在七個問答任務(wù)上驗證了其顯著的性能提升,并系統(tǒng)分析了不同訓(xùn)練策略對搜索增強推理的影響。未來,我們期待將該框架擴展到更多工具與信息源的協(xié)同調(diào)用,探索其在多模態(tài)推理任務(wù)中的應(yīng)用潛力。