偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

UIUC聯(lián)手谷歌發(fā)布Search-R1:大模型學(xué)會「邊想邊查」,推理、搜索無縫切換

人工智能 新聞
本文提出了 Search-R1,一種全新的強化學(xué)習(xí)框架,使大語言模型能夠在生成過程中靈活調(diào)用搜索引擎,實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案,Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù),而是通過 RL 自主學(xué)習(xí)查詢與信息利用策略。

本文的作者來自伊利諾伊大學(xué)香檳分校(UIUC)、馬薩諸塞大學(xué)(UMass)和谷歌。本文的第一作者為 UIUC 博士生金博文,主要研究方向為與大語言模型相關(guān)的智能體、推理和強化學(xué)習(xí)研究。其余學(xué)生作者為 UMass 博士生曾翰偲和 UIUC 博士生岳真銳。本文的通信作者為 UIUC 教授韓家煒。

DeepSeek-R1 展示了強化學(xué)習(xí)在提升模型推理能力方面的巨大潛力,尤其是在無需人工標(biāo)注推理過程的設(shè)定下,模型可以學(xué)習(xí)到如何更合理地組織回答。然而,這類模型缺乏對外部數(shù)據(jù)源的實時訪問能力,一旦訓(xùn)練語料中不存在某些關(guān)鍵信息,推理過程往往會因知識缺失而失敗。

與此同時,另一個研究方向——搜索增強生成(Retrieval-Augmented Generation, RAG),試圖通過引入外部搜索引擎緩解上述問題。現(xiàn)有 RAG 方法主要分為兩類:

  • 基于 Prompting 的方法直接在提示詞中引導(dǎo)大模型調(diào)用搜索引擎。這種方式雖無需額外訓(xùn)練,但存在明顯局限:大模型本身可能并不具備如何與搜索引擎交互的能力,例如何時觸發(fā)搜索、搜索什么關(guān)鍵詞等,往往導(dǎo)致調(diào)用行為不穩(wěn)定或冗余。
  • 基于監(jiān)督微調(diào)(SFT)的訓(xùn)練方法:通過構(gòu)建高質(zhì)量的數(shù)據(jù)集,訓(xùn)練模型學(xué)習(xí)合理的搜索調(diào)用策略。這類方法具有更強的適應(yīng)性,但卻面臨可擴展性差的問題:一方面,構(gòu)建高質(zhì)量、覆蓋豐富推理路徑的搜索數(shù)據(jù)非常昂貴;另一方面,由于搜索操作本身不可微分,無法直接納入梯度下降優(yōu)化流程,阻礙了端到端訓(xùn)練的有效性。

為此,我們提出了一個新的訓(xùn)練范式——Search-R1,它基于強化學(xué)習(xí),通過環(huán)境交互式學(xué)習(xí)方式訓(xùn)練大模型自主掌握推理與搜索交替進行的策略,實現(xiàn)真正意義上的「邊推理,邊搜索」的閉環(huán)智能體。

圖片

  • 論文標(biāo)題:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2503.09516
  • 代碼地址:https://github.com/PeterGriffinJin/Search-R1
  • huggingface 主頁:https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

圖片

方法

搜索增強的強化學(xué)習(xí)框架

傳統(tǒng) RL 方法通常讓大模型僅在固定輸入上學(xué)習(xí)生成答案。而 Search-R1 引入了一個可交互的「搜索引擎模塊」,模型可以在生成過程中隨時發(fā)起搜索請求,獲取外部知識,從而提升推理質(zhì)量。

圖片

為了避免訓(xùn)練時對搜索結(jié)果本身產(chǎn)生不必要的「記憶」,我們對搜索引擎返回的文本進行了損失屏蔽(loss masking),確保模型僅學(xué)習(xí)如何在檢索增強背景下進行合理推理,而非簡單復(fù)制外部知識。

多輪搜索調(diào)用的生成機制

Search-R1 允許模型在回答前進行多輪推理與搜索交替進行。具體流程如下:

  • 模型首先通過 <think>...</think> 標(biāo)簽進行推理;
  • 如果模型判斷當(dāng)前知識不夠,會觸發(fā) <search>關(guān)鍵詞</search>;
  • 系統(tǒng)自動調(diào)用搜索引擎,將搜索結(jié)果以 <information>...</information> 的形式插入上下文;
  • 模型根據(jù)新信息繼續(xù)推理,直到輸出 <answer>答案</answer>為止。

整個過程高度模塊化且可擴展,支持多個搜索引擎與自定義檢索策略。

圖片

結(jié)構(gòu)化的訓(xùn)練模板

我們設(shè)計了簡單但有效的訓(xùn)練模板(instruction),統(tǒng)一所有訓(xùn)練樣本的格式:

圖片

這種訓(xùn)練模板(instruction)指導(dǎo)大語言模型以結(jié)構(gòu)化的方式與外部搜索引擎進行交互,同時保留策略空間的靈活性,使模型在強化學(xué)習(xí)過程中能夠自主探索更優(yōu)的搜索—推理策略。

輕量的獎勵設(shè)計

為減少訓(xùn)練成本與復(fù)雜性,我們采用了基于最終回答準(zhǔn)確性的獎勵函數(shù),無需構(gòu)建額外的神經(jīng)網(wǎng)絡(luò)打分模型,提升了訓(xùn)練效率并降低了策略對獎勵信號偏差的敏感性。

實驗結(jié)果

主要性能表現(xiàn)

圖片

  • Search-R1 在所有數(shù)據(jù)集上均取得領(lǐng)先表現(xiàn),其中 Qwen2.5-7B 模型平均相對提升 41%,3B 模型提升 20%,相較 RAG 和 CoT 等方法具有顯著優(yōu)勢;
  • 引入搜索引擎的 RL 優(yōu)于純推理 RL(R1),驗證了搜索在知識稀缺問題中的重要性;
  • 在零樣本和跨任務(wù)遷移場景中也具有穩(wěn)健表現(xiàn),如在 PopQA、Musique、Bamboogle 等模型未見過的任務(wù)中依然保持顯著優(yōu)勢;
  • 更大的模型對搜索行為更敏感、效果更好,7B 模型相較 3B 展現(xiàn)出更大性能提升。

PPO vs. GRPO

圖片

我們對兩種 RL 優(yōu)化策略進行了系統(tǒng)比較:GRPO 收斂更快,但在訓(xùn)練后期可能存在不穩(wěn)定性;PPO 表現(xiàn)更穩(wěn)定,最終性能略高于 GRPO,成為默認(rèn)推薦配置;兩者最終訓(xùn)練 reward 相近,均適用于 Search-R1 的優(yōu)化目標(biāo)。

Base 模型 vs. Instruct 模型

圖片

實驗顯示:Instruct 模型初始表現(xiàn)更好,訓(xùn)練收斂更快;但隨著訓(xùn)練推進,Base 模型最終可達到相近甚至更優(yōu)的效果;強化學(xué)習(xí)彌合了兩者在結(jié)構(gòu)化推理任務(wù)中的能力差異。

搜索行為與響應(yīng)結(jié)構(gòu)的動態(tài)學(xué)習(xí)

圖片

訓(xùn)練初期模型輸出較短,搜索行為少;隨著訓(xùn)練推進,模型逐漸學(xué)會更頻繁調(diào)用搜索,響應(yīng)長度增加;表明模型逐步掌握了「推理中搜索」的動態(tài)交互式策略。

總結(jié)

本文提出了 Search-R1,一種全新的強化學(xué)習(xí)框架,使大語言模型能夠在生成過程中靈活調(diào)用搜索引擎,實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案,Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù),而是通過 RL 自主學(xué)習(xí)查詢與信息利用策略。

我們在七個問答任務(wù)上驗證了其顯著的性能提升,并系統(tǒng)分析了不同訓(xùn)練策略對搜索增強推理的影響。未來,我們期待將該框架擴展到更多工具與信息源的協(xié)同調(diào)用,探索其在多模態(tài)推理任務(wù)中的應(yīng)用潛力。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-03-21 13:00:54

2025-06-05 03:00:00

AutoRefineRAGLLM

2025-03-27 23:41:35

豆包搜索AI

2024-09-09 09:00:00

2025-03-03 09:00:00

2025-06-23 08:47:00

2025-05-16 08:37:35

2025-03-14 09:02:03

大模型AI技術(shù)

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-17 08:43:00

模型推理訓(xùn)練

2025-02-13 08:51:23

DeepSeek大模型

2020-12-02 10:20:33

Docker命令Linux

2012-05-01 20:26:01

iPhone

2022-06-06 16:39:58

云邊協(xié)同大會分布式云計算邊緣計算

2025-06-26 09:13:22

2021-01-19 09:19:33

RPC調(diào)用過程框架

2009-12-18 11:15:17

ADSL寬帶共享上網(wǎng)

2024-05-15 09:17:30

模型AI

2024-09-13 06:32:25

2024-07-26 09:29:38

點贊
收藏

51CTO技術(shù)棧公眾號