偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="u6w8k"></sub>

<li id="u6w8k"></li>

<style id="u6w8k"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

UIUC聯(lián)手谷歌發(fā)布Search-R1：大模型學(xué)會「邊想邊查」，推理、搜索無縫切換

作者：機器之心 2025-04-22 09:06:00

人工智能新聞

本文提出了 Search-R1，一種全新的強化學(xué)習(xí)框架，使大語言模型能夠在生成過程中靈活調(diào)用搜索引擎，實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案，Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù)，而是通過 RL 自主學(xué)習(xí)查詢與信息利用策略。

本文的作者來自伊利諾伊大學(xué)香檳分校（UIUC）、馬薩諸塞大學(xué)（UMass）和谷歌。本文的第一作者為 UIUC 博士生金博文，主要研究方向為與大語言模型相關(guān)的智能體、推理和強化學(xué)習(xí)研究。其余學(xué)生作者為 UMass 博士生曾翰偲和 UIUC 博士生岳真銳。本文的通信作者為 UIUC 教授韓家煒。

DeepSeek-R1 展示了強化學(xué)習(xí)在提升模型推理能力方面的巨大潛力，尤其是在無需人工標(biāo)注推理過程的設(shè)定下，模型可以學(xué)習(xí)到如何更合理地組織回答。然而，這類模型缺乏對外部數(shù)據(jù)源的實時訪問能力，一旦訓(xùn)練語料中不存在某些關(guān)鍵信息，推理過程往往會因知識缺失而失敗。

與此同時，另一個研究方向——搜索增強生成（Retrieval-Augmented Generation, RAG），試圖通過引入外部搜索引擎緩解上述問題。現(xiàn)有 RAG 方法主要分為兩類：

基于 Prompting 的方法：直接在提示詞中引導(dǎo)大模型調(diào)用搜索引擎。這種方式雖無需額外訓(xùn)練，但存在明顯局限：大模型本身可能并不具備如何與搜索引擎交互的能力，例如何時觸發(fā)搜索、搜索什么關(guān)鍵詞等，往往導(dǎo)致調(diào)用行為不穩(wěn)定或冗余。
基于監(jiān)督微調(diào)（SFT）的訓(xùn)練方法：通過構(gòu)建高質(zhì)量的數(shù)據(jù)集，訓(xùn)練模型學(xué)習(xí)合理的搜索調(diào)用策略。這類方法具有更強的適應(yīng)性，但卻面臨可擴展性差的問題：一方面，構(gòu)建高質(zhì)量、覆蓋豐富推理路徑的搜索數(shù)據(jù)非常昂貴；另一方面，由于搜索操作本身不可微分，無法直接納入梯度下降優(yōu)化流程，阻礙了端到端訓(xùn)練的有效性。

為此，我們提出了一個新的訓(xùn)練范式——Search-R1，它基于強化學(xué)習(xí)，通過環(huán)境交互式學(xué)習(xí)方式訓(xùn)練大模型自主掌握推理與搜索交替進行的策略，實現(xiàn)真正意義上的「邊推理，邊搜索」的閉環(huán)智能體。

論文標(biāo)題：Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
論文地址：https://arxiv.org/abs/2503.09516
代碼地址：https://github.com/PeterGriffinJin/Search-R1
huggingface 主頁：https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

方法

搜索增強的強化學(xué)習(xí)框架

傳統(tǒng) RL 方法通常讓大模型僅在固定輸入上學(xué)習(xí)生成答案。而 Search-R1 引入了一個可交互的「搜索引擎模塊」，模型可以在生成過程中隨時發(fā)起搜索請求，獲取外部知識，從而提升推理質(zhì)量。

為了避免訓(xùn)練時對搜索結(jié)果本身產(chǎn)生不必要的「記憶」，我們對搜索引擎返回的文本進行了損失屏蔽（loss masking），確保模型僅學(xué)習(xí)如何在檢索增強背景下進行合理推理，而非簡單復(fù)制外部知識。

多輪搜索調(diào)用的生成機制

Search-R1 允許模型在回答前進行多輪推理與搜索交替進行。具體流程如下：

模型首先通過 <think>...</think> 標(biāo)簽進行推理；
如果模型判斷當(dāng)前知識不夠，會觸發(fā) <search>關(guān)鍵詞</search>；
系統(tǒng)自動調(diào)用搜索引擎，將搜索結(jié)果以 <information>...</information> 的形式插入上下文；
模型根據(jù)新信息繼續(xù)推理，直到輸出 <answer>答案</answer>為止。

整個過程高度模塊化且可擴展，支持多個搜索引擎與自定義檢索策略。

結(jié)構(gòu)化的訓(xùn)練模板

我們設(shè)計了簡單但有效的訓(xùn)練模板（instruction），統(tǒng)一所有訓(xùn)練樣本的格式：

這種訓(xùn)練模板（instruction）指導(dǎo)大語言模型以結(jié)構(gòu)化的方式與外部搜索引擎進行交互，同時保留策略空間的靈活性，使模型在強化學(xué)習(xí)過程中能夠自主探索更優(yōu)的搜索—推理策略。

輕量的獎勵設(shè)計

為減少訓(xùn)練成本與復(fù)雜性，我們采用了基于最終回答準(zhǔn)確性的獎勵函數(shù)，無需構(gòu)建額外的神經(jīng)網(wǎng)絡(luò)打分模型，提升了訓(xùn)練效率并降低了策略對獎勵信號偏差的敏感性。

實驗結(jié)果

主要性能表現(xiàn)

Search-R1 在所有數(shù)據(jù)集上均取得領(lǐng)先表現(xiàn)，其中 Qwen2.5-7B 模型平均相對提升 41%，3B 模型提升 20%，相較 RAG 和 CoT 等方法具有顯著優(yōu)勢；
引入搜索引擎的 RL 優(yōu)于純推理 RL（R1），驗證了搜索在知識稀缺問題中的重要性；
在零樣本和跨任務(wù)遷移場景中也具有穩(wěn)健表現(xiàn)，如在 PopQA、Musique、Bamboogle 等模型未見過的任務(wù)中依然保持顯著優(yōu)勢；
更大的模型對搜索行為更敏感、效果更好，7B 模型相較 3B 展現(xiàn)出更大性能提升。

PPO vs. GRPO

我們對兩種 RL 優(yōu)化策略進行了系統(tǒng)比較：GRPO 收斂更快，但在訓(xùn)練后期可能存在不穩(wěn)定性；PPO 表現(xiàn)更穩(wěn)定，最終性能略高于 GRPO，成為默認(rèn)推薦配置；兩者最終訓(xùn)練 reward 相近，均適用于 Search-R1 的優(yōu)化目標(biāo)。

Base 模型 vs. Instruct 模型

實驗顯示：Instruct 模型初始表現(xiàn)更好，訓(xùn)練收斂更快；但隨著訓(xùn)練推進，Base 模型最終可達到相近甚至更優(yōu)的效果；強化學(xué)習(xí)彌合了兩者在結(jié)構(gòu)化推理任務(wù)中的能力差異。

搜索行為與響應(yīng)結(jié)構(gòu)的動態(tài)學(xué)習(xí)

訓(xùn)練初期模型輸出較短，搜索行為少；隨著訓(xùn)練推進，模型逐漸學(xué)會更頻繁調(diào)用搜索，響應(yīng)長度增加；表明模型逐步掌握了「推理中搜索」的動態(tài)交互式策略。

總結(jié)

本文提出了 Search-R1，一種全新的強化學(xué)習(xí)框架，使大語言模型能夠在生成過程中靈活調(diào)用搜索引擎，實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案，Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù)，而是通過 RL 自主學(xué)習(xí)查詢與信息利用策略。

我們在七個問答任務(wù)上驗證了其顯著的性能提升，并系統(tǒng)分析了不同訓(xùn)練策略對搜索增強推理的影響。未來，我們期待將該框架擴展到更多工具與信息源的協(xié)同調(diào)用，探索其在多模態(tài)推理任務(wù)中的應(yīng)用潛力。

責(zé)任編輯：張燕妮來源：機器之心

強化學(xué)習(xí)工具 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="6xdin"></abbr>

<s id="6xdin"></s>