偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="xdl39"><fieldset id="xdl39"><input id="xdl39"></input></fieldset></tr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架

發(fā)布于 2025-5-12 01:17

瀏覽

0收藏

OpenAI-o1和DeepSeek-R1，通過(guò)獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí)，而無(wú)需依賴于明確的逐步監(jiān)督，在邏輯推理和迭代推理方面取得了顯著的成果。

使用RL訓(xùn)練能夠更有效地搜索相關(guān)信息的策略模型。例如，Search-R1、R1-Searcher和ReSearch等模型都嘗試通過(guò)強(qiáng)化學(xué)習(xí)來(lái)提升模型的搜索能力。

這些方法通常使用靜態(tài)的本地文本語(yǔ)料庫(kù)，如維基百科，無(wú)法捕捉到現(xiàn)實(shí)世界交互的復(fù)雜性。
DeepResearcher引入了與商業(yè)搜索引擎（如谷歌）的實(shí)時(shí)交互，使得模型能夠在接近真實(shí)世界網(wǎng)絡(luò)搜索的環(huán)境中進(jìn)行訓(xùn)練。
但它面臨著重大挑戰(zhàn)：
一是搜索引擎返回的文檔質(zhì)量不可預(yù)測(cè)，這給訓(xùn)練過(guò)程帶來(lái)了噪聲和不穩(wěn)定性；
二是強(qiáng)化學(xué)習(xí)訓(xùn)練需要頻繁的rollout，可能涉及數(shù)十萬(wàn)次搜索請(qǐng)求，這導(dǎo)致了巨大的API費(fèi)用，嚴(yán)重限制了系統(tǒng)的可擴(kuò)展性。

一、ZEROSEARCH核心思想

ZEROSEARCH利用LLMs在大規(guī)模預(yù)訓(xùn)練過(guò)程中所積累的豐富世界知識(shí)，使其能夠根據(jù)搜索查詢生成相關(guān)文檔。通過(guò)輕量級(jí)的監(jiān)督式微調(diào)，即使是相對(duì)較小的LLMs也能夠有效地模擬真實(shí)搜索引擎的行為。
通過(guò)模擬搜索引擎的交互過(guò)程來(lái)訓(xùn)練策略模型，使其能夠在沒(méi)有真實(shí)搜索引擎的情況下有效地進(jìn)行信息檢索和推理。
其創(chuàng)新點(diǎn)在于，通過(guò)控制文檔質(zhì)量，解決搜索引擎返回文檔質(zhì)量不可預(yù)測(cè)的問(wèn)題，并且消除了API費(fèi)用，極大地提高了訓(xùn)練的可擴(kuò)展性。

二、架構(gòu)介紹

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

ZEROSEARCH的整體架構(gòu)圍繞著一個(gè)強(qiáng)化學(xué)習(xí)框架展開(kāi)，其核心組件包括:

模擬LLMs在訓(xùn)練過(guò)程中扮演著搜索引擎的角色，它接收策略模型生成的搜索查詢，并返回相應(yīng)的文檔，這些文檔可以是有用的，也可以是噪聲的，具體取決于訓(xùn)練階段和課程策略的設(shè)置。

獎(jiǎng)勵(lì)模型根據(jù)策略模型生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào)，以驅(qū)動(dòng)策略模型的學(xué)習(xí)過(guò)程。

參考模型則用于計(jì)算策略模型輸出與參考輸出之間的差異，從而為策略模型的更新提供指導(dǎo)。

策略模型是需要優(yōu)化的對(duì)象，負(fù)責(zé)根據(jù)輸入的查詢生成搜索請(qǐng)求，并基于檢索到的信息生成最終答案。

一個(gè)策略模型（policy model）

一個(gè)參考模型（reference model）

一個(gè)獎(jiǎng)勵(lì)模型（reward model）

一個(gè)模擬LLMs（simulation LLM）

三、技術(shù)細(xì)節(jié)

強(qiáng)化學(xué)習(xí)目標(biāo)：

ZEROSEARCH的優(yōu)化目標(biāo)是最大化策略模型在給定查詢下生成正確答案的期望獎(jiǎng)勵(lì)，同時(shí)最小化策略模型輸出與參考模型輸出之間的差異。

具體來(lái)說(shuō)，優(yōu)化目標(biāo)可以表示為：

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

訓(xùn)練模板：

內(nèi)部推理階段（??<think>...</think>??）

搜索查詢階段（??<search>...</search>??）

答案生成階段（??<answer>...</answer>??）。

ZEROSEARCH采用了一個(gè)多輪交互模板，將策略模型的輸出分為三個(gè)階段：
這種結(jié)構(gòu)化的輸出格式有助于模型更好地組織推理過(guò)程，并使訓(xùn)練過(guò)程更加透明和可控。
課程學(xué)習(xí)策略，是ZEROSEARCH的一個(gè)關(guān)鍵創(chuàng)新點(diǎn)：

通過(guò)逐漸增加生成文檔的噪聲比例，模擬越來(lái)越復(fù)雜的檢索場(chǎng)景，從而逐步提升策略模型的推理能力。

這種策略類似于人類學(xué)習(xí)過(guò)程中的逐步引導(dǎo)，有助于模型更好地適應(yīng)不同難度的任務(wù)。

損失掩碼機(jī)制：

在訓(xùn)練過(guò)程中，ZEROSEARCH對(duì)檢索到的文檔token應(yīng)用損失掩碼，避免了這些外部生成的token對(duì)策略模型更新過(guò)程的干擾。

這一機(jī)制有助于穩(wěn)定訓(xùn)練過(guò)程，并提高模型的最終性能。

四、整體流程

數(shù)據(jù)準(zhǔn)備：首先，收集與真實(shí)搜索引擎交互的軌跡數(shù)據(jù)，并將其標(biāo)記為正樣本或負(fù)樣本，用于后續(xù)的輕量級(jí)監(jiān)督式微調(diào)。
輕量級(jí)監(jiān)督式微調(diào)：使用標(biāo)記好的軌跡數(shù)據(jù)對(duì)LLMs進(jìn)行微調(diào)，使其能夠根據(jù)搜索查詢生成有用或噪聲文檔。
策略模型初始化：初始化策略模型，并將其與模擬LLMs和獎(jiǎng)勵(lì)模型連接起來(lái)，形成完整的強(qiáng)化學(xué)習(xí)框架。
訓(xùn)練：

在訓(xùn)練過(guò)程中，策略模型根據(jù)輸入的查詢生成搜索請(qǐng)求，模擬LLMs根據(jù)搜索請(qǐng)求生成文檔，策略模型根據(jù)生成的文檔進(jìn)行推理并生成答案。

獎(jiǎng)勵(lì)模型根據(jù)答案的準(zhǔn)確性給出獎(jiǎng)勵(lì)信號(hào)，策略模型根據(jù)獎(jiǎng)勵(lì)信號(hào)進(jìn)行更新。

隨著訓(xùn)練的進(jìn)行，逐漸增加生成文檔的噪聲比例，以提升策略模型的推理能力。

模型評(píng)估：在訓(xùn)練完成后，使用各種問(wèn)答數(shù)據(jù)集對(duì)模型的性能進(jìn)行評(píng)估，比較其與真實(shí)搜索引擎和其他基線方法的性能差異。

舉個(gè)例子：

假設(shè)問(wèn)題是“誰(shuí)是《冰與火之歌》系列小說(shuō)的作者？”

策略模型首先在??<think>...</think>??階段進(jìn)行內(nèi)部推理，可能會(huì)思考“我需要找到《冰與火之歌》系列小說(shuō)的作者是誰(shuí)”。
然后，在??<search>...</search>??階段，策略模型生成一個(gè)搜索查詢，如“《冰與火之歌》作者”。模擬LLMs接收到這個(gè)查詢后，生成一些文檔，這些文檔可能是有用的，也可能是噪聲的，具體取決于當(dāng)前的課程階段。
策略模型根據(jù)這些文檔在??<answer>...</answer>??階段生成最終答案，如“喬治·R·馬丁”。
獎(jiǎng)勵(lì)模型根據(jù)生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào)，策略模型根據(jù)這個(gè)獎(jiǎng)勵(lì)信號(hào)進(jìn)行更新，以提升其在后續(xù)任務(wù)中的性能。

4.1 輕量級(jí)監(jiān)督式微調(diào)的詳細(xì)步驟

數(shù)據(jù)收集：

通過(guò)讓LLMs與真實(shí)搜索引擎進(jìn)行多輪交互，收集一系列的交互軌跡。

這些軌跡包括查詢、搜索引擎返回的文檔以及LLMs基于這些文檔生成的答案。

數(shù)據(jù)標(biāo)注：

根據(jù)LLMs生成的答案是否正確，將這些軌跡標(biāo)注為正樣本或負(fù)樣本。

如果答案正確，則將該軌跡標(biāo)記為正樣本，表示檢索到的文檔是有用的；

如果答案錯(cuò)誤，則將該軌跡標(biāo)記為負(fù)樣本，表示檢索到的文檔是噪聲。

提取查詢-文檔對(duì)：

從正負(fù)樣本軌跡中提取查詢-文檔對(duì)。

這些查詢-文檔對(duì)將用于后續(xù)的微調(diào)過(guò)程。

設(shè)計(jì)微調(diào)提示：

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

為了使LLMs能夠生成有用或噪聲文檔，設(shè)計(jì)微調(diào)提示。

在提示中加入“有用”或“噪聲”等關(guān)鍵詞，并將輸入問(wèn)題及其對(duì)應(yīng)答案納入提示中，以拓寬LLMs的知識(shí)邊界。

微調(diào)過(guò)程：

使用提取的查詢-文檔對(duì)和設(shè)計(jì)好的微調(diào)提示對(duì)LLMs進(jìn)行輕量級(jí)監(jiān)督式微調(diào)。

在微調(diào)過(guò)程中，調(diào)整LLMs的參數(shù)，使其能夠根據(jù)搜索查詢生成符合提示要求的文檔。

評(píng)估微調(diào)效果：

通過(guò)一些驗(yàn)證數(shù)據(jù)集評(píng)估微調(diào)后的LLMs的性能，確保其能夠有效地模擬真實(shí)搜索引擎的行為，并且能夠根據(jù)提示生成有用或噪聲文檔。

4.2 基于課程的rollout策略的詳細(xì)步驟

初始化課程參數(shù)：

設(shè)置初始噪聲概率ps、最終噪聲概率pe以及指數(shù)基數(shù)b等課程參數(shù)。

這些參數(shù)將決定在訓(xùn)練過(guò)程中生成文檔的噪聲比例如何變化。

策略模型生成搜索查詢：

在每次rollout過(guò)程中，策略模型根據(jù)輸入的查詢生成一個(gè)或多個(gè)搜索查詢。

這些查詢將被發(fā)送到模擬LLMs。

模擬LLMs生成文檔：

模擬LLMs接收到搜索查詢后，根據(jù)當(dāng)前的課程階段生成相應(yīng)的文檔。

在訓(xùn)練初期，生成的文檔主要是有用的，隨著訓(xùn)練的進(jìn)行，逐漸增加噪聲文檔的比例。

策略模型進(jìn)行推理：

策略模型根據(jù)模擬LLMs返回的文檔進(jìn)行推理，并生成最終答案。

在推理過(guò)程中，策略模型可能會(huì)根據(jù)需要進(jìn)行多輪搜索。

獎(jiǎng)勵(lì)模型給出獎(jiǎng)勵(lì)信號(hào)：

獎(jiǎng)勵(lì)模型根據(jù)策略模型生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào)。

如果答案正確，獎(jiǎng)勵(lì)信號(hào)較高；如果答案錯(cuò)誤，獎(jiǎng)勵(lì)信號(hào)較低。

更新策略模型：

根據(jù)獎(jiǎng)勵(lì)信號(hào)和課程參數(shù)，更新策略模型的參數(shù)。

在更新過(guò)程中，策略模型將學(xué)習(xí)如何在不同難度的檢索場(chǎng)景中生成更準(zhǔn)確的答案。

調(diào)整課程階段：

隨著訓(xùn)練的進(jìn)行，逐步調(diào)整課程參數(shù)，增加生成文檔的噪聲比例。

這將使策略模型逐漸適應(yīng)更具挑戰(zhàn)性的檢索場(chǎng)景，提升其推理能力。

4.3 訓(xùn)練算法的細(xì)節(jié)

選擇合適的強(qiáng)化學(xué)習(xí)算法：

根據(jù)具體任務(wù)和模型的特點(diǎn)，選擇合適的強(qiáng)化學(xué)習(xí)算法，如PPO、GRPO或Reinforce++等。

rollout過(guò)程：

在rollout過(guò)程中，策略模型根據(jù)輸入的查詢生成搜索查詢，模擬LLMs根據(jù)搜索查詢生成文檔，策略模型根據(jù)生成的文檔進(jìn)行推理并生成答案。

這個(gè)過(guò)程將產(chǎn)生一系列的交互數(shù)據(jù)，包括查詢、文檔、答案以及對(duì)應(yīng)的獎(jiǎng)勵(lì)信號(hào)。

計(jì)算損失函數(shù)：

策略損失：衡量策略模型輸出與參考模型輸出之間的差異，

價(jià)值損失：衡量?jī)r(jià)值模型預(yù)測(cè)與真實(shí)獎(jiǎng)勵(lì)之間的差異，

熵?fù)p失：用于鼓勵(lì)策略模型的探索行為。

根據(jù)策略模型的輸出和獎(jiǎng)勵(lì)信號(hào)，計(jì)算損失函數(shù)。

損失函數(shù)通常包括策略損失、價(jià)值損失以及熵?fù)p失等。

更新模型參數(shù)：

根據(jù)計(jì)算得到的損失函數(shù)，使用反向傳播算法更新策略模型、參考模型和獎(jiǎng)勵(lì)模型的參數(shù)。

在更新過(guò)程中，應(yīng)用梯度裁剪等技術(shù)，以避免梯度爆炸或梯度消失的問(wèn)題。

重復(fù)訓(xùn)練過(guò)程：

我

ZEROSEARCH優(yōu)點(diǎn)

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

ZEROSEARCH框架通過(guò)輕量級(jí)監(jiān)督式微調(diào)將LLMs轉(zhuǎn)變?yōu)橐粋€(gè)檢索模塊，并采用基于課程的rollout策略逐步提升策略模型的推理能力，有效地解決了現(xiàn)有基于強(qiáng)化學(xué)習(xí)的LLMs搜索能力訓(xùn)練方法中存在的搜索引擎返回文檔質(zhì)量不可預(yù)測(cè)和API費(fèi)用高昂的問(wèn)題。
ZEROSEARCH在多個(gè)問(wèn)答數(shù)據(jù)集上均取得了優(yōu)異的性能，超越了真實(shí)搜索引擎和其他基線方法。
ZEROSEARCH還具有良好的可擴(kuò)展性，能夠適應(yīng)不同大小和類型的LLMs，并且與多種強(qiáng)化學(xué)習(xí)算法兼容。
ZEROSEARCH在部署模擬LLMs時(shí)需要一定的GPU資源，但其成本遠(yuǎn)低于商業(yè)搜索引擎API費(fèi)用，具有較高的經(jīng)濟(jì)可行性。
ZEROSEARCH可以應(yīng)用于其他類型的自然語(yǔ)言處理任務(wù)，如文本摘要、機(jī)器翻譯等，以充分發(fā)揮其在提升LLMs性能方面的潛力。

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

??https://arxiv.org/pdf/2505.04588??
??https://github.com/Alibaba-NLP/ZeroSearch??

本文轉(zhuǎn)載自???CourseAI???，作者：CourseAI

標(biāo)簽

強(qiáng)化學(xué)習(xí)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

低成本LLM應(yīng)用開(kāi)發(fā)利器——開(kāi)源FrugalGPT框架

51CTO內(nèi)容精選 ? 4398瀏覽 ? 0回復(fù)
從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景

AI探索時(shí)代 ? 4494瀏覽 ? 0回復(fù)
DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署

老蛀蟲 ? 5111瀏覽 ? 0回復(fù)
DeepSeek-R1：通過(guò)強(qiáng)化學(xué)習(xí)激發(fā)大語(yǔ)言模型的推理潛能

柏企閱文 ? 6283瀏覽 ? 0回復(fù)
李飛飛團(tuán)隊(duì)超低成本復(fù)刻DeepSeek R1推理！16張H100只訓(xùn)練了26分鐘，與R1訓(xùn)練方法不同！

51CTO技術(shù)棧 ? 3939瀏覽 ? 0回復(fù)
外國(guó)專家解讀DeepSeek：預(yù)算有限，如何復(fù)制R1推理模型？純強(qiáng)化學(xué)習(xí)不現(xiàn)實(shí)！

51CTO技術(shù)棧 ? 2949瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 6416瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與軟件工程：開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 3413瀏覽 ? 0回復(fù)
白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

后向傳播 ? 8701瀏覽 ? 0回復(fù)
32B逆襲671BDeepSeek R1！阿里推理模型炸翻了：小到筆記本就能run,成本僅1/10！又是強(qiáng)化學(xué)習(xí)帶來(lái)驚喜！

51CTO技術(shù)棧 ? 3459瀏覽 ? 0回復(fù)
Search-R1：強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力

十一月雨_55 ? 4257瀏覽 ? 0回復(fù)
Search-R1：讓大模型學(xué)會(huì)“檢索+推理”的新范式

arnoldzhw ? 3891瀏覽 ? 0回復(fù)
Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型

AIRoobt ? 4273瀏覽 ? 0回復(fù)
NL2SQL新突破：SQL-R1用強(qiáng)化學(xué)習(xí)打破傳統(tǒng)局限

Halo咯咯 ? 4067瀏覽 ? 0回復(fù)
Qwen3模型架構(gòu)、訓(xùn)練方法梳理

大模型自然語(yǔ)言處理 ? 5558瀏覽 ? 0回復(fù)
Qwen3 Embedding模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)策略

大模型自然語(yǔ)言處理 ? 4345瀏覽 ? 0回復(fù)
Qwen3-SmVL：基于Qwen3和SmolVLM拼接打造1 GB顯存可跑的中文超小多模態(tài)大模型

穿越時(shí)空111 ? 4670瀏覽 ? 0回復(fù)
智能體強(qiáng)化學(xué)習(xí)綜述；強(qiáng)化學(xué)習(xí)原生GUI智能體；多輪工具交互強(qiáng)化學(xué)習(xí)；模塊化多輪工具強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 3661瀏覽 ? 0回復(fù)
早期經(jīng)驗(yàn)監(jiān)督的智能體強(qiáng)化學(xué)習(xí)；推理元信息感知的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)；安全與有效聯(lián)合訓(xùn)練智能體框架

AI研究前瞻 ? 1985瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Manus：三大核心策略，破解AI Agent上下文膨脹難題 2025-10-23 07:52:56發(fā)布
文檔級(jí)知識(shí)圖譜: RAKG(95.91%) VS GraphRAG(89.71%) 2025-10-23 07:52:31發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽(tīng)不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問(wèn)題改寫(優(yōu)化)方法—使用歷史記錄改寫問(wèn)題 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

上一篇：騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

下一篇：字節(jié)跳動(dòng)2步突破，復(fù)雜文檔布局解析，為啥如此驚艷？

社區(qū)精華內(nèi)容

目錄