偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架

發(fā)布于 2025-5-12 01:17
瀏覽
0收藏

OpenAI-o1和DeepSeek-R1,通過(guò)獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí),而無(wú)需依賴于明確的逐步監(jiān)督,在邏輯推理和迭代推理方面取得了顯著的成果。


使用RL訓(xùn)練能夠更有效地搜索相關(guān)信息的策略模型。例如,Search-R1、R1-Searcher和ReSearch等模型都嘗試通過(guò)強(qiáng)化學(xué)習(xí)來(lái)提升模型的搜索能力。


這些方法通常使用靜態(tài)的本地文本語(yǔ)料庫(kù),如維基百科,無(wú)法捕捉到現(xiàn)實(shí)世界交互的復(fù)雜性。

DeepResearcher引入了與商業(yè)搜索引擎(如谷歌)的實(shí)時(shí)交互,使得模型能夠在接近真實(shí)世界網(wǎng)絡(luò)搜索的環(huán)境中進(jìn)行訓(xùn)練。

但它面臨著重大挑戰(zhàn):

  • 一是搜索引擎返回的文檔質(zhì)量不可預(yù)測(cè),這給訓(xùn)練過(guò)程帶來(lái)了噪聲和不穩(wěn)定性;
  • 二是強(qiáng)化學(xué)習(xí)訓(xùn)練需要頻繁的rollout,可能涉及數(shù)十萬(wàn)次搜索請(qǐng)求,這導(dǎo)致了巨大的API費(fèi)用,嚴(yán)重限制了系統(tǒng)的可擴(kuò)展性。

一、ZEROSEARCH核心思想

  • ZEROSEARCH利用LLMs在大規(guī)模預(yù)訓(xùn)練過(guò)程中所積累的豐富世界知識(shí),使其能夠根據(jù)搜索查詢生成相關(guān)文檔。通過(guò)輕量級(jí)的監(jiān)督式微調(diào),即使是相對(duì)較小的LLMs也能夠有效地模擬真實(shí)搜索引擎的行為。
  • 通過(guò)模擬搜索引擎的交互過(guò)程來(lái)訓(xùn)練策略模型,使其能夠在沒(méi)有真實(shí)搜索引擎的情況下有效地進(jìn)行信息檢索和推理。
  • 其創(chuàng)新點(diǎn)在于,通過(guò)控制文檔質(zhì)量,解決搜索引擎返回文檔質(zhì)量不可預(yù)測(cè)的問(wèn)題,并且消除了API費(fèi)用,極大地提高了訓(xùn)練的可擴(kuò)展性。

二、架構(gòu)介紹

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

  • ZEROSEARCH的整體架構(gòu)圍繞著一個(gè)強(qiáng)化學(xué)習(xí)框架展開(kāi),其核心組件包括:

模擬LLMs在訓(xùn)練過(guò)程中扮演著搜索引擎的角色,它接收策略模型生成的搜索查詢,并返回相應(yīng)的文檔,這些文檔可以是有用的,也可以是噪聲的,具體取決于訓(xùn)練階段和課程策略的設(shè)置。

獎(jiǎng)勵(lì)模型根據(jù)策略模型生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào),以驅(qū)動(dòng)策略模型的學(xué)習(xí)過(guò)程。

參考模型則用于計(jì)算策略模型輸出與參考輸出之間的差異,從而為策略模型的更新提供指導(dǎo)。

策略模型是需要優(yōu)化的對(duì)象,負(fù)責(zé)根據(jù)輸入的查詢生成搜索請(qǐng)求,并基于檢索到的信息生成最終答案。

一個(gè)策略模型(policy model)

一個(gè)參考模型(reference model)

一個(gè)獎(jiǎng)勵(lì)模型(reward model)

一個(gè)模擬LLMs(simulation LLM)

三、技術(shù)細(xì)節(jié)

  • 強(qiáng)化學(xué)習(xí)目標(biāo)

ZEROSEARCH的優(yōu)化目標(biāo)是最大化策略模型在給定查詢下生成正確答案的期望獎(jiǎng)勵(lì),同時(shí)最小化策略模型輸出與參考模型輸出之間的差異。

具體來(lái)說(shuō),優(yōu)化目標(biāo)可以表示為:

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

  • 訓(xùn)練模板

內(nèi)部推理階段(??<think>...</think>??)

搜索查詢階段(??<search>...</search>??)

答案生成階段(??<answer>...</answer>??)。

  • ZEROSEARCH采用了一個(gè)多輪交互模板,將策略模型的輸出分為三個(gè)階段:
  • 這種結(jié)構(gòu)化的輸出格式有助于模型更好地組織推理過(guò)程,并使訓(xùn)練過(guò)程更加透明和可控。
  • 課程學(xué)習(xí)策略,是ZEROSEARCH的一個(gè)關(guān)鍵創(chuàng)新點(diǎn):

通過(guò)逐漸增加生成文檔的噪聲比例,模擬越來(lái)越復(fù)雜的檢索場(chǎng)景,從而逐步提升策略模型的推理能力。

這種策略類似于人類學(xué)習(xí)過(guò)程中的逐步引導(dǎo),有助于模型更好地適應(yīng)不同難度的任務(wù)。

  • 損失掩碼機(jī)制

在訓(xùn)練過(guò)程中,ZEROSEARCH對(duì)檢索到的文檔token應(yīng)用損失掩碼,避免了這些外部生成的token對(duì)策略模型更新過(guò)程的干擾。

這一機(jī)制有助于穩(wěn)定訓(xùn)練過(guò)程,并提高模型的最終性能。

四、整體流程

  • 數(shù)據(jù)準(zhǔn)備:首先,收集與真實(shí)搜索引擎交互的軌跡數(shù)據(jù),并將其標(biāo)記為正樣本或負(fù)樣本,用于后續(xù)的輕量級(jí)監(jiān)督式微調(diào)。
  • 輕量級(jí)監(jiān)督式微調(diào):使用標(biāo)記好的軌跡數(shù)據(jù)對(duì)LLMs進(jìn)行微調(diào),使其能夠根據(jù)搜索查詢生成有用或噪聲文檔。
  • 策略模型初始化:初始化策略模型,并將其與模擬LLMs和獎(jiǎng)勵(lì)模型連接起來(lái),形成完整的強(qiáng)化學(xué)習(xí)框架。
  • 訓(xùn)練

在訓(xùn)練過(guò)程中,策略模型根據(jù)輸入的查詢生成搜索請(qǐng)求,模擬LLMs根據(jù)搜索請(qǐng)求生成文檔,策略模型根據(jù)生成的文檔進(jìn)行推理并生成答案。

獎(jiǎng)勵(lì)模型根據(jù)答案的準(zhǔn)確性給出獎(jiǎng)勵(lì)信號(hào),策略模型根據(jù)獎(jiǎng)勵(lì)信號(hào)進(jìn)行更新。

隨著訓(xùn)練的進(jìn)行,逐漸增加生成文檔的噪聲比例,以提升策略模型的推理能力。

  • 模型評(píng)估:在訓(xùn)練完成后,使用各種問(wèn)答數(shù)據(jù)集對(duì)模型的性能進(jìn)行評(píng)估,比較其與真實(shí)搜索引擎和其他基線方法的性能差異。

舉個(gè)例子:

假設(shè)問(wèn)題是“誰(shuí)是《冰與火之歌》系列小說(shuō)的作者?”

  • 策略模型首先在??<think>...</think>??階段進(jìn)行內(nèi)部推理,可能會(huì)思考“我需要找到《冰與火之歌》系列小說(shuō)的作者是誰(shuí)”。
  • 然后,在??<search>...</search>??階段,策略模型生成一個(gè)搜索查詢,如“《冰與火之歌》作者”。模擬LLMs接收到這個(gè)查詢后,生成一些文檔,這些文檔可能是有用的,也可能是噪聲的,具體取決于當(dāng)前的課程階段。
  • 策略模型根據(jù)這些文檔在??<answer>...</answer>??階段生成最終答案,如“喬治·R·馬丁”。
  • 獎(jiǎng)勵(lì)模型根據(jù)生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào),策略模型根據(jù)這個(gè)獎(jiǎng)勵(lì)信號(hào)進(jìn)行更新,以提升其在后續(xù)任務(wù)中的性能。

4.1 輕量級(jí)監(jiān)督式微調(diào)的詳細(xì)步驟

  • 數(shù)據(jù)收集

通過(guò)讓LLMs與真實(shí)搜索引擎進(jìn)行多輪交互,收集一系列的交互軌跡。

這些軌跡包括查詢、搜索引擎返回的文檔以及LLMs基于這些文檔生成的答案。

  • 數(shù)據(jù)標(biāo)注

根據(jù)LLMs生成的答案是否正確,將這些軌跡標(biāo)注為正樣本或負(fù)樣本。

如果答案正確,則將該軌跡標(biāo)記為正樣本,表示檢索到的文檔是有用的;

如果答案錯(cuò)誤,則將該軌跡標(biāo)記為負(fù)樣本,表示檢索到的文檔是噪聲。

  • 提取查詢-文檔對(duì)

從正負(fù)樣本軌跡中提取查詢-文檔對(duì)。

這些查詢-文檔對(duì)將用于后續(xù)的微調(diào)過(guò)程。

  • 設(shè)計(jì)微調(diào)提示

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

為了使LLMs能夠生成有用或噪聲文檔,設(shè)計(jì)微調(diào)提示。

在提示中加入“有用”或“噪聲”等關(guān)鍵詞,并將輸入問(wèn)題及其對(duì)應(yīng)答案納入提示中,以拓寬LLMs的知識(shí)邊界。

  • 微調(diào)過(guò)程

使用提取的查詢-文檔對(duì)和設(shè)計(jì)好的微調(diào)提示對(duì)LLMs進(jìn)行輕量級(jí)監(jiān)督式微調(diào)。

在微調(diào)過(guò)程中,調(diào)整LLMs的參數(shù),使其能夠根據(jù)搜索查詢生成符合提示要求的文檔。

  • 評(píng)估微調(diào)效果

通過(guò)一些驗(yàn)證數(shù)據(jù)集評(píng)估微調(diào)后的LLMs的性能,確保其能夠有效地模擬真實(shí)搜索引擎的行為,并且能夠根據(jù)提示生成有用或噪聲文檔。

4.2 基于課程的rollout策略的詳細(xì)步驟

  • 初始化課程參數(shù)

設(shè)置初始噪聲概率ps、最終噪聲概率pe以及指數(shù)基數(shù)b等課程參數(shù)。

這些參數(shù)將決定在訓(xùn)練過(guò)程中生成文檔的噪聲比例如何變化。

  • 策略模型生成搜索查詢

在每次rollout過(guò)程中,策略模型根據(jù)輸入的查詢生成一個(gè)或多個(gè)搜索查詢。

這些查詢將被發(fā)送到模擬LLMs。

  • 模擬LLMs生成文檔

模擬LLMs接收到搜索查詢后,根據(jù)當(dāng)前的課程階段生成相應(yīng)的文檔。

在訓(xùn)練初期,生成的文檔主要是有用的,隨著訓(xùn)練的進(jìn)行,逐漸增加噪聲文檔的比例。

  • 策略模型進(jìn)行推理

策略模型根據(jù)模擬LLMs返回的文檔進(jìn)行推理,并生成最終答案。

在推理過(guò)程中,策略模型可能會(huì)根據(jù)需要進(jìn)行多輪搜索。

  • 獎(jiǎng)勵(lì)模型給出獎(jiǎng)勵(lì)信號(hào)

獎(jiǎng)勵(lì)模型根據(jù)策略模型生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào)。

如果答案正確,獎(jiǎng)勵(lì)信號(hào)較高;如果答案錯(cuò)誤,獎(jiǎng)勵(lì)信號(hào)較低。

  • 更新策略模型

根據(jù)獎(jiǎng)勵(lì)信號(hào)和課程參數(shù),更新策略模型的參數(shù)。

在更新過(guò)程中,策略模型將學(xué)習(xí)如何在不同難度的檢索場(chǎng)景中生成更準(zhǔn)確的答案。

  • 調(diào)整課程階段

隨著訓(xùn)練的進(jìn)行,逐步調(diào)整課程參數(shù),增加生成文檔的噪聲比例。

這將使策略模型逐漸適應(yīng)更具挑戰(zhàn)性的檢索場(chǎng)景,提升其推理能力。

4.3 訓(xùn)練算法的細(xì)節(jié)

  • 選擇合適的強(qiáng)化學(xué)習(xí)算法

根據(jù)具體任務(wù)和模型的特點(diǎn),選擇合適的強(qiáng)化學(xué)習(xí)算法,如PPO、GRPO或Reinforce++等。

  • rollout過(guò)程

在rollout過(guò)程中,策略模型根據(jù)輸入的查詢生成搜索查詢,模擬LLMs根據(jù)搜索查詢生成文檔,策略模型根據(jù)生成的文檔進(jìn)行推理并生成答案。

這個(gè)過(guò)程將產(chǎn)生一系列的交互數(shù)據(jù),包括查詢、文檔、答案以及對(duì)應(yīng)的獎(jiǎng)勵(lì)信號(hào)。

  • 計(jì)算損失函數(shù)

策略損失:衡量策略模型輸出與參考模型輸出之間的差異,

價(jià)值損失:衡量?jī)r(jià)值模型預(yù)測(cè)與真實(shí)獎(jiǎng)勵(lì)之間的差異,

熵?fù)p失:用于鼓勵(lì)策略模型的探索行為。

根據(jù)策略模型的輸出和獎(jiǎng)勵(lì)信號(hào),計(jì)算損失函數(shù)。

損失函數(shù)通常包括策略損失、價(jià)值損失以及熵?fù)p失等。

  • 更新模型參數(shù)

根據(jù)計(jì)算得到的損失函數(shù),使用反向傳播算法更新策略模型、參考模型和獎(jiǎng)勵(lì)模型的參數(shù)。

在更新過(guò)程中,應(yīng)用梯度裁剪等技術(shù),以避免梯度爆炸或梯度消失的問(wèn)題。

  • 重復(fù)訓(xùn)練過(guò)程

ZEROSEARCH優(yōu)點(diǎn)

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

  • ZEROSEARCH框架通過(guò)輕量級(jí)監(jiān)督式微調(diào)將LLMs轉(zhuǎn)變?yōu)橐粋€(gè)檢索模塊,并采用基于課程的rollout策略逐步提升策略模型的推理能力,有效地解決了現(xiàn)有基于強(qiáng)化學(xué)習(xí)的LLMs搜索能力訓(xùn)練方法中存在的搜索引擎返回文檔質(zhì)量不可預(yù)測(cè)和API費(fèi)用高昂的問(wèn)題。
  • ZEROSEARCH在多個(gè)問(wèn)答數(shù)據(jù)集上均取得了優(yōu)異的性能,超越了真實(shí)搜索引擎和其他基線方法。
  • ZEROSEARCH還具有良好的可擴(kuò)展性,能夠適應(yīng)不同大小和類型的LLMs,并且與多種強(qiáng)化學(xué)習(xí)算法兼容。
  • ZEROSEARCH在部署模擬LLMs時(shí)需要一定的GPU資源,但其成本遠(yuǎn)低于商業(yè)搜索引擎API費(fèi)用,具有較高的經(jīng)濟(jì)可行性。
  • ZEROSEARCH可以應(yīng)用于其他類型的自然語(yǔ)言處理任務(wù),如文本摘要、機(jī)器翻譯等,以充分發(fā)揮其在提升LLMs性能方面的潛力。

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

??https://arxiv.org/pdf/2505.04588??

??https://github.com/Alibaba-NLP/ZeroSearch??

本文轉(zhuǎn)載自???CourseAI???,作者:CourseAI

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦