Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架
OpenAI-o1和DeepSeek-R1,通過(guò)獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí),而無(wú)需依賴于明確的逐步監(jiān)督,在邏輯推理和迭代推理方面取得了顯著的成果。
使用RL訓(xùn)練能夠更有效地搜索相關(guān)信息的策略模型。例如,Search-R1、R1-Searcher和ReSearch等模型都嘗試通過(guò)強(qiáng)化學(xué)習(xí)來(lái)提升模型的搜索能力。
這些方法通常使用靜態(tài)的本地文本語(yǔ)料庫(kù),如維基百科,無(wú)法捕捉到現(xiàn)實(shí)世界交互的復(fù)雜性。
DeepResearcher引入了與商業(yè)搜索引擎(如谷歌)的實(shí)時(shí)交互,使得模型能夠在接近真實(shí)世界網(wǎng)絡(luò)搜索的環(huán)境中進(jìn)行訓(xùn)練。
但它面臨著重大挑戰(zhàn):
- 一是搜索引擎返回的文檔質(zhì)量不可預(yù)測(cè),這給訓(xùn)練過(guò)程帶來(lái)了噪聲和不穩(wěn)定性;
- 二是強(qiáng)化學(xué)習(xí)訓(xùn)練需要頻繁的rollout,可能涉及數(shù)十萬(wàn)次搜索請(qǐng)求,這導(dǎo)致了巨大的API費(fèi)用,嚴(yán)重限制了系統(tǒng)的可擴(kuò)展性。
一、ZEROSEARCH核心思想
- ZEROSEARCH利用LLMs在大規(guī)模預(yù)訓(xùn)練過(guò)程中所積累的豐富世界知識(shí),使其能夠根據(jù)搜索查詢生成相關(guān)文檔。通過(guò)輕量級(jí)的監(jiān)督式微調(diào),即使是相對(duì)較小的LLMs也能夠有效地模擬真實(shí)搜索引擎的行為。
- 通過(guò)模擬搜索引擎的交互過(guò)程來(lái)訓(xùn)練策略模型,使其能夠在沒(méi)有真實(shí)搜索引擎的情況下有效地進(jìn)行信息檢索和推理。
- 其創(chuàng)新點(diǎn)在于,通過(guò)控制文檔質(zhì)量,解決搜索引擎返回文檔質(zhì)量不可預(yù)測(cè)的問(wèn)題,并且消除了API費(fèi)用,極大地提高了訓(xùn)練的可擴(kuò)展性。
二、架構(gòu)介紹

- ZEROSEARCH的整體架構(gòu)圍繞著一個(gè)強(qiáng)化學(xué)習(xí)框架展開(kāi),其核心組件包括:
模擬LLMs在訓(xùn)練過(guò)程中扮演著搜索引擎的角色,它接收策略模型生成的搜索查詢,并返回相應(yīng)的文檔,這些文檔可以是有用的,也可以是噪聲的,具體取決于訓(xùn)練階段和課程策略的設(shè)置。
獎(jiǎng)勵(lì)模型根據(jù)策略模型生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào),以驅(qū)動(dòng)策略模型的學(xué)習(xí)過(guò)程。
參考模型則用于計(jì)算策略模型輸出與參考輸出之間的差異,從而為策略模型的更新提供指導(dǎo)。
策略模型是需要優(yōu)化的對(duì)象,負(fù)責(zé)根據(jù)輸入的查詢生成搜索請(qǐng)求,并基于檢索到的信息生成最終答案。
一個(gè)策略模型(policy model)
一個(gè)參考模型(reference model)
一個(gè)獎(jiǎng)勵(lì)模型(reward model)
一個(gè)模擬LLMs(simulation LLM)
三、技術(shù)細(xì)節(jié)
- 強(qiáng)化學(xué)習(xí)目標(biāo):
ZEROSEARCH的優(yōu)化目標(biāo)是最大化策略模型在給定查詢下生成正確答案的期望獎(jiǎng)勵(lì),同時(shí)最小化策略模型輸出與參考模型輸出之間的差異。
具體來(lái)說(shuō),優(yōu)化目標(biāo)可以表示為:


- 訓(xùn)練模板:
內(nèi)部推理階段(??<think>...</think>??)
搜索查詢階段(??<search>...</search>??)
答案生成階段(??<answer>...</answer>??)。
- ZEROSEARCH采用了一個(gè)多輪交互模板,將策略模型的輸出分為三個(gè)階段:
- 這種結(jié)構(gòu)化的輸出格式有助于模型更好地組織推理過(guò)程,并使訓(xùn)練過(guò)程更加透明和可控。
- 課程學(xué)習(xí)策略,是ZEROSEARCH的一個(gè)關(guān)鍵創(chuàng)新點(diǎn):
通過(guò)逐漸增加生成文檔的噪聲比例,模擬越來(lái)越復(fù)雜的檢索場(chǎng)景,從而逐步提升策略模型的推理能力。
這種策略類似于人類學(xué)習(xí)過(guò)程中的逐步引導(dǎo),有助于模型更好地適應(yīng)不同難度的任務(wù)。
- 損失掩碼機(jī)制:
在訓(xùn)練過(guò)程中,ZEROSEARCH對(duì)檢索到的文檔token應(yīng)用損失掩碼,避免了這些外部生成的token對(duì)策略模型更新過(guò)程的干擾。
這一機(jī)制有助于穩(wěn)定訓(xùn)練過(guò)程,并提高模型的最終性能。
四、整體流程
- 數(shù)據(jù)準(zhǔn)備:首先,收集與真實(shí)搜索引擎交互的軌跡數(shù)據(jù),并將其標(biāo)記為正樣本或負(fù)樣本,用于后續(xù)的輕量級(jí)監(jiān)督式微調(diào)。
- 輕量級(jí)監(jiān)督式微調(diào):使用標(biāo)記好的軌跡數(shù)據(jù)對(duì)LLMs進(jìn)行微調(diào),使其能夠根據(jù)搜索查詢生成有用或噪聲文檔。
- 策略模型初始化:初始化策略模型,并將其與模擬LLMs和獎(jiǎng)勵(lì)模型連接起來(lái),形成完整的強(qiáng)化學(xué)習(xí)框架。
- 訓(xùn)練:
在訓(xùn)練過(guò)程中,策略模型根據(jù)輸入的查詢生成搜索請(qǐng)求,模擬LLMs根據(jù)搜索請(qǐng)求生成文檔,策略模型根據(jù)生成的文檔進(jìn)行推理并生成答案。
獎(jiǎng)勵(lì)模型根據(jù)答案的準(zhǔn)確性給出獎(jiǎng)勵(lì)信號(hào),策略模型根據(jù)獎(jiǎng)勵(lì)信號(hào)進(jìn)行更新。
隨著訓(xùn)練的進(jìn)行,逐漸增加生成文檔的噪聲比例,以提升策略模型的推理能力。
- 模型評(píng)估:在訓(xùn)練完成后,使用各種問(wèn)答數(shù)據(jù)集對(duì)模型的性能進(jìn)行評(píng)估,比較其與真實(shí)搜索引擎和其他基線方法的性能差異。
舉個(gè)例子:
假設(shè)問(wèn)題是“誰(shuí)是《冰與火之歌》系列小說(shuō)的作者?”
- 策略模型首先在?
?<think>...</think>??階段進(jìn)行內(nèi)部推理,可能會(huì)思考“我需要找到《冰與火之歌》系列小說(shuō)的作者是誰(shuí)”。 - 然后,在?
?<search>...</search>??階段,策略模型生成一個(gè)搜索查詢,如“《冰與火之歌》作者”。模擬LLMs接收到這個(gè)查詢后,生成一些文檔,這些文檔可能是有用的,也可能是噪聲的,具體取決于當(dāng)前的課程階段。 - 策略模型根據(jù)這些文檔在?
?<answer>...</answer>??階段生成最終答案,如“喬治·R·馬丁”。 - 獎(jiǎng)勵(lì)模型根據(jù)生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào),策略模型根據(jù)這個(gè)獎(jiǎng)勵(lì)信號(hào)進(jìn)行更新,以提升其在后續(xù)任務(wù)中的性能。
4.1 輕量級(jí)監(jiān)督式微調(diào)的詳細(xì)步驟
- 數(shù)據(jù)收集:
通過(guò)讓LLMs與真實(shí)搜索引擎進(jìn)行多輪交互,收集一系列的交互軌跡。
這些軌跡包括查詢、搜索引擎返回的文檔以及LLMs基于這些文檔生成的答案。
- 數(shù)據(jù)標(biāo)注:
根據(jù)LLMs生成的答案是否正確,將這些軌跡標(biāo)注為正樣本或負(fù)樣本。
如果答案正確,則將該軌跡標(biāo)記為正樣本,表示檢索到的文檔是有用的;
如果答案錯(cuò)誤,則將該軌跡標(biāo)記為負(fù)樣本,表示檢索到的文檔是噪聲。
- 提取查詢-文檔對(duì):
從正負(fù)樣本軌跡中提取查詢-文檔對(duì)。
這些查詢-文檔對(duì)將用于后續(xù)的微調(diào)過(guò)程。
- 設(shè)計(jì)微調(diào)提示:

為了使LLMs能夠生成有用或噪聲文檔,設(shè)計(jì)微調(diào)提示。
在提示中加入“有用”或“噪聲”等關(guān)鍵詞,并將輸入問(wèn)題及其對(duì)應(yīng)答案納入提示中,以拓寬LLMs的知識(shí)邊界。
- 微調(diào)過(guò)程:
使用提取的查詢-文檔對(duì)和設(shè)計(jì)好的微調(diào)提示對(duì)LLMs進(jìn)行輕量級(jí)監(jiān)督式微調(diào)。
在微調(diào)過(guò)程中,調(diào)整LLMs的參數(shù),使其能夠根據(jù)搜索查詢生成符合提示要求的文檔。
- 評(píng)估微調(diào)效果:
通過(guò)一些驗(yàn)證數(shù)據(jù)集評(píng)估微調(diào)后的LLMs的性能,確保其能夠有效地模擬真實(shí)搜索引擎的行為,并且能夠根據(jù)提示生成有用或噪聲文檔。
4.2 基于課程的rollout策略的詳細(xì)步驟
- 初始化課程參數(shù):
設(shè)置初始噪聲概率ps、最終噪聲概率pe以及指數(shù)基數(shù)b等課程參數(shù)。
這些參數(shù)將決定在訓(xùn)練過(guò)程中生成文檔的噪聲比例如何變化。
- 策略模型生成搜索查詢:
在每次rollout過(guò)程中,策略模型根據(jù)輸入的查詢生成一個(gè)或多個(gè)搜索查詢。
這些查詢將被發(fā)送到模擬LLMs。
- 模擬LLMs生成文檔:
模擬LLMs接收到搜索查詢后,根據(jù)當(dāng)前的課程階段生成相應(yīng)的文檔。
在訓(xùn)練初期,生成的文檔主要是有用的,隨著訓(xùn)練的進(jìn)行,逐漸增加噪聲文檔的比例。
- 策略模型進(jìn)行推理:
策略模型根據(jù)模擬LLMs返回的文檔進(jìn)行推理,并生成最終答案。
在推理過(guò)程中,策略模型可能會(huì)根據(jù)需要進(jìn)行多輪搜索。
- 獎(jiǎng)勵(lì)模型給出獎(jiǎng)勵(lì)信號(hào):
獎(jiǎng)勵(lì)模型根據(jù)策略模型生成的答案與真實(shí)答案之間的匹配程度給出獎(jiǎng)勵(lì)信號(hào)。
如果答案正確,獎(jiǎng)勵(lì)信號(hào)較高;如果答案錯(cuò)誤,獎(jiǎng)勵(lì)信號(hào)較低。
- 更新策略模型:
根據(jù)獎(jiǎng)勵(lì)信號(hào)和課程參數(shù),更新策略模型的參數(shù)。
在更新過(guò)程中,策略模型將學(xué)習(xí)如何在不同難度的檢索場(chǎng)景中生成更準(zhǔn)確的答案。
- 調(diào)整課程階段:
隨著訓(xùn)練的進(jìn)行,逐步調(diào)整課程參數(shù),增加生成文檔的噪聲比例。
這將使策略模型逐漸適應(yīng)更具挑戰(zhàn)性的檢索場(chǎng)景,提升其推理能力。
4.3 訓(xùn)練算法的細(xì)節(jié)
- 選擇合適的強(qiáng)化學(xué)習(xí)算法:
根據(jù)具體任務(wù)和模型的特點(diǎn),選擇合適的強(qiáng)化學(xué)習(xí)算法,如PPO、GRPO或Reinforce++等。
- rollout過(guò)程:
在rollout過(guò)程中,策略模型根據(jù)輸入的查詢生成搜索查詢,模擬LLMs根據(jù)搜索查詢生成文檔,策略模型根據(jù)生成的文檔進(jìn)行推理并生成答案。
這個(gè)過(guò)程將產(chǎn)生一系列的交互數(shù)據(jù),包括查詢、文檔、答案以及對(duì)應(yīng)的獎(jiǎng)勵(lì)信號(hào)。
- 計(jì)算損失函數(shù):
策略損失:衡量策略模型輸出與參考模型輸出之間的差異,
價(jià)值損失:衡量?jī)r(jià)值模型預(yù)測(cè)與真實(shí)獎(jiǎng)勵(lì)之間的差異,
熵?fù)p失:用于鼓勵(lì)策略模型的探索行為。
根據(jù)策略模型的輸出和獎(jiǎng)勵(lì)信號(hào),計(jì)算損失函數(shù)。
損失函數(shù)通常包括策略損失、價(jià)值損失以及熵?fù)p失等。
- 更新模型參數(shù):
根據(jù)計(jì)算得到的損失函數(shù),使用反向傳播算法更新策略模型、參考模型和獎(jiǎng)勵(lì)模型的參數(shù)。
在更新過(guò)程中,應(yīng)用梯度裁剪等技術(shù),以避免梯度爆炸或梯度消失的問(wèn)題。
- 重復(fù)訓(xùn)練過(guò)程:
我
ZEROSEARCH優(yōu)點(diǎn)

- ZEROSEARCH框架通過(guò)輕量級(jí)監(jiān)督式微調(diào)將LLMs轉(zhuǎn)變?yōu)橐粋€(gè)檢索模塊,并采用基于課程的rollout策略逐步提升策略模型的推理能力,有效地解決了現(xiàn)有基于強(qiáng)化學(xué)習(xí)的LLMs搜索能力訓(xùn)練方法中存在的搜索引擎返回文檔質(zhì)量不可預(yù)測(cè)和API費(fèi)用高昂的問(wèn)題。
- ZEROSEARCH在多個(gè)問(wèn)答數(shù)據(jù)集上均取得了優(yōu)異的性能,超越了真實(shí)搜索引擎和其他基線方法。
- ZEROSEARCH還具有良好的可擴(kuò)展性,能夠適應(yīng)不同大小和類型的LLMs,并且與多種強(qiáng)化學(xué)習(xí)算法兼容。
- ZEROSEARCH在部署模擬LLMs時(shí)需要一定的GPU資源,但其成本遠(yuǎn)低于商業(yè)搜索引擎API費(fèi)用,具有較高的經(jīng)濟(jì)可行性。
- ZEROSEARCH可以應(yīng)用于其他類型的自然語(yǔ)言處理任務(wù),如文本摘要、機(jī)器翻譯等,以充分發(fā)揮其在提升LLMs性能方面的潛力。

本文轉(zhuǎn)載自???CourseAI???,作者:CourseAI


















