突破性創(chuàng)新:ZeroSearch如何徹底改變大語言模型的搜索能力訓(xùn)練
大語言模型(LLM)在各種應(yīng)用場景中展現(xiàn)出了令人矚目的能力,但其固有的知識靜態(tài)性和更新滯后性一直是制約其實際應(yīng)用的關(guān)鍵因素。為解決這一問題,阿里巴巴統(tǒng)一實驗室(Tongyi Lab)的研究團隊提出了一種創(chuàng)新的解決方案——ZeroSearch,這是一個無需與真實搜索引擎交互即可增強LLM搜索能力的強化學(xué)習(xí)框架。本文將深入分析這項突破性技術(shù)的原理、實現(xiàn)方法及其重要意義。
1. 研究背景與挑戰(zhàn)
大語言模型雖然在數(shù)學(xué)推理、問答和代碼生成等多種任務(wù)中表現(xiàn)出色,但它們的知識本質(zhì)上是靜態(tài)的,受限于預(yù)訓(xùn)練數(shù)據(jù)的范圍。這導(dǎo)致模型容易生成虛構(gòu)內(nèi)容或過時信息,嚴重影響其在實際應(yīng)用中的可靠性。因此,使LLM能夠訪問外部信息源以生成更準確、更有依據(jù)的響應(yīng)變得至關(guān)重要。
檢索增強生成(RAG)是解決這一問題的常用方法,它將外部知識整合到生成流程中。早期工作主要集中在基于提示的策略上,引導(dǎo)LLM完成查詢生成、查詢分解和多輪信息檢索。雖然有效,但這些策略通常需要精心設(shè)計的提示工程,并對模型的推理能力提出很高要求。
后續(xù)研究探索了監(jiān)督微調(diào)(SFT)來增強小型LLM的性能,以及測試時間擴展技術(shù)(如蒙特卡洛樹搜索),這些方法在推理過程中動態(tài)擴展搜索空間。盡管前景光明,但這類方法會產(chǎn)生大量計算開銷,給實際部署帶來挑戰(zhàn)。
近期,強化學(xué)習(xí)(RL)作為提升LLM性能的有效策略逐漸興起,通過增強其推理和決策能力顯著提高模型表現(xiàn)?;赗L的模型如OpenAI-o1和DeepSeek-R1在邏輯推理和迭代推理方面取得了顯著進步。在這一范式下,一些研究探索了使用RL來訓(xùn)練能夠更有效搜索相關(guān)信息的策略模型,如Search-R1、R1-Searcher和ReSearch等。
特別值得注意的是,DeepResearcher引入了與Google等商業(yè)搜索引擎的實時交互,使模型能在與現(xiàn)實世界網(wǎng)絡(luò)搜索非常相似的環(huán)境中進行訓(xùn)練。然而,將RL與現(xiàn)實世界搜索場景結(jié)合仍面臨兩大挑戰(zhàn):
- 文檔質(zhì)量不可控從實時搜索引擎檢索的文檔質(zhì)量通常難以預(yù)測,給訓(xùn)練過程引入噪音和不穩(wěn)定性
- API成本過高RL訓(xùn)練需要頻繁部署,可能涉及數(shù)十萬次API調(diào)用,產(chǎn)生巨大財務(wù)成本并嚴重限制可擴展性
2. ZeroSearch的創(chuàng)新方法
為應(yīng)對上述挑戰(zhàn),研究團隊提出了ZeroSearch——一個使LLM無需與真實搜索引擎交互即可學(xué)習(xí)搜索策略的強化學(xué)習(xí)框架。其核心洞察是:LLM在大規(guī)模預(yù)訓(xùn)練過程中已獲得廣泛的世界知識,能夠根據(jù)搜索查詢生成相關(guān)文檔。真實搜索引擎和模擬LLM之間的主要區(qū)別在于返回內(nèi)容的文本風格,而通過輕量級監(jiān)督微調(diào),即使相對較小的LLM也能有效模擬真實搜索引擎的行為。
使用LLM進行文檔生成的一個重要優(yōu)勢是能夠控制文檔質(zhì)量。在監(jiān)督微調(diào)期間,通過提示設(shè)計來區(qū)分導(dǎo)致正確或錯誤答案的文檔,使模擬LLM能夠通過調(diào)整提示中的幾個單詞來學(xué)習(xí)生成相關(guān)或嘈雜的文檔。
2.1 強化學(xué)習(xí)目標
ZeroSearch的優(yōu)化目標可以表述為:
max_{π_θ}??_{x~??,y~π_θ(?∣x;π_ψ)}[r_?(x,y)]?βD_KL[π_θ(y∣x;π_ψ)∥π_ref(y∣x;π_ψ)]
其中:
- π_θ是待優(yōu)化的策略模型
- π_ref是參考模型
- r_?表示獎勵函數(shù)
- π_ψ代表模擬LLM,其參數(shù)在訓(xùn)練過程中保持不變
2.2 訓(xùn)練模板設(shè)計
ZeroSearch采用多輪交互模板,引導(dǎo)策略模型通過迭代推理和信息檢索直至得出最終答案。交互分為三個明確階段:
- 模型在<think>...</think>標簽內(nèi)闡述內(nèi)部推理
- 如需額外證據(jù),在<search>...</search>標簽內(nèi)發(fā)出搜索查詢
- 一旦獲取足夠信息,在<answer>...</answer>標簽內(nèi)提供答案
這種推理、搜索和回答的明確分離強化了結(jié)構(gòu)化決策過程,提高了模型的透明度和可靠性。
2.3 搜索模擬微調(diào)
在部署過程中,ZeroSearch使用LLM模擬真實搜索引擎,根據(jù)查詢生成文檔。為彌合與真實搜索引擎輸出的風格差距,研究團隊提出了輕量級監(jiān)督微調(diào)(SFT)程序:
- 首先收集交互軌跡,提示LLM以多輪方式與真實搜索引擎交互直至得出最終答案
- 產(chǎn)生正確答案的軌跡被標記為正面樣本,表明檢索到的文檔有用;導(dǎo)致錯誤答案的軌跡被標記為負面樣本,表明檢索結(jié)果有噪聲
- 從正負軌跡中提取查詢-文檔對,進行輕量級SFT以提升LLM模擬真實搜索引擎的能力
有用和嘈雜檢索的區(qū)別通過調(diào)整提示中的幾個詞實現(xiàn)。此外,還將輸入問題及其對應(yīng)答案納入提示,以擴展LLM的知識邊界。微調(diào)后,LLM能夠生成有用和嘈雜的文檔,實現(xiàn)部署過程中的動態(tài)文檔質(zhì)量控制。
2.4 基于課程的部署策略
在部署過程中,策略模型進行交互推理并生成搜索查詢,這些查詢被輸入模擬LLM以生成相應(yīng)文檔。為逐步增加訓(xùn)練難度,研究團隊引入了基于課程學(xué)習(xí)的部署機制,隨時間逐步降低生成文檔的質(zhì)量。這通過概率函數(shù)p_i控制,該函數(shù)決定在步驟i生成嘈雜文檔的可能性:
p_i = p_s + (b^(i/m)-1)/(b-1)·(p_e-p_s)
其中:
- p_s和p_e分別表示初始和最終噪聲概率
- i和m分別表示當前和總訓(xùn)練步驟數(shù)
- b是指數(shù)基數(shù),默認值為4
隨著訓(xùn)練進行,比率i/m增加,導(dǎo)致p_i值升高——即產(chǎn)生嘈雜文檔的幾率更大。這使策略模型首先學(xué)習(xí)基本輸出結(jié)構(gòu)和任務(wù)要求,然后逐步適應(yīng)更具挑戰(zhàn)性和噪聲的檢索場景。
2.5 獎勵設(shè)計
獎勵信號是強化學(xué)習(xí)過程中的主要監(jiān)督。ZeroSearch采用基于規(guī)則的獎勵函數(shù),僅關(guān)注答案準確性。在初步實驗中,研究團隊觀察到使用精確匹配(EM)作為獎勵指標往往導(dǎo)致獎勵黑客行為:策略模型傾向于產(chǎn)生過長答案以增加包含正確答案的幾率。
為緩解這一問題,ZeroSearch采用基于F1分數(shù)的獎勵,平衡精確度和召回率:
r_?(x,y) = 2×IN/(PN+RN)
其中:
- IN表示預(yù)測與真實答案之間的重疊詞數(shù)
- PN是預(yù)測中的詞數(shù)
- RN是真實答案中的詞數(shù)
研究團隊沒有為輸出格式納入額外獎勵,因為觀察到模型在沒有明確監(jiān)督的情況下始終產(chǎn)生格式良好的響應(yīng)。
2.6 訓(xùn)練算法
ZeroSearch兼容多種強化學(xué)習(xí)算法,包括近端策略優(yōu)化(PPO)、組相對策略優(yōu)化(GRPO)和Reinforce++,每種算法都為優(yōu)化檢索增強推理提供獨特優(yōu)勢。
在ZeroSearch中,部署序列包括策略模型生成的標記和模擬LLM返回的文檔標記。對兩種類型的標記統(tǒng)一應(yīng)用相同的優(yōu)化程序可能導(dǎo)致訓(xùn)練不穩(wěn)定,因為檢索內(nèi)容是外部生成的,不受策略模型直接控制。
為緩解這一問題,研究團隊為檢索標記引入了損失掩碼機制,確保梯度僅針對模型自身輸出計算。這一策略穩(wěn)定了RL訓(xùn)練過程,同時保持了檢索增強生成的有效性。
3. 實驗設(shè)置與評估
3.1 數(shù)據(jù)集與評估指標
研究團隊在多樣化的問答基準上評估了ZeroSearch:
- 單跳問答包括NQ、TriviaQA和PopQA
- 多跳問答包括HotpotQA、2WikiMultiHopQA、Musique和Bamboogle
評估采用精確匹配(EM)作為指標。如果預(yù)測的規(guī)范化形式與任何規(guī)范化的真實答案完全匹配,則認為預(yù)測正確。
3.2 基線方法
為評估ZeroSearch的有效性,研究團隊將其與以下基線進行比較:
- 基礎(chǔ)提示方法包括直接提示、思維鏈(CoT)和標準檢索增強生成(RAG)
- 高級RAG方法考慮RAgent和Search-o1,它們迭代搜索相關(guān)信息
- RL調(diào)優(yōu)方法包括R1和Search-R1。R1訓(xùn)練策略模型僅基于其內(nèi)部知識進行深入推理,而Search-R1使策略模型能夠在推理過程中多次與真實搜索引擎交互
為確保公平比較,所有RL方法均采用F1分數(shù)作為獎勵指標。
3.3 實驗配置
實驗使用三個模型系列:
- Qwen-2.5-7B (基礎(chǔ)/指令)
- Qwen-2.5-3B (基礎(chǔ)/指令)
- LLaMA-3.2-3B (基礎(chǔ)/指令)
為模擬真實世界檢索場景,通過SerpAPI使用Google Web Search作為外部搜索引擎。所有方法的檢索文檔數(shù)量固定為5,以確保公平比較。
對于數(shù)據(jù)集,按照Search-R1的設(shè)置,合并NQ和HotpotQA的訓(xùn)練集創(chuàng)建統(tǒng)一數(shù)據(jù)集用于所有基于微調(diào)的方法。在七個數(shù)據(jù)集上進行評估,以評估域內(nèi)和域外性能。
對于基于提示的基線,使用指令模型,因為基礎(chǔ)模型通常難以遵循任務(wù)指令。對于基于RL的方法,評估基礎(chǔ)和指令變體,以評估跨模型類型的通用性。
為訓(xùn)練模擬LLM,使用Qwen-2.5-3B、Qwen-2.5-7B和Qwen-2.5-14B作為骨干進行輕量級SFT,學(xué)習(xí)率設(shè)為1e-6。
為訓(xùn)練ZeroSearch,采用兩種強化學(xué)習(xí)算法:GRPO和PPO。在GRPO設(shè)置中,策略LLM的學(xué)習(xí)率為1e-6,每個提示采樣5個響應(yīng)。在PPO設(shè)置中,策略LLM的學(xué)習(xí)率為1e-6,而價值模型的學(xué)習(xí)率為1e-5。應(yīng)用廣義優(yōu)勢估計(GAE),超參數(shù)λ=1和γ=1。
除非另有說明,GRPO作為默認強化學(xué)習(xí)算法,Qwen-2.5-14B作為所有實驗中的默認模擬LLM。
4. 主要研究結(jié)果
4.1 性能評估
實驗結(jié)果表明,ZeroSearch在各個數(shù)據(jù)集上均優(yōu)于所有基線方法,這種性能優(yōu)勢在域內(nèi)數(shù)據(jù)集(NQ和HotpotQA)和域外數(shù)據(jù)集(TriviaQA、PopQA、2WikiMultiHopQA、Musique和Bamboogle)上均成立,展示了該方法的魯棒性。
值得注意的是,ZeroSearch超越了依賴真實搜索引擎的方法。與使用真實搜索引擎的Search-R1相比,ZeroSearch取得了更好的性能,突顯其作為大規(guī)模強化學(xué)習(xí)中真實搜索引擎有效替代品的潛力。
此外,ZeroSearch展示了強大的泛化能力。在不同模型系列、參數(shù)大小和類型(基礎(chǔ)或指令調(diào)優(yōu))上,ZeroSearch始終優(yōu)于基線。更大的模型進一步提升了性能,凸顯其可擴展性。
4.2 與真實搜索引擎的比較
研究團隊比較了ZeroSearch和Search-R1(使用真實搜索引擎)在LLaMA-3.2-3B上的獎勵曲線,觀察到:
- 兩種方法的總體獎勵趨勢相似。隨著訓(xùn)練進行,ZeroSearch和Search-R1的獎勵分數(shù)穩(wěn)步增加,表明兩種設(shè)置中的策略模型都有效學(xué)習(xí)了如何與搜索引擎交互并產(chǎn)生正確答案。
- ZeroSearch實現(xiàn)了更穩(wěn)定、更平滑的學(xué)習(xí)曲線。ZeroSearch最初落后于Search-R1,但最終超越了它,波動也小得多,這得益于課程機制幫助模型逐步掌握搜索工具使用。
- ZeroSearch在基礎(chǔ)和指令調(diào)優(yōu)模型上均表現(xiàn)良好。在兩種模型類型下,ZeroSearch穩(wěn)步提高獎勵性能,凸顯其泛化能力。
4.3 模擬LLM的選擇
研究團隊調(diào)查了不同模擬引擎配置如何影響性能,包括基于提示和微調(diào)的LLM(從3B到14B參數(shù))。結(jié)果表明:
- 微調(diào)的7B模擬引擎(SFT-7B)實現(xiàn)了與Google搜索相當?shù)男阅?,?4B變體(SFT-14B)甚至超越了它。這證明了使用訓(xùn)練良好的LLM作為強化學(xué)習(xí)設(shè)置中真實搜索引擎替代品的可行性。
- 微調(diào)的模擬引擎顯著優(yōu)于基于提示的引擎。盡管基于提示的方法明確指導(dǎo)模仿真實搜索引擎的響應(yīng)風格,但仍存在顯著分布差距,導(dǎo)致性能較差。
- 性能隨模型大小增加而一致提升。更大的模擬LLM不僅展示更強的模擬能力,還能更準確區(qū)分相關(guān)和不相關(guān)文檔,從而在訓(xùn)練過程中實現(xiàn)更有效的課程學(xué)習(xí)。
4.4 交互輪次研究
研究團隊分析了ZeroSearch的訓(xùn)練動態(tài),檢查了訓(xùn)練過程中獎勵進展和交互輪次數(shù)量。結(jié)果顯示:
在訓(xùn)練早期階段,交互輪次數(shù)量急劇下降,而獎勵緩慢增加。這主要是因為策略模型最初不知道如何正確調(diào)用搜索引擎,導(dǎo)致冗余交互。然而,它很快學(xué)會了正確格式并開始有效消除不必要步驟。
隨著訓(xùn)練進行,交互輪次數(shù)量和獎勵曲線急劇上升然后穩(wěn)定。這主要是因為策略模型能夠有效檢索相關(guān)文檔并最終獲得正確答案,從而獲得更高獎勵。值得注意的是,盡管后期訓(xùn)練階段獎勵看似穩(wěn)定,但由于課程機制,底層任務(wù)難度持續(xù)增加。因此,策略必須不斷完善其策略并提高推理能力,以保持一致性能。
4.5 不同RL算法比較:PPO vs. GRPO
研究團隊評估了兩種廣泛采用的RL訓(xùn)練算法(PPO和GRPO)在ZeroSearch框架內(nèi)的性能。結(jié)果表明,PPO和GRPO都成功激勵了框架內(nèi)的搜索能力,展示了該方法的多功能性。其中,GRPO在兩種模型上表現(xiàn)更為穩(wěn)定,強調(diào)了其在訓(xùn)練穩(wěn)定性方面的優(yōu)勢。
值得注意的是,GRPO中的重復(fù)部署機制在與真實搜索引擎交互時會產(chǎn)生更高的API成本,進一步凸顯了模擬搜索設(shè)置的實用性。
4.6 逆向課程研究
研究團隊分析了課程部署策略的有效性,將其與逆向課程設(shè)置進行比較,在逆向課程中,訓(xùn)練難度隨時間降低,通過逐步提高檢索文檔的質(zhì)量。結(jié)果清晰表明,標準的由易到難課程始終優(yōu)于逆向的由難到易變體,支持了課程學(xué)習(xí)在該框架中的有效性。
從更好的搜索結(jié)果開始允許策略模型首先學(xué)習(xí)如何調(diào)用搜索引擎并理解基本輸出格式。隨著訓(xùn)練進行,模型接觸到越來越具挑戰(zhàn)性的場景,培養(yǎng)了更強的推理能力。
5. 技術(shù)優(yōu)勢與應(yīng)用價值
ZeroSearch框架具有多方面的技術(shù)優(yōu)勢:
- 零API成本:通過使用模擬搜索引擎,ZeroSearch完全消除了對昂貴API調(diào)用的依賴,大幅降低了訓(xùn)練成本
- 文檔質(zhì)量控制:與真實搜索引擎不同,ZeroSearch能夠精確控制生成文檔的質(zhì)量,使訓(xùn)練過程更加穩(wěn)定和可預(yù)測
- 課程學(xué)習(xí)機制:漸進式增加訓(xùn)練難度的方法使模型能夠從簡單場景開始,逐步適應(yīng)更復(fù)雜的檢索環(huán)境
- 強大的可擴展性:增加GPU數(shù)量可顯著加速模擬LLM的生成吞吐量,從而實現(xiàn)高效的大規(guī)模部署
- 廣泛的兼容性:ZeroSearch與各種參數(shù)大小的基礎(chǔ)模型和指令調(diào)整模型兼容,無需單獨的監(jiān)督預(yù)熱階段
這些優(yōu)勢使ZeroSearch在實際應(yīng)用中具有重要價值:
- 降低商業(yè)部署成本:消除API成本使大規(guī)模訓(xùn)練和部署變得經(jīng)濟可行
- 提高訓(xùn)練效率:可控的文檔質(zhì)量和課程學(xué)習(xí)機制加速了模型的學(xué)習(xí)過程
- 增強模型魯棒性:通過暴露于各種質(zhì)量的檢索結(jié)果,模型學(xué)會了更有效地處理不確定性
- 簡化架構(gòu)設(shè)計:無需復(fù)雜的API集成和錯誤處理機制
6. 局限性與未來方向
盡管ZeroSearch展現(xiàn)出顯著優(yōu)勢,但仍存在一些局限性:
- 部署模擬搜索LLM需要訪問GPU服務(wù)器。雖然比商業(yè)API使用更具成本效益,但這仍然引入了額外的基礎(chǔ)設(shè)施成本。
- 模擬搜索引擎的知識邊界仍受限于預(yù)訓(xùn)練數(shù)據(jù)。雖然通過提示設(shè)計擴展了知識覆蓋范圍,但仍無法完全匹配實時搜索引擎的最新信息。
- 當前實現(xiàn)主要關(guān)注文本檢索,尚未擴展到圖像、視頻等多模態(tài)檢索場景。
未來研究可能的方向包括:
- 擴展到多模態(tài)檢索:將框架擴展到圖像、視頻和音頻等多種模態(tài)的檢索
- 探索更復(fù)雜的課程學(xué)習(xí)策略:根據(jù)模型性能動態(tài)調(diào)整文檔質(zhì)量,而非預(yù)定義課程
- 集成知識圖譜:將結(jié)構(gòu)化知識與文本檢索相結(jié)合,增強模型的推理能力
- 開發(fā)更高效的模擬LLM:研究如何使用更小、更快的模型實現(xiàn)相似的模擬效果,進一步降低基礎(chǔ)設(shè)施成本
7. 結(jié)論
ZeroSearch提出了一種創(chuàng)新的強化學(xué)習(xí)框架,無需與真實搜索引擎交互即可增強LLM的搜索能力。通過監(jiān)督微調(diào),LLM被轉(zhuǎn)換為能夠生成相關(guān)和嘈雜文檔的檢索模塊。課程部署機制通過將模型暴露于越來越具挑戰(zhàn)性的檢索場景,逐步提升其推理能力。
實驗結(jié)果表明,ZeroSearch優(yōu)于基于真實搜索的模型,在基礎(chǔ)和指令調(diào)優(yōu)的LLM上均表現(xiàn)良好,并支持多種RL算法。這一方法不僅解決了文檔質(zhì)量變異性和經(jīng)濟成本這兩個限制實時搜索集成的挑戰(zhàn),還提供了一個可擴展、實用的解決方案,有望推動LLM搜索能力的進一步發(fā)展。
ZeroSearch的成功實現(xiàn)了一個重要里程碑:它證明了LLM不僅可以作為信息消費者,還可以作為信息提供者,為其他模型提供有價值的檢索服務(wù)。這一雙重角色開辟了LLM應(yīng)用的新范式,為未來研究提供了豐富的可能性。
參考資源
- 論文:?https://arxiv.org/abs/2505.04588
- 模型:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
- 代碼實現(xiàn):?https://github.com/Alibaba-NLP/ZeroSearch
本文轉(zhuǎn)載自??頓數(shù)AI??,作者:蔥蔥
