IKEA:通過強(qiáng)化學(xué)習(xí)提高LLM檢索規(guī)劃效率(開源)
1. 為什么要提出IKEA?
隨著可驗(yàn)證獎勵系統(tǒng)的大規(guī)模強(qiáng)化學(xué)習(xí)(RL)技術(shù)突破,以Deepseek R1為代表的推理模型性能顯著提升。這類模型能通過推理激活預(yù)訓(xùn)練知識來處理知識密集型任務(wù),但受限于預(yù)訓(xùn)練語料的局限性和世界知識的動態(tài)性,仍存在幻覺問題。
當(dāng)前主流解決方案是賦予模型調(diào)用搜索引擎的能力,將其訓(xùn)練為搜索智能體,使其在強(qiáng)化學(xué)習(xí)中逐步掌握任務(wù)分解與知識檢索能力。
然而該方法存在明顯缺陷:
其一,過度依賴LLM的工具調(diào)用功能,卻未能充分發(fā)揮其作為內(nèi)置知識庫(LLM-as-KB)的潛力,導(dǎo)致大量冗余檢索——即便答案已編碼在模型參數(shù)中仍進(jìn)行外部搜索。
其二,檢索器性能局限會引入噪聲,造成知識沖突,常見如錯誤檢索結(jié)果覆蓋正確參數(shù)知識。
其三,頻繁的搜索引擎調(diào)用會打斷生成過程,導(dǎo)致顯著推理延遲。這引出了核心研究命題:如何訓(xùn)練能智能融合參數(shù)知識(內(nèi)部)與檢索知識(外部)的高效自適應(yīng)搜索智能體?
理想的搜索智能體需具備三大知識行為:
- 知識邊界劃分:將問題拆解為原子問題并判斷各子問題是否在其知識邊界內(nèi);
- 內(nèi)部知識調(diào)用:對邊界內(nèi)問題激活相關(guān)參數(shù)知識輔助解答;
- 外部知識檢索:對邊界外問題生成精準(zhǔn)搜索指令并獲取所需知識。
關(guān)鍵在于智能決策檢索時機(jī)——現(xiàn)有方法或依賴泛化性差的外部分類器,或采用復(fù)雜的數(shù)據(jù)工程實(shí)現(xiàn)自主決策,但尚未充分探索如何通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)最優(yōu)檢索時機(jī)的自主判斷。
為此,提出強(qiáng)化內(nèi)外知識協(xié)同推理智能體IKEA。明確要求模型先界定知識邊界并優(yōu)先調(diào)用參數(shù)知識,僅當(dāng)確認(rèn)知識不足時才觸發(fā)外部檢索。
2. 什么是IKEA?
自適應(yīng)搜索智能體(Reinforced Internal-External Knowledge Synergistic REasoning Agent,IKEA)設(shè)計了兩大核心組件:
- 面向知識協(xié)同的邊界感知獎勵函數(shù)
- 精心構(gòu)建的平衡訓(xùn)練數(shù)據(jù)集(含等量的可內(nèi)部解答與需外部檢索的問題)。
獎勵機(jī)制對參數(shù)知識充足的問題鼓勵答案正確性并抑制冗余檢索,對邊界外問題則激勵精準(zhǔn)檢索,以此提升模型的自我認(rèn)知能力。
在單跳與多跳知識推理任務(wù)上,IKEA不僅全面超越基線方法,在分布外數(shù)據(jù)也展現(xiàn)強(qiáng)大泛化能力。相比傳統(tǒng)強(qiáng)化學(xué)習(xí)方案Search-R1,IKEA能在提升性能的同時大幅降低檢索次數(shù),充分驗(yàn)證了方法的優(yōu)越性。
如上圖中部所示,典型的LLM搜索智能體會在動作標(biāo)記中依次生成推理思路、搜索查詢和最終答案。
- 頂部展示LLM智能體的多輪強(qiáng)化學(xué)習(xí)訓(xùn)練框架(含可驗(yàn)證獎勵機(jī)制)
- 中部為Search-R1模塊
- 底部為IKEA模塊。
Search-R1和IKEA屬于特殊類型的LLM智能體。
為規(guī)范交互動作的解析,定義了三類結(jié)構(gòu)化標(biāo)簽:
- ?
?<THINK>[推理內(nèi)容]</THINK>?
?用于思維過程 - ?
?<SEARCH>[搜索查詢]</SEARCH>?
?用于檢索操作 - ?
?<ANSWER>[最終答案]</ANSWER>?
?用于結(jié)果輸出
雖然??<THINK>?
?標(biāo)簽內(nèi)容不直接參與環(huán)境交互,但它作為模型生成的思維痕跡,仍屬于動作序列的組成部分。
智能體在每輪交互中,需先在??<THINK>?
??標(biāo)簽內(nèi)完成狀態(tài)分析,再選擇生成??<SEARCH>?
??或??<ANSWER>?
?標(biāo)簽進(jìn)行實(shí)際操作。
當(dāng)觸發(fā)??<SEARCH>?
??時,模型生成的查詢語句會驅(qū)動檢索器從語料庫獲取相關(guān)知識,這些知識會被封裝在??<CONTEXT>[檢索結(jié)果]</CONTEXT>?
?標(biāo)簽中,作為觀察信息反饋給智能體。
??<CONTEXT>?
??內(nèi)容屬于環(huán)境反饋而非模型生成,因此在訓(xùn)練時會進(jìn)行屏蔽處理。當(dāng)??<ANSWER>?
?標(biāo)簽被激活時,意味著任務(wù)進(jìn)入終局階段,模型輸出的答案將終結(jié)整個交互流程,我們稱此完整過程為一個"推演"。
2.1 IEKA:強(qiáng)化型內(nèi)外知識協(xié)同推理智能體
現(xiàn)有搜索智能體往往過度依賴大語言模型(LLM)的任務(wù)分解能力:將查詢拆解為子問題后,反復(fù)檢索相關(guān)文檔輔助推理。這種模式既浪費(fèi)了LLM本身作為知識庫的潛力,導(dǎo)致大量冗余檢索,又可能因錯誤外部知識覆蓋正確內(nèi)部知識而產(chǎn)生有害沖突。
為此,需要IKEA——能智能劃定知識邊界,邊界內(nèi)充分調(diào)用模型參數(shù)知識,邊界外精準(zhǔn)啟動檢索機(jī)制。
IKEA智能體通過三重創(chuàng)新實(shí)現(xiàn)這一目標(biāo)(如上圖):
- 智能提示模板:引導(dǎo)模型自主決策何時調(diào)用內(nèi)部知識,何時啟動外部檢索
- 邊界感知獎勵機(jī)制:包含答案準(zhǔn)確性獎勵(r_ans)和知識邊界獎勵(r_kb),通過強(qiáng)化學(xué)習(xí)驅(qū)使模型明確認(rèn)知自身能力邊界
- 平衡訓(xùn)練數(shù)據(jù)集:按1:1比例混合模型擅長的問題(Q_easy)與薄弱問題(Q_hard),避免訓(xùn)練后出現(xiàn)"全盤檢索"或"拒絕檢索"的極端傾向
獎勵函數(shù)設(shè)計精要:
- 格式錯誤直接扣分(R=-1)
- 答案正確時(r_ans=1),獎勵隨檢索次數(shù)減少而線性增加,最高達(dá)r_kb+
- 答案錯誤時(r_ans=0),零檢索得0分,啟動檢索則獲象征性獎勵r_kb-
- 通過設(shè)定r_kb-?r_kb+,確保模型優(yōu)先信任自身知識
數(shù)據(jù)構(gòu)建采用上下文學(xué)習(xí)法:對每個問題采樣N次答案,至少一次正確則標(biāo)記為Q_easy(模型已掌握),否則為Q_hard(需輔助)。如表1所示,這種均衡設(shè)計使Qwen2.5系列模型在保持精確匹配率(EM)的同時,顯著優(yōu)化了檢索效率(RT)。
3. 效果如何
3.1 整體效果
上圖分別呈現(xiàn)了實(shí)驗(yàn)結(jié)果與訓(xùn)練日志。簡單任務(wù)主要依賴模型已有知識,而困難任務(wù)往往需要突破知識邊界。
傳統(tǒng)基線方法難以協(xié)調(diào)內(nèi)外知識:
- "Direct"純靠內(nèi)部知識
- "RAG"和迭代檢索的"Iter-Retgen"則依賴外部知識
外部知識顯著提升LLM在知識密集型任務(wù)的表現(xiàn),暴露出模型內(nèi)部知識儲備的不足。但持續(xù)檢索會引發(fā)沖突與延遲,自適應(yīng)方法IR-COT(自主決定檢索時機(jī))和FLARE(基于低置信詞元觸發(fā)檢索)試圖解決該問題。
- IR-COT雖提升困難任務(wù)表現(xiàn),卻因知識沖突損害簡單任務(wù);
- FLARE因檢索次數(shù)過少,效果與"Direct"相當(dāng),證明詞元概率并非理想檢索觸發(fā)器。
關(guān)鍵結(jié)論在于:必須動態(tài)協(xié)同運(yùn)用內(nèi)外知識——夠用則內(nèi),不足則外。但未經(jīng)調(diào)優(yōu)的模型缺乏自主判斷能力。
強(qiáng)化學(xué)習(xí)基線成功激活了模型單獨(dú)運(yùn)用內(nèi)外知識的能力。僅用內(nèi)部知識的R1通過強(qiáng)化知識表達(dá),在簡單任務(wù)上表現(xiàn)突出,但對困難任務(wù)提升有限,印證外部知識的必要性。
能生成搜索查詢的Search-R1以更少檢索次數(shù)超越迭代檢索等方法,證明強(qiáng)化學(xué)習(xí)可增強(qiáng)外部知識獲取的規(guī)劃能力。但兩者都未能實(shí)現(xiàn)內(nèi)外知識的有機(jī)融合。
IKEA實(shí)現(xiàn)了內(nèi)外知識的自適應(yīng)協(xié)同。在多輪決策中,模型可自由選擇知識來源。通過知識邊界感知獎勵機(jī)制:當(dāng)內(nèi)外知識均有效時,鼓勵優(yōu)先使用內(nèi)部知識以減少檢索;內(nèi)部知識不足時,則觸發(fā)檢索獲取外部知識。
IKEA較R1性能提升超10%(主要來自困難任務(wù)),較Search-R1大幅減少檢索次數(shù),表明模型通過自我探索學(xué)會了劃定知識邊界——邊界內(nèi)充分調(diào)用參數(shù)化知識,邊界外有效利用檢索知識。這不僅規(guī)避了知識沖突,更提升了整體效率。值得注意的是,其在分布外數(shù)據(jù)集同樣表現(xiàn)優(yōu)異,證明這種知識獲取策略具備良好泛化性。
IKEA訓(xùn)練方法具有普適性。
- 基于指令調(diào)優(yōu)模型(Qwen2.5-7B-Instruct)的IKEA起點(diǎn)較高;
- 從零開始的IKEA-Zero(Qwen2.5-3B-Base)雖初期獎勵較低,但最終都能達(dá)到相近水平,證實(shí)強(qiáng)化學(xué)習(xí)可實(shí)現(xiàn)無冷啟動的協(xié)同推理。
更大模型(7B vs 3B)收斂更快且效果更優(yōu)。
檢索次數(shù)與響應(yīng)長度的變化曲線揭示:初期通過增加檢索探索知識邊界,后期逐步優(yōu)化消除冗余。特別是IKEA-Zero的響應(yīng)長度持續(xù)精簡,反映出其對無效冗余的持續(xù)優(yōu)化。
3.2 消融實(shí)驗(yàn)
以Qwen2.5-3B-Instruct模型為基礎(chǔ)開展消融實(shí)驗(yàn),全面驗(yàn)證了所提方法的優(yōu)越性。
3.3 獎勵機(jī)制的設(shè)計影響
上圖展示了不同獎勵方案下的訓(xùn)練數(shù)據(jù)對比,包含有效搜索量、響應(yīng)長度及訓(xùn)練獎勵的變化趨勢。
上表則呈現(xiàn)了最終測試結(jié)果。
- 當(dāng)移除知識邊界感知獎勵時,有效檢索次數(shù)和響應(yīng)長度持續(xù)攀升,遠(yuǎn)超基準(zhǔn)模型。這是由于訓(xùn)練初期,檢索行為比調(diào)用內(nèi)部知識更容易獲得獎勵,梯度更新自然偏向抑制后者,最終形成"檢索至上"的決策偏好,與Search-R1策略如出一轍。
- 在僅保留正向獎勵時,模型檢索頻率和響應(yīng)長度驟減——因?yàn)楠剟顧C(jī)制過度鼓勵依賴內(nèi)部知識,導(dǎo)致模型錯誤地將R1策略泛化到所有問題。
3.2 數(shù)據(jù)集難度的影響分析
上圖清晰呈現(xiàn)了不同難度訓(xùn)練數(shù)據(jù)集的動態(tài)變化:有效搜索次數(shù)、響應(yīng)長度和訓(xùn)練獎勵的演變曲線。
通過對比簡單、混合、困難三種難度數(shù)據(jù)集的訓(xùn)練過程(如上表),發(fā)現(xiàn)一個穩(wěn)定規(guī)律:
無論是有效搜索次數(shù)還是響應(yīng)長度,困難數(shù)據(jù)集的表現(xiàn)均優(yōu)于混合數(shù)據(jù)集,而混合數(shù)據(jù)集又優(yōu)于簡單數(shù)據(jù)集。
這是因?yàn)槟P蜁悄艿馗鶕?jù)問題難度選擇知識調(diào)用方式——對熟悉領(lǐng)域使用參數(shù)化知識,對陌生領(lǐng)域則啟用檢索機(jī)制。
使用簡單數(shù)據(jù)集訓(xùn)練時,模型的檢索頻率和響應(yīng)長度會持續(xù)衰減,最終完全適配訓(xùn)練數(shù)據(jù)的難度特征。經(jīng)過難度調(diào)整的IKEA模型(無論是簡化版還是困難版),其精確匹配率都明顯遜色于原始模型。
其中簡化版的檢索頻次驟降,而困難版則檢索激增。
這一現(xiàn)象說明:過度依賴單一知識類型會制約模型潛能,只有讓參數(shù)化記憶與檢索知識珠聯(lián)璧合,才能實(shí)現(xiàn)最優(yōu)的推理效果。
本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI
