中科院新突破:Auto-RAG開啟Agentic RAG落地新篇章

中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室發(fā)表的Auto-RAG(Autonomous Retrieval-Augmented Generation) 技術(shù),作為Agentic RAG(智能體驅(qū)動檢索增強(qiáng))趨勢下的產(chǎn)出,打破傳統(tǒng)RAG的「檢索→生成」線性瓶頸,通過大語言模型(LLM)的自主決策能力,實(shí)現(xiàn)「檢索規(guī)劃→信息提取→答案推斷」的閉環(huán)推理,讓機(jī)器像人類偵探般動態(tài)收集線索、修正方向,無需人工預(yù)設(shè)規(guī)則。
這項(xiàng)技術(shù)的核心價值在于:將RAG從「被動執(zhí)行工具」升級為「主動認(rèn)知智能體」,不僅解決傳統(tǒng)方法的效率低、幻覺多等問題,更在開放域問答、多跳推理等任務(wù)中展現(xiàn)出碾壓級性能。
論文地址:https://arxiv.org/pdf/2411.19443
項(xiàng)目地址:https://github.com/ictnlp/Auto-RAG
01、研究動機(jī):傳統(tǒng)RAG的三大「致命痛點(diǎn)」
在Auto-RAG出現(xiàn)前,即使是Self-RAG、FLARE等先進(jìn)方法,仍未擺脫對人工的依賴,這在實(shí)際應(yīng)用中暴露出諸多短板:
1. 迭代檢索「靠人工喂招」 :傳統(tǒng)迭代RAG需手動設(shè)計(jì)規(guī)則:比如FLARE依賴8-shot提示詞指定檢索策略,Self-RAG則靠預(yù)設(shè)的「反射Token」(如[Relevant]標(biāo)簽)判斷是否檢索。一旦遇到未見過的問題(如「《三體》黑暗森林法則的哲學(xué)源頭」),就會陷入「檢索無效→生成幻覺」的死循環(huán)。
2. 多跳推理「鏈路易斷裂」 :面對「A的父親是B,B的老師是C,求C的代表作」這類多跳問題,Standard RAG僅能單次檢索,易遺漏中間環(huán)節(jié);Iter-RetGen雖支持迭代,但固定的檢索次數(shù)會導(dǎo)致「單跳問題多輪冗余,多跳問題輪次不足」。
3. 結(jié)果解釋「像開盲盒」 :多數(shù)RAG直接輸出最終答案,既不說明「為什么檢索這些文檔」,也不解釋「答案如何推導(dǎo)」。在醫(yī)療、法律等關(guān)鍵領(lǐng)域,這種「黑箱輸出」根本無法落地——你無法讓醫(yī)生基于「不知來源的答案」診斷病情。
正是這些痛點(diǎn),推動中科院團(tuán)隊(duì)研發(fā)出「讓RAG自己做決策」的Auto-RAG技術(shù)。
02、方法解析:Auto-RAG的「自主推理三階段」

Auto-RAG的核心是LLM驅(qū)動的動態(tài)決策框架,整個過程無需人工干預(yù),完全模擬人類解決問題的思維邏輯:
階段1:檢索規(guī)劃(「該查什么?」)
在接收到用戶問題后,LLM需要明確識別回答問題所需的知識。在獲取檢索文檔后,LLM需要評估是否需要進(jìn)一步檢索,并基于歷史檢索結(jié)果明確指定下一步需要檢索的具體信息。這種規(guī)劃能力對于提高檢索效率和避免檢索過程中的迷失方向至關(guān)重要。
舉個例子:問「Anastasia Of Serbia丈夫的死亡地點(diǎn)」,首次檢索未找到直接答案,模型會自動生成新查詢:「Anastasia Of Serbia 丈夫 身份 死亡地點(diǎn)」,精準(zhǔn)定位中間線索。
階段2:信息提取(「有用沒用?」)
每輪檢索后,LLM會自主評估文檔價值,從文檔中提取與問題相關(guān)的有用信息,這一過程類似于人類的總結(jié)能力:若文檔含「子答案」(如多跳問題的中間結(jié)論),則保留并整合;若無關(guān)(如誤檢索到同名人物),則標(biāo)記「無需參考」并重新檢索。
這解決了傳統(tǒng)RAG「強(qiáng)制用噪聲文檔生成答案」的幻覺問題。
階段3:答案推斷(「停還是繼續(xù)?」)
通過「信息完整性評分」判斷是否終止:單跳問題1-2輪即可達(dá)標(biāo),多跳問題則動態(tài)迭代3-5輪。終止時不僅輸出答案,還會用自然語言還原推理過程,比如:


在Auto-RAG的自主決策框架背后,指令數(shù)據(jù)集構(gòu)建的合理性、訓(xùn)練策略的針對性、推理流程的工程化設(shè)計(jì)是其實(shí)現(xiàn)“小數(shù)據(jù)高效收斂”與“低幻覺精準(zhǔn)輸出”的核心支撐。以下從技術(shù)落地視角,詳解這三大關(guān)鍵環(huán)節(jié)的實(shí)現(xiàn)邏輯:
03、指令數(shù)據(jù)集構(gòu)建:從「噪聲過濾」到「對話式格式化」,奠定自主決策基礎(chǔ)
Auto-RAG的自主推理能力,并非依賴海量人工標(biāo)注數(shù)據(jù),而是通過低成本的指令數(shù)據(jù)集自主合成技術(shù)實(shí)現(xiàn)——核心是解決“推理偽影”和“查詢質(zhì)量差”兩大問題,確保模型學(xué)到的決策邏輯既精準(zhǔn)又通用。
核心目標(biāo):用「子答案驗(yàn)證」替代人工篩選
傳統(tǒng)迭代RAG的數(shù)據(jù)集構(gòu)建常陷入兩個誤區(qū):要么依賴人工標(biāo)注每輪檢索的“有效查詢”,成本極高;要么直接使用原始問答對,導(dǎo)致模型學(xué)到無效檢索邏輯。Auto-RAG的突破在于:以“子答案”為錨點(diǎn),讓數(shù)據(jù)自己“篩選”有效樣本。
在多跳問答任務(wù)中,一個完整答案(如“Anastasia Of Serbia丈夫的死亡地點(diǎn)是Hilandar修道院”)往往拆解為多個“子答案”(如“丈夫是Stefan Nemanja”“Stefan Nemanja死于Hilandar修道院”)。Auto-RAG在每次迭代中,會先讓LLM生成多個候選查詢,再用檢索器驗(yàn)證這些查詢能否召回包含“子答案”的文檔——只有能召回有效子答案的查詢,才會被保留到數(shù)據(jù)集中。
這種機(jī)制從源頭避免了“無效查詢污染數(shù)據(jù)”:比如針對“《The Sensational Trial》導(dǎo)演國籍”的問題,若LLM生成“《The Sensational Trial》上映時間”這類無關(guān)查詢,因無法召回“導(dǎo)演是Karl Freund”的子答案文檔,會被直接過濾,確保最終數(shù)據(jù)集里每一條查詢都能推動推理進(jìn)程。
數(shù)據(jù)格式化:把「迭代檢索」變成「多輪對話」
為了讓LLM理解“檢索-推理-再檢索”的閉環(huán)邏輯,Auto-RAG將整個過程設(shè)計(jì)成結(jié)構(gòu)化對話格式,模擬人類與檢索工具的交互場景。具體遵循“輸入-輸出”對應(yīng)規(guī)則:
迭代階段 | 輸入 | 輸出 | 核心作用 |
第0次 | 用戶原始問題(如“Anastasia丈夫的死亡地點(diǎn)”) | LLM的推理(“需先確定丈夫身份+死亡地點(diǎn)”)+ 下輪查詢(“Anastasia Of Serbia丈夫是誰及死亡地點(diǎn)”) | 啟動推理,明確首次檢索目標(biāo) |
第1~T-1次 | 上輪檢索到的文檔(如“丈夫是Stefan Nemanja”) | LLM的推理(“已獲丈夫身份,缺死亡地點(diǎn)”)+ 下輪查詢(“Stefan Nemanja死亡地點(diǎn)”) | 基于新信息,調(diào)整檢索方向 |
第T次 | 最終檢索到的文檔(如“Stefan死于Hilandar修道院”) | LLM的推理(“已獲死亡地點(diǎn),信息完整”)+ 最終答案(“Hilandar修道院”) | 終止迭代,輸出結(jié)論 |
這種格式化方式的關(guān)鍵價值在于:讓LLM學(xué)到“根據(jù)歷史信息動態(tài)決策”的能力,而非機(jī)械執(zhí)行固定步驟。例如在第1次迭代后,若文檔已包含完整答案,模型會直接輸出結(jié)論,無需繼續(xù)檢索;若僅含部分信息,則自動生成補(bǔ)充查詢——這正是Auto-RAG“自主決策”的數(shù)據(jù)集層面支撐。

04、訓(xùn)練策略:用「時序交叉熵」讓模型學(xué)會“連貫推理”
Auto-RAG的訓(xùn)練核心不是“教模型回答問題”,而是“教模型如何規(guī)劃檢索步驟”。其采用的時序化監(jiān)督微調(diào)策略,專門解決傳統(tǒng)訓(xùn)練中“忽略迭代邏輯連貫性”的問題。
損失函數(shù)設(shè)計(jì):聚焦「每一步?jīng)Q策的正確性」
傳統(tǒng)RAG訓(xùn)練僅關(guān)注“最終答案是否正確”,而Auto-RAG的損失函數(shù)(時序交叉熵)則要求模型對每一輪迭代的輸出負(fù)責(zé),公式如下:

舉個具體例子:在“Anastasia丈夫死亡地點(diǎn)”的任務(wù)中,模型在第1次迭代的輸出(“需檢索Stefan Nemanja死亡地點(diǎn)”),必須同時滿足兩個條件才會被判定為“正確”:
- 基于第0次的問題和第1次的文檔(“丈夫是Stefan Nemanja”);
- 為第2次檢索提供有效方向(“Stefan Nemanja死亡地點(diǎn)”)。
這種損失計(jì)算方式,強(qiáng)制模型學(xué)會“每一步都為下一步鋪路”,避免出現(xiàn)“前序查詢與后續(xù)推理脫節(jié)”的問題——比如先查詢“Stefan Nemanja的出生年份”,再突然轉(zhuǎn)向“死亡地點(diǎn)”,這種邏輯斷裂會因損失值升高而被修正。
訓(xùn)練數(shù)據(jù)規(guī)模:小樣本即可實(shí)現(xiàn)“自主決策入門”
與FLARE、Self-RAG等需要數(shù)萬甚至百萬級樣本的方法不同,Auto-RAG對訓(xùn)練數(shù)據(jù)的需求極低:僅用10k(1萬條)時序化指令樣本,就能讓模型具備基礎(chǔ)的自主檢索規(guī)劃能力;若增加到25k樣本,性能可提升12%-18%(在HotpotQA多跳任務(wù)中)。
這一特性的關(guān)鍵原因在于:Auto-RAG的訓(xùn)練目標(biāo)是“通用檢索決策邏輯”,而非“特定領(lǐng)域知識”。模型通過少量樣本學(xué)到的是“如何分析問題→判斷信息缺口→生成補(bǔ)充查詢”的通用方法,而非記憶某類問題的答案——這也使得Auto-RAG能快速適配開放域、醫(yī)療、法律等不同場景,無需針對每個領(lǐng)域重新大規(guī)模標(biāo)注數(shù)據(jù)。
05、推理流程:從「外部檢索」到「參數(shù)化兜底」,避免“無限循環(huán)”
訓(xùn)練完成后,Auto-RAG的推理過程完全自主,無需人工干預(yù),核心是通過“檢索器交互+參數(shù)化知識兜底”的雙層機(jī)制,平衡“外部知識準(zhǔn)確性”與“推理效率”。
與檢索器交互:動態(tài)判斷“檢索/終止”
Auto-RAG的推理流程遵循“迭代-驗(yàn)證-決策”的循環(huán),具體步驟如下:
- 初始化(第0次迭代):模型接收用戶問題后,先通過推理明確回答問題所需的知識(如“需確定A和B的國籍”),生成初步的檢索規(guī)劃和第一個檢索查詢(如“Coolie No.1(1995)導(dǎo)演及國籍”),為后續(xù)檢索確定方向。
- 檢索驗(yàn)證(第1~T次迭代):若前一次迭代的輸出包含檢索查詢,模型會用該查詢調(diào)用檢索器獲取文檔;基于用戶原始問題、歷史所有輸出和新獲取的文檔,模型再次推理,提取有用信息,并判斷是否需要繼續(xù)檢索:若信息不足,生成新的補(bǔ)充查詢用于下一輪檢索;若已包含最終答案,則直接終止迭代并返回答案。
- 終止條件:當(dāng)模型判斷現(xiàn)有信息足夠生成準(zhǔn)確答案,或達(dá)到預(yù)設(shè)的最大檢索次數(shù)時,停止檢索。這種交互方式能實(shí)現(xiàn)“按需檢索”,單跳問題通常1-2次迭代即可完成,多跳問題則會通過3-5次迭代逐步補(bǔ)全信息。
這種交互方式的優(yōu)勢在于“按需檢索”:對于單跳問題(如“Hypocrite導(dǎo)演是誰”),模型可能1-2輪就找到答案并終止;對于多跳問題(如“達(dá)爾文出版《物種起源》時所在城市的市長”),則會自動迭代3-5輪,逐步補(bǔ)全中間信息。
參數(shù)化知識兜底:解決“檢索器查不到”的困境
即使檢索器性能再強(qiáng),也會遇到“語料庫中無相關(guān)信息”的情況(如小眾人物、新興事件)。此時Auto-RAG會啟動“參數(shù)化知識調(diào)用”機(jī)制,避免陷入“檢索無效→重復(fù)檢索”的無限循環(huán):
- 當(dāng)模型與檢索器交互T次后仍未終止,進(jìn)入“參數(shù)化知識迭代階段”(預(yù)設(shè)最大迭代次數(shù));
- 模型不再調(diào)用外部檢索器,而是基于自身預(yù)訓(xùn)練的參數(shù)化知識,針對當(dāng)前查詢生成一份“偽檢索文檔”,模擬外部檢索到的信息。
- 模型將“偽檢索文檔”作為輸入繼續(xù)推理,若能生成合理答案則返回;若達(dá)到參數(shù)化知識迭代的最大次數(shù)仍無法生成,就基于現(xiàn)有信息輸出最可靠的結(jié)論,并標(biāo)注相關(guān)信息來源,確保結(jié)果可追溯。
這一機(jī)制的關(guān)鍵價值在于“魯棒性”:既避免了傳統(tǒng)RAG“無外部知識就生成幻覺”的問題,又通過“偽文檔標(biāo)注”保證了結(jié)果的可追溯性——在醫(yī)療、法律等關(guān)鍵領(lǐng)域,用戶能清晰區(qū)分“答案來自外部權(quán)威文檔”還是“模型內(nèi)部推斷”,降低決策風(fēng)險(xiǎn)。

06、實(shí)驗(yàn)驗(yàn)證:6大數(shù)據(jù)集碾壓基線,多跳任務(wù)優(yōu)勢顯著
中科院團(tuán)隊(duì)在6個權(quán)威基準(zhǔn)數(shù)據(jù)集(NQ、HotpotQA、TriviaQA等)上的實(shí)驗(yàn),充分證明了Auto-RAG的性能:
主要結(jié)果
- 優(yōu)越性能:Auto-RAG在所有數(shù)據(jù)集上均優(yōu)于其他基線方法,尤其是在多跳問答任務(wù)上表現(xiàn)顯著優(yōu)于其他迭代檢索方法(如FLARE、Self-RAG和Iter-RetGen)。
- 自主決策能力:Auto-RAG通過自主推理和決策機(jī)制,能夠根據(jù)問題的復(fù)雜性和檢索結(jié)果的相關(guān)性動態(tài)調(diào)整迭代次數(shù)和檢索內(nèi)容。
- 魯棒性:即使在檢索器提供的知識不足時,Auto-RAG仍能利用自身的參數(shù)化知識生成高質(zhì)量的答案。

迭代次數(shù)分布
對于單跳問題(如Natural Questions和TriviaQA),Auto-RAG更多地在較少的迭代次數(shù)(1-2次)內(nèi)完成任務(wù)。對于多跳問題(如HotpotQA),迭代次數(shù)分布更傾向于多次迭代(3-5次)。當(dāng)檢索器每次返回更多文檔時,Auto-RAG更傾向于在較少的迭代次數(shù)內(nèi)完成任務(wù),表明其能夠快速利用足夠的信息。
結(jié)果表明,Auto-RAG能夠根據(jù)問題的復(fù)雜性動態(tài)調(diào)整迭代次數(shù),表現(xiàn)出良好的適應(yīng)性。對于簡單問題,模型能夠快速生成答案;而對于復(fù)雜問題,模型會通過多次迭代逐步收集所需的知識。

文檔數(shù)量對性能的影響
傳統(tǒng)RAG需精確調(diào)整「每次檢索文檔數(shù)」(k值),k太小漏信息,k太大添噪聲。而Auto-RAG在k=2-5的范圍內(nèi)性能波動僅2.1%,即使僅給3篇文檔也能達(dá)到最優(yōu)效果,極大降低落地調(diào)試成本。 結(jié)果表明,Auto-RAG對每次迭代中檢索器返回的文檔數(shù)量具有較強(qiáng)的適應(yīng)性。適量的文檔能夠幫助模型更高效地提取有用信息,從而提升整體性能。

通用任務(wù)性能
通過自主決策指令合成的訓(xùn)練,Auto-RAG不僅在問答任務(wù)上表現(xiàn)出色,還在通用任務(wù)上展現(xiàn)了更強(qiáng)的推理能力。

消融實(shí)驗(yàn)
訓(xùn)練過程的有效性(Effectiveness of Training):通過比較經(jīng)過訓(xùn)練的Auto-RAG與僅使用少量樣本提示(few-shot prompting)的模型(w/o training),經(jīng)過訓(xùn)練的Auto-RAG在所有數(shù)據(jù)集上均優(yōu)于僅使用少量樣本提示的模型,表明訓(xùn)練過程能夠顯著提升模型的自主決策能力,對Auto-RAG的性能至關(guān)重要。
推理過程的作用(Impact of Reasoning Process):通過比較Auto-RAG與直接基于檢索到的文檔生成答案的模型(w/o reasoning),Auto-RAG在所有數(shù)據(jù)集上均優(yōu)于不使用推理過程的模型,表明推理機(jī)制能夠顯著提升模型在復(fù)雜問題上的表現(xiàn)。
零樣本查詢優(yōu)化(Zero-shot Query Rewriting):通過比較使用零樣本查詢優(yōu)化(zero-shot refinement)和少量樣本查詢優(yōu)化(few-shot query rewriting)的模型,使用零樣本查詢優(yōu)化的Auto-RAG在所有數(shù)據(jù)集上均優(yōu)于使用少量樣本查詢優(yōu)化的模型,表明零樣本方法能夠生成更多樣化的查詢,從而提升性能。


數(shù)據(jù)規(guī)模的影響
僅用10k訓(xùn)練樣本,Auto-RAG就實(shí)現(xiàn)了自主決策能力,相比FLARE的「需百萬級樣本微調(diào)」,落地門檻大幅降低。

效率分析
Auto-RAG通過自主決策機(jī)制,能夠更高效地利用檢索器,減少不必要的檢索和計(jì)算開銷,從而在性能和速度上均優(yōu)于其他方法。

07、深度對比Self-RAG:自主推理碾壓「機(jī)械反射」
作為當(dāng)前主流的自適應(yīng)RAG方法,Self-RAG與Auto-RAG的核心差異體現(xiàn)在「決策邏輯」上,具體可分為5個維度:
對比維度 | Self-RAG | Auto-RAG |
決策核心 | 機(jī)械預(yù)測反射Token(如[Relevant]) | LLM推理驅(qū)動的自然語言決策 |
迭代策略 | 固定反射規(guī)則,無動態(tài)調(diào)整 | 按問題難度自主增減迭代次數(shù) |
多跳能力 | 依賴中間Token匹配,易斷裂 | 子答案鏈?zhǔn)酵评?/span> |
可解釋性 | 僅輸出Token標(biāo)簽,無邏輯說明 | 自然語言還原推理過程,易懂可追溯 |
落地成本 | 需大量反射Token標(biāo)注數(shù)據(jù) | 小樣本即可訓(xùn)練,適配開源LLM |
典型案例:
- Self-RAG:僅進(jìn)行一次檢索,為每個檢索到的文檔獨(dú)立生成答案并進(jìn)行反思,最終選擇得分最高的答案。這種方法不僅耗時,而且無法考慮文檔之間的相關(guān)性。
- Auto-RAG:通過自主決策機(jī)制,動態(tài)調(diào)整檢索次數(shù)和查詢內(nèi)容,直到收集到足夠的信息后生成最終答案。Auto-RAG能夠根據(jù)檢索結(jié)果的相關(guān)性決定是否繼續(xù)檢索,從而避免生成錯誤答案。

08、總結(jié)
1. 學(xué)術(shù)價值:奠定Agentic RAG落地基礎(chǔ)
24年底提出的Auto-RAG的「自主決策框架」,完美契合2025年RAG向「多智能體協(xié)同」演進(jìn)的趨勢。它證明了LLM不僅能「用工具」,更能「規(guī)劃如何用工具」,為后續(xù)融合知識圖譜(GraphRAG)、多模態(tài)理解的復(fù)雜系統(tǒng)提供了核心組件。
2. 應(yīng)用前景:低成本解決企業(yè)真實(shí)痛點(diǎn)
對于缺乏大算力的企業(yè),通過 “中小參數(shù)模型 + Auto-RAG 核心決策邏輯” 的組合,即可低成本落地 Agentic RAG,將 RAG 從 “被動工具” 升級為 “主動認(rèn)知智能體”,滿足企業(yè)在知識庫問答、垂直領(lǐng)域咨詢等場景的需求。
3. 未來優(yōu)化方向
結(jié)合2025年RAG技術(shù)趨勢,Auto-RAG仍有提升空間:
- 融合GraphRAG:用知識圖譜強(qiáng)化實(shí)體關(guān)系推理,進(jìn)一步提升多跳準(zhǔn)確率;
- 多模態(tài)擴(kuò)展:適配表格、圖表等非文本文檔,覆蓋金融研報(bào)、醫(yī)療影像等場景;
- 成本優(yōu)化:通過檢索知識摘要壓縮上下文長度,適配小模型部署。






















