偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RAG性能暴增20%!清華等推出“以筆記為中心”的深度檢索增強生成框架,復雜問答效果飆升

人工智能 新聞
來自清華大學、中國科學院大學、華南理工大學、東北大學、九星(AI9Stars)的聯合研究團隊提出了一項全新的適應式RAG方法——DeepNote。

在當前大語言模型(LLMs)廣泛應用于問答、對話等任務的背景下,如何更有效地結合外部知識、提升模型對復雜問題的理解與解答能力,成為 RAG(Retrieval-Augmented Generation)方向的核心挑戰(zhàn)。

來自清華大學、中國科學院大學、華南理工大學、東北大學、九星(AI9Stars)的聯合研究團隊提出了一項全新的適應式RAG方法——DeepNote

它首次引入“筆記(Note)”作為知識載體,實現更深入、更穩(wěn)定的知識探索與整合,在所有任務上均優(yōu)于主流RAG方法,相較于基礎RAG性能提升高達+20.1%。即使在使用中小參數量模型時,依然展現出強大的能力與泛化性。

圖片

研究動機:RAG 為何仍力不從心?

RAG技術通過引入外部知識(如 Wikipedia)來緩解大模型的幻覺與事實錯誤問題。然而,Vanilla RAG方法只支持一次性檢索。

想象一個問題需要跨越多個實體或事實推理,顯然“一問一檢索一答”的 Vanilla RAG 已遠遠不夠。這種知識不足現象特別是在具有復雜的知識需求的multi-hop QA、long-form QA 等任務中尤為嚴重。

為了應對這些復雜問答場景,一些研究提出多輪檢索RAG。然而,多輪檢索RAG往往不假思索地執(zhí)行多次檢索,易引入大量無關或噪聲段落,導致檢索結果冗雜,從而降低最終回答的質量。

為了進一步構建有效且靈活的RAG系統(tǒng),一些近期的工作提出自適應RAG,它引入動態(tài)決策機制,允許模型根據反饋判斷是否繼續(xù)檢索。但自適應RAG方法仍存在以下兩個核心問題:

  • 檢索-生成耦合過緊:每次檢索后立即生成答案,導致模型只能依據“當前輪”的知識作答,無法真正整合前后信息;
  • 檢索策略決策不足:大模型自行判斷“是否繼續(xù)檢索”容易偏離真正的知識需求,漏掉關鍵信息。

這些問題最終都導致一個核心困境:缺乏“信息生長”的能力——模型既無法感知自己是否“學到了新東西”,也無法真正“記住”與“利用”之前獲取的信息。

解決方案:DeepNote

為解決上述難題,團隊提出了DeepNote,一種以“筆記”為中心、以“知識生長”為目標的深度檢索增強生成框架。其關鍵特性是:用“記下的知識”引導檢索,用“最優(yōu)筆記”生成答案

圖片

DeepNote主要包含三個階段:

筆記初始化(Note Initialization)

系統(tǒng)基于初始問題和初次檢索內容構建出一份筆記,用于啟動整個知識積累過程。該筆記是 LLM 自主整理的結構化知識表示,作為后續(xù)所有檢索與判斷的依據。

基于筆記的適應式檢索(Note-Centric Adaptive Retrieval)

系統(tǒng)使用當前“最佳筆記”生成下一輪檢索查詢,并評估新獲取內容是否帶來了真正的知識增益。只有當模型判斷新知識“有價值”時,才會更新筆記并繼續(xù)下一輪;否則終止檢索。這一機制確保每一輪檢索都有明確目標、每一份信息都在“生長”。

基于最佳筆記的答案生成(Note-Informed Answer Generation)

最終,系統(tǒng)使用已積累的“最佳筆記”生成回答,確保答案來源清晰、內容完整、邏輯連貫。這一設計模擬了人類解決復雜問題時的策略:邊查邊記、反復比對、直至知識充分。

DeepNote與主流方法對比

為了更直觀地展現DeepNote的特點,團隊整理了與現有代表性方法的能力對比表:

圖片

  • 多次檢索:是否支持多次檢索。
  • 自適應檢索:是否能根據當前信息動態(tài)地決定是否需要執(zhí)行進一步的檢索動作以及檢索什么。
  • 模型訓練:是否對不同階段進行了針對性訓練或偏好優(yōu)化。
  • 一次性知識總結:是否在檢索后執(zhí)行一次性檢索知識總結。
  • 迭代知識總結:是否支持在多輪檢索中多次更新、積累、總結知識。

可以看到,DeepNote是目前唯一在自適應檢索控制、自適應知識積累與更新、模型優(yōu)化三大核心維度上同時實現系統(tǒng)性突破的方法。這一框架不僅填補了自適應檢索與知識積累之間的空白,更在具有復雜知識需求的任務中展現出前所未有的探索深度和廣度,標志著自適應RAG技術邁入了一個新的階段

實驗結果:顯著超越現有方法

在五個具有代表性的QA數據集上進行實證評估,涵蓋:

  • 多跳問答(復雜):HotpotQA, 2WikiMQA, MusiQue
  • 長形式問答 (復雜):ASQA
  • 短形式問答 (簡單):StrategyQA

結果顯示,DeepNote在所有任務上均優(yōu)于主流RAG方法,相較于基礎 RAG,性能提升高達+20.1%。即使在使用中小參數量模型時,依然展現出強大的能力與泛化性。

圖片

同時團隊還構建了一個高質量訓練數據集DNAlign,并結合DPO(Direct Preference Optimization)對模型進行精細優(yōu)化,進一步提升了DeepNote在多任務流程下的指令遵循能力與表現。

核心結論與意義

DeepNote核心優(yōu)勢分析如下

真正實現“信息生長”:

每輪檢索不是獨立的“抽樣”,而是建立在已有知識基礎上的持續(xù)拓展;

信息密度顯著提升:

相比傳統(tǒng)RAG,DeepNote的參考內容更緊湊、相關性更高;

圖片


Reference”指最終用于生成回答的檢索內容或筆記;其中,與回答問題直接相關的片段被標注為“Evidence”;而“Knowledge Density”則衡量Evidence在Reference中所占比例,用以評估知識的精煉程度。

在知識密度與性能分析中,團隊系統(tǒng)考察了不同RAG方法對知識密度和質量的影響。實驗結果表明,Vanilla RAG檢索文檔篇幅冗長但其知識密度較低,存在大量噪聲信息;而初始筆記雖然能夠通過單次總結有效提升知識密度,但其性能提升主要來自于檢索內容總體長度的縮減,且由于知識總量下降,可能會出現性能下降現象。相比之下,DeepNote在保持高知識密度的同時,顯著提升了整體性能,表明基于筆記的自適應檢索機制能夠在降低噪聲干擾的同時,持續(xù)積累更加豐富、精煉且高相關度的知識,為最終生成提供了更堅實的信息支撐。

支持自適應停止與深度控制:

用戶可設定失敗閾值和最大步數,自由權衡探索深度與成本;

圖片

高通用性:

可搭配多種開源或閉源模型及檢索器,適用于多種實際任務場景。

DeepNote將“記憶式推理”機制引入RAG系統(tǒng),打破了傳統(tǒng)RAG“檢索-生成”一步到位的瓶頸,使模型在復雜任務中具備了更接近人類的信息整合與推理能力。

該方法不僅適用于學術研究中對復雜信息的深入問答,還可用于法律、醫(yī)學、教育等對準確性與知識整合要求極高的真實場景,具備廣泛的落地潛力。

本項目由清華大學自然語言處理實驗室(THUNLP)、中國科學院大學信息工程研究所、華南理工大學、東北大學等單位共同完成,歡迎感興趣的研究者和開發(fā)者前來交流!

論文地址:https://arxiv.org/abs/2410.08821
開源項目: https://github.com/thunlp/DeepNote

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-10-14 17:46:17

RAG提示工程GPT-3

2025-02-11 08:00:00

大語言模型檢索增強生成CAG

2024-05-20 08:31:33

檢索增強生成LLM大型語言模型

2025-04-01 09:25:09

2025-05-28 01:25:00

RAG人工智能語言模型

2024-10-31 14:46:31

2024-11-19 13:05:40

2025-04-29 08:20:51

2025-02-27 10:55:44

2024-02-18 09:00:00

RAG工具LlamaIndexChatGPT

2025-04-27 00:30:00

RAG檢索增強生成AI

2025-09-01 07:02:48

2025-06-13 02:25:00

2024-09-18 08:42:10

2024-04-19 09:00:01

映射算法大型語言模型LLM

2024-05-28 09:24:32

2024-10-16 13:27:27

2025-02-13 09:01:03

2024-04-19 14:27:26

檢索增強生成大型語言模型

2025-01-23 16:23:30

點贊
收藏

51CTO技術棧公眾號