微軟新綜述:大模型RAG系統(tǒng)的4層境界! 精華
今天分享這篇很干的文章!通過(guò)對(duì)RAG系統(tǒng)的用戶Query進(jìn)行難度區(qū)分,進(jìn)而可以將系統(tǒng)劃分為4個(gè)等級(jí)。
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely
使用外部數(shù)據(jù)增強(qiáng)的大型語(yǔ)言模型 ( LLMs ) 在完成現(xiàn)實(shí)世界任務(wù)方面表現(xiàn)出了卓越的能力。外部數(shù)據(jù)不僅增強(qiáng)了模型的特定領(lǐng)域?qū)I(yè)知識(shí)和時(shí)間相關(guān)性,而且還減少了幻覺(jué)的發(fā)生率,從而增強(qiáng)了輸出的可控性和可解釋性。將外部數(shù)據(jù)集成到LLMs中的技術(shù),例如檢索增強(qiáng)生成(RAG)和微調(diào),正在獲得越來(lái)越多的關(guān)注和廣泛應(yīng)用。盡管如此,在各個(gè)專業(yè)領(lǐng)域有效部署數(shù)據(jù)增強(qiáng)LLMs仍面臨著巨大的挑戰(zhàn)。這些挑戰(zhàn)涵蓋了廣泛的問(wèn)題,從檢索相關(guān)數(shù)據(jù)和準(zhǔn)確解釋用戶意圖到充分利用LLMs的推理能力來(lái)完成復(fù)雜的任務(wù)。我們相信,對(duì)于數(shù)據(jù)增強(qiáng)LLM應(yīng)用程序來(lái)說(shuō),沒(méi)有一種萬(wàn)能的解決方案。在實(shí)踐中,效果不佳通常是由于未能正確識(shí)別任務(wù)的核心焦點(diǎn),或者因?yàn)樵撊蝿?wù)本質(zhì)上需要混合多種功能,必須將這些功能分解以獲得更好的解決方案。在本次調(diào)查中,我們提出了一種 RAG 任務(wù)分類方法,根據(jù)所需的外部數(shù)據(jù)類型和任務(wù)的主要關(guān)注點(diǎn)將用戶查詢分為四個(gè)級(jí)別:顯式事實(shí)查詢、隱式事實(shí)查詢、可解釋的基本原理查詢和隱藏的基本原理查詢。我們定義這些級(jí)別的查詢,提供相關(guān)數(shù)據(jù)集,并總結(jié)關(guān)鍵挑戰(zhàn)和應(yīng)對(duì)這些挑戰(zhàn)的最有效技術(shù)。最后,我們討論了將外部數(shù)據(jù)集成到LLMs中的三種主要形式:上下文、小模型和微調(diào),強(qiáng)調(diào)了它們各自的優(yōu)勢(shì)、局限性以及它們適合解決的問(wèn)題類型。本文旨在幫助讀者深入理解和分解構(gòu)建LLM應(yīng)用程序的數(shù)據(jù)需求和關(guān)鍵瓶頸,為不同的挑戰(zhàn)提供解決方案,并作為系統(tǒng)開發(fā)此類應(yīng)用程序的指南。
LLMs在各個(gè)專業(yè)領(lǐng)域較容易遇到一些問(wèn)題,如模型幻覺(jué)、與特定領(lǐng)域知識(shí)的不一致等。所以整合特定領(lǐng)域的數(shù)據(jù)對(duì)于滿足特定行業(yè)需求是非常重要的。通過(guò)RAG和微調(diào)等技術(shù),基于RAG的LLM應(yīng)用在多個(gè)方面顯示出比僅基于通用LLM的應(yīng)用的優(yōu)勢(shì)。
通常,基于RAG的LLM應(yīng)用可以表述為一個(gè)映射過(guò)程,即基于給定數(shù)據(jù)D,將用戶輸入(查詢Q)映射到預(yù)期響應(yīng)(答案A)。
根據(jù)與外部數(shù)據(jù)D的交互程度和所需的認(rèn)知處理水平,我們可以將查詢分為不同層次。
- 顯式事實(shí)查詢 (Level-1 Explicit Facts), 最簡(jiǎn)單的數(shù)據(jù)增強(qiáng)查詢形式,示例:
- "2024年夏季奧運(yùn)會(huì)將在哪里舉行?"(給定一系列關(guān)于奧運(yùn)會(huì)的文檔)
- "公司X的AI戰(zhàn)略是什么?"(給定關(guān)于公司X的最新新聞和文章系列)
- 隱式事實(shí)查詢 (Level-2 Implicit Facts),涉及需要一些常識(shí)推理或基本邏輯推理的查詢,示例:
- "樣本大小大于1000的實(shí)驗(yàn)有多少個(gè)?"(給定一系列實(shí)驗(yàn)記錄)
- "最常提及的前3個(gè)癥狀是什么?"(給定一系列醫(yī)療記錄)
- "公司X和公司Y的AI戰(zhàn)略有什么區(qū)別?"(給定關(guān)于公司X和Y的最新新聞和文章系列)
- 解釋性理由查詢 (Level-3 Interpretable Rationales),不僅需要掌握事實(shí)內(nèi)容,還要能夠理解領(lǐng)域數(shù)據(jù),示例:
- "根據(jù)胸痛管理指南,應(yīng)該如何診斷和治療有特定癥狀描述的胸痛患者?"
- "在現(xiàn)實(shí)場(chǎng)景中應(yīng)如何回應(yīng)用戶的問(wèn)題?"(給定客戶服務(wù)工作流程)
- 隱藏理由查詢 (Level-4 Hidden Rationales),最具挑戰(zhàn)性的查詢類型,需要從外部數(shù)據(jù)中推斷出未明確記錄的推理規(guī)則。
- "經(jīng)濟(jì)形勢(shì)將如何影響公司未來(lái)的發(fā)展?"(給定一系列財(cái)務(wù)報(bào)告,需要經(jīng)濟(jì)和財(cái)務(wù)理由)
- "使用數(shù)字5、5、5和1如何得到24點(diǎn)?"(給定一系列24點(diǎn)游戲的示例和相應(yīng)答案)
- "阿富汗是否允許父母將其國(guó)籍傳給在國(guó)外出生的孩子?"(給定GLOBALCIT公民法數(shù)據(jù)集)
上述文字對(duì)應(yīng)了下圖
L1 顯式事實(shí)查詢
挑戰(zhàn):
- 外部數(shù)據(jù)通常是高度非結(jié)構(gòu)化的,并且包含多模態(tài)組件,如表格、圖像、視頻等。此外,將這些數(shù)據(jù)分割或“塊化”處理時(shí),保持原始上下文和意義是一個(gè)挑戰(zhàn)。
- 數(shù)據(jù)檢索困難:從大型非結(jié)構(gòu)化數(shù)據(jù)集中檢索相關(guān)數(shù)據(jù)段可能計(jì)算密集且容易出錯(cuò)。
- 評(píng)估困難:評(píng)估RAG系統(tǒng)(特別是組件級(jí)別)的性能是一項(xiàng)復(fù)雜任務(wù),需要開發(fā)能夠準(zhǔn)確評(píng)估數(shù)據(jù)檢索和響應(yīng)生成質(zhì)量的健壯指標(biāo)。
解決方案:(介紹了非常多的高級(jí)RAG技巧)
- 多模態(tài)文檔解析 (表格轉(zhuǎn)文本、圖片/視頻內(nèi)容轉(zhuǎn)換成文本)
- 塊大小優(yōu)化:固定大小、文檔結(jié)構(gòu)遞歸切分、滑動(dòng)窗口、基于語(yǔ)義
- 索引:bm25、香蓮、hybird
- query、doc 文檔對(duì)齊:傳統(tǒng)對(duì)齊,hyde文檔域?qū)R,query域?qū)R
- rerank修正:rerank
- 遞歸檢索,迭代解鎖:通過(guò)多次檢索來(lái)逐步解決查詢中的不明確問(wèn)題。
- 生成:確定檢索到的信息是否足夠,或者是否需要額外的外部數(shù)據(jù);處理檢索到的知識(shí)與模型內(nèi)部先驗(yàn)知識(shí)之間的沖突。
- 微調(diào):通過(guò)設(shè)計(jì)訓(xùn)練數(shù)據(jù)來(lái)提高RAG系統(tǒng)在生成響應(yīng)時(shí)的性能。
- 聯(lián)合訓(xùn)練:在訓(xùn)練階段同時(shí)訓(xùn)練檢索器和生成器,以提高兩者在RAG系統(tǒng)中的協(xié)同性能。
L2 隱式事實(shí)查詢
挑戰(zhàn):
- 自適應(yīng):不同問(wèn)題可能需要不同數(shù)量的檢索上下文。固定數(shù)量的檢索可能導(dǎo)致信息噪聲過(guò)多或信息不足。
- 推理檢索間的協(xié)調(diào):推理可以指導(dǎo)需要檢索的內(nèi)容,而檢索到的信息又可以迭代地細(xì)化推理策略。
解決方案:
- 迭代RAG:通過(guò)多步驟RAG過(guò)程動(dòng)態(tài)控制,迭代地收集或糾正信息,直到達(dá)到正確答案。
- 基于圖/樹的RAG:使用圖或樹結(jié)構(gòu)來(lái)自然地表達(dá)文本之間的關(guān)系,適合處理需要綜合多參考信息的查詢。
- NL2SQL:當(dāng)處理結(jié)構(gòu)化數(shù)據(jù)時(shí),將自然語(yǔ)言查詢轉(zhuǎn)換為SQL查詢可以有效地檢索信息。
剩下2種不做更多介紹了,有點(diǎn)扯遠(yuǎn)了,一張圖表示如下:
本文轉(zhuǎn)載自 ??探索AGI??,作者: 獼猴桃
