為什么你的 RAG 系統(tǒng)在復(fù)雜問題上失靈?
本文通過 Retrieval and Structuring (RAS) 范式理解精準(zhǔn)推理與領(lǐng)域?qū)iL,并附實(shí)現(xiàn)示例
Large Language Models(LLM,大型語言模型)在文本生成和復(fù)雜推理方面展現(xiàn)了卓越能力。但它們并不完美。
當(dāng) LLM 用于真實(shí)世界場景時(shí),會(huì)面臨多種挑戰(zhàn):有時(shí)會(huì)出現(xiàn)“幻覺”,有時(shí)會(huì)給出過時(shí)的答案。
為了解決這些問題,引入了 Retrieval-Augmented Generation(RAG)。RAG 先從外部文檔檢索相關(guān)信息,以此為 LLM 的回答“接地氣”,顯著減少幻覺。
看起來是個(gè)好方案?還不完全是。
傳統(tǒng) RAG 往往把外部信息當(dāng)作原始、非結(jié)構(gòu)化的文本片段來處理。這些雜亂文本中常包含令人困惑或非原子化的信息,容易誤導(dǎo) LLM。同時(shí),當(dāng)問題需要多步推理時(shí),系統(tǒng)也會(huì)變得吃力。
為突破這些限制,Retrieval and Structuring(RAS)范式應(yīng)運(yùn)而生。RAS 在 RAG 基礎(chǔ)上增加了知識(shí)結(jié)構(gòu)化這一步。
本文將帶你了解 RAS 框架、各階段及其實(shí)現(xiàn)步驟。
為什么需要為 RAG 進(jìn)行結(jié)構(gòu)化?
結(jié)構(gòu)化通過把檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為有組織、可操作的知識(shí),解決傳統(tǒng) RAG 的關(guān)鍵限制。
下面來理解在 RAG 中進(jìn)行數(shù)據(jù)結(jié)構(gòu)化的重要性。
1. 克服傳統(tǒng) RAG 的局限
傳統(tǒng) RAG 連接 LLM 與外部信息,以緩解幻覺和知識(shí)過時(shí)等問題。然而,RAG 仍然處理的是非結(jié)構(gòu)化文本片段。
非結(jié)構(gòu)化文本常包含無關(guān)細(xì)節(jié),容易干擾模型,導(dǎo)致誤導(dǎo)性答案。
面對(duì)需要多步推理或需要有組織的領(lǐng)域知識(shí)的復(fù)雜問題,常規(guī) RAG 會(huì)很吃力。
2. 增強(qiáng) LLM 的生成與推理
把外部知識(shí)結(jié)構(gòu)化為諸如 Knowledge Graph(知識(shí)圖譜)之類的表示,是提升 LLM 輸出質(zhì)量與推理能力的關(guān)鍵。
當(dāng)答案構(gòu)建于結(jié)構(gòu)化知識(shí)之上,模型更不易產(chǎn)生幻覺。比如,KG-RAG 以 Knowledge Graph 引導(dǎo)模型,使得回答更準(zhǔn)確、更有依據(jù)。
結(jié)構(gòu)化數(shù)據(jù)能讓模型看到事實(shí)之間的連接,從而應(yīng)對(duì)需要更深層推理的復(fù)雜問題。
與閉源和開源模型的對(duì)比顯示,RAS 能顯著提升 AI 應(yīng)用的效果。
![RAS 的性能對(duì)比 - 與閉源/開源模型 [Source]]](https://miro.medium.com/1*OiBbYIHuV9-AkIgkbtc6Kg.png)
什么是 RAS?
Retrieval And Structuring(RAS)范式在傳統(tǒng) RAG 基礎(chǔ)上引入 Taxonomy 和 Knowledge Graph 等知識(shí)結(jié)構(gòu)化技術(shù),將非結(jié)構(gòu)化文本轉(zhuǎn)化為有組織的知識(shí),以增強(qiáng)推理與可驗(yàn)證性。
RAS 將三個(gè)關(guān)鍵組件統(tǒng)一到一個(gè)框架中:信息檢索、結(jié)構(gòu)化知識(shí)表示(如 Knowledge Graph)以及 LLM。
下面用一個(gè)通俗的版本來說明 RAS。
傳統(tǒng) LLM 只依賴訓(xùn)練中“記住”的內(nèi)容(可能過時(shí)或不完整),因此可能猜測甚至“幻覺”答案。
RAG(Retrieval-Augmented Generation)為解決幻覺與過時(shí)/專有數(shù)據(jù)問題而發(fā)展,讓 LLM 先查資料(檢索非結(jié)構(gòu)化文本片段)。問題在于,檢索回來的是一大堆雜亂文本,信息不原子且容易誤導(dǎo)。
RAS(Retrieval-And-Structuring)發(fā)展出一種更強(qiáng)的策略,用于徹底消除“臟數(shù)據(jù)”的困擾:
- Step 1: Retrieval——LLM 搜索所有相關(guān)文檔。
- Step 2: Structuring——不直接拉取原始文本,而是訪問組織化的數(shù)據(jù)(如 Knowledge Graph 或 Taxonomy),消除混淆并提煉事實(shí)與關(guān)系。
- Step 3: Generation——LLM 基于這個(gè)組織化的 Knowledge Graph 構(gòu)建事實(shí)正確、可驗(yàn)證的答案。
RAS 范式抽象示意 [Source]
本質(zhì)上,RAS 不僅教會(huì) LLM 如何找到信息,還教它如何正確組織與運(yùn)用信息進(jìn)行推理。
RAS 范式的基礎(chǔ)原則
RAS 提升了 LLM 執(zhí)行知識(shí)密集型任務(wù)的能力,并促進(jìn)更高效的知識(shí)發(fā)現(xiàn)。其核心是有效使用結(jié)構(gòu)化數(shù)據(jù),改進(jìn)檢索流程與 LLM 輸出質(zhì)量:
1. Structure-Enhanced Retrieval(結(jié)構(gòu)增強(qiáng)檢索:更聰明地找知識(shí))
結(jié)構(gòu)化技術(shù)幫助檢索系統(tǒng)精準(zhǔn)找到 LLM 需要的內(nèi)容,尤其在復(fù)雜或領(lǐng)域特定的問題上。三種基礎(chǔ)方法:
- Taxonomy-Based Approaches:不再只做通用搜索,而是使用領(lǐng)域特定的主題 Taxonomy。搜索由領(lǐng)域結(jié)構(gòu)引導(dǎo),不必依賴大量標(biāo)注數(shù)據(jù)。
- Knowledge Graph(KG)-Based Approaches:使用 Knowledge Graph 提升檢索質(zhì)量。例如 KG-RAG 讓 LLM 按圖逐步推理,聚焦實(shí)體及關(guān)系而非僅關(guān)鍵詞,從而更準(zhǔn)確。
- The Iterative Cycle:采用迭代循環(huán)。先由“Taxonomy 增強(qiáng)的檢索器”找到相關(guān)文檔,立即結(jié)構(gòu)化為子圖以更新“面向查詢的 KG”。LLM 基于該 KG 回答問題,必要時(shí)再生成聚焦的子查詢,開啟新一輪精煉檢索。
2. Structure-Enhanced LLM Generation(結(jié)構(gòu)增強(qiáng)生成:更聰明地用知識(shí))
在得到結(jié)構(gòu)化知識(shí)后,關(guān)鍵是利用它增強(qiáng) LLM 的回答。結(jié)構(gòu)增強(qiáng)生成將模型回答錨定在顯式知識(shí)結(jié)構(gòu)上,顯著減少幻覺并提升事實(shí)一致性。
- ToG(Think-on-Graph)通過引導(dǎo)式提示在 KG 上直接推理,逐步構(gòu)建顯式推理鏈。
- GoT(Graph-of-Thought)將 LLM 的推理過程結(jié)構(gòu)化為圖,而非簡單的線性鏈,支持多路徑探索和循環(huán)思考等復(fù)雜模式。
- 其他技術(shù)如 GraphRAG 將復(fù)雜結(jié)構(gòu)化知識(shí)濃縮為文本摘要,使 LLM 能處理需要對(duì)語料全局理解的復(fù)雜查詢。
RAS 范式基礎(chǔ)原則 - 圖片由作者使用 Napkin.ai 制作
為 RAG 創(chuàng)建并添加結(jié)構(gòu)的技術(shù)與實(shí)現(xiàn)
1. 為數(shù)據(jù)添加簡單結(jié)構(gòu)
添加結(jié)構(gòu)涉及多個(gè)步驟:從 Taxonomy 構(gòu)建開始,隨后進(jìn)行 Taxonomy 豐富、實(shí)體抽取與 Knowledge Graph 創(chuàng)建。
為數(shù)據(jù)添加簡單結(jié)構(gòu)的步驟 - 作者:Vivedha Elango
Step 1: 創(chuàng)建核心的結(jié)構(gòu)化表示(Taxonomies 與 Entities)
該階段建立領(lǐng)域知識(shí)的組織結(jié)構(gòu),第一步通常是構(gòu)建一個(gè) Taxonomy。
什么是 Taxonomy?
Taxonomy 是一種樹狀結(jié)構(gòu),從上層的廣義類別(父節(jié)點(diǎn))組織到下層更具體的類別(子節(jié)點(diǎn))。在文本挖掘中,Taxonomy 有助于結(jié)構(gòu)化標(biāo)簽與組織信息。
Taxonomy 構(gòu)建從一個(gè)“seed”起步。不同方法在寬度與深度上擴(kuò)展 seed,并在后續(xù)調(diào)整整體結(jié)構(gòu)。
- HiExpan 通過實(shí)體擴(kuò)展來生長 Taxonomy,并用詞類比進(jìn)行細(xì)化。它面向任務(wù)地從領(lǐng)域語料中構(gòu)建 Taxonomy。用戶可提供 seed Taxonomy 進(jìn)行引導(dǎo),確保結(jié)果與需求匹配。其流程會(huì)自動(dòng)生成關(guān)鍵詞列表,基于 seed 逐步擴(kuò)展各節(jié)點(diǎn)并遞歸拓展子節(jié)點(diǎn)集,保持子節(jié)點(diǎn)組的一致性與相關(guān)性,并提供弱監(jiān)督關(guān)系抽取模塊。
任務(wù)引導(dǎo)的 Taxonomy 構(gòu)建:用戶提供 seed 樹,系統(tǒng)從原始語料中抽取關(guān)鍵詞并自動(dòng)生成 Taxonomy [Source]層級(jí)樹擴(kuò)展算法概覽 [Source]
- CoRel 使用預(yù)訓(xùn)練語言模型學(xué)習(xí)可泛化的父子關(guān)系。ColRel 提供一種更契合用戶興趣的 Taxonomy 構(gòu)建方式:以用戶提供的 seed Taxonomy 與語料為起點(diǎn),生成覆蓋更豐富的定制化 Taxonomy。每個(gè)節(jié)點(diǎn)是一個(gè)相關(guān)術(shù)語簇,使得結(jié)構(gòu)更有意義、更貼近用戶需求。其核心模塊包括:
Relation Transferring:學(xué)習(xí)用戶關(guān)注的關(guān)系,并在不同路徑間遷移,從而在寬度與深度上擴(kuò)展結(jié)構(gòu),獲得更細(xì)致與更廣的層級(jí)。
Concept Learning:通過對(duì) Taxonomy 與語料進(jìn)行聯(lián)合嵌入,讓每個(gè)概念由一組一致的相關(guān)術(shù)語來表示,以增強(qiáng)語義。
Seed 引導(dǎo)的主題 Taxonomy 構(gòu)建 [Source]
Step 2: Taxonomy Enrichment
該步驟為已構(gòu)建的 Taxonomy 節(jié)點(diǎn)關(guān)聯(lián)描述性文本(如關(guān)鍵詞),使每個(gè)節(jié)點(diǎn)更具信息性與區(qū)分度,并在豐富過程中顯式建模樹狀結(jié)構(gòu)。
- TaxoGen:遞歸地對(duì)詞向量進(jìn)行聚類,并用本地語料細(xì)化簇。它將相關(guān)術(shù)語聚為單一主題,先用嵌入捕捉語義,再用特殊聚類逐級(jí)細(xì)化主題,確保一般性術(shù)語位于高層、具體術(shù)語位于低層。隨后在與小主題相關(guān)的本地語料上重學(xué)嵌入,以分辨細(xì)微差別,最終自動(dòng)產(chǎn)出清晰有用的 Taxonomy。
TaxoGen 概覽 [Source]
- NetTaxo:在 TaxoGen 基礎(chǔ)上引入網(wǎng)絡(luò)結(jié)構(gòu)信息,讓文檔之間的連接與文本內(nèi)容共同作用,構(gòu)建更豐富、更準(zhǔn)確的主題層級(jí),更易發(fā)現(xiàn)主題及其子主題,提升可用性與信息量。
NetTaxo 概覽 [Source]
Step 3: Information Extraction(實(shí)體與關(guān)系挖掘)
Information Extraction(IE)聚焦于抽取實(shí)體級(jí)信息,作為知識(shí)結(jié)構(gòu)化的基石。該步驟識(shí)別現(xiàn)實(shí)世界實(shí)體與其關(guān)系,是構(gòu)建 Knowledge Graph 的關(guān)鍵。
常用技術(shù)包括:
- Entity Mining(如 Named Entity Recognition,NER)
- Fine-Grained Entity Typing(FET,將實(shí)體歸類進(jìn)本體/ontology)
- Relation Extraction
Step 4: Knowledge Graph Construction(KG)
在該步驟中,將抽取的信息實(shí)體化為 Knowledge Graph(KG):用節(jié)點(diǎn)表示實(shí)體,用邊表示關(guān)系。
典型技術(shù)與框架包括:
- Pipelined Methods:歷史上常用 Open Information Extraction(OpenIE)工具抽取三元組,再進(jìn)行過濾與融合。OpenIE 能抽取開放域的主語-關(guān)系-賓語三元組,并產(chǎn)出對(duì)應(yīng)蘊(yùn)含句片段(存于 CoreMap 的 EntailedSentencesAnnotation 鍵)。
OpenIE 工作流概覽 [Source]
- End-to-End Models:如 REBEL 等框架直接利用 Pre-trained Language Models 將原始文本端到端轉(zhuǎn)成結(jié)構(gòu)化知識(shí)。
- LLM-based Construction:如 KnowledgeGraph GPT,直接通過提示 LLM(如 GPT-4)將純文本轉(zhuǎn)為 KG。
以上步驟構(gòu)成了簡單 RAS 循環(huán)所需的流程與可用框架,下面的流程圖有助于整體把握。
為 RAG 添加簡單結(jié)構(gòu)的實(shí)現(xiàn)
kg-gen 包提供了便捷實(shí)現(xiàn)。它是一個(gè) text-to-KG 生成器,使用 LLM 從純文本直接構(gòu)建高質(zhì)量圖。kg-gen 會(huì)把相近實(shí)體聚類,降低稀疏性、提升可用性。通過 pip install kg-gen 可安裝為 Python 庫。
from kg_gen import KGGen
# Initialize KGGen with optional configuration
kg = KGGen(
model="openai/gpt-4o", # Default model
temperature=0.0, # Default temperature
api_key="YOUR_API_KEY"# Optional if set in environment or using a local model
)
# EXAMPLE 1: Single string with context
text_input = "Linda is Josh's mother. Ben is Josh's brother. Andrew is Josh's father."
graph_1 = kg.generate(
input_data=text_input,
context="Family relationships"
)
# Output:
# entities={'Linda', 'Ben', 'Andrew', 'Josh'}
# edges={'is brother of', 'is father of', 'is mother of'}
# relations={('Ben', 'is brother of', 'Josh'),
# ('Andrew', 'is father of', 'Josh'),
# ('Linda', 'is mother of', 'Josh')}對(duì)于長文本,可通過 chunk_size 參數(shù)分塊處理:
graph = kg.generate(
input_data=large_text,
chunk_size=5000 # Process in chunks of 5000 characters
)你還可以在生成時(shí)或之后對(duì)實(shí)體與關(guān)系進(jìn)行聚類:
# During generation
graph = kg.generate(
input_data=text,
cluster=True,
context="Optional context to guide clustering"
)
# Or after generation
clustered_graph = kg.cluster(
graph,
context="Optional context to guide clustering"
)聚合多個(gè)圖
使用 aggregate 方法合并多個(gè)圖:
graph1 = kg.generate(input_data=text1)
graph2 = kg.generate(input_data=text2)
combined_graph = kg.aggregate([graph1, graph2])2. 進(jìn)階:動(dòng)態(tài)添加結(jié)構(gòu)(迭代式 RAS 循環(huán))
在進(jìn)階 RAS 系統(tǒng)中,結(jié)構(gòu)化過程通常是動(dòng)態(tài)與迭代的,結(jié)合 Taxonomy 與 KG,針對(duì)查詢定制上下文。
該技術(shù)適用于更靈活的高級(jí) RAG 應(yīng)用:動(dòng)態(tài)構(gòu)建并細(xì)化與用戶查詢強(qiáng)相關(guān)的結(jié)構(gòu)化知識(shí)上下文。
RAS 如何構(gòu)建與使用知識(shí)來回答問題,可分為四個(gè)關(guān)鍵階段:
- Stage1: Action Planning(規(guī)劃所需信息)
- 需求評(píng)估:Planner 模型先檢查主問題,判斷現(xiàn)有知識(shí)是否足夠。
- 無需檢索:若可直接作答,則進(jìn)入生成階段。
- 生成子查詢:若知識(shí)不足,Planner 會(huì)生成聚焦的子查詢以彌補(bǔ)特定知識(shí)缺口。該迭代規(guī)劃機(jī)制突破了一次性檢索方法的局限。
- Stage 2: Theme-Scoped Retrieval(主題域檢索)
- 主題域劃定:通過分類器確定子查詢的主題分布,并據(jù)此限定到主題子語料。
- 密集檢索:僅在該子語料內(nèi)進(jìn)行語義匹配以找到最相關(guān)文本,提高效率與相關(guān)性。
- Stage 3: Dynamic Knowledge Structuring(動(dòng)態(tài)知識(shí)結(jié)構(gòu)化)
- 文本到三元組:將檢索到的文本轉(zhuǎn)為知識(shí)三元組(subject-predicate-object)。
- 迭代豐富:將新事實(shí)并入隨查詢演化的 KG,使其逐步擴(kuò)展。
- 再評(píng)估:Action Planner 基于更新后的 KG 判斷是否足以回答主問題,否則生成下一輪子查詢。
- Stage 4: Knowledge-Augmented Generation(結(jié)構(gòu)增強(qiáng)生成)
- 利用結(jié)構(gòu):Answerer 模型使用累積的 KG、子查詢鏈與檢索事實(shí)生成最終答案。
- 輸出準(zhǔn)確:在 KG 的精確結(jié)構(gòu)化知識(shí)支撐下,回答更準(zhǔn)確、連貫,且優(yōu)于舊式 RAG 在復(fù)雜任務(wù)上的表現(xiàn)。
下面的流程圖概括了迭代式 RAS 循環(huán)的步驟。
RAS 步驟 - 作者:Vivedha Elango
迭代式 RAS 的實(shí)現(xiàn)
RAS 論文(鏈接)提供了代碼實(shí)現(xiàn)(GitHub 鏈接)。你可按說明搭建并在復(fù)雜查詢上測試其效果。
性能對(duì)比 [Source]
RAS 的技術(shù)挑戰(zhàn)
Retrieval and Structuring(RAS)為讓 LLM 更聰明、更實(shí)用開辟了新路,但仍有諸多挑戰(zhàn)。主要集中在三方面:檢索效率、知識(shí)質(zhì)量與集成復(fù)雜度。
1. 檢索效率
首要挑戰(zhàn)是速度。數(shù)據(jù)越大,快速而準(zhǔn)確地找到所需信息就越難。
- Scaling 與 Latency:更大的模型與數(shù)據(jù)帶來更大負(fù)載;RAS 的額外步驟也會(huì)提高時(shí)延。
Dense RAG 與 RAS 的時(shí)延對(duì)比 [Source]
關(guān)鍵在于如何在規(guī)模化時(shí)保持速度與相關(guān)性,這需要新的索引方法與高并發(fā)請(qǐng)求處理機(jī)制。
- 自適應(yīng)策略:查詢難度不一。系統(tǒng)需具備自適應(yīng)能力,何時(shí)深入、何時(shí)淺嘗輒止,從而在性能與體驗(yàn)間取得平衡。
2. 知識(shí)質(zhì)量
RAS 依賴將雜亂的非結(jié)構(gòu)化文本轉(zhuǎn)為干凈的結(jié)構(gòu)化知識(shí),這并不容易。噪聲、矛盾與不一致都會(huì)削弱系統(tǒng)。
- 噪聲與不一致:自動(dòng)化構(gòu)建 Taxonomy 與 Knowledge Graph 的工具可能引入錯(cuò)誤或矛盾。
- 穩(wěn)健驗(yàn)證:需要更強(qiáng)的質(zhì)控方法,最好引入領(lǐng)域?qū)<覅⑴c并支持迭代改進(jìn)。
- 跨領(lǐng)域一致性:醫(yī)學(xué)、法律、工程等領(lǐng)域有差異化語境,需在尊重領(lǐng)域差異的前提下保持結(jié)構(gòu)化知識(shí)的連貫性。
3. 集成復(fù)雜度
即便檢索快速、知識(shí)高質(zhì),結(jié)構(gòu)化信息與 LLM 推理的深度融合仍然最為棘手。
- 融合異源:知識(shí)來源多樣、可能沖突、重疊或過時(shí)。系統(tǒng)需要解決與更新機(jī)制。
- 一致性維護(hù):新數(shù)據(jù)加入時(shí),舊知識(shí)需增量更新與沖突消解,保持整體一致。
- 實(shí)時(shí)適配:LLM 既要準(zhǔn)確信息,也要實(shí)時(shí)性,要求框架能動(dòng)態(tài)攝取與整合信息。
- 性能權(quán)衡:更多結(jié)構(gòu)意味著更多計(jì)算開銷,需要在推理能力與效率之間取得平衡。
研究機(jī)會(huì)
隨著數(shù)據(jù)類型、規(guī)模與復(fù)雜度增長,RAS 仍在演進(jìn),未來有多條有前景的方向。
多模態(tài)知識(shí)集成
當(dāng)下數(shù)據(jù)不僅是文本,還有圖像、視頻、音頻等。未來 RAS 需要無縫處理多模態(tài),構(gòu)建統(tǒng)一索引,跨模態(tài)建立語義連接(如把視頻片段關(guān)聯(lián)到文本、把圖像關(guān)聯(lián)到音頻描述)。融合 vision-language 模型與文本編碼器的神經(jīng)架構(gòu)是方向之一,使 LLM 能跨模態(tài)推理并在回答中引用非文本線索。
跨語言系統(tǒng)
知識(shí)不受語言限制,但大多數(shù)結(jié)構(gòu)化系統(tǒng)仍受限于語言。多語言嵌入與平行語料可幫助構(gòu)建跨語言的 Taxonomy;遷移學(xué)習(xí)可將高資源語言的結(jié)構(gòu)遷移到低資源語言。標(biāo)準(zhǔn)化的跨語基準(zhǔn)與健壯的領(lǐng)域自適應(yīng)方法將進(jìn)一步提高準(zhǔn)確性。
交互式與自我精煉系統(tǒng)
靜態(tài)檢索有其上限。用戶常希望通過對(duì)話自然細(xì)化查詢。交互式界面可以支持這一點(diǎn);同時(shí),借助強(qiáng)化學(xué)習(xí)或元學(xué)習(xí)的自我精煉機(jī)制,系統(tǒng)能自檢自糾;若還能解釋修正步驟并結(jié)合用戶反饋,將更聰明也更透明。
人機(jī)協(xié)作框架
在復(fù)雜結(jié)構(gòu)化任務(wù)中,人類專家仍不可或缺。專家可精煉 Taxonomy、審查邊界案例;眾包可幫助保持?jǐn)?shù)據(jù)新鮮與相關(guān)。人機(jī)協(xié)作還有助于確保隱私與公平。機(jī)器的規(guī)模與人的判斷結(jié)合,才能發(fā)揮最大價(jià)值。
個(gè)性化知識(shí)投遞
用戶訴求各異。個(gè)性化通過引入用戶畫像、歷史行為或直接反饋,使檢索更相關(guān)。同時(shí)需內(nèi)置隱私保護(hù)。隨著時(shí)間推移,系統(tǒng)可在核心架構(gòu)之上疊加上下文線索以自適應(yīng)。
結(jié)語
Retrieval and Structuring(RAS)是推動(dòng) LLM 從“驚艷但不完美”邁向“可靠、知識(shí)驅(qū)動(dòng)”的下一步。
傳統(tǒng) RAG 通過引入外部文檔緩解了部分問題,但面對(duì)雜亂無章、重復(fù)、缺失或難以解析的非結(jié)構(gòu)化數(shù)據(jù)時(shí)仍會(huì)失靈。
RAS 的核心很簡單:把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)成結(jié)構(gòu)化、可驗(yàn)證的知識(shí)。通過文本結(jié)構(gòu)化構(gòu)建 Taxonomy、創(chuàng)建層級(jí)、抽取實(shí)體,進(jìn)而組織成可用的 Knowledge Graph。
當(dāng)然,RAS 仍面臨挑戰(zhàn):檢索需更快、更可擴(kuò)展;Knowledge Graph 隨增長需保持準(zhǔn)確與一致;結(jié)構(gòu)化數(shù)據(jù)需要持續(xù)維護(hù)、精煉與驗(yàn)證。
展望未來,RAS 將走向更深的集成與更強(qiáng)的適應(yīng)性,包括跨文本、圖像、視頻、音頻等多模態(tài)的系統(tǒng),以及跨語言共享知識(shí)的結(jié)構(gòu)。
參考文獻(xiàn)
[1] A Survey on Retrieval And Structuring Augmented Generation with Large Language Models
[2] RAS: Retrieval-And-Structuring for Knowledge-Intensive LLM Generation




























