偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="4x9cv"><tt id="4x9cv"><mark id="4x9cv"></mark></tt></abbr>

<legend id="4x9cv"><li id="4x9cv"></li></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

為什么你的 RAG 系統(tǒng)在復(fù)雜問題上失靈？

作者：AI研究生 2025-10-28 01:10:00

Retrieval and Structuring（RAS）是推動(dòng) LLM 從“驚艷但不完美”邁向“可靠、知識(shí)驅(qū)動(dòng)”的下一步。傳統(tǒng) RAG 通過引入外部文檔緩解了部分問題，但面對(duì)雜亂無章、重復(fù)、缺失或難以解析的非結(jié)構(gòu)化數(shù)據(jù)時(shí)仍會(huì)失靈。

本文通過 Retrieval and Structuring (RAS) 范式理解精準(zhǔn)推理與領(lǐng)域?qū)ｉL，并附實(shí)現(xiàn)示例

Large Language Models（LLM，大型語言模型）在文本生成和復(fù)雜推理方面展現(xiàn)了卓越能力。但它們并不完美。

當(dāng) LLM 用于真實(shí)世界場景時(shí)，會(huì)面臨多種挑戰(zhàn)：有時(shí)會(huì)出現(xiàn)“幻覺”，有時(shí)會(huì)給出過時(shí)的答案。

為了解決這些問題，引入了 Retrieval-Augmented Generation（RAG）。RAG 先從外部文檔檢索相關(guān)信息，以此為 LLM 的回答“接地氣”，顯著減少幻覺。

看起來是個(gè)好方案？還不完全是。

傳統(tǒng) RAG 往往把外部信息當(dāng)作原始、非結(jié)構(gòu)化的文本片段來處理。這些雜亂文本中常包含令人困惑或非原子化的信息，容易誤導(dǎo) LLM。同時(shí)，當(dāng)問題需要多步推理時(shí)，系統(tǒng)也會(huì)變得吃力。

為突破這些限制，Retrieval and Structuring（RAS）范式應(yīng)運(yùn)而生。RAS 在 RAG 基礎(chǔ)上增加了知識(shí)結(jié)構(gòu)化這一步。

本文將帶你了解 RAS 框架、各階段及其實(shí)現(xiàn)步驟。

為什么需要為 RAG 進(jìn)行結(jié)構(gòu)化？

結(jié)構(gòu)化通過把檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為有組織、可操作的知識(shí)，解決傳統(tǒng) RAG 的關(guān)鍵限制。

下面來理解在 RAG 中進(jìn)行數(shù)據(jù)結(jié)構(gòu)化的重要性。

1. 克服傳統(tǒng) RAG 的局限

傳統(tǒng) RAG 連接 LLM 與外部信息，以緩解幻覺和知識(shí)過時(shí)等問題。然而，RAG 仍然處理的是非結(jié)構(gòu)化文本片段。

非結(jié)構(gòu)化文本常包含無關(guān)細(xì)節(jié)，容易干擾模型，導(dǎo)致誤導(dǎo)性答案。

面對(duì)需要多步推理或需要有組織的領(lǐng)域知識(shí)的復(fù)雜問題，常規(guī) RAG 會(huì)很吃力。

2. 增強(qiáng) LLM 的生成與推理

把外部知識(shí)結(jié)構(gòu)化為諸如 Knowledge Graph（知識(shí)圖譜）之類的表示，是提升 LLM 輸出質(zhì)量與推理能力的關(guān)鍵。

當(dāng)答案構(gòu)建于結(jié)構(gòu)化知識(shí)之上，模型更不易產(chǎn)生幻覺。比如，KG-RAG 以 Knowledge Graph 引導(dǎo)模型，使得回答更準(zhǔn)確、更有依據(jù)。

結(jié)構(gòu)化數(shù)據(jù)能讓模型看到事實(shí)之間的連接，從而應(yīng)對(duì)需要更深層推理的復(fù)雜問題。

與閉源和開源模型的對(duì)比顯示，RAS 能顯著提升 AI 應(yīng)用的效果。

![RAS 的性能對(duì)比 - 與閉源/開源模型 [Source]]](https://miro.medium.com/1*OiBbYIHuV9-AkIgkbtc6Kg.png)

什么是 RAS？

Retrieval And Structuring（RAS）范式在傳統(tǒng) RAG 基礎(chǔ)上引入 Taxonomy 和 Knowledge Graph 等知識(shí)結(jié)構(gòu)化技術(shù)，將非結(jié)構(gòu)化文本轉(zhuǎn)化為有組織的知識(shí)，以增強(qiáng)推理與可驗(yàn)證性。

RAS 將三個(gè)關(guān)鍵組件統(tǒng)一到一個(gè)框架中：信息檢索、結(jié)構(gòu)化知識(shí)表示（如 Knowledge Graph）以及 LLM。

下面用一個(gè)通俗的版本來說明 RAS。

傳統(tǒng) LLM 只依賴訓(xùn)練中“記住”的內(nèi)容（可能過時(shí)或不完整），因此可能猜測甚至“幻覺”答案。

RAG（Retrieval-Augmented Generation）為解決幻覺與過時(shí)/專有數(shù)據(jù)問題而發(fā)展，讓 LLM 先查資料（檢索非結(jié)構(gòu)化文本片段）。問題在于，檢索回來的是一大堆雜亂文本，信息不原子且容易誤導(dǎo)。

RAS（Retrieval-And-Structuring）發(fā)展出一種更強(qiáng)的策略，用于徹底消除“臟數(shù)據(jù)”的困擾：

Step 1: Retrieval——LLM 搜索所有相關(guān)文檔。
Step 2: Structuring——不直接拉取原始文本，而是訪問組織化的數(shù)據(jù)（如 Knowledge Graph 或 Taxonomy），消除混淆并提煉事實(shí)與關(guān)系。
Step 3: Generation——LLM 基于這個(gè)組織化的 Knowledge Graph 構(gòu)建事實(shí)正確、可驗(yàn)證的答案。

RAS 范式抽象示意 [Source]

本質(zhì)上，RAS 不僅教會(huì) LLM 如何找到信息，還教它如何正確組織與運(yùn)用信息進(jìn)行推理。

RAS 范式的基礎(chǔ)原則

RAS 提升了 LLM 執(zhí)行知識(shí)密集型任務(wù)的能力，并促進(jìn)更高效的知識(shí)發(fā)現(xiàn)。其核心是有效使用結(jié)構(gòu)化數(shù)據(jù)，改進(jìn)檢索流程與 LLM 輸出質(zhì)量：

1. Structure-Enhanced Retrieval（結(jié)構(gòu)增強(qiáng)檢索：更聰明地找知識(shí)）

結(jié)構(gòu)化技術(shù)幫助檢索系統(tǒng)精準(zhǔn)找到 LLM 需要的內(nèi)容，尤其在復(fù)雜或領(lǐng)域特定的問題上。三種基礎(chǔ)方法：

Taxonomy-Based Approaches：不再只做通用搜索，而是使用領(lǐng)域特定的主題 Taxonomy。搜索由領(lǐng)域結(jié)構(gòu)引導(dǎo)，不必依賴大量標(biāo)注數(shù)據(jù)。
Knowledge Graph（KG）-Based Approaches：使用 Knowledge Graph 提升檢索質(zhì)量。例如 KG-RAG 讓 LLM 按圖逐步推理，聚焦實(shí)體及關(guān)系而非僅關(guān)鍵詞，從而更準(zhǔn)確。
The Iterative Cycle：采用迭代循環(huán)。先由“Taxonomy 增強(qiáng)的檢索器”找到相關(guān)文檔，立即結(jié)構(gòu)化為子圖以更新“面向查詢的 KG”。LLM 基于該 KG 回答問題，必要時(shí)再生成聚焦的子查詢，開啟新一輪精煉檢索。

2. Structure-Enhanced LLM Generation（結(jié)構(gòu)增強(qiáng)生成：更聰明地用知識(shí)）

在得到結(jié)構(gòu)化知識(shí)后，關(guān)鍵是利用它增強(qiáng) LLM 的回答。結(jié)構(gòu)增強(qiáng)生成將模型回答錨定在顯式知識(shí)結(jié)構(gòu)上，顯著減少幻覺并提升事實(shí)一致性。

ToG（Think-on-Graph）通過引導(dǎo)式提示在 KG 上直接推理，逐步構(gòu)建顯式推理鏈。
GoT（Graph-of-Thought）將 LLM 的推理過程結(jié)構(gòu)化為圖，而非簡單的線性鏈，支持多路徑探索和循環(huán)思考等復(fù)雜模式。
其他技術(shù)如 GraphRAG 將復(fù)雜結(jié)構(gòu)化知識(shí)濃縮為文本摘要，使 LLM 能處理需要對(duì)語料全局理解的復(fù)雜查詢。

RAS 范式基礎(chǔ)原則 - 圖片由作者使用 Napkin.ai 制作

為 RAG 創(chuàng)建并添加結(jié)構(gòu)的技術(shù)與實(shí)現(xiàn)

1. 為數(shù)據(jù)添加簡單結(jié)構(gòu)

添加結(jié)構(gòu)涉及多個(gè)步驟：從 Taxonomy 構(gòu)建開始，隨后進(jìn)行 Taxonomy 豐富、實(shí)體抽取與 Knowledge Graph 創(chuàng)建。

為數(shù)據(jù)添加簡單結(jié)構(gòu)的步驟 - 作者：Vivedha Elango

Step 1: 創(chuàng)建核心的結(jié)構(gòu)化表示（Taxonomies 與 Entities）

該階段建立領(lǐng)域知識(shí)的組織結(jié)構(gòu)，第一步通常是構(gòu)建一個(gè) Taxonomy。

什么是 Taxonomy？

Taxonomy 是一種樹狀結(jié)構(gòu)，從上層的廣義類別（父節(jié)點(diǎn)）組織到下層更具體的類別（子節(jié)點(diǎn)）。在文本挖掘中，Taxonomy 有助于結(jié)構(gòu)化標(biāo)簽與組織信息。

Taxonomy 構(gòu)建從一個(gè)“seed”起步。不同方法在寬度與深度上擴(kuò)展 seed，并在后續(xù)調(diào)整整體結(jié)構(gòu)。

HiExpan 通過實(shí)體擴(kuò)展來生長 Taxonomy，并用詞類比進(jìn)行細(xì)化。它面向任務(wù)地從領(lǐng)域語料中構(gòu)建 Taxonomy。用戶可提供 seed Taxonomy 進(jìn)行引導(dǎo)，確保結(jié)果與需求匹配。其流程會(huì)自動(dòng)生成關(guān)鍵詞列表，基于 seed 逐步擴(kuò)展各節(jié)點(diǎn)并遞歸拓展子節(jié)點(diǎn)集，保持子節(jié)點(diǎn)組的一致性與相關(guān)性，并提供弱監(jiān)督關(guān)系抽取模塊。

任務(wù)引導(dǎo)的 Taxonomy 構(gòu)建：用戶提供 seed 樹，系統(tǒng)從原始語料中抽取關(guān)鍵詞并自動(dòng)生成 Taxonomy [Source]層級(jí)樹擴(kuò)展算法概覽 [Source]

CoRel 使用預(yù)訓(xùn)練語言模型學(xué)習(xí)可泛化的父子關(guān)系。ColRel 提供一種更契合用戶興趣的 Taxonomy 構(gòu)建方式：以用戶提供的 seed Taxonomy 與語料為起點(diǎn)，生成覆蓋更豐富的定制化 Taxonomy。每個(gè)節(jié)點(diǎn)是一個(gè)相關(guān)術(shù)語簇，使得結(jié)構(gòu)更有意義、更貼近用戶需求。其核心模塊包括：

Relation Transferring：學(xué)習(xí)用戶關(guān)注的關(guān)系，并在不同路徑間遷移，從而在寬度與深度上擴(kuò)展結(jié)構(gòu)，獲得更細(xì)致與更廣的層級(jí)。

Concept Learning：通過對(duì) Taxonomy 與語料進(jìn)行聯(lián)合嵌入，讓每個(gè)概念由一組一致的相關(guān)術(shù)語來表示，以增強(qiáng)語義。

Seed 引導(dǎo)的主題 Taxonomy 構(gòu)建 [Source]

Step 2: Taxonomy Enrichment

該步驟為已構(gòu)建的 Taxonomy 節(jié)點(diǎn)關(guān)聯(lián)描述性文本（如關(guān)鍵詞），使每個(gè)節(jié)點(diǎn)更具信息性與區(qū)分度，并在豐富過程中顯式建模樹狀結(jié)構(gòu)。

TaxoGen：遞歸地對(duì)詞向量進(jìn)行聚類，并用本地語料細(xì)化簇。它將相關(guān)術(shù)語聚為單一主題，先用嵌入捕捉語義，再用特殊聚類逐級(jí)細(xì)化主題，確保一般性術(shù)語位于高層、具體術(shù)語位于低層。隨后在與小主題相關(guān)的本地語料上重學(xué)嵌入，以分辨細(xì)微差別，最終自動(dòng)產(chǎn)出清晰有用的 Taxonomy。

TaxoGen 概覽 [Source]

NetTaxo：在 TaxoGen 基礎(chǔ)上引入網(wǎng)絡(luò)結(jié)構(gòu)信息，讓文檔之間的連接與文本內(nèi)容共同作用，構(gòu)建更豐富、更準(zhǔn)確的主題層級(jí)，更易發(fā)現(xiàn)主題及其子主題，提升可用性與信息量。

NetTaxo 概覽 [Source]

Step 3: Information Extraction（實(shí)體與關(guān)系挖掘）

Information Extraction（IE）聚焦于抽取實(shí)體級(jí)信息，作為知識(shí)結(jié)構(gòu)化的基石。該步驟識(shí)別現(xiàn)實(shí)世界實(shí)體與其關(guān)系，是構(gòu)建 Knowledge Graph 的關(guān)鍵。

常用技術(shù)包括：

Entity Mining（如 Named Entity Recognition，NER）
Fine-Grained Entity Typing（FET，將實(shí)體歸類進(jìn)本體/ontology）
Relation Extraction

Step 4: Knowledge Graph Construction（KG）

在該步驟中，將抽取的信息實(shí)體化為 Knowledge Graph（KG）：用節(jié)點(diǎn)表示實(shí)體，用邊表示關(guān)系。

典型技術(shù)與框架包括：

Pipelined Methods：歷史上常用 Open Information Extraction（OpenIE）工具抽取三元組，再進(jìn)行過濾與融合。OpenIE 能抽取開放域的主語-關(guān)系-賓語三元組，并產(chǎn)出對(duì)應(yīng)蘊(yùn)含句片段（存于 CoreMap 的 EntailedSentencesAnnotation 鍵）。

OpenIE 工作流概覽 [Source]

End-to-End Models：如 REBEL 等框架直接利用 Pre-trained Language Models 將原始文本端到端轉(zhuǎn)成結(jié)構(gòu)化知識(shí)。
LLM-based Construction：如 KnowledgeGraph GPT，直接通過提示 LLM（如 GPT-4）將純文本轉(zhuǎn)為 KG。

以上步驟構(gòu)成了簡單 RAS 循環(huán)所需的流程與可用框架，下面的流程圖有助于整體把握。

為 RAG 添加簡單結(jié)構(gòu)的實(shí)現(xiàn)

kg-gen 包提供了便捷實(shí)現(xiàn)。它是一個(gè) text-to-KG 生成器，使用 LLM 從純文本直接構(gòu)建高質(zhì)量圖。kg-gen 會(huì)把相近實(shí)體聚類，降低稀疏性、提升可用性。通過 pip install kg-gen 可安裝為 Python 庫。

from kg_gen import KGGen

# Initialize KGGen with optional configuration
kg = KGGen(
  model="openai/gpt-4o",  # Default model
  temperature=0.0,        # Default temperature
  api_key="YOUR_API_KEY"# Optional if set in environment or using a local model
)

# EXAMPLE 1: Single string with context
text_input = "Linda is Josh's mother. Ben is Josh's brother. Andrew is Josh's father."
graph_1 = kg.generate(
  input_data=text_input,
  context="Family relationships"
)
# Output: 
# entities={'Linda', 'Ben', 'Andrew', 'Josh'} 
# edges={'is brother of', 'is father of', 'is mother of'} 
# relations={('Ben', 'is brother of', 'Josh'), 
#           ('Andrew', 'is father of', 'Josh'), 
#           ('Linda', 'is mother of', 'Josh')}

對(duì)于長文本，可通過 chunk_size 參數(shù)分塊處理：

graph = kg.generate(
  input_data=large_text,
  chunk_size=5000  # Process in chunks of 5000 characters
)

你還可以在生成時(shí)或之后對(duì)實(shí)體與關(guān)系進(jìn)行聚類：

# During generation
graph = kg.generate(
  input_data=text,
  cluster=True,
  context="Optional context to guide clustering"
)

# Or after generation
clustered_graph = kg.cluster(
  graph,
  context="Optional context to guide clustering"
)

聚合多個(gè)圖

使用 aggregate 方法合并多個(gè)圖：

graph1 = kg.generate(input_data=text1)
graph2 = kg.generate(input_data=text2)
combined_graph = kg.aggregate([graph1, graph2])

2. 進(jìn)階：動(dòng)態(tài)添加結(jié)構(gòu)（迭代式 RAS 循環(huán)）

在進(jìn)階 RAS 系統(tǒng)中，結(jié)構(gòu)化過程通常是動(dòng)態(tài)與迭代的，結(jié)合 Taxonomy 與 KG，針對(duì)查詢定制上下文。

該技術(shù)適用于更靈活的高級(jí) RAG 應(yīng)用：動(dòng)態(tài)構(gòu)建并細(xì)化與用戶查詢強(qiáng)相關(guān)的結(jié)構(gòu)化知識(shí)上下文。

RAS 如何構(gòu)建與使用知識(shí)來回答問題，可分為四個(gè)關(guān)鍵階段：

Stage1: Action Planning（規(guī)劃所需信息）

需求評(píng)估：Planner 模型先檢查主問題，判斷現(xiàn)有知識(shí)是否足夠。
無需檢索：若可直接作答，則進(jìn)入生成階段。
生成子查詢：若知識(shí)不足，Planner 會(huì)生成聚焦的子查詢以彌補(bǔ)特定知識(shí)缺口。該迭代規(guī)劃機(jī)制突破了一次性檢索方法的局限。

Stage 2: Theme-Scoped Retrieval（主題域檢索）

主題域劃定：通過分類器確定子查詢的主題分布，并據(jù)此限定到主題子語料。
密集檢索：僅在該子語料內(nèi)進(jìn)行語義匹配以找到最相關(guān)文本，提高效率與相關(guān)性。

Stage 3: Dynamic Knowledge Structuring（動(dòng)態(tài)知識(shí)結(jié)構(gòu)化）

文本到三元組：將檢索到的文本轉(zhuǎn)為知識(shí)三元組（subject-predicate-object）。
迭代豐富：將新事實(shí)并入隨查詢演化的 KG，使其逐步擴(kuò)展。
再評(píng)估：Action Planner 基于更新后的 KG 判斷是否足以回答主問題，否則生成下一輪子查詢。

Stage 4: Knowledge-Augmented Generation（結(jié)構(gòu)增強(qiáng)生成）

利用結(jié)構(gòu)：Answerer 模型使用累積的 KG、子查詢鏈與檢索事實(shí)生成最終答案。
輸出準(zhǔn)確：在 KG 的精確結(jié)構(gòu)化知識(shí)支撐下，回答更準(zhǔn)確、連貫，且優(yōu)于舊式 RAG 在復(fù)雜任務(wù)上的表現(xiàn)。

下面的流程圖概括了迭代式 RAS 循環(huán)的步驟。

RAS 步驟 - 作者：Vivedha Elango

迭代式 RAS 的實(shí)現(xiàn)

RAS 論文（鏈接）提供了代碼實(shí)現(xiàn)（GitHub 鏈接）。你可按說明搭建并在復(fù)雜查詢上測試其效果。

性能對(duì)比 [Source]

RAS 的技術(shù)挑戰(zhàn)

Retrieval and Structuring（RAS）為讓 LLM 更聰明、更實(shí)用開辟了新路，但仍有諸多挑戰(zhàn)。主要集中在三方面：檢索效率、知識(shí)質(zhì)量與集成復(fù)雜度。

1. 檢索效率

首要挑戰(zhàn)是速度。數(shù)據(jù)越大，快速而準(zhǔn)確地找到所需信息就越難。

Scaling 與 Latency：更大的模型與數(shù)據(jù)帶來更大負(fù)載；RAS 的額外步驟也會(huì)提高時(shí)延。

Dense RAG 與 RAS 的時(shí)延對(duì)比 [Source]

關(guān)鍵在于如何在規(guī)模化時(shí)保持速度與相關(guān)性，這需要新的索引方法與高并發(fā)請(qǐng)求處理機(jī)制。

自適應(yīng)策略：查詢難度不一。系統(tǒng)需具備自適應(yīng)能力，何時(shí)深入、何時(shí)淺嘗輒止，從而在性能與體驗(yàn)間取得平衡。

2. 知識(shí)質(zhì)量

RAS 依賴將雜亂的非結(jié)構(gòu)化文本轉(zhuǎn)為干凈的結(jié)構(gòu)化知識(shí)，這并不容易。噪聲、矛盾與不一致都會(huì)削弱系統(tǒng)。

噪聲與不一致：自動(dòng)化構(gòu)建 Taxonomy 與 Knowledge Graph 的工具可能引入錯(cuò)誤或矛盾。
穩(wěn)健驗(yàn)證：需要更強(qiáng)的質(zhì)控方法，最好引入領(lǐng)域?qū)＜覅⑴c并支持迭代改進(jìn)。
跨領(lǐng)域一致性：醫(yī)學(xué)、法律、工程等領(lǐng)域有差異化語境，需在尊重領(lǐng)域差異的前提下保持結(jié)構(gòu)化知識(shí)的連貫性。

3. 集成復(fù)雜度

即便檢索快速、知識(shí)高質(zhì)，結(jié)構(gòu)化信息與 LLM 推理的深度融合仍然最為棘手。

融合異源：知識(shí)來源多樣、可能沖突、重疊或過時(shí)。系統(tǒng)需要解決與更新機(jī)制。
一致性維護(hù)：新數(shù)據(jù)加入時(shí)，舊知識(shí)需增量更新與沖突消解，保持整體一致。
實(shí)時(shí)適配：LLM 既要準(zhǔn)確信息，也要實(shí)時(shí)性，要求框架能動(dòng)態(tài)攝取與整合信息。
性能權(quán)衡：更多結(jié)構(gòu)意味著更多計(jì)算開銷，需要在推理能力與效率之間取得平衡。

研究機(jī)會(huì)

隨著數(shù)據(jù)類型、規(guī)模與復(fù)雜度增長，RAS 仍在演進(jìn)，未來有多條有前景的方向。

多模態(tài)知識(shí)集成

當(dāng)下數(shù)據(jù)不僅是文本，還有圖像、視頻、音頻等。未來 RAS 需要無縫處理多模態(tài)，構(gòu)建統(tǒng)一索引，跨模態(tài)建立語義連接（如把視頻片段關(guān)聯(lián)到文本、把圖像關(guān)聯(lián)到音頻描述）。融合 vision-language 模型與文本編碼器的神經(jīng)架構(gòu)是方向之一，使 LLM 能跨模態(tài)推理并在回答中引用非文本線索。

跨語言系統(tǒng)

知識(shí)不受語言限制，但大多數(shù)結(jié)構(gòu)化系統(tǒng)仍受限于語言。多語言嵌入與平行語料可幫助構(gòu)建跨語言的 Taxonomy；遷移學(xué)習(xí)可將高資源語言的結(jié)構(gòu)遷移到低資源語言。標(biāo)準(zhǔn)化的跨語基準(zhǔn)與健壯的領(lǐng)域自適應(yīng)方法將進(jìn)一步提高準(zhǔn)確性。

交互式與自我精煉系統(tǒng)

靜態(tài)檢索有其上限。用戶常希望通過對(duì)話自然細(xì)化查詢。交互式界面可以支持這一點(diǎn)；同時(shí)，借助強(qiáng)化學(xué)習(xí)或元學(xué)習(xí)的自我精煉機(jī)制，系統(tǒng)能自檢自糾；若還能解釋修正步驟并結(jié)合用戶反饋，將更聰明也更透明。

人機(jī)協(xié)作框架

在復(fù)雜結(jié)構(gòu)化任務(wù)中，人類專家仍不可或缺。專家可精煉 Taxonomy、審查邊界案例；眾包可幫助保持?jǐn)?shù)據(jù)新鮮與相關(guān)。人機(jī)協(xié)作還有助于確保隱私與公平。機(jī)器的規(guī)模與人的判斷結(jié)合，才能發(fā)揮最大價(jià)值。

個(gè)性化知識(shí)投遞

用戶訴求各異。個(gè)性化通過引入用戶畫像、歷史行為或直接反饋，使檢索更相關(guān)。同時(shí)需內(nèi)置隱私保護(hù)。隨著時(shí)間推移，系統(tǒng)可在核心架構(gòu)之上疊加上下文線索以自適應(yīng)。

結(jié)語

Retrieval and Structuring（RAS）是推動(dòng) LLM 從“驚艷但不完美”邁向“可靠、知識(shí)驅(qū)動(dòng)”的下一步。

傳統(tǒng) RAG 通過引入外部文檔緩解了部分問題，但面對(duì)雜亂無章、重復(fù)、缺失或難以解析的非結(jié)構(gòu)化數(shù)據(jù)時(shí)仍會(huì)失靈。

RAS 的核心很簡單：把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)成結(jié)構(gòu)化、可驗(yàn)證的知識(shí)。通過文本結(jié)構(gòu)化構(gòu)建 Taxonomy、創(chuàng)建層級(jí)、抽取實(shí)體，進(jìn)而組織成可用的 Knowledge Graph。

當(dāng)然，RAS 仍面臨挑戰(zhàn)：檢索需更快、更可擴(kuò)展；Knowledge Graph 隨增長需保持準(zhǔn)確與一致；結(jié)構(gòu)化數(shù)據(jù)需要持續(xù)維護(hù)、精煉與驗(yàn)證。

展望未來，RAS 將走向更深的集成與更強(qiáng)的適應(yīng)性，包括跨文本、圖像、視頻、音頻等多模態(tài)的系統(tǒng)，以及跨語言共享知識(shí)的結(jié)構(gòu)。

參考文獻(xiàn)

[1] A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

[2] RAS: Retrieval-And-Structuring for Knowledge-Intensive LLM Generation

責(zé)任編輯：武曉燕來源： AI大模型觀察站

RAG 系統(tǒng)LLM

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="b8fby"></style>