偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RAS 革命:從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng),破解 LLM 短板的新范式

發(fā)布于 2025-10-31 11:29
瀏覽
0收藏

作者 | 崔皓

審校 | 重樓

摘要

大型語(yǔ)言模型(LLMs)在文本生成和推理上表現(xiàn)出色,但存在幻覺生成、知識(shí)過時(shí)、缺乏領(lǐng)域?qū)I(yè)知識(shí)等短板。檢索增強(qiáng)生成(RAG)雖能通過外部文檔檢索增強(qiáng) LLMs 以減少幻覺、獲取最新信息,卻面臨摻雜誤導(dǎo)信息、缺少邏輯連接的問題。為此,檢索增強(qiáng)結(jié)構(gòu)化(RAS)技術(shù)應(yīng)運(yùn)而生,它整合知識(shí)結(jié)構(gòu)化技術(shù)(如分類法和知識(shí)圖譜),將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識(shí),提升推理和驗(yàn)證能力。

RAS 包含信息檢索、結(jié)構(gòu)化知識(shí)表示、大型語(yǔ)言模型三大組件,通過行動(dòng)規(guī)劃、主題范圍檢索、動(dòng)態(tài)知識(shí)結(jié)構(gòu)化、知識(shí)增強(qiáng)生成四個(gè)階段實(shí)現(xiàn) “檢索 - 結(jié)構(gòu)化 - 生成” 的迭代閉環(huán),在多任務(wù)場(chǎng)景下各項(xiàng)指標(biāo)顯著優(yōu)于 RAG。其中分類法是 RAS 實(shí)現(xiàn) “結(jié)構(gòu)增強(qiáng)檢索” 的關(guān)鍵,通過 HiExpan、CoRel 等技術(shù)從 “種子” 結(jié)構(gòu)出發(fā)擴(kuò)展寬度與深度,為檢索劃定主題范圍,提升效率與精度,助力 RAS 解決傳統(tǒng) RAG 的痛點(diǎn),實(shí)現(xiàn)更準(zhǔn)確的復(fù)雜推理與答案生成。

LLM 的短板

大型語(yǔ)言模型(LLMs)的出現(xiàn)徹底改變了自然語(yǔ)言處理領(lǐng)域,它們?cè)谖谋旧珊蛷?fù)雜推理方面展現(xiàn)出卓越的能力,這些模型通過對(duì)海量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,建立了對(duì)語(yǔ)言結(jié)構(gòu)的深層理解。

然而,當(dāng) LLMs 被部署到現(xiàn)實(shí)世界的應(yīng)用中時(shí),它們的局限性也隨之凸顯。主要挑戰(zhàn)包括:

1. 幻覺生成(Hallucination):LLMs 有時(shí)會(huì)生成聽起來合理但事實(shí)錯(cuò)誤的信息。

2. 知識(shí)過時(shí):LLMs 依賴其訓(xùn)練數(shù)據(jù)中可能過時(shí)或不完整的知識(shí)。

3. 缺乏領(lǐng)域?qū)I(yè)知識(shí):在科學(xué)研究、醫(yī)療保健或技術(shù)領(lǐng)域等知識(shí)密集型應(yīng)用中,LLMs 往往缺乏所需的精確且詳細(xì)的知識(shí)。


RAS 革命:從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng),破解 LLM 短板的新范式-AI.x社區(qū)

RAG 的出現(xiàn)

為了彌補(bǔ) LLMs 的這些缺陷,檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)范式被引入。

RAG 的核心機(jī)制是通過從外部文檔中檢索相關(guān)信息來增強(qiáng) LLMs,從而使模型的響應(yīng)具有事實(shí)基礎(chǔ)。RAG 通過將 LLMs 的響應(yīng)建立在檢索到的文檔之上,極大地減少了幻覺,并使其能夠訪問最新的信息。

傳統(tǒng)的 RAG 雖然能夠彌補(bǔ) LLMs 的短板,但也會(huì)帶來一些問題:

?摻雜誤導(dǎo)信息:RAG 在做文本切割時(shí),會(huì)保存大量的非結(jié)構(gòu)化文本,這些文本在表達(dá)含義時(shí)會(huì)給人含糊不清的感覺。從而誤導(dǎo) LLMs,導(dǎo)致搜索的結(jié)果偏離結(jié)果。同時(shí),非結(jié)構(gòu)化文本通常還包含無關(guān)的細(xì)節(jié),可能導(dǎo)致模型失準(zhǔn)。例如當(dāng)查詢:“魯迅的代表作品是什么?”的時(shí)候,RAG 檢索到的文本段落: “魯迅,原名周樹人,是中國(guó)現(xiàn)代文學(xué)的奠基人之一。近年來,以他生平為藍(lán)本的電視劇《覺醒年代》獲得了巨大的成功,引發(fā)了年輕人的熱烈討論。” RAG 在回答的同時(shí),在答案中還混入了大量關(guān)于電視劇的無關(guān)細(xì)節(jié)。這導(dǎo)致輸出的冗余或不準(zhǔn)確,我們需要通過提示詞或者其他手段針對(duì)回答內(nèi)容進(jìn)行二次處理。

?缺少邏輯連接:當(dāng)需要邏輯推理才能得到結(jié)果時(shí),非結(jié)構(gòu)化文本明顯顯得力不從心,因?yàn)槎温淙狈Φ拿鞔_邏輯連接,所以得到的結(jié)果往往不盡如人意,從而導(dǎo)致幻覺。例如,當(dāng)我們查詢:“中國(guó)最大的電商平臺(tái)‘淘寶’的創(chuàng)始人馬云,他畢業(yè)于哪所大學(xué)?”的時(shí)候,RAG 會(huì)分別搜索 2 個(gè)不同的文本塊:

文本塊 A: “淘寶網(wǎng)由馬云于2003年創(chuàng)立,是中國(guó)最大的在線購(gòu)物平臺(tái)。

文本塊 B: “馬云畢業(yè)于杭州師范學(xué)院的外語(yǔ)系?!?/p>

然后 LLM 需要通過 RAG 提供的兩個(gè)文本塊進(jìn)行推理,得到“淘寶”“馬云”“杭州師范學(xué)院”的關(guān)系。這也是 RAG 在處理復(fù)雜、多跳推理過程中的存在的問題。

RAS 的出現(xiàn)

面對(duì)傳統(tǒng) RAG 的諸多困境,一種更具創(chuàng)新性和適應(yīng)性的解決方案 :檢索增強(qiáng)結(jié)構(gòu)化(Retrieval-Augmented Structuring,RAS)應(yīng)運(yùn)而生。RAS 的特點(diǎn)是將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識(shí),并且適合復(fù)雜問題的推理。

與傳統(tǒng) RAG 相比,RAS 具有顯著的優(yōu)勢(shì)。它能夠有效減少無關(guān)細(xì)節(jié)和誤導(dǎo)信息對(duì)模型的干擾,因?yàn)樵诮Y(jié)構(gòu)化過程中,數(shù)據(jù)已經(jīng)經(jīng)過篩選和整理,模型能夠?qū)W⒂陉P(guān)鍵信息進(jìn)行處理,從而大大提高了回答的準(zhǔn)確性和可靠性。同時(shí),RAS 構(gòu)建的結(jié)構(gòu)化知識(shí)圖譜,能夠清晰展現(xiàn)事實(shí)之間的邏輯聯(lián)系,為模型提供了更豐富的語(yǔ)義理解,使其在處理復(fù)雜問題和多步推理任務(wù)時(shí)表現(xiàn)更為出色。

RAS通過結(jié)構(gòu)化的處理方式,從源頭上對(duì)數(shù)據(jù)進(jìn)行梳理和篩選。以 “魯迅的代表作品是什么?” 這一查詢?yōu)槔琑AG 檢索到的文本可能會(huì)混入如 “魯迅生平為藍(lán)本的電視劇《覺醒年代》獲得成功” 等無關(guān)細(xì)節(jié),使得答案冗余且不準(zhǔn)確。但 RAS 在面對(duì)同樣的問題時(shí),會(huì)運(yùn)用實(shí)體識(shí)別和關(guān)系提取技術(shù),會(huì)鏈接 “魯迅” 與 “代表作品” 兩個(gè)實(shí)體,并從文本中提取出如《狂人日記》《阿 Q 正傳》等真正相關(guān)的信息,排除一切無關(guān)干擾。

當(dāng)涉及到復(fù)雜的邏輯推理問題時(shí),特別是在處理多跳推理任務(wù)時(shí),RAG 往往難以讓 LLM 準(zhǔn)確把握信息之間的關(guān)聯(lián),從而導(dǎo)致幻覺和錯(cuò)誤的答案。例如,對(duì)于 “中國(guó)最大的電商平臺(tái)‘淘寶’的創(chuàng)始人馬云,他畢業(yè)于哪所大學(xué)?” 這樣的問題,RAG 需要分別搜索關(guān)于 “淘寶創(chuàng)始人” 和 “馬云畢業(yè)院?!?的文本塊,再讓 LLM 進(jìn)行推理關(guān)聯(lián),這一過程容易出現(xiàn)偏差。

與之形成鮮明對(duì)比的是,RAS 構(gòu)建的知識(shí)圖譜能夠清晰地展現(xiàn)實(shí)體之間的邏輯關(guān)系。在處理上述問題時(shí),RAS 所構(gòu)建的知識(shí)圖譜中已經(jīng)包含了 “淘寶 - 創(chuàng)始人 - 馬云” 以及 “馬云 - 畢業(yè)院校 - 杭州師范學(xué)院” 這樣的關(guān)系路徑。當(dāng)接收到查詢時(shí),RAS 可以迅速通過知識(shí)圖譜找到相關(guān)信息,并依據(jù)圖譜中的邏輯連接進(jìn)行準(zhǔn)確的推理,直接給出 “馬云畢業(yè)于杭州師范學(xué)院” 這一正確答案。

如下圖所示,相較于 RAG 相關(guān)模型,RAS 系列模型在短文本任務(wù)(如 TQA、2WQA、PopQA)、閉集任務(wù)(如 Pub、ARC)以及長(zhǎng)文本生成任務(wù)(如 ASQA、ELIS)的各項(xiàng)關(guān)鍵指標(biāo)上均展現(xiàn)出顯著優(yōu)勢(shì),無論是準(zhǔn)確率、綜合指標(biāo) F1,還是文本生成質(zhì)量評(píng)估指標(biāo) rouge、mauve,RAS 都更為出色,充分彰顯出其在多任務(wù)場(chǎng)景下相較于 RAG 的性能優(yōu)越性。

RAS 革命:從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng),破解 LLM 短板的新范式-AI.x社區(qū)

什么是 RAS?

好!通過上面的介紹,我們大致了解 RAS 比 RAG 要厲害,具體如何厲害,我們?cè)俸煤藐蛾叮AS 的關(guān)鍵技術(shù)是通過整合知識(shí)結(jié)構(gòu)化技術(shù)(如分類法和知識(shí)圖譜),將非結(jié)構(gòu)化文本轉(zhuǎn)化為有組織的知識(shí),從而增強(qiáng)推理和驗(yàn)證能力。

這句話說起來容易,理解起來有點(diǎn)抽象,再往下看,RAS 通過三個(gè)組件實(shí)現(xiàn)上述能力:

  1. 信息檢索組件:負(fù)責(zé)從外部知識(shí)源高效精準(zhǔn)查找與查詢相關(guān)的文本。采用主題范圍檢索機(jī)制,結(jié)合主題分類和語(yǔ)義相關(guān)性,先確定子查詢主題分布,再映射到文檔主題分布,從而檢索出主題特定子語(yǔ)料庫(kù),大幅縮小搜索空間,提升檢索效率與精度。
  2. 結(jié)構(gòu)化知識(shí)表示組件:是 RAS 區(qū)別于傳統(tǒng) RAG 的核心,將檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為知識(shí)圖譜、分類法等有組織的知識(shí)形式。通過動(dòng)態(tài)知識(shí)結(jié)構(gòu)化,利用 “文本到三元組” 模型把文本段落轉(zhuǎn)換為知識(shí)三元組,再迭代合并到特定查詢的知識(shí)圖譜中。
  3. 結(jié)構(gòu)化知識(shí)表示組件:是 RAS 區(qū)別于傳統(tǒng) RAG 的核心,將檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為知識(shí)圖譜、分類法等有組織的知識(shí)形式。通過動(dòng)態(tài)知識(shí)結(jié)構(gòu)化,利用 “文本到三元組” 模型把文本段落轉(zhuǎn)換為知識(shí)三元組,再迭代合并到特定查詢的知識(shí)圖譜中。
  4. 大型語(yǔ)言模型組件:是 RAS 的智能核心,承擔(dān)行動(dòng)規(guī)劃者和回答者角色。行動(dòng)規(guī)劃者依據(jù)當(dāng)前知識(shí)狀態(tài),決策是否直接回答、終止檢索或生成子查詢,引導(dǎo)檢索與推理過程;回答者在知識(shí)充足時(shí),利用結(jié)構(gòu)化知識(shí)生成最終答案,減少幻覺,提升事實(shí)一致性與復(fù)雜推理能力。

好!到這里,大概知道 RAS 之所以這么牛,是因?yàn)橛腥蠼M件,為了方便知道他們是如何工作的。通過如下一張圖來深入了解,RAS通過檢索獲取相關(guān)信息,再將其結(jié)構(gòu)化融入知識(shí)圖譜,最終借助 LLM 生成更準(zhǔn)確的內(nèi)容。體現(xiàn)了 “檢索 - 結(jié)構(gòu)化 - 生成” 的執(zhí)行過程。

RAS 革命:從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng),破解 LLM 短板的新范式-AI.x社區(qū)

可以將上述過程進(jìn)行拆解如下:

  1. 輸入與檢索階段:看圖的上半部分,以 “分類體系(Taxonomy)、檢索器(Retriever)、查詢(Query)” 為輸入,通過 “Retrieval(檢索)” 步驟,獲取 “主題和語(yǔ)義相關(guān)的文本(Thematically & Semantically Relevant Text)”。這里的分類體系為檢索劃定主題范圍,檢索器結(jié)合查詢精準(zhǔn)找到相關(guān)文本,確保檢索內(nèi)容的針對(duì)性。
  2. 結(jié)構(gòu)化階段:圖的左下角,對(duì)檢索到的文本進(jìn)行 “Structuring(結(jié)構(gòu)化)” 處理,將其轉(zhuǎn)化為 “子圖(Subgraph)”。這一步是 RAS 的關(guān)鍵創(chuàng)新之一,把非結(jié)構(gòu)化的文本信息轉(zhuǎn)化為更有條理、更易被模型利用的圖結(jié)構(gòu)知識(shí)單元。
  3. 知識(shí)圖譜與生成階段:右下角,生成的 “子圖(Subgraph)” 會(huì) “Update(更新)” 到 “知識(shí)圖譜(KG)” 中。隨后,“知識(shí)圖譜(KG)” 與 “大語(yǔ)言模型(LLM)” 結(jié)合,一方面 LLM 利用知識(shí)圖譜中的結(jié)構(gòu)化知識(shí)進(jìn)行 “Generation(生成)”,產(chǎn)出最終內(nèi)容;另一方面,生成過程中還會(huì)產(chǎn)生 “反饋與子查詢(Feedback & Subquery)”,回傳到最初的檢索環(huán)節(jié),形成迭代閉環(huán)。

通過對(duì)三個(gè)關(guān)鍵組件的了解,RAS不僅解決了搜索信息的問題,還解決了如何正確組織信息并通過推理得到答案的問題。

RAS 的四個(gè)階段

在了解了 RAS 的三個(gè)組件之后,再來看看它在執(zhí)行搜索任務(wù)時(shí),要經(jīng)歷的四個(gè)階段。如下圖所示:

RAS 革命:從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng),破解 LLM 短板的新范式-AI.x社區(qū)

這里通過一個(gè)表格對(duì)每個(gè)階段進(jìn)行描述:

階段

主要作用

階段 1:行動(dòng)規(guī)劃

戰(zhàn)略性地確定知識(shí)需求,并決定下一步是檢索、繼續(xù)檢索還是回答。

階段 2:主題范圍檢索

高效地在龐大的語(yǔ)料庫(kù)中找到主題和語(yǔ)義都最相關(guān)的原始文本。

階段 3:動(dòng)態(tài)知識(shí)結(jié)構(gòu)化

將檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為可供推理的、不斷演進(jìn)的知識(shí)圖譜。

階段 4:知識(shí)增強(qiáng)生成

利用積累的結(jié)構(gòu)化知識(shí)和推理鏈,生成最終的、準(zhǔn)確的答案。

上面表格的方式還是有點(diǎn)概念了,這里我們還是使用之前的例子,假設(shè)要搜索:“中國(guó)最大的電商平臺(tái)‘淘寶’的創(chuàng)始人馬云,他畢業(yè)于哪所大學(xué)?”??纯匆?jīng)歷如下哪幾個(gè)階段:

階段

動(dòng)作與輸出

RAS 機(jī)制的作用

階段 1:行動(dòng)規(guī)劃(迭代 0)

規(guī)劃者評(píng)估知識(shí)不足,生成子查詢 :“馬云畢業(yè)于哪所大學(xué)?”

LLM 作為規(guī)劃者,識(shí)別多跳問題需外部信息,指導(dǎo)檢索方向

階段 2:主題范圍檢索(迭代 0)

經(jīng)主題定界(如 “名人傳記”)縮小范圍,檢索到文本 :含 “馬云畢業(yè)于杭州師范學(xué)院的外語(yǔ)系?!?/p>

主題范圍檢索高效聚焦,避免全語(yǔ)料庫(kù)低效搜索

階段 3:動(dòng)態(tài)知識(shí)結(jié)構(gòu)化(迭代 0)

文本到三元組模型將文本轉(zhuǎn)換為事實(shí),添加到知識(shí)圖譜 (馬云,畢業(yè)于,杭州師范學(xué)院外語(yǔ)系)

把非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識(shí),構(gòu)建可推理的知識(shí)圖譜

階段 1:行動(dòng)規(guī)劃(迭代 1)

規(guī)劃者評(píng)估知識(shí)充足,輸出結(jié)果

LLM 利用結(jié)構(gòu)化知識(shí)自我評(píng)估,避免不必要的檢索迭代

階段 4:知識(shí)增強(qiáng)生成

回答者模型利用編碼后的內(nèi)容,生成最終答案:“馬云畢業(yè)于杭州師范學(xué)院。”

基于結(jié)構(gòu)化知識(shí)圖譜生成,確保答案準(zhǔn)確、事實(shí)一致,支持復(fù)雜推理

細(xì)心的你可能已經(jīng)注意到了, RAS 框架并非按 “1-2-3-4” 線性執(zhí)行,而是在階段 3 結(jié)束后回到階段 1,這一循環(huán)設(shè)計(jì)需要展開進(jìn)行說明:

RAS 多跳推理

傳統(tǒng) RAG 采用 “單次檢索 + 生成” 的線性架構(gòu),面對(duì)多跳推理(如 “淘寶創(chuàng)始人馬云的畢業(yè)院?!?需先關(guān)聯(lián) “淘寶 - 馬云” 再查 “馬云 - 院?!保┗蛐瓒嘈畔⑵蔚膹?fù)雜任務(wù)時(shí),常因信息不全導(dǎo)致推理失敗。RAS 的循環(huán)流程通過 “多次檢索 - 結(jié)構(gòu)化 - 評(píng)估” 的迭代,能持續(xù)補(bǔ)充知識(shí)缺口,避免單次檢索的局限性。

LLM 雙重角色

RAS 中 LLM 承擔(dān) “行動(dòng)規(guī)劃者” 與 “回答者” 兩種角色,這是階段 3 需返回階段 1 的關(guān)鍵前提:

  1. 行動(dòng)規(guī)劃者(階段 1):負(fù)責(zé) “評(píng)估知識(shí)狀態(tài)”,判斷當(dāng)前是否需要檢索、是否生成子查詢,是流程的 “決策者”;
  2. 回答者(階段 4):僅在規(guī)劃者判定知識(shí)充足后啟動(dòng),負(fù)責(zé) “利用結(jié)構(gòu)化知識(shí)生成答案”,是流程的 “輸出者”。階段 3 結(jié)束后回到階段 1,本質(zhì)是讓 “決策者” 重新評(píng)估新增結(jié)構(gòu)化知識(shí),而非直接讓 “輸出者” 盲目生成,確保答案基于完整信息。

動(dòng)態(tài)自我完善

階段 3 的核心輸出是 “迭代增強(qiáng)后的知識(shí)圖譜”,而回到階段 1 的本質(zhì)是基于這一輸出進(jìn)行 “知識(shí)完整性再評(píng)估”,具體流程如下:

  1. 階段 3 的關(guān)鍵反饋:階段 3 通過 “文本到三元組” 模型,將檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為知識(shí)三元組(如 “馬云 - 畢業(yè)于 - 杭州師范學(xué)院”),并合并到查詢特定的知識(shí)圖譜中,完成知識(shí)的 “結(jié)構(gòu)化補(bǔ)充”;
  2. 階段 1 的重新評(píng)估:增強(qiáng)后的知識(shí)會(huì)反饋給階段 1 的規(guī)劃者,規(guī)劃者結(jié)合主查詢 Q、歷史子查詢鏈及當(dāng)前知識(shí),判斷知識(shí)是否足夠:
  • 若知識(shí)仍有缺口(如多跳推理中僅完成第一跳),則生成新子查詢,重新進(jìn)入階段 2 檢索,開啟下一輪迭代;
  • 若知識(shí)已完整覆蓋主查詢需求,則輸出結(jié)果,終止迭代并進(jìn)入階段 4 生成答案。也就是說,階段 3→階段 1 的循環(huán),是 RAS 實(shí)現(xiàn) “動(dòng)態(tài)自我完善” 的核心:通過持續(xù)評(píng)估知識(shí)缺口、針對(duì)性補(bǔ)充結(jié)構(gòu)化知識(shí),確保最終生成的答案基于完整、精準(zhǔn)的信息。

RAS 分類法作用

前面通過介紹 RAS 處理查詢請(qǐng)求的四個(gè)階段,大致知道它的工作原理。如果留心的話,在第二階段提到了 RAS 的“分類法”。分類法是 RAS 框架實(shí)現(xiàn) “結(jié)構(gòu)增強(qiáng)檢索” 的關(guān)鍵。

1. 破解傳統(tǒng) RAG 的核心痛點(diǎn)

傳統(tǒng) RAG 將外部信息視為非結(jié)構(gòu)化文本段落,易因信息混亂(如無關(guān)細(xì)節(jié)、非原子化事實(shí))誤導(dǎo) LLM,且難以處理多跳推理等復(fù)雜任務(wù)。而分類法通過 “主題結(jié)構(gòu)化引導(dǎo)”,從根源上解決這兩個(gè)問題:既過濾無關(guān)信息,又為復(fù)雜查詢提供清晰的知識(shí)檢索路徑。

2. 在 RAS 第二階段的關(guān)鍵價(jià)值

分類法通過 “主題引導(dǎo)” 實(shí)現(xiàn) “精準(zhǔn)檢索 + 效率提升” 雙重目標(biāo):

  • 智能定位知識(shí)方向:RAS 的檢索并非依賴單純的關(guān)鍵詞或語(yǔ)義匹配,而是以領(lǐng)域特定分類為指引,鎖定查詢所屬主題。以 “馬云的畢業(yè)大學(xué)” 為例:當(dāng)系統(tǒng)接收子查詢 “馬云畢業(yè)于哪所大學(xué)?” 時(shí),分類法可直接將其歸類到 “人物傳記”主題,避免檢索范圍擴(kuò)散到無關(guān)領(lǐng)域(如 “商業(yè)”“科技” 等非核心主題)。
  • 顯著提升計(jì)算效率: “主題預(yù)過濾” 能大幅減少計(jì)算資源消耗。據(jù)消融研究顯示,相比僅依賴密集檢索的傳統(tǒng) RAG,基于分類法的主題范圍檢索可減少約 60% 的處理時(shí)間 ,因它先通過輕量級(jí)主題分類(僅 298 個(gè)類維度)完成初步篩選,再對(duì)縮小后的語(yǔ)料庫(kù)進(jìn)行高精度語(yǔ)義匹配。

RAS 分類法定義

在了解分類法的作用之后,再來看看它是如何實(shí)現(xiàn)的。RAS 中的分類法是一種 “樹狀層級(jí)結(jié)構(gòu)”,遵循 “從寬泛到具體” 的邏輯組織概念:頂部為父節(jié)點(diǎn)(如 “人物傳記”“教育”),下方延伸出子節(jié)點(diǎn)(如 “人物傳記→企業(yè)家→中國(guó)互聯(lián)網(wǎng)人物”“教育→高等教育→師范院?!保纬汕逦闹黝}分類體系。

在文本挖掘中,這種結(jié)構(gòu)可作為 “標(biāo)簽空間結(jié)構(gòu)化工具”,幫助系統(tǒng)快速識(shí)別文本所屬主題,為檢索提供明確指引。

分類法的構(gòu)建始于一個(gè) “種子”即最基礎(chǔ)的主題層級(jí)框架。后續(xù)通過不同技術(shù)(如實(shí)體擴(kuò)展、關(guān)系轉(zhuǎn)移)在寬度(增加同級(jí)主題)和深度(延伸子主題)上優(yōu)化,最終形成適配 RAS 需求的領(lǐng)域分類體系。

RAS 分類法實(shí)現(xiàn)

分類法在 RAS 中的核心應(yīng)用場(chǎng)景是第二階段的 “主題定界”,通過 “主題分類→分布轉(zhuǎn)換→子語(yǔ)料庫(kù)檢索” 三步流程,將子查詢映射到目標(biāo)語(yǔ)料,為后續(xù)密集檢索鋪路。

分類法的構(gòu)建需提前完成,換句話說就是在創(chuàng)建知識(shí)庫(kù)的時(shí)候就需要將原始信息按照一定結(jié)構(gòu)進(jìn)行保存,核心技術(shù)包括:

HiExpan 技術(shù)

通過 “實(shí)體擴(kuò)展 + 詞類比細(xì)化”,從領(lǐng)域文本語(yǔ)料中生成任務(wù)特定分類法,確保主題與業(yè)務(wù)場(chǎng)景適配;如下圖所示,展示了分類法(Taxonomy)的構(gòu)建流程,核心是從 “種子分類法” 出發(fā),結(jié)合文本語(yǔ)料庫(kù)中的術(shù)語(yǔ)列表,生成 “任務(wù)導(dǎo)向的分類法”,以實(shí)現(xiàn)更精準(zhǔn)的知識(shí)組織與檢索。

RAS 革命:從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng),破解 LLM 短板的新范式-AI.x社區(qū)

這里對(duì)圖中內(nèi)容進(jìn)行詳細(xì)講解:

  1. 文本語(yǔ)料庫(kù)(Text Corpora)與術(shù)語(yǔ)列表(Term List):左上角的文本語(yǔ)料庫(kù)是信息來源,從中提取出各類術(shù)語(yǔ),形成術(shù)語(yǔ)列表。這些術(shù)語(yǔ)涵蓋地理(如 U.S、Canada、Texas)、生物分類(如 Species、Genus、Family)、人物(如 M Zuckerberg、D Trump)、領(lǐng)域分類(如 Application、Material)等多個(gè)維度,為分類法構(gòu)建提供豐富的詞匯基礎(chǔ)。
  2. 用戶輸入 種子 分類法(Input Seed Taxonomy):左下角,用戶基于特定任務(wù)(如圖中是 “地理位置分類”),先定義一個(gè)初始的 “種子” 分類法。例如,用戶圍繞 “地理位置” 構(gòu)思出以 “Root” 為根,包含 “U.S”“China” 等父節(jié)點(diǎn),以及 “California”“Illinois” 等子節(jié)點(diǎn)的基礎(chǔ)結(jié)構(gòu)。
  3. 生成任務(wù)導(dǎo)向的分類法(Output Task-guided Taxonomy):系統(tǒng)結(jié)合術(shù)語(yǔ)列表和種子分類法,對(duì)分類結(jié)構(gòu)進(jìn)行擴(kuò)展與細(xì)化。在圖中,原本的 “U.S” 節(jié)點(diǎn)下新增了 “Texas”“Arizona”,“China” 節(jié)點(diǎn)下新增了 “Beijing”“Shanghai”,“Canada” 節(jié)點(diǎn)下新增了 “Ontario”“Quebec” 等子節(jié)點(diǎn),形成了分類體系。

RAS 革命:從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng),破解 LLM 短板的新范式-AI.x社區(qū)

CoRel 技術(shù)

利用預(yù)訓(xùn)練語(yǔ)言模型(PLMs)的關(guān)系轉(zhuǎn)移能力,擴(kuò)展分類法的寬度(增加新主題)和深度(細(xì)化子主題)。

ColRel 使用兩個(gè)主要模塊:

  1. 關(guān)系轉(zhuǎn)移:該模塊關(guān)注“關(guān)系”,可以將“關(guān)系”在分類法的不同路徑之間轉(zhuǎn)移,擴(kuò)展其寬度和深度。
  2. 概念學(xué)習(xí):加強(qiáng)了每個(gè)節(jié)點(diǎn)的含義。它通過嵌入分類法和文本語(yǔ)料庫(kù)來實(shí)現(xiàn),因此每個(gè)概念都由一組連貫、相關(guān)的術(shù)語(yǔ)表示。

依舊通過如下圖片加深理解。

RAS 革命:從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng),破解 LLM 短板的新范式-AI.x社區(qū)

從 “種子分類法” 到 “主題分類法”:對(duì)應(yīng)分類法構(gòu)建的流程:

  1. 圖片左側(cè)的 “Input 1: Seed Taxonomy” 是一個(gè)簡(jiǎn)單的 “種子” 分類結(jié)構(gòu),根節(jié)點(diǎn)下僅包含Dessert(甜點(diǎn))和Seafood(海鮮)兩個(gè)一級(jí)節(jié)點(diǎn),Dessert下又只有Cake(蛋糕)和Ice-cream(冰淇淋)兩個(gè)子節(jié)點(diǎn) —— 這與文字中 “分類法構(gòu)建通常始于一個(gè)基本的‘種子’結(jié)構(gòu)” 完全對(duì)應(yīng)。
  2. 圖片右側(cè)的 “Output: Topical Taxonomy” 則是擴(kuò)展后的完整分類體系:

a.寬度擴(kuò)展:根節(jié)點(diǎn)下新增了Food、Menu、Course、Dinner、Salad等新主題(對(duì)應(yīng)文字中 “擴(kuò)展分類法的寬度(增加新主題)”);

b.深度擴(kuò)展:原有節(jié)點(diǎn)的子層級(jí)被大幅細(xì)化(如Cake下新增Crème Br?lée、Tiramisu等子主題;Seafood下細(xì)分出Oysters、Crabs等子類別,且每個(gè)子類別又有更細(xì)的劃分)—— 這對(duì)應(yīng)文字中 “擴(kuò)展分類法的深度(細(xì)化子主題)”。

CoRel 技術(shù)的核心機(jī)制在圖片中的體現(xiàn)

前文提到 CoRel 的關(guān)系轉(zhuǎn)移模塊能 “泛化種子的父子關(guān)系,推導(dǎo)出更廣泛的概念層級(jí)聯(lián)系”,而圖片的擴(kuò)展過程正是這一機(jī)制的直觀體現(xiàn):

  1. 種子分類法中 “Dessert是Cake的父節(jié)點(diǎn)”“Seafood是Crab類的父節(jié)點(diǎn)” 這些初始父子關(guān)系,被模型學(xué)習(xí)并 “轉(zhuǎn)移” 到新的概念上(如新增的Salad與其子節(jié)點(diǎn)Dressing、Menu Items的層級(jí)關(guān)系,Oysters與其子節(jié)點(diǎn)Fresh Oysters、Raw Oysters的層級(jí)關(guān)系),從而實(shí)現(xiàn)分類法的自動(dòng)化擴(kuò)展。
  2. 文字中 “概念學(xué)習(xí)模塊通過嵌入分類法和文本語(yǔ)料庫(kù)(Input 2: Corpus),讓每個(gè)概念由連貫的術(shù)語(yǔ)表示”,也解釋了圖片中每個(gè)節(jié)點(diǎn)下為何會(huì)有一組具體、相關(guān)的術(shù)語(yǔ)(如Cake下的Crème Br?lée、Chocolate Cake等,都是對(duì) “蛋糕” 這一概念的連貫術(shù)語(yǔ)擴(kuò)展)。

總結(jié)

本文先闡述 LLMs 的短板,引出 RAG 范式,又指出其在信息誤導(dǎo)和邏輯連接上的不足,進(jìn)而介紹 RAS 技術(shù)。RAS 通過將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識(shí)(如知識(shí)圖譜、分類法),結(jié)合三大組件和四階段迭代流程,有效解決了傳統(tǒng) RAG 的問題,在多任務(wù)中性能更優(yōu)。分類法作為 RAS 的關(guān)鍵,借助 HiExpan 和 CoRel 技術(shù)從 “種子” 分類法擴(kuò)展而來,為檢索精準(zhǔn)定界,提升效率。RAS 的創(chuàng)新在于 “結(jié)構(gòu)化” 處理,使 LLMs 能基于完整、精準(zhǔn)的結(jié)構(gòu)化知識(shí)生成答案,尤其在復(fù)雜推理任務(wù)中表現(xiàn)突出,為 LLMs 在現(xiàn)實(shí)應(yīng)用中克服短板提供了有效方案,展現(xiàn)出在知識(shí)密集型領(lǐng)域的廣闊應(yīng)用前景。

作者介紹

崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗(yàn),10年分布式架構(gòu)經(jīng)驗(yàn)。

參考論文

??https://arxiv.org/pdf/2509.10697??

??https://arxiv.org/pdf/2502.10996v1??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
1條回復(fù)
按時(shí)間正序
/
按時(shí)間倒序
mb68d8cadca9420
mb68d8cadca9420

負(fù)責(zé)人:微 50149247 官網(wǎng) tl01353.com官網(wǎng) 98yl798.vip 點(diǎn)小黃人就是24小時(shí)在線/客服官網(wǎng) 有什么不會(huì)的可以問客服。

第一步,點(diǎn)擊主頁(yè)右上角的“注冊(cè)”填寫一個(gè)你想要的賬號(hào)。

第二步,在彈出的注冊(cè)窗口中,填寫手機(jī)號(hào)碼,驗(yàn)證碼和密碼等信息。然后勾選用戶協(xié)議,點(diǎn)擊“注冊(cè)”賬號(hào)。頁(yè)面會(huì)提示注冊(cè)成功賬號(hào)已存在,別人注冊(cè)過的,同一個(gè)賬號(hào)永久不會(huì)重復(fù)。

第三步,系統(tǒng)會(huì)向手機(jī)發(fā)送一條驗(yàn)證碼,輸入驗(yàn)證碼后,點(diǎn)擊“確認(rèn)”按鈕表示注冊(cè)好


回復(fù)
2025-10-31 13:09:34
回復(fù)
相關(guān)推薦