偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RAS 革命:從 RAG 到結(jié)構(gòu)化知識增強(qiáng),破解 LLM 短板的新范式

原創(chuàng) 精選
人工智能
檢索增強(qiáng)結(jié)構(gòu)化(RAS)技術(shù)整合知識結(jié)構(gòu)化技術(shù)(如分類法和知識圖譜),將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識,提升推理和驗證能力。

作者 | 崔皓

審校 | 重樓

摘要

大型語言模型(LLMs)在文本生成和推理上表現(xiàn)出色,但存在幻覺生成、知識過時、缺乏領(lǐng)域?qū)I(yè)知識等短板。檢索增強(qiáng)生成(RAG)雖能通過外部文檔檢索增強(qiáng) LLMs 以減少幻覺、獲取最新信息,卻面臨摻雜誤導(dǎo)信息、缺少邏輯連接的問題。為此,檢索增強(qiáng)結(jié)構(gòu)化(RAS)技術(shù)應(yīng)運(yùn)而生,它整合知識結(jié)構(gòu)化技術(shù)(如分類法和知識圖譜),將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識,提升推理和驗證能力。

RAS 包含信息檢索、結(jié)構(gòu)化知識表示、大型語言模型三大組件,通過行動規(guī)劃、主題范圍檢索、動態(tài)知識結(jié)構(gòu)化、知識增強(qiáng)生成四個階段實現(xiàn) 檢索 - 結(jié)構(gòu)化 - 生成 的迭代閉環(huán),在多任務(wù)場景下各項指標(biāo)顯著優(yōu)于 RAG。其中分類法是 RAS 實現(xiàn) 結(jié)構(gòu)增強(qiáng)檢索 的關(guān)鍵,通過 HiExpan、CoRel 等技術(shù)從 種子 結(jié)構(gòu)出發(fā)擴(kuò)展寬度與深度,為檢索劃定主題范圍,提升效率與精度,助力 RAS 解決傳統(tǒng) RAG 的痛點(diǎn),實現(xiàn)更準(zhǔn)確的復(fù)雜推理與答案生成。

LLM 的短板

大型語言模型(LLMs)的出現(xiàn)徹底改變了自然語言處理領(lǐng)域,它們在文本生成和復(fù)雜推理方面展現(xiàn)出卓越的能力,這些模型通過對海量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,建立了對語言結(jié)構(gòu)的深層理解。

然而,當(dāng) LLMs 被部署到現(xiàn)實世界的應(yīng)用中時,它們的局限性也隨之凸顯。主要挑戰(zhàn)包括:

1. 幻覺生成(Hallucination):LLMs 有時會生成聽起來合理但事實錯誤的信息。

2. 知識過時:LLMs 依賴其訓(xùn)練數(shù)據(jù)中可能過時或不完整的知識。

3. 缺乏領(lǐng)域?qū)I(yè)知識:在科學(xué)研究、醫(yī)療保健或技術(shù)領(lǐng)域等知識密集型應(yīng)用中,LLMs 往往缺乏所需的精確且詳細(xì)的知識。

RAG 的出現(xiàn)

為了彌補(bǔ) LLMs 的這些缺陷,檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)范式被引入。

RAG 的核心機(jī)制是通過從外部文檔中檢索相關(guān)信息來增強(qiáng) LLMs,從而使模型的響應(yīng)具有事實基礎(chǔ)。RAG 通過將 LLMs 的響應(yīng)建立在檢索到的文檔之上,極大地減少了幻覺,并使其能夠訪問最新的信息。

傳統(tǒng)的 RAG 雖然能夠彌補(bǔ) LLMs 的短板,但也會帶來一些問題:

?摻雜誤導(dǎo)信息:RAG 在做文本切割時,會保存大量的非結(jié)構(gòu)化文本,這些文本在表達(dá)含義時會給人含糊不清的感覺。從而誤導(dǎo) LLMs,導(dǎo)致搜索的結(jié)果偏離結(jié)果。同時,非結(jié)構(gòu)化文本通常還包含無關(guān)的細(xì)節(jié),可能導(dǎo)致模型失準(zhǔn)。例如當(dāng)查詢:魯迅的代表作品是什么?的時候,RAG 檢索到的文本段落: 魯迅,原名周樹人,是中國現(xiàn)代文學(xué)的奠基人之一。近年來,以他生平為藍(lán)本的電視劇《覺醒年代》獲得了巨大的成功,引發(fā)了年輕人的熱烈討論。 RAG 在回答的同時,在答案中還混入了大量關(guān)于電視劇的無關(guān)細(xì)節(jié)。這導(dǎo)致輸出的冗余或不準(zhǔn)確,我們需要通過提示詞或者其他手段針對回答內(nèi)容進(jìn)行二次處理。

?缺少邏輯連接:當(dāng)需要邏輯推理才能得到結(jié)果時,非結(jié)構(gòu)化文本明顯顯得力不從心,因為段落缺乏的明確邏輯連接,所以得到的結(jié)果往往不盡如人意,從而導(dǎo)致幻覺。例如,當(dāng)我們查詢:中國最大的電商平臺淘寶的創(chuàng)始人馬云,他畢業(yè)于哪所大學(xué)?的時候,RAG 會分別搜索 2 個不同的文本塊:

文本塊 A: 淘寶網(wǎng)由馬云于2003年創(chuàng)立,是中國最大的在線購物平臺。

文本塊 B: 馬云畢業(yè)于杭州師范學(xué)院的外語系。

然后 LLM 需要通過 RAG 提供的兩個文本塊進(jìn)行推理,得到淘寶”“馬云”“杭州師范學(xué)院的關(guān)系。這也是 RAG 在處理復(fù)雜、多跳推理過程中的存在的問題。

RAS 的出現(xiàn)

面對傳統(tǒng) RAG 的諸多困境,一種更具創(chuàng)新性和適應(yīng)性的解決方案 :檢索增強(qiáng)結(jié)構(gòu)化(Retrieval-Augmented Structuring,RAS)應(yīng)運(yùn)而生。RAS 的特點(diǎn)是將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識,并且適合復(fù)雜問題的推理。

與傳統(tǒng) RAG 相比,RAS 具有顯著的優(yōu)勢。它能夠有效減少無關(guān)細(xì)節(jié)和誤導(dǎo)信息對模型的干擾,因為在結(jié)構(gòu)化過程中,數(shù)據(jù)已經(jīng)經(jīng)過篩選和整理,模型能夠?qū)W⒂陉P(guān)鍵信息進(jìn)行處理,從而大大提高了回答的準(zhǔn)確性和可靠性。同時,RAS 構(gòu)建的結(jié)構(gòu)化知識圖譜,能夠清晰展現(xiàn)事實之間的邏輯聯(lián)系,為模型提供了更豐富的語義理解,使其在處理復(fù)雜問題和多步推理任務(wù)時表現(xiàn)更為出色。

RAS通過結(jié)構(gòu)化的處理方式,從源頭上對數(shù)據(jù)進(jìn)行梳理和篩選。以 魯迅的代表作品是什么? 這一查詢?yōu)槔?,RAG 檢索到的文本可能會混入如 魯迅生平為藍(lán)本的電視劇《覺醒年代》獲得成功 等無關(guān)細(xì)節(jié),使得答案冗余且不準(zhǔn)確。但 RAS 在面對同樣的問題時,會運(yùn)用實體識別和關(guān)系提取技術(shù),會鏈接 魯迅代表作品 兩個實體,并從文本中提取出如《狂人日記》《阿 Q 正傳》等真正相關(guān)的信息,排除一切無關(guān)干擾。

當(dāng)涉及到復(fù)雜的邏輯推理問題時,特別是在處理多跳推理任務(wù)時,RAG 往往難以讓 LLM 準(zhǔn)確把握信息之間的關(guān)聯(lián),從而導(dǎo)致幻覺和錯誤的答案。例如,對于 中國最大的電商平臺淘寶的創(chuàng)始人馬云,他畢業(yè)于哪所大學(xué)? 這樣的問題,RAG 需要分別搜索關(guān)于 淘寶創(chuàng)始人馬云畢業(yè)院校 的文本塊,再讓 LLM 進(jìn)行推理關(guān)聯(lián),這一過程容易出現(xiàn)偏差。

與之形成鮮明對比的是,RAS 構(gòu)建的知識圖譜能夠清晰地展現(xiàn)實體之間的邏輯關(guān)系。在處理上述問題時,RAS 所構(gòu)建的知識圖譜中已經(jīng)包含了 淘寶 - 創(chuàng)始人 - 馬云 以及 馬云 - 畢業(yè)院校 - 杭州師范學(xué)院 這樣的關(guān)系路徑。當(dāng)接收到查詢時,RAS 可以迅速通過知識圖譜找到相關(guān)信息,并依據(jù)圖譜中的邏輯連接進(jìn)行準(zhǔn)確的推理,直接給出 馬云畢業(yè)于杭州師范學(xué)院 這一正確答案。

如下圖所示,相較于 RAG 相關(guān)模型,RAS 系列模型在短文本任務(wù)(如 TQA、2WQA、PopQA)、閉集任務(wù)(如 Pub、ARC)以及長文本生成任務(wù)(如 ASQA、ELIS)的各項關(guān)鍵指標(biāo)上均展現(xiàn)出顯著優(yōu)勢,無論是準(zhǔn)確率、綜合指標(biāo) F1,還是文本生成質(zhì)量評估指標(biāo) rouge、mauve,RAS 都更為出色,充分彰顯出其在多任務(wù)場景下相較于 RAG 的性能優(yōu)越性。

什么是 RAS?

好!通過上面的介紹,我們大致了解 RAS 比 RAG 要厲害,具體如何厲害,我們再好好掰扯掰扯!RAS 的關(guān)鍵技術(shù)是通過整合知識結(jié)構(gòu)化技術(shù)(如分類法和知識圖譜),將非結(jié)構(gòu)化文本轉(zhuǎn)化為有組織的知識,從而增強(qiáng)推理和驗證能力。

這句話說起來容易,理解起來有點(diǎn)抽象,再往下看,RAS 通過三個組件實現(xiàn)上述能力:

  1. 信息檢索組件:負(fù)責(zé)從外部知識源高效精準(zhǔn)查找與查詢相關(guān)的文本。采用主題范圍檢索機(jī)制,結(jié)合主題分類和語義相關(guān)性,先確定子查詢主題分布,再映射到文檔主題分布,從而檢索出主題特定子語料庫,大幅縮小搜索空間,提升檢索效率與精度。
  2. 結(jié)構(gòu)化知識表示組件:是 RAS 區(qū)別于傳統(tǒng) RAG 的核心,將檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為知識圖譜、分類法等有組織的知識形式。通過動態(tài)知識結(jié)構(gòu)化,利用 文本到三元組 模型把文本段落轉(zhuǎn)換為知識三元組,再迭代合并到特定查詢的知識圖譜中。
  3. 結(jié)構(gòu)化知識表示組件:是 RAS 區(qū)別于傳統(tǒng) RAG 的核心,將檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為知識圖譜、分類法等有組織的知識形式。通過動態(tài)知識結(jié)構(gòu)化,利用 文本到三元組 模型把文本段落轉(zhuǎn)換為知識三元組,再迭代合并到特定查詢的知識圖譜中。
  4. 大型語言模型組件:是 RAS 的智能核心,承擔(dān)行動規(guī)劃者和回答者角色。行動規(guī)劃者依據(jù)當(dāng)前知識狀態(tài),決策是否直接回答、終止檢索或生成子查詢,引導(dǎo)檢索與推理過程;回答者在知識充足時,利用結(jié)構(gòu)化知識生成最終答案,減少幻覺,提升事實一致性與復(fù)雜推理能力。

好!到這里,大概知道 RAS 之所以這么牛,是因為有三大組件,為了方便知道他們是如何工作的。通過如下一張圖來深入了解,RAS通過檢索獲取相關(guān)信息,再將其結(jié)構(gòu)化融入知識圖譜,最終借助 LLM 生成更準(zhǔn)確的內(nèi)容。體現(xiàn)了 檢索 - 結(jié)構(gòu)化 - 生成 的執(zhí)行過程。

可以將上述過程進(jìn)行拆解如下:

  1. 輸入與檢索階段:看圖的上半部分,以 分類體系(Taxonomy)、檢索器(Retriever)、查詢(Query) 為輸入,通過 Retrieval(檢索) 步驟,獲取 主題和語義相關(guān)的文本(Thematically & Semantically Relevant Text)。這里的分類體系為檢索劃定主題范圍,檢索器結(jié)合查詢精準(zhǔn)找到相關(guān)文本,確保檢索內(nèi)容的針對性。
  2. 結(jié)構(gòu)化階段:圖的左下角,對檢索到的文本進(jìn)行 Structuring(結(jié)構(gòu)化) 處理,將其轉(zhuǎn)化為 子圖(Subgraph)。這一步是 RAS 的關(guān)鍵創(chuàng)新之一,把非結(jié)構(gòu)化的文本信息轉(zhuǎn)化為更有條理、更易被模型利用的圖結(jié)構(gòu)知識單元。
  3. 知識圖譜與生成階段:右下角,生成的 子圖(Subgraph)Update(更新)知識圖譜(KG) 中。隨后,知識圖譜(KG)大語言模型(LLM) 結(jié)合,一方面 LLM 利用知識圖譜中的結(jié)構(gòu)化知識進(jìn)行 Generation(生成),產(chǎn)出最終內(nèi)容;另一方面,生成過程中還會產(chǎn)生 反饋與子查詢(Feedback & Subquery),回傳到最初的檢索環(huán)節(jié),形成迭代閉環(huán)。

通過對三個關(guān)鍵組件的了解,RAS不僅解決了搜索信息的問題,還解決了如何正確組織信息并通過推理得到答案的問題。

RAS 的四個階段

在了解了 RAS 的三個組件之后,再來看看它在執(zhí)行搜索任務(wù)時,要經(jīng)歷的四個階段。如下圖所示

這里通過一個表格對每個階段進(jìn)行描述:

階段

主要作用

階段 1:行動規(guī)劃

戰(zhàn)略性地確定知識需求,并決定下一步是檢索、繼續(xù)檢索還是回答。

階段 2:主題范圍檢索

高效地在龐大的語料庫中找到主題和語義都最相關(guān)的原始文本。

階段 3:動態(tài)知識結(jié)構(gòu)化

將檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為可供推理的、不斷演進(jìn)的知識圖譜。

階段 4:知識增強(qiáng)生成

利用積累的結(jié)構(gòu)化知識和推理鏈,生成最終的、準(zhǔn)確的答案。

上面表格的方式還是有點(diǎn)概念了,這里我們還是使用之前的例子,假設(shè)要搜索:中國最大的電商平臺淘寶的創(chuàng)始人馬云,他畢業(yè)于哪所大學(xué)???纯匆?jīng)歷如下哪幾個階段:

階段

動作與輸出

RAS 機(jī)制的作用

階段 1:行動規(guī)劃(迭代 0)

規(guī)劃者評估知識不足,生成子查詢 :馬云畢業(yè)于哪所大學(xué)?

LLM 作為規(guī)劃者,識別多跳問題需外部信息,指導(dǎo)檢索方向

階段 2:主題范圍檢索(迭代 0)

經(jīng)主題定界(如 名人傳記)縮小范圍,檢索到文本 :含 馬云畢業(yè)于杭州師范學(xué)院的外語系。

主題范圍檢索高效聚焦,避免全語料庫低效搜索

階段 3:動態(tài)知識結(jié)構(gòu)化(迭代 0)

文本到三元組模型將文本轉(zhuǎn)換為事實,添加到知識圖譜 (馬云,畢業(yè)于,杭州師范學(xué)院外語系)

把非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識,構(gòu)建可推理的知識圖譜

階段 1:行動規(guī)劃(迭代 1)

規(guī)劃者評估知識充足,輸出結(jié)果

LLM 利用結(jié)構(gòu)化知識自我評估,避免不必要的檢索迭代

階段 4:知識增強(qiáng)生成

回答者模型利用編碼后的內(nèi)容,生成最終答案:馬云畢業(yè)于杭州師范學(xué)院。

基于結(jié)構(gòu)化知識圖譜生成,確保答案準(zhǔn)確、事實一致,支持復(fù)雜推理

細(xì)心的你可能已經(jīng)注意到了, RAS 框架并非按 1-2-3-4 線性執(zhí)行,而是在階段 3 結(jié)束后回到階段 1,這一循環(huán)設(shè)計需要展開進(jìn)行說明:

RAS 多跳推理

傳統(tǒng) RAG 采用 單次檢索 + 生成 的線性架構(gòu),面對多跳推理(如 淘寶創(chuàng)始人馬云的畢業(yè)院校 需先關(guān)聯(lián) 淘寶 - 馬云 再查 馬云 - 院校)或需多信息片段的復(fù)雜任務(wù)時,常因信息不全導(dǎo)致推理失敗。RAS 的循環(huán)流程通過 多次檢索 - 結(jié)構(gòu)化 - 評估 的迭代,能持續(xù)補(bǔ)充知識缺口,避免單次檢索的局限性。

LLM 雙重角色

RAS 中 LLM 承擔(dān) 行動規(guī)劃者回答者 兩種角色,這是階段 3 需返回階段 1 的關(guān)鍵前提:

  1. 行動規(guī)劃者(階段 1):負(fù)責(zé) 評估知識狀態(tài),判斷當(dāng)前是否需要檢索、是否生成子查詢,是流程的 決策者;
  2. 回答者(階段 4):僅在規(guī)劃者判定知識充足后啟動,負(fù)責(zé) 利用結(jié)構(gòu)化知識生成答案,是流程的 輸出者。階段 3 結(jié)束后回到階段 1,本質(zhì)是讓 決策者 重新評估新增結(jié)構(gòu)化知識,而非直接讓 輸出者 盲目生成,確保答案基于完整信息。

動態(tài)自我完善

階段 3 的核心輸出是 迭代增強(qiáng)后的知識圖譜,而回到階段 1 的本質(zhì)是基于這一輸出進(jìn)行 知識完整性再評估,具體流程如下:

  1. 階段 3 的關(guān)鍵反饋:階段 3 通過 文本到三元組 模型,將檢索到的非結(jié)構(gòu)化文本轉(zhuǎn)化為知識三元組(如 馬云 - 畢業(yè)于 - 杭州師范學(xué)院),并合并到查詢特定的知識圖譜中,完成知識的 結(jié)構(gòu)化補(bǔ)充;
  2. 階段 1 的重新評估:增強(qiáng)后的知識會反饋給階段 1 的規(guī)劃者,規(guī)劃者結(jié)合主查詢 Q、歷史子查詢鏈及當(dāng)前知識,判斷知識是否足夠:
  • 若知識仍有缺口(如多跳推理中僅完成第一跳),則生成新子查詢,重新進(jìn)入階段 2 檢索,開啟下一輪迭代;
  • 若知識已完整覆蓋主查詢需求,則輸出結(jié)果,終止迭代并進(jìn)入階段 4 生成答案。也就是說,階段 3階段 1 的循環(huán),是 RAS 實現(xiàn) 動態(tài)自我完善 的核心:通過持續(xù)評估知識缺口、針對性補(bǔ)充結(jié)構(gòu)化知識,確保最終生成的答案基于完整、精準(zhǔn)的信息。

RAS 分類法作用

前面通過介紹 RAS 處理查詢請求的四個階段,大致知道它的工作原理。如果留心的話,在第二階段提到了 RAS 的分類法。分類法是 RAS 框架實現(xiàn) 結(jié)構(gòu)增強(qiáng)檢索 的關(guān)鍵。

1. 破解傳統(tǒng) RAG 的核心痛點(diǎn)

傳統(tǒng) RAG 將外部信息視為非結(jié)構(gòu)化文本段落,易因信息混亂(如無關(guān)細(xì)節(jié)、非原子化事實)誤導(dǎo) LLM,且難以處理多跳推理等復(fù)雜任務(wù)。而分類法通過 主題結(jié)構(gòu)化引導(dǎo),從根源上解決這兩個問題:既過濾無關(guān)信息,又為復(fù)雜查詢提供清晰的知識檢索路徑。

2. 在 RAS 第二階段的關(guān)鍵價值

分類法通過 主題引導(dǎo) 實現(xiàn) 精準(zhǔn)檢索 + 效率提升 雙重目標(biāo):

  • 智能定位知識方向:RAS 的檢索并非依賴單純的關(guān)鍵詞或語義匹配,而是以領(lǐng)域特定分類為指引,鎖定查詢所屬主題。馬云的畢業(yè)大學(xué) 為例:當(dāng)系統(tǒng)接收子查詢 馬云畢業(yè)于哪所大學(xué)? 時,分類法可直接將其歸類到 人物傳記主題,避免檢索范圍擴(kuò)散到無關(guān)領(lǐng)域(如 商業(yè)”“科技 等非核心主題)。
  • 顯著提升計算效率主題預(yù)過濾 能大幅減少計算資源消耗。據(jù)消融研究顯示,相比僅依賴密集檢索的傳統(tǒng) RAG,基于分類法的主題范圍檢索可減少約 60% 的處理時間 ,因它先通過輕量級主題分類(僅 298 個類維度)完成初步篩選,再對縮小后的語料庫進(jìn)行高精度語義匹配。

RAS 分類法定義

在了解分類法的作用之后,再來看看它是如何實現(xiàn)的。RAS 中的分類法是一種 樹狀層級結(jié)構(gòu),遵循 從寬泛到具體 的邏輯組織概念:頂部為父節(jié)點(diǎn)(如 人物傳記”“教育),下方延伸出子節(jié)點(diǎn)(如 人物傳記企業(yè)家中國互聯(lián)網(wǎng)人物”“教育高等教育師范院校),形成清晰的主題分類體系。

在文本挖掘中,這種結(jié)構(gòu)可作為 標(biāo)簽空間結(jié)構(gòu)化工具,幫助系統(tǒng)快速識別文本所屬主題,為檢索提供明確指引。

分類法的構(gòu)建始于一個 種子即最基礎(chǔ)的主題層級框架。后續(xù)通過不同技術(shù)(如實體擴(kuò)展、關(guān)系轉(zhuǎn)移)在寬度(增加同級主題)和深度(延伸子主題)上優(yōu)化,最終形成適配 RAS 需求的領(lǐng)域分類體系。

RAS 分類法實現(xiàn)

分類法在 RAS 中的核心應(yīng)用場景是第二階段的 主題定界,通過 主題分類分布轉(zhuǎn)換子語料庫檢索 三步流程,將子查詢映射到目標(biāo)語料,為后續(xù)密集檢索鋪路。

分類法的構(gòu)建需提前完成,換句話說就是在創(chuàng)建知識庫的時候就需要將原始信息按照一定結(jié)構(gòu)進(jìn)行保存,核心技術(shù)包括:

HiExpan 技術(shù)

通過 實體擴(kuò)展 + 詞類比細(xì)化,從領(lǐng)域文本語料中生成任務(wù)特定分類法,確保主題與業(yè)務(wù)場景適配;如下圖所示,展示了分類法(Taxonomy)的構(gòu)建流程,核心是從 種子分類法 出發(fā),結(jié)合文本語料庫中的術(shù)語列表,生成 任務(wù)導(dǎo)向的分類法,以實現(xiàn)更精準(zhǔn)的知識組織與檢索。

這里對圖中內(nèi)容進(jìn)行詳細(xì)講解:

  1. 文本語料庫(Text Corpora)與術(shù)語列表(Term List):左上角的文本語料庫是信息來源,從中提取出各類術(shù)語,形成術(shù)語列表。這些術(shù)語涵蓋地理(如 U.S、Canada、Texas)、生物分類(如 Species、Genus、Family)、人物(如 M Zuckerberg、D Trump)、領(lǐng)域分類(如 Application、Material)等多個維度,為分類法構(gòu)建提供豐富的詞匯基礎(chǔ)。
  2. 用戶輸入 種子 分類法(Input Seed Taxonomy):左下角,用戶基于特定任務(wù)(如圖中是 地理位置分類),先定義一個初始的 種子 分類法。例如,用戶圍繞 地理位置 構(gòu)思出以 Root 為根,包含 U.S”“China 等父節(jié)點(diǎn),以及 California”“Illinois 等子節(jié)點(diǎn)的基礎(chǔ)結(jié)構(gòu)。
  3. 生成任務(wù)導(dǎo)向的分類法(Output Task-guided Taxonomy):系統(tǒng)結(jié)合術(shù)語列表和種子分類法,對分類結(jié)構(gòu)進(jìn)行擴(kuò)展與細(xì)化。在圖中,原本的 U.S 節(jié)點(diǎn)下新增了 Texas”“ArizonaChina 節(jié)點(diǎn)下新增了 Beijing”“Shanghai,Canada 節(jié)點(diǎn)下新增了 Ontario”“Quebec 等子節(jié)點(diǎn),形成了分類體系。

CoRel 技術(shù)

利用預(yù)訓(xùn)練語言模型(PLMs)的關(guān)系轉(zhuǎn)移能力,擴(kuò)展分類法的寬度(增加新主題)和深度(細(xì)化子主題)。

ColRel 使用兩個主要模塊:

  1. 關(guān)系轉(zhuǎn)移:該模塊關(guān)注關(guān)系,可以將關(guān)系在分類法的不同路徑之間轉(zhuǎn)移,擴(kuò)展其寬度和深度。
  2. 概念學(xué)習(xí):加強(qiáng)了每個節(jié)點(diǎn)的含義。它通過嵌入分類法和文本語料庫來實現(xiàn),因此每個概念都由一組連貫、相關(guān)的術(shù)語表示。

依舊通過如下圖片加深理解。

種子分類法主題分類法:對應(yīng)分類法構(gòu)建的流程

  1. 圖片左側(cè)的 Input 1: Seed Taxonomy 是一個簡單的 種子 分類結(jié)構(gòu),根節(jié)點(diǎn)下僅包含Dessert(甜點(diǎn))Seafood(海鮮)兩個一級節(jié)點(diǎn),Dessert下又只有Cake(蛋糕)Ice-cream(冰淇淋)兩個子節(jié)點(diǎn) —— 這與文字中 分類法構(gòu)建通常始于一個基本的種子結(jié)構(gòu) 完全對應(yīng)。
  2. 圖片右側(cè)的 Output: Topical Taxonomy 則是擴(kuò)展后的完整分類體系:

a.寬度擴(kuò)展:根節(jié)點(diǎn)下新增了Food、Menu、Course、Dinner、Salad等新主題(對應(yīng)文字中 擴(kuò)展分類法的寬度(增加新主題));

b.深度擴(kuò)展:原有節(jié)點(diǎn)的子層級被大幅細(xì)化(如Cake下新增Crème Br?léeTiramisu等子主題;Seafood下細(xì)分出OystersCrabs等子類別,且每個子類別又有更細(xì)的劃分)—— 這對應(yīng)文字中 擴(kuò)展分類法的深度(細(xì)化子主題)。

CoRel 技術(shù)的核心機(jī)制在圖片中的體現(xiàn)

前文提到 CoRel 的關(guān)系轉(zhuǎn)移模塊能 泛化種子的父子關(guān)系,推導(dǎo)出更廣泛的概念層級聯(lián)系,而圖片的擴(kuò)展過程正是這一機(jī)制的直觀體現(xiàn):

  1. 種子分類法中 DessertCake的父節(jié)點(diǎn)”“SeafoodCrab類的父節(jié)點(diǎn) 這些初始父子關(guān)系,被模型學(xué)習(xí)并 轉(zhuǎn)移 到新的概念上(如新增的Salad與其子節(jié)點(diǎn)DressingMenu Items的層級關(guān)系,Oysters與其子節(jié)點(diǎn)Fresh Oysters、Raw Oysters的層級關(guān)系),從而實現(xiàn)分類法的自動化擴(kuò)展。
  2. 文字中 概念學(xué)習(xí)模塊通過嵌入分類法和文本語料庫(Input 2: Corpus),讓每個概念由連貫的術(shù)語表示,也解釋了圖片中每個節(jié)點(diǎn)下為何會有一組具體、相關(guān)的術(shù)語(如Cake下的Crème Br?lée、Chocolate Cake等,都是對 蛋糕 這一概念的連貫術(shù)語擴(kuò)展)。

總結(jié)

本文先闡述 LLMs 的短板,引出 RAG 范式,又指出其在信息誤導(dǎo)和邏輯連接上的不足,進(jìn)而介紹 RAS 技術(shù)。RAS 通過將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化知識(如知識圖譜、分類法),結(jié)合三大組件和四階段迭代流程,有效解決了傳統(tǒng) RAG 的問題,在多任務(wù)中性能更優(yōu)。分類法作為 RAS 的關(guān)鍵,借助 HiExpan 和 CoRel 技術(shù)從 種子 分類法擴(kuò)展而來,為檢索精準(zhǔn)定界,提升效率。RAS 的創(chuàng)新在于 結(jié)構(gòu)化 處理,使 LLMs 能基于完整、精準(zhǔn)的結(jié)構(gòu)化知識生成答案,尤其在復(fù)雜推理任務(wù)中表現(xiàn)突出,為 LLMs 在現(xiàn)實應(yīng)用中克服短板提供了有效方案,展現(xiàn)出在知識密集型領(lǐng)域的廣闊應(yīng)用前景。

作者介紹

崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗,10年分布式架構(gòu)經(jīng)驗。

參考論文

https://arxiv.org/pdf/2509.10697

https://arxiv.org/pdf/2502.10996v1

責(zé)任編輯:火鳳凰 來源: 51CTO
相關(guān)推薦

2025-06-27 08:14:05

2025-10-28 01:10:00

2024-05-28 09:24:32

2025-07-04 09:02:48

2025-03-03 11:41:11

2025-02-14 00:00:35

2024-05-20 08:31:33

檢索增強(qiáng)生成LLM大型語言模型

2025-09-12 16:13:12

2025-08-01 09:41:52

2025-01-23 16:23:30

2021-12-12 08:37:18

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)

2023-12-26 09:00:00

Java結(jié)構(gòu)化并發(fā)開發(fā)

2025-06-12 02:30:00

人工智能LLM大語言模型

2024-05-27 00:32:45

2018-04-03 14:00:03

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫

2025-06-05 03:00:00

AutoRefineRAGLLM

2024-09-23 22:14:49

2023-12-25 15:00:18

結(jié)構(gòu)化布線光纖

2025-09-29 02:00:00

RAGAgentAI

2025-08-04 02:45:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號