偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

知識圖譜與LLM接口優(yōu)化:突破復雜推理的性能瓶頸 精華

發(fā)布于 2025-6-9 00:48
瀏覽
0收藏

引言:知識圖譜與大語言模型的融合挑戰(zhàn)

隨著人工智能技術(shù)的快速發(fā)展,大型語言模型(LLMs)已經(jīng)在自然語言處理領域展現(xiàn)出驚人的能力?;赥ransformer架構(gòu)的LLMs在開放域問答、文本摘要和內(nèi)容生成等任務中表現(xiàn)出色,并在醫(yī)療、金融、法律和科學等多個領域得到廣泛應用。然而,這些模型也面臨著一些固有的局限性:它們?nèi)菀桩a(chǎn)生自信但錯誤的輸出(幻覺現(xiàn)象),并且缺乏在不重新訓練的情況下更新或擴展知識的有效機制。

檢索增強生成(RAG)技術(shù)的出現(xiàn)為解決這些問題提供了一種標準方法。在典型的RAG流程中,密集檢索器會為給定查詢選擇相關(guān)的文本上下文,然后將檢索到的內(nèi)容附加到查詢中,再由LLM進行處理。這種設計提高了輸出的事實準確性,并允許模型參考外部信息源。然而,標準RAG系統(tǒng)在處理涉及多步推理或需要結(jié)構(gòu)化訪問關(guān)系知識的問題時往往力不從心,僅依靠密集或稀疏文檔檢索是不夠的。

為了應對這些挑戰(zhàn),將知識圖譜(KGs)集成到RAG工作流中的混合方法受到了越來越多的關(guān)注。這些系統(tǒng)(有時被稱為GraphRAG)使用圖結(jié)構(gòu)來表示關(guān)系結(jié)構(gòu),并支持基于符號查詢或多跳圖遍歷的檢索。基于圖的檢索為LLM提供了對明確、結(jié)構(gòu)化上下文的訪問,在需要深層次推理的任務中展現(xiàn)出巨大潛力。

然而,無論是傳統(tǒng)RAG系統(tǒng)還是基于圖的RAG系統(tǒng),都面臨著超參數(shù)敏感性的挑戰(zhàn)。這些系統(tǒng)的性能嚴重依賴于一系列配置選擇,包括文本塊大小、檢索器類型、top-k閾值和提示模板等。隨著系統(tǒng)變得更加模塊化和復雜,可調(diào)參數(shù)的數(shù)量增加,它們之間的相互作用也變得更加復雜。雖然超參數(shù)優(yōu)化在標準RAG系統(tǒng)中已有探索,但在圖增強系統(tǒng)中的作用仍未被充分研究。

本文旨在填補這一研究空白,通過對基于圖的RAG系統(tǒng)進行結(jié)構(gòu)化的超參數(shù)優(yōu)化研究,重點關(guān)注結(jié)合非結(jié)構(gòu)化輸入、知識圖譜構(gòu)建、檢索和生成的任務。我們的實驗基于Cognee框架,這是一個支持端到端圖構(gòu)建和檢索的開源模塊化系統(tǒng)。Cognee的模塊化設計允許管道組件的清晰分離和獨立配置,使其非常適合進行受控的優(yōu)化研究。

相關(guān)工作

RAG系統(tǒng)的進展與挑戰(zhàn)

檢索增強生成(RAG)系統(tǒng)通過檢索模塊擴展語言模型,使輸出能夠基于外部知識。這種基本的兩階段架構(gòu)已成為事實標準,并隨著時間推移提出了許多改進。近期工作包括Self-RAG,它使LLMs能夠反思自己的輸出并動態(tài)觸發(fā)檢索;以及CRAG,它使用檢索評估器過濾低置信度文檔,并在需要時升級到網(wǎng)絡搜索。

多跳問答

多跳問答擴展了標準問答,需要對多個文檔進行推理。早期數(shù)據(jù)集如HotPotQA通過眾包方式在維基百科上創(chuàng)建此類問題。2WikiMultiHopQA通過利用Wikidata關(guān)系來強制執(zhí)行結(jié)構(gòu)化、可驗證的推理路徑,對此進行了改進。MuSiQue采用自下而上的方法,從單跳原語組合多步問題并過濾掉虛假捷徑,為組合推理提供更強大的基準。

知識圖譜問答

知識圖譜問答(KGQA)系統(tǒng)通過圖上的結(jié)構(gòu)化推理回答問題,越來越多地集成LLMs以橋接符號和神經(jīng)推理。RoG提示LLMs生成抽象關(guān)系路徑,這些路徑在最終答案生成之前通過圖遍歷進行實例化。其他工作包括可訓練的子圖檢索器和子圖上的分解邏輯推理鏈,在可解釋性和性能方面都展示了可測量的提升。

GraphRAG

GraphRAG將RAG泛化到任意圖結(jié)構(gòu),擴展其用途超出知識庫。早期系統(tǒng)如微軟的摘要管道使用LLMs構(gòu)建知識圖譜,使用社區(qū)檢測對其進行分區(qū),并總結(jié)每個組件。其他變體使用GNNs與子圖選擇、圖遍歷代理或無模式圖上的個性化PageRank。這些系統(tǒng)涵蓋廣泛的任務,但共享一個共同結(jié)構(gòu):動態(tài)子圖構(gòu)建,然后是基于提示的推理。

RAG中的超參數(shù)優(yōu)化

優(yōu)化RAG系統(tǒng)需要平衡檢索覆蓋率、生成準確性和資源約束。近期工作在預算限制下應用貝葉斯優(yōu)化,將上下文使用作為可調(diào)變量,并通過強化學習引入全管道調(diào)優(yōu)。多目標框架也已出現(xiàn),以權(quán)衡準確性、延遲和安全性。雖然方法各異,但都旨在暴露和控制現(xiàn)代RAG管道中的關(guān)鍵自由度。

Cognee:自動化知識圖譜構(gòu)建框架

Cognee是一個開源框架,用于端到端知識圖譜(KG)構(gòu)建、檢索和補全。它支持異構(gòu)輸入(如文本、圖像、音頻),從中提取實體和關(guān)系,可能借助本體模式。提取過程在容器化環(huán)境中運行,基于任務和管道,每個階段都可通過配置或代碼擴展。

默認管道包括攝取、分塊、基于大型語言模型(LLM)的提取,以及索引到圖、關(guān)系和向量存儲后端。在索引之后,Cognee提供內(nèi)置組件用于檢索和補全。統(tǒng)一接口支持向量搜索、符號圖查詢和混合圖-文本方法。補全建立在相同的基礎設施上,支持基于提示的LLM交互和結(jié)構(gòu)化圖查詢。

Cognee還包括一個可配置的評估框架,用于基準測試檢索和補全工作流。該框架基于多跳問答,使用成熟的基準(HotPotQA、TwoWikiMultiHop)為基于圖的系統(tǒng)提供結(jié)構(gòu)化評估環(huán)境。評估按順序進行不同階段:從語料庫構(gòu)建開始,然后是利用檢索和補全組件的上下文條件回答。然后將答案與黃金參考進行比較,并使用多種指標進行評分。最終輸出包括置信度評分的性能報告。

Cognee的模塊化使得能夠在攝取、檢索和補全階段進行有針對性的超參數(shù)調(diào)整。評估框架提供結(jié)構(gòu)化、量化的反饋,使整個系統(tǒng)可以被視為一個目標函數(shù)。這種設置使得可以直接應用標準超參數(shù)優(yōu)化算法。

超參數(shù)優(yōu)化設置

優(yōu)化框架

Cognee暴露多個可配置組件,這些組件影響檢索和生成行為,包括與預處理、檢索器選擇、提示設計和運行時設置相關(guān)的參數(shù)。為了系統(tǒng)地評估這些設計選擇的影響,我們開發(fā)了一個名為Dreamify的超參數(shù)優(yōu)化框架。

Dreamify將整個Cognee管道視為一個參數(shù)化過程,包括攝取、分塊、基于LLM的提取、檢索和評估。單個配置定義所有階段的行為。每次試驗對應一個完整的管道運行,從語料庫構(gòu)建開始,以對基準數(shù)據(jù)集的評估結(jié)束。輸出是基于多種指標(如F1、精確匹配或基于LLM的正確性)的標量分數(shù)。這些指標計算為數(shù)據(jù)集中所有問題的平均值,返回0到1之間的值。

優(yōu)化使用樹結(jié)構(gòu)Parzen估計器(TPE)執(zhí)行。該算法非常適合搜索空間,該空間結(jié)合了分類和有序整數(shù)值參數(shù)。在這種規(guī)模下,網(wǎng)格搜索不切實際,隨機搜索在早期測試中表現(xiàn)不佳。雖然TPE對我們的實驗足夠,但其他優(yōu)化策略仍有待未來工作探索。

管道行為對固定配置是確定性的,盡管某些組件(如LLM生成的圖構(gòu)建)在運行之間表現(xiàn)出微小變化。這些差異不會實質(zhì)性影響單個配置內(nèi)的整體評估分數(shù)。試驗是獨立且可重現(xiàn)的。

可調(diào)參數(shù)

優(yōu)化過程考慮六個核心參數(shù),這些參數(shù)影響文檔處理、檢索行為、提示選擇和圖構(gòu)建。每個參數(shù)影響信息如何被分段、檢索或在答案生成期間使用。

塊大?。╟hunk_size)

此參數(shù)控制在圖提取前用于分段文檔的標記數(shù)量。在Cognee管道中,它影響生成圖的結(jié)構(gòu)和檢索期間可用上下文的粒度。本研究中使用的范圍(200-2000個標記)基于初步測試選擇,以平衡提取準確性、檢索特異性和處理時間。

檢索策略(search_type)

此參數(shù)確定如何選擇用于答案生成的上下文。cognee_completion策略使用向量搜索檢索文本塊,并直接將它們傳遞給語言模型。cognee_graph_completion策略通過結(jié)合向量相似性和圖結(jié)構(gòu)檢索知識圖譜節(jié)點及其關(guān)聯(lián)的三元組。檢索到的節(jié)點被簡要描述,周圍的三元組被格式化為結(jié)構(gòu)化文本。檢索到的節(jié)點和三元組的結(jié)構(gòu)化格式強調(diào)關(guān)系上下文,可能支持更有效的多跳推理。

Top-K上下文大?。╰op_k)

此參數(shù)設置每個查詢檢索的項目數(shù)量。使用cognee_completion時,它控制文本塊的數(shù)量;使用cognee_graph_completion時,它控制圖三元組的數(shù)量。檢索到的上下文傳遞給語言模型進行答案生成。在我們的實驗中,值范圍從1到20。

問答提示模板(qa_system_prompt)

此參數(shù)選擇用于答案生成的指令模板。模板在風格和特異性上有所不同,從簡潔提示到更詳細的指令,鼓勵證明或結(jié)構(gòu)化輸出。提示選擇可以影響答案格式和事實精確性。

提示模板(qa_system_prompt,graph_prompt)

這些參數(shù)控制在答案生成和圖構(gòu)建期間使用的指令模板。對于問答,我們評估了三種提示變體,主要在語氣和冗長度上有所不同。雖然基本指令保持一致,但更受約束和直接的提示通常產(chǎn)生與預期答案格式更緊密對齊的輸出。這對評估分數(shù)有顯著影響,特別是對精確匹配和F1,盡管正確性分數(shù)也在較小程度上受到影響。對于圖構(gòu)建,也測試了三種提示,它們在引導LLM從文本中提取實體和關(guān)系的方式上有所不同——要么一步完成,要么通過更結(jié)構(gòu)化、漸進的指令。這種選擇影響了檢索期間使用的生成圖結(jié)構(gòu)的粒度和一致性。

任務處理方法(task_getter_type)

此參數(shù)控制在評估期間如何預處理問答對。雖然系統(tǒng)可以支持任意管道變體,但我們專注于兩種代表性配置。在第一種配置中,文檔摘要在圖構(gòu)建期間生成,并可供檢索器使用。在第二種配置中,省略摘要生成。

實驗設置

我們進行了一系列九個超參數(shù)優(yōu)化實驗,以評估配置選擇對Cognee端到端性能的影響。每個實驗對應一個不同的基準數(shù)據(jù)集和評估指標組合。使用的數(shù)據(jù)集為HotPotQA、TwoWikiMultiHop和Musique。每個實驗針對三種指標之一:精確匹配(EM)、F1或DeepEval的基于LLM的正確性。

對于每個實驗,我們創(chuàng)建了基準的過濾子集。實例被隨機抽樣,然后在實驗前進行手動審查。我們排除了不符合語法、模糊、標簽錯誤或由提供的上下文不支持的示例。類似問題在先前文獻中已有注意。結(jié)果評估集由每個數(shù)據(jù)集24個訓練實例和12個測試實例組成。這一過濾步驟在任何調(diào)整之前進行一次,以避免偏見或挑選。

在每次試驗中,使用訓練集中的所有上下文段落構(gòu)建知識圖譜。這為每次試驗生成單個合并圖,然后用于回答所有訓練問題。管道結(jié)構(gòu)在所有數(shù)據(jù)集和指標中保持一致。

每個實驗包括50次試驗。在每次試驗中,優(yōu)化器抽樣一個配置并執(zhí)行完整的管道運行,包括攝取、圖構(gòu)建、檢索和答案生成。所選指標在所有訓練問題上計算,結(jié)果分數(shù)用作試驗的目標值。EM和F1分數(shù)確定性計算。DeepEval正確性分數(shù)需要單獨的基于LLM的評估步驟。

試驗按順序運行,不并行化。每次試驗的執(zhí)行時間約為30分鐘。最終結(jié)果報告使用從訓練中選擇的最佳性能配置在測試集上的性能。除了點估計外,我們還報告使用對單個問答對的非參數(shù)bootstrap重采樣計算的置信區(qū)間。

結(jié)果與討論

訓練集性能

知識圖譜與LLM接口優(yōu)化:突破復雜推理的性能瓶頸-AI.x社區(qū)

(a) Musique

知識圖譜與LLM接口優(yōu)化:突破復雜推理的性能瓶頸-AI.x社區(qū)

(b) TwoWikiMultiHop

知識圖譜與LLM接口優(yōu)化:突破復雜推理的性能瓶頸-AI.x社區(qū)

(c) HotPotQA

圖1:Musique、TwoWikiMultiHop和HotPotQA的運行最大性能曲線。

優(yōu)化導致所有數(shù)據(jù)集和指標的一致改進。雖然基線設置是合理且手動選擇的,但它們沒有針對特定評估條件進行調(diào)整。相對改進通常是顯著的,特別是對于精確匹配,其中幾個基線接近或恰好為零。這主要是由于答案風格的不匹配:系統(tǒng)的默認配置調(diào)整為更具對話性的輸出,而基準更傾向于更短、更干的答案。鑒于EM作為指標的嚴格性,即使事實正確的響應也經(jīng)常被懲罰。

盡管表現(xiàn)出明顯的改進,但這些結(jié)果應謹慎解釋。

保留集性能

為了評估泛化能力,我們在保留測試集上評估了每個實驗的最佳配置。與基線相比的收益仍然可見,但比訓練中不那么明顯。大多數(shù)指標適度下降,在一種情況下(TwoWikiMultiHop上的F1),測試性能略微超過了訓練分數(shù)。這些結(jié)果表明,任務特定優(yōu)化合理地泛化,即使應用于來自同一基準的未見示例。

一些變異性可能歸因于保留集的小規(guī)模和基準問答實例的不均勻質(zhì)量,這是文獻中注意到的限制。我們使用簡單的訓練設置,沒有早?;蛘齽t化,這也可能解釋部分觀察到的退化。然而,在大多數(shù)情況下改進持續(xù)存在的事實表明,即使基本的優(yōu)化過程也能產(chǎn)生可泛化的收益。雖然這不是本研究的主要焦點,但這些結(jié)果表明,未來的工作可以探索更強大的調(diào)整機制,特別是在更大或特定領域的數(shù)據(jù)集上。

討論

優(yōu)化過程使用樹結(jié)構(gòu)Parzen估計器(TPE),選擇它是因為其能夠?qū)Ш诫x散和混合參數(shù)空間。TPE在識別改進的配置方面是有效的,盡管試驗級別的性能有時是不穩(wěn)定的。更穩(wěn)定或表達能力更強的優(yōu)化策略可能會產(chǎn)生更一致的結(jié)果,探索這些替代方案仍然是未來工作的方向。

實驗也強調(diào)了標準評估指標的局限性。精確匹配和F1經(jīng)常懲罰語義上正確但措辭與參考不同的輸出。相比之下,基于LLM的正確性分數(shù)對詞匯變化更寬容,但引入了自己的不一致性。幾個幾乎逐字的答案獲得了不到滿分的分數(shù),表明LLM評分者引入了噪聲,特別是圍繞格式敏感性和隱含假設。

高性能配置通常共享參數(shù)設置,特別是塊大小和檢索方法。然而,大多數(shù)效果是非線性和任務特定的,沒有單一配置在所有基準上表現(xiàn)最佳。這突顯了在檢索增強管道中經(jīng)驗調(diào)整的重要性,并表明跨任務泛化需要適應,而不僅僅是重用。

雖然完全泛化超出了本研究的范圍,但結(jié)果支持系統(tǒng)調(diào)整在實踐中既可實現(xiàn)又有用的主張。觀察到的收益,雖然在某些情況下很小,但表明僅配置級別的變化就能影響下游性能。檢索增強系統(tǒng)受益于有針對性、任務感知的調(diào)整,性能-過擬合權(quán)衡可以在不顯著改變架構(gòu)或增加復雜性的情況下管理。

結(jié)論

我們證明,在基于圖的檢索增強生成系統(tǒng)中系統(tǒng)化的超參數(shù)調(diào)整可以導致一致的性能改進。Cognee的模塊化架構(gòu)使我們能夠在圖構(gòu)建、檢索和提示中隔離和改變配置參數(shù)。應用于三個多跳問答基準,這種設置使我們能夠檢查調(diào)整如何影響標準評估指標。雖然在各任務中觀察到改進,但其幅度各異,收益通常對指標和數(shù)據(jù)集都敏感。

展望未來,有幾個自然的進一步工作方向。技術(shù)上,優(yōu)化過程可以使用替代搜索算法、更廣泛的參數(shù)空間或多目標標準進行擴展。我們的評估專注于知名的問答數(shù)據(jù)集,但自定義基準和特定領域任務將有助于探索泛化能力。圖增強RAG系統(tǒng)的排行榜或共享基準基礎設施也可以支持這一領域的進展。

雖然基于問答的指標提供了評估管道性能的實用手段,但它們并不能完全捕捉基于圖的系統(tǒng)的復雜性。不同配置之間結(jié)果的變異性表明,收益不太可能僅來自通用調(diào)整。相反,我們的結(jié)果指向任務特定優(yōu)化策略的潛力,特別是在領域結(jié)構(gòu)發(fā)揮核心作用的環(huán)境中。我們預計,未來在學術(shù)和應用背景交叉點的工作將發(fā)現(xiàn)更多有針對性調(diào)整的機會。

更廣泛地說,我們認為通過認知化的鏡頭查看這一過程是有用的,認知化是一個描述智能如何嵌入物理系統(tǒng)的概念。我們將Cognee等框架的發(fā)展視為向反映這一范式的系統(tǒng)轉(zhuǎn)變的更廣泛轉(zhuǎn)變的一部分,它們的優(yōu)化同樣發(fā)揮著重要作用。這些系統(tǒng)的認知化不會僅通過設計發(fā)生,而是通過它們?nèi)绾坞S時間調(diào)整、測量和適應。

參考資料

論文鏈接:https://arxiv.org/abs/2505.24478

本文轉(zhuǎn)載自????頓數(shù)AI??,作者:小頓

收藏
回復
舉報
回復
相關(guān)推薦