偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DrKGC:突破傳統(tǒng)知識圖譜補全,動態(tài)子圖檢索與大模型的創(chuàng)新融合

發(fā)布于 2025-7-3 07:22
瀏覽
0收藏


DrKGC:突破傳統(tǒng)知識圖譜補全,動態(tài)子圖檢索與大模型的創(chuàng)新融合-AI.x社區(qū)圖片

摘要

知識圖譜補全(KGC)旨在通過利用現(xiàn)有的三元組和文本信息來預(yù)測知識圖譜(KGs)中的缺失三元組。最近,生成式大型語言模型(LLMs)越來越多地被用于圖任務(wù)。然而,當前方法通常以文本形式編碼圖上下文,這未能充分利用LLMs在感知和推理圖結(jié)構(gòu)方面的潛力。為了解決這一限制,我們提出了DrKGC(動態(tài)子圖檢索增強的知識圖譜補全大型語言模型)。DrKGC采用一種靈活輕量級的模型訓(xùn)練策略,在KG內(nèi)學(xué)習(xí)結(jié)構(gòu)嵌入和邏輯規(guī)則。然后,它利用一種新穎的自下而上的圖檢索方法,根據(jù)學(xué)到的規(guī)則提取每個查詢的子圖。最后,一個圖卷積網(wǎng)絡(luò)(GCN)適配器使用檢索到的子圖來增強結(jié)構(gòu)嵌入,然后將其整合到提示中,以實現(xiàn)有效的LLM微調(diào)。在兩個通用領(lǐng)域基準數(shù)據(jù)集和兩個生物醫(yī)學(xué)數(shù)據(jù)集上的實驗結(jié)果表明DrKGC的性能優(yōu)越。此外,在生物醫(yī)學(xué)領(lǐng)域的現(xiàn)實案例研究突出了其可解釋性和實用價值。

核心速覽

研究背景

  1. 研究問題:這篇文章要解決的問題是如何在知識圖譜(KGs)中完成缺失的三元組預(yù)測。具體來說,現(xiàn)有的方法通常將圖上下文編碼為文本形式,這限制了大型語言模型(LLMs)在感知和推理圖結(jié)構(gòu)方面的潛力。
  2. 研究難點:該問題的研究難點包括:結(jié)構(gòu)信息丟失、靜態(tài)嵌入限制以及通用響應(yīng)問題。生成式方法往往無法保留知識圖譜中的豐富結(jié)構(gòu)信息,靜態(tài)嵌入無法適應(yīng)查詢特定的上下文或動態(tài)子圖結(jié)構(gòu),而缺乏額外約束的LLMs容易生成通用且不相關(guān)的預(yù)測。
  3. 相關(guān)工作:該問題的研究相關(guān)工作有基于結(jié)構(gòu)的方法(如TransE、DistMult)、基于規(guī)則的方法(如Neural-LP)、基于文本的方法(如KG-BERT)以及生成式方法(如KICGPT、KoPA)。這些方法在不同程度上解決了知識圖譜補全的問題,但仍存在各自的局限性。

研究方法

這篇論文提出了DrKGC(Dynamic Subgraph Retrieval-Augmented LLMs for Knowledge Graph Completion)用于解決知識圖譜補全問題。具體來說,

  1. 問題生成器:首先,使用自動生成的模板詞匯表將不完整的三元組轉(zhuǎn)換為自然語言問題。模板生成分為兩個階段:模板生成和問題生成。模板生成使用GPT的少樣本上下文學(xué)習(xí)生成問題模板,問題生成則將查詢關(guān)系映射到相應(yīng)的問題模板并插入查詢實體。DrKGC:突破傳統(tǒng)知識圖譜補全,動態(tài)子圖檢索與大模型的創(chuàng)新融合-AI.x社區(qū)
  2. 候選者檢索器:為了減輕搜索空間過大、LLM輸入容量有限以及LLMs生成通用響應(yīng)的趨勢,使用輕量級模型獲取實體排名,并收集候選實體。輕量級模型訓(xùn)練不僅獲取實體的結(jié)構(gòu)嵌入,還學(xué)習(xí)關(guān)系的邏輯規(guī)則,以指導(dǎo)后續(xù)的子圖檢索。
  3. 動態(tài)子圖RAG:提出了一種動態(tài)子圖RAG策略,包括動態(tài)子圖檢索和結(jié)構(gòu)感知嵌入增強。動態(tài)子圖檢索通過檢索信息子圖來增強圖上下文,確保查詢實體和所有候選實體都在子圖中,并使用邏輯規(guī)則豐富子圖。結(jié)構(gòu)感知嵌入增強利用子圖的結(jié)構(gòu)信息向量化圖上下文,并通過圖卷積網(wǎng)絡(luò)(GCN)適配器生成局部嵌入。DrKGC:突破傳統(tǒng)知識圖譜補全,動態(tài)子圖檢索與大模型的創(chuàng)新融合-AI.x社區(qū)

公式解釋:

  • 動態(tài)子圖檢索過程中,確保查詢實體和所有候選實體都在子圖中,并檢索連接每個候選實體到查詢實體的最短路徑,按邏輯規(guī)則的置信度分數(shù)排序,直到達到預(yù)設(shè)的閾值τ。
  • 結(jié)構(gòu)感知嵌入增強中,GCN適配器通過鄰域聚合機制更新節(jié)點的表示,生成局部嵌入,并與全局嵌入拼接形成最終的增強結(jié)構(gòu)嵌入。

實驗設(shè)計

  1. 數(shù)據(jù)集:在兩個通用領(lǐng)域基準數(shù)據(jù)集(WN18RR和FB15k-237)和兩個生物醫(yī)學(xué)數(shù)據(jù)集(PharmKG和PrimeKG)上評估所提出的方法。數(shù)據(jù)集的統(tǒng)計細節(jié)和預(yù)處理過程在附錄中提供。
  2. 基線方法:選擇了多類別的基線方法進行比較,包括基于結(jié)構(gòu)的方法(如TransE、DistMult)、基于規(guī)則的方法(如Neural-LP)、基于文本的方法(如KG-BERT)以及生成式方法(如KICGPT、COSIGN)。
  3. 實現(xiàn)細節(jié):在輕量級模型訓(xùn)練階段,使用NCRL挖掘邏輯規(guī)則,并使用RotatE和HRGAT分別獲取WN18RR和FB15k-237的全局結(jié)構(gòu)嵌入,PharmKG和PrimeKG則直接使用HRGAT和R-GCN進行排名。候選集大小固定為20。微調(diào)階段使用了Llama-3-8B、Llama-3.2-3B、MedLlama-3-8B和Mistral-7B作為LLMs,并使用LoRA進行高效的參數(shù)調(diào)優(yōu)。

結(jié)果與分析

  1. 主要結(jié)果:DrKGC在WN18RR、FB15k-237、PharmKG和PrimeKG上的表現(xiàn)均優(yōu)于大多數(shù)基線方法。在WN18RR上,盡管在Hits@10上略遜于NCRL和GHN,但在所有評估指標上均優(yōu)于所有生成式方法。在FB15k-237上,DrKGC在所有指標上均優(yōu)于基線,MRR提高了7.5%,Hits@1提高了11.4%。在PharmKG和PrimeKG上,DrKGC也表現(xiàn)出色,顯著優(yōu)于所有基線。DrKGC:突破傳統(tǒng)知識圖譜補全,動態(tài)子圖檢索與大模型的創(chuàng)新融合-AI.x社區(qū)
  2. 消融研究:通過消融研究評估了DrKGC中每個組件的貢獻。移除規(guī)則限制、局部嵌入和結(jié)構(gòu)嵌入后,模型性能顯著下降,表明這些組件對模型性能至關(guān)重要。省略問題模板對生物醫(yī)學(xué)數(shù)據(jù)集的影響更大,表明關(guān)系的功能性和機制性對LLM的指令更為重要。DrKGC:突破傳統(tǒng)知識圖譜補全,動態(tài)子圖檢索與大模型的創(chuàng)新融合-AI.x社區(qū)
  3. 魯棒性分析:在WN18RR上進行歸納預(yù)測和噪聲條件下的魯棒性評估。歸納設(shè)置下,模型性能僅略有下降;注入20%的噪聲后,MRR和Hits@1的下降幅度有限,分別為7.9%和7.6%,表明DrKGC具有較好的魯棒性。
  4. 子圖大小敏感性分析:在不同子圖大小τ下的模型性能和效率進行了分析。結(jié)果表明,當τ增加時,模型性能先提高后下降,最佳結(jié)果為τ=100125,運行時間與τ線性增長。

總體結(jié)論

本文提出了一種新的知識圖譜補全框架DrKGC,充分利用圖上下文信息,靈活集成動態(tài)子圖信息聚合、嵌入注入和RAG機制,克服了先前生成式方法在結(jié)構(gòu)信息丟失、靜態(tài)實體表示和通用LLM響應(yīng)方面的局限性。實驗結(jié)果表明,DrKGC在通用知識圖譜和特定領(lǐng)域知識圖譜(如生物醫(yī)學(xué)知識圖譜)上均取得了最先進的性能。通過捕捉圖上下文生成信息性子圖,DrKGC還增強了模型的可解釋性,這在生物醫(yī)學(xué)應(yīng)用中尤為有價值。

論文評價

優(yōu)點與創(chuàng)新

  1. 新穎的框架:DrKGC提出了一個新穎且靈活的框架,能夠有效地支持通用知識圖譜和特定領(lǐng)域的生物醫(yī)學(xué)知識圖譜(BKG)。
  2. 結(jié)構(gòu)信息整合:開發(fā)了兩個關(guān)鍵組件來有效整合圖結(jié)構(gòu)信息到生成模型中。具體來說,擴展了標準的檢索增強生成方法到圖場景,利用邏輯規(guī)則獲取表示潛在興趣實體的局部子圖。然后,開發(fā)了一種技術(shù),將圖卷積網(wǎng)絡(luò)應(yīng)用于檢索到的子圖,以進一步生成實體的局部嵌入,有效地為基于LLM的預(yù)測提供結(jié)構(gòu)信息。
  3. 實驗驗證:在基準數(shù)據(jù)集和生物醫(yī)學(xué)用例上進行了全面的實驗,評估了DrKGC的性能,并展示了其相對于最先進基線方法的顯著改進。此外,還進行了藥物再利用的生物醫(yī)學(xué)案例研究,展示了DrKGC的實際應(yīng)用能力。
  4. 增強模型解釋性:通過捕捉圖上下文生成信息性子圖,DrKGC還增強了模型的可解釋性,這在生物醫(yī)學(xué)應(yīng)用中尤其有價值。

不足與反思

  1. 計算密集:DrKGC依賴于微調(diào)大型語言模型,這一過程計算密集,其性能本質(zhì)上受限于當前LLM和輕量級模型的能力。
  2. 優(yōu)化微調(diào)效率:未來工作將集中在優(yōu)化微調(diào)效率、提升LLM性能以及探索擴展到其他圖任務(wù)(如推理和問答)上。
  3. 更復(fù)雜的子圖檢索:檢索更具信息性的子圖可能會帶來額外的挑戰(zhàn)。雖然本文采用了輕量級的啟發(fā)式圖檢索方法,但更嚴格的基于規(guī)則的檢測和過濾技術(shù)以及替代的子圖策略(如學(xué)習(xí)驅(qū)動的子圖檢索)值得進一步研究。

關(guān)鍵問題及回答

問題1:DrKGC在動態(tài)子圖檢索過程中是如何確保查詢實體和所有候選實體都在子圖中的?

在動態(tài)子圖檢索過程中,DrKGC首先確保查詢實體和所有候選實體都在子圖中。具體步驟如下:

  1. 初始化子圖:確保查詢實體tq在子圖G中。
  2. 檢索最短路徑對于每個候選實體e∈C,檢索從etq的最短路徑,以確保它們之間的連通性。
  3. 排序邏輯規(guī)則:按照邏輯規(guī)則Lrq的置信度分數(shù)對路徑進行排序,并依次使用這些規(guī)則來搜索從etq的路徑,從而豐富子圖。
  4. 達到預(yù)設(shè)閾值:重復(fù)上述步驟直到子圖中的三元組數(shù)量達到預(yù)設(shè)的閾值τ。
  5. 補充額外三元組:如果子圖中的三元組數(shù)量仍低于τ,則通過rq及其邏輯規(guī)則補充與etq相關(guān)的額外三元組。

問題2:DrKGC的結(jié)構(gòu)感知嵌入增強是如何利用子圖的結(jié)構(gòu)信息來增強整體結(jié)構(gòu)表示的?

  1. 初始化GCN:對于每個查詢子圖,GCN適配器首先使用所有實體的全局嵌入進行初始化。
  2. 鄰域聚合:通過鄰域聚合機制更新節(jié)點的表示,生成局部嵌入。具體來說,GCN適配器通過聚合當前節(jié)點的鄰居節(jié)點的信息來更新當前節(jié)點的嵌入。
  3. 拼接嵌入:將生成的局部嵌入與全局嵌入拼接,形成最終的增強結(jié)構(gòu)嵌入。
  4. 低維空間計算:為了減少計算開銷,GCN計算在低維空間中進行,然后通過適配器將結(jié)果映射到LLM輸入維度,實現(xiàn)無縫集成。

通過這種方式,DrKGC能夠有效地利用子圖的結(jié)構(gòu)信息來增強整體結(jié)構(gòu)表示,從而提高模型在知識圖譜補全任務(wù)中的性能。

問題3:DrKGC在實驗中是如何驗證其魯棒性的?

  1. 歸納預(yù)測:在WN18RR上進行歸納預(yù)測實驗,提取所有測試三元組中實體或關(guān)系從未出現(xiàn)在訓(xùn)練集中的情況,測量DrKGC在這些未見過的實體情況下的性能。
  2. 噪聲條件:在訓(xùn)練集中注入固定比例的無隨機負三元組,評估這對DrKGC指標的影響。具體來說,將訓(xùn)練集中的20%三元組替換為隨機負三元組,然后重新評估模型的性能。

實驗結(jié)果表明,在歸納設(shè)置下,DrKGC的性能僅略有下降,MRR下降了5.4%,Hits@1下降了6.7%;即使在注入20%噪聲的情況下,MRR和Hits@1的下降幅度也有限,分別為7.9%和7.6%。這表明DrKGC在處理未見過的實體和噪聲條件時具有較高的魯棒性。

本文轉(zhuǎn)載自????知識圖譜科技????,作者:知識圖譜科技

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦