偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象 精華

發(fā)布于 2024-9-9 01:00
瀏覽
0收藏

1. 當(dāng)前知識(shí)圖譜構(gòu)建存在的問(wèn)題

知識(shí)圖譜通過(guò)捕捉實(shí)體之間的關(guān)系來(lái)構(gòu)建知識(shí)的結(jié)構(gòu)化表示,在分析文本數(shù)據(jù)集和從結(jié)構(gòu)化異構(gòu)數(shù)據(jù)中推斷知識(shí)方面具有顯著優(yōu)勢(shì)。比如,知識(shí)圖譜能夠融合來(lái)自多個(gè)來(lái)源的不同數(shù)據(jù),提供一個(gè)具有凝聚力的信息視角。還能為文本語(yǔ)料庫(kù)的分析提供更高層次的可解釋性。

知識(shí)圖譜的重要性不必多言,最近的GraphRAG又再一次將知識(shí)圖譜掀起高潮。

1.1 傳統(tǒng)知識(shí)圖譜構(gòu)建的問(wèn)題

傳統(tǒng)的命名實(shí)體識(shí)別、關(guān)系提取和實(shí)體解析是常用于將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)、捕獲實(shí)體及其關(guān)聯(lián)和相關(guān)屬性的 NLP 技術(shù)。然而,這些方法存在一些局限性:往往局限于預(yù)定義的實(shí)體和關(guān)系,或者依賴特定的本體,并且大多依賴監(jiān)督學(xué)習(xí)方法,需要大量的人工標(biāo)注。

1.2 LLM時(shí)代知識(shí)圖譜構(gòu)建的問(wèn)題

LLMs (大語(yǔ)言模型) 的最新進(jìn)展在包括知識(shí)圖譜補(bǔ)全、本體優(yōu)化和問(wèn)答等各類 NLP 任務(wù)中展現(xiàn)出了潛力和更優(yōu)的性能,為知識(shí)圖譜的構(gòu)建帶來(lái)了良好的前景。

LLMs 在少樣本學(xué)習(xí)方面也表現(xiàn)出色,能夠?qū)崿F(xiàn)即插即用的解決方案,并且無(wú)需大量的訓(xùn)練或微調(diào)。由于它們?cè)趶V泛的信息源中接受訓(xùn)練,因而能夠跨不同領(lǐng)域提取知識(shí)。

所以,近期的研究已開(kāi)始利用 LLMs 的發(fā)展成果,特別是其在知識(shí)圖譜構(gòu)建任務(wù)中的少樣本學(xué)習(xí)能力。

不過(guò),未解決和語(yǔ)義重復(fù)的實(shí)體及關(guān)系仍然構(gòu)成重大挑戰(zhàn),導(dǎo)致構(gòu)建的圖譜出現(xiàn)不一致的情況,需要大量的后期處理。這些不一致可能表現(xiàn)為冗余、模糊以及圖譜擴(kuò)展的實(shí)際困難。

此外,許多現(xiàn)有的方法與主題相關(guān),這意味著其有效性在很大程度上取決于其設(shè)計(jì)所針對(duì)的特定用例。這種依賴性限制了這些方法在不同領(lǐng)域的通用性,需要為每個(gè)新的主題領(lǐng)域定制解決方案。

基于大型語(yǔ)言模型(LLM)構(gòu)建知識(shí)圖譜(KG)的解決方案,可依據(jù)三種范式來(lái)分類:本體引導(dǎo)、微調(diào)以及零樣本或少樣本學(xué)習(xí)。

2. iText2KG

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

為了解決以上問(wèn)題,作者提出了iText2KG。上圖是 iText2KG 的工作流程概覽。包含四個(gè)模塊:

1)文檔蒸餾器(Document Distiller):利用 LLM,將原始文檔重新整理為預(yù)定義和語(yǔ)義塊。該模式類似預(yù)定義的 JSON 結(jié)構(gòu),引導(dǎo)語(yǔ)言模型從每個(gè)文檔中提取與特定鍵相關(guān)的特定文本信息;

2)增量實(shí)體提取器(Incremental Entities Extractor):獲取語(yǔ)義塊,識(shí)別語(yǔ)義塊內(nèi)獨(dú)特的語(yǔ)義實(shí)體,消除歧義,確保每個(gè)實(shí)體都有清晰的定義并與其他實(shí)體區(qū)分開(kāi);

 3)增量關(guān)系提取器(Incremental Relations Extractor):處理已解決的實(shí)體和語(yǔ)義塊,以檢測(cè)語(yǔ)義上獨(dú)特的關(guān)系。

4)圖集成器(Graph Integrator):使用 Neo4j 以圖形格式直觀地呈現(xiàn)這些關(guān)系和實(shí)體。

2.1 文檔蒸餾器(Document Distiller)

運(yùn)用大型語(yǔ)言模型(LLM)依照預(yù)定義的模式(Schema)或藍(lán)圖將輸入文檔重寫為語(yǔ)義塊。這些模式(Schema)并非本體,而是一個(gè)藍(lán)圖,使 LLM 傾向于特定類別,同時(shí)在其他方面保持靈活性。

實(shí)際上,該模式(Schema)的功能類似于預(yù)定義的 JSON,引導(dǎo) LLM 從每個(gè)文檔中為特定的鍵提取特定的值(文本信息)。在這個(gè)項(xiàng)目的Github倉(cāng)庫(kù)里可以找到一些這種Schema的示例(如下圖):

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

對(duì)于每個(gè)文檔,如果其中存在所需信息,將獲得一個(gè)半填充的 JSON。

然后將所有這些半填充的 JSON 聚合起來(lái),形成文檔的語(yǔ)義塊。

該模塊的主要目標(biāo)為:

-(a)通過(guò)減少可能用冗余信息污染圖形的噪聲來(lái)提高信噪比。

-(b)利用模式引導(dǎo)圖形構(gòu)建過(guò)程,特別是針對(duì)概念鍵。例如,對(duì)于一篇科學(xué)文章,能夠提取“標(biāo)題”和“作者”,并添加諸如“具有標(biāo)題”和“具有作者”之類的關(guān)系以及語(yǔ)義信息。為確保解決方案在各種用例中的適用性,Schema是一個(gè)取決于用戶偏好和用例特殊性的輸入。通過(guò)重新制定原始文檔來(lái)增強(qiáng)圖形構(gòu)建過(guò)程的構(gòu)想已被以下論文所證實(shí)。

2.2 增量實(shí)體提取器(Incremental Entities Extractor)

增量式實(shí)體匹配器(iEntities Matcher)會(huì)遍歷所有語(yǔ)義塊并提取全局文檔實(shí)體。

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片


iEntities Matcher 的主要算法如上圖。

iEntities Matcher的核心算法是先利用大型語(yǔ)言模型(LLM)從首個(gè)語(yǔ)義塊(即文檔0)中提取實(shí)體,構(gòu)建全局實(shí)體集?,且假定這些實(shí)體在首次迭代中僅此一次成對(duì)獨(dú)立。

遵循約束(C1,原文具體定義,即:實(shí)體和關(guān)系都應(yīng)該描述一個(gè)語(yǔ)義上獨(dú)特的概念。),引導(dǎo)LLM提取單一概念的實(shí)體,以避免語(yǔ)義混淆。

對(duì)于文檔集合中的后續(xù)文檔,算法抽取局部實(shí)體,并嘗試將其與全局實(shí)體集中的實(shí)體進(jìn)行匹配。

如果局部實(shí)體在中找到對(duì)應(yīng),則加入到匹配集中。

若未找到,算法將使用預(yù)設(shè)閾值的余弦相似度在中尋找相似實(shí)體。若依然無(wú)匹配項(xiàng),局部實(shí)體將直接加入匹配集;

若有,則基于最高相似度選取最佳匹配的全局實(shí)體加入。隨后,全局實(shí)體集通過(guò)與匹配集的合并進(jìn)行更新。

這一流程在文檔集合中的每個(gè)文檔上重復(fù)執(zhí)行,最終形成一個(gè)全面的全局實(shí)體集。

2.3 增量關(guān)系提取器(Incremental Relations Extractor)

將全局文檔實(shí)體與每個(gè)語(yǔ)義塊一同作為上下文提供給增量式關(guān)系匹配器(iRelations Matcher)以提取全局文檔關(guān)系。

采用了與 iEntities Matcher 相同的方法。

根據(jù)將全局實(shí)體還是本地實(shí)體作為與語(yǔ)義塊一起的上下文提供給 LLM,關(guān)系提取會(huì)有不同的表現(xiàn)。

當(dāng)提供全局實(shí)體作為上下文時(shí),LLM 會(huì)提取語(yǔ)義塊直接陳述和隱含的關(guān)系,特別是對(duì)于語(yǔ)義塊中未明確存在的實(shí)體。這為圖形豐富了潛在信息,但增加了不相關(guān)關(guān)系出現(xiàn)的可能性。

相反,當(dāng)提供本地匹配的實(shí)體作為上下文時(shí),LLM 僅提取上下文直接陳述的關(guān)系。這種方式降低了圖形的豐富程度,但也降低了不相關(guān)關(guān)系的概率。

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

iRelations Matcher 的兩個(gè)版本如上圖所示,藍(lán)色表局部實(shí)體(Local),紅色表示全局實(shí)體(Global)。

2.4 圖集成器(Graph Integrator)

將全局文檔實(shí)體和全局文檔關(guān)系輸入到 Neo4j 中以構(gòu)建知識(shí)圖譜。

這一部分作者描述的比較簡(jiǎn)單,大家有興趣可以去Github查看該部分的源代碼:

??https://github.com/AuvaLab/itext2kg/tree/main/itext2kg/graph_integration??

3. 效果評(píng)估

所有實(shí)驗(yàn)中,作者均選用了 GPT-4 來(lái)作為基礎(chǔ)模型進(jìn)行評(píng)估。GPT-4 即便在零樣本的情境下,也能達(dá)成近乎微調(diào)后的頂尖性能。

采用了三個(gè)用例:網(wǎng)站轉(zhuǎn)化為知識(shí)圖譜、科學(xué)文章轉(zhuǎn)化為知識(shí)圖譜以及簡(jiǎn)歷轉(zhuǎn)化為知識(shí)圖譜分別對(duì)各個(gè)模塊進(jìn)行效果評(píng)估,確保 iText2KG 能在不同的知識(shí)圖譜構(gòu)建場(chǎng)景中適用。

3.1 文檔蒸餾器效果評(píng)估

作者首先對(duì)模塊 1 (文檔蒸餾器)進(jìn)行評(píng)估,以確保所提取的信息與模式及輸入文檔的語(yǔ)義相符。針對(duì)該模塊,作者提出了以下指標(biāo):

? 模式一致性(Schema consistency):檢驗(yàn)重寫文本內(nèi)容是否與輸入的架構(gòu)相符。對(duì)于架構(gòu)中每個(gè)關(guān)鍵點(diǎn),我們定義   Cs(K)為正確對(duì)應(yīng)到該關(guān)鍵點(diǎn)相關(guān)架構(gòu)的元素?cái)?shù)目。Is(k) 為那些被加入但不屬于架構(gòu)的元素?cái)?shù)目。架構(gòu)中某個(gè)關(guān)鍵點(diǎn)的一致性得分計(jì)算如下:

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

? 信息一致性(Information consistency):評(píng)估重寫文本的內(nèi)容是否與原始報(bào)告的語(yǔ)義相符,具體分類為:差異極大(<30%)、中等差異(30-60%)、大致一致(60-90%)和完全一致(>90%)。

3.1.1 模式一致性

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

上表顯示,文檔蒸餾器在各類文檔類型中均實(shí)現(xiàn)了較高的模式一致性。

科學(xué)文章和簡(jiǎn)歷呈現(xiàn)出最高的模式一致性得分,表明該模塊處理結(jié)構(gòu)化信息的能力出色,特別是對(duì)于主要依靠標(biāo)題來(lái)組織數(shù)據(jù)的文檔。

網(wǎng)站的一致性得分仍高達(dá) 0.94,但相對(duì)略低,這或許是由于網(wǎng)絡(luò)內(nèi)容的多樣性和結(jié)構(gòu)化程度較低所致。

表明文檔蒸餾器在處理和從不同類型文檔中提取結(jié)構(gòu)化信息方面的穩(wěn)健性和適應(yīng)性。

3.1.2 信息一致性

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

上圖展示了不同類型文檔(簡(jiǎn)歷、科學(xué)文章和網(wǎng)站)的信息一致性情況。

對(duì)于簡(jiǎn)歷,大部分信息(74.5%)完全一致,25.5%大致一致,不存在中等一致性。表明重寫的文本與簡(jiǎn)歷原始內(nèi)容的語(yǔ)義高度匹配。因?yàn)楹?jiǎn)歷主要以清晰簡(jiǎn)潔的短語(yǔ)編寫,使得大型語(yǔ)言模型更易于捕捉語(yǔ)義。

對(duì)于科學(xué)文章,57.1%的信息完全一致,42.9%大致一致,在保留原始語(yǔ)義方面展現(xiàn)出較高的準(zhǔn)確性,盡管略遜于簡(jiǎn)歷。這在預(yù)料之中,特別是鑒于科學(xué)文章是用更為復(fù)雜的科學(xué)英語(yǔ)撰寫的。

網(wǎng)站有 56.0%的信息完全一致,24.0%大致一致,20.0%為中等一致性。這可能歸因于網(wǎng)絡(luò)內(nèi)容的非結(jié)構(gòu)化特性,這給準(zhǔn)確的語(yǔ)義重寫帶來(lái)了更大的挑戰(zhàn)。

3.2 增量實(shí)體提取器和增量關(guān)系提取器效果評(píng)估

? 三元組提取精度(Triplet Extraction Precision):不關(guān)心實(shí)體/關(guān)系解析過(guò)程,直接評(píng)估與相應(yīng)文本的三元組一致性。三元組有的時(shí)候是隱含的,不一定直接由文本表述。將精度得分定義為提取的相關(guān)三元組數(shù)量除以提取的三元組總數(shù)。

? 實(shí)體/關(guān)系解析錯(cuò)誤發(fā)現(xiàn)率(Entity/Relation Resolution False Discovery Rate):評(píng)估在提取的實(shí)體或關(guān)系總數(shù)中未解決(假陽(yáng)性)的實(shí)體或關(guān)系所占比例。具體而言,計(jì)算未解決的實(shí)體或關(guān)系與提取的實(shí)體或關(guān)系總數(shù)的比率。通過(guò)突出總提取中的錯(cuò)誤(未解決的實(shí)體/關(guān)系)比例,表明實(shí)體和關(guān)系提取過(guò)程的可靠性。

3.2.1 三元組提取

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

參照上圖,作者分別對(duì)使用全局還是局部實(shí)體作為上下文進(jìn)行比較,比較二者在關(guān)系提取方面呈現(xiàn)出不同的表現(xiàn)。

當(dāng)以全局實(shí)體作為上下文時(shí),相關(guān)三元組的精度比以局部實(shí)體作為上下文時(shí)低 10%。當(dāng)使用全局實(shí)體作為上下文時(shí),大型語(yǔ)言模型會(huì)提取語(yǔ)義塊中明確提及和隱含的關(guān)系。這會(huì)形成一個(gè)更豐富的圖,包含更多潛在信息,但也有更高的出現(xiàn)不相關(guān)關(guān)系的可能性。

使用局部實(shí)體 作為上下文會(huì)致使大型語(yǔ)言模型僅提取直接陳述的關(guān)系,從而導(dǎo)致生成的圖不夠豐富,但不相關(guān)關(guān)系出現(xiàn)的可能性較低。

這體現(xiàn)了一種取決于用例的權(quán)衡。作者讓用戶決定是接受精度降低 10%以換取更豐富的圖,還是獲取 10%的精度但得到相對(duì)不那么豐富的圖。

3.2.2 實(shí)體/關(guān)系解析

LlamaIndex 為檢索增強(qiáng)生成(RAG)構(gòu)建具有邊級(jí)和節(jié)點(diǎn)級(jí)文本信息的未連接子圖;因此,未將 LlamaIndex 與 iText2KG 進(jìn)行對(duì)比評(píng)估。

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

從上面兩個(gè)圖中,可以看出 iText2KG 在三個(gè)不同的知識(shí)圖譜構(gòu)建場(chǎng)景中,在實(shí)體和關(guān)系解析過(guò)程方面取得了更優(yōu)的成果。

此外,結(jié)果顯示,當(dāng)輸入文檔數(shù)量較少且具有清晰、非復(fù)雜的短語(yǔ)時(shí),大型語(yǔ)言模型在實(shí)體和關(guān)系解析方面表現(xiàn)出色,如簡(jiǎn)歷到知識(shí)圖譜的過(guò)程所示。

此外,網(wǎng)站到知識(shí)圖譜中未解決實(shí)體和關(guān)系的錯(cuò)誤發(fā)現(xiàn)率高于其他知識(shí)圖譜構(gòu)建場(chǎng)景。是由于文檔(塊)數(shù)量較多以及網(wǎng)站文本信息的非結(jié)構(gòu)化特性所致。

因此,只要文檔(塊)數(shù)量龐大且文本是非結(jié)構(gòu)化且語(yǔ)言復(fù)雜,實(shí)體/關(guān)系解析過(guò)程對(duì)于構(gòu)建一致的知識(shí)圖譜就變得至關(guān)重要。

3.3 閾值估計(jì)

為基于余弦相似度估計(jì)合并實(shí)體和關(guān)系的閾值,使用 GPT-4 生成了一個(gè)包含 1500 個(gè)相似實(shí)體對(duì)和 500 個(gè)關(guān)系的數(shù)據(jù)集,其靈感源自不同領(lǐng)域。

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

3.4 整體效果

iText2KG:顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺(jué)現(xiàn)象-AI.x社區(qū)圖片

上圖對(duì)比了其他方法與iText2KG在三種不同情境下的表現(xiàn):

? 其他基準(zhǔn)方法在所有三種知識(shí)圖譜構(gòu)建情境中都暴露出孤立節(jié)點(diǎn),這些節(jié)點(diǎn)間缺乏聯(lián)系。可能由于實(shí)體和關(guān)系提取的同時(shí)進(jìn)行,導(dǎo)致語(yǔ)言模型產(chǎn)生幻覺(jué)效應(yīng),進(jìn)而引起“遺忘”現(xiàn)象。可以通過(guò)分離實(shí)體和關(guān)系提取步驟可以提升性能。

? 在“網(wǎng)站至知識(shí)圖譜”的場(chǎng)景中,輸入文檔數(shù)量的增加往往導(dǎo)致圖中噪聲節(jié)點(diǎn)的增加。表明文檔蒸餾在有效提煉和精煉輸入數(shù)據(jù)方面的重要性。

? iText2KG方法在三種知識(shí)圖譜構(gòu)建情境中均展現(xiàn)出了更優(yōu)的實(shí)體和關(guān)系解析能力。當(dāng)輸入文檔較少且內(nèi)容簡(jiǎn)單、不復(fù)雜時(shí),語(yǔ)言模型在實(shí)體和關(guān)系解析上表現(xiàn)出高效性,這一點(diǎn)在“簡(jiǎn)歷至知識(shí)圖譜”的流程中得到了體現(xiàn)。然而,隨著數(shù)據(jù)集變得更為復(fù)雜和龐大,挑戰(zhàn)也隨之增大,如“網(wǎng)站至知識(shí)圖譜”的場(chǎng)景。輸入文檔的分塊大小和閾值對(duì)知識(shí)圖譜構(gòu)建的影響不容忽視。文檔蒸餾器的輸入可以是獨(dú)立文檔或分塊。分塊越小,語(yǔ)義塊能捕捉到的文檔細(xì)節(jié)就越具體,反之亦然。

? 論文原文: ??https://arxiv.org/abs/2409.03284??

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者:HuggingAGI 

已于2024-9-9 10:26:57修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦