偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

淺談大模型知識圖譜的構(gòu)建過程 原創(chuàng)

發(fā)布于 2025-8-14 08:16
瀏覽
0收藏

我們已經(jīng)了解了知識圖譜的基本概念,以及現(xiàn)在知識圖譜發(fā)展狀況,與前沿AI結(jié)合方向?,F(xiàn)在就差真正實踐構(gòu)建知識圖譜這臨門一腳,基本上就會對知識圖譜這一產(chǎn)品有更加清晰的認識。

那么工欲善其事必先利其器,就像我們對編程語言的掌握程度,更高級的用法和熟練度能更進一步提高我們做出項目產(chǎn)品的質(zhì)量,在本篇文章將從開發(fā)環(huán)境部署寫到初級知識圖譜搭建實踐,完成從無到有的知識圖譜構(gòu)建過程。知識圖譜有自頂向下和自底向上兩種構(gòu)建方式,這里提到的構(gòu)建技術(shù)主要是自底向上的構(gòu)建技術(shù)。

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)

我們有一大堆的數(shù)據(jù),這些數(shù)據(jù)可能是結(jié)構(gòu)化的、非結(jié)構(gòu)化的以及半結(jié)構(gòu)化的,然后我們基于這些數(shù)據(jù)來構(gòu)建知識圖譜,這一步主要是通過一系列自動化或半自動化的技術(shù)手段,來從原始數(shù)據(jù)中提取出知識要素,即一堆實體關(guān)系,并將其存入我們的知識庫的模式層和數(shù)據(jù)層。構(gòu)建知識圖譜是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代包含三個階段六個步驟:

信息抽取:從各種類型的數(shù)據(jù)源中提取出實體、屬性以及實體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達;

知識融合:在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;

知識加工:對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量。

當下知識圖譜的應用主要分為用于構(gòu)建結(jié)構(gòu)化的百科知識的“通用知識圖譜”和基于行業(yè)數(shù)據(jù)構(gòu)建和應用的“領(lǐng)域知識圖譜”。在AI與行業(yè)結(jié)合應用中,因行業(yè)領(lǐng)域的差異,存在大量數(shù)據(jù)模式不同,應用需求不同等現(xiàn)實,“領(lǐng)域知識圖譜”以其更加符合實際應用需求的特性在工業(yè)領(lǐng)域得到了廣泛應用。其中最為熟知的有Google搜索、百度搜索、天眼查企業(yè)圖譜等。

自底向上(Bottom-UP)的方法,即首先對實體進行歸納組織,形成底層概念,再逐步向上抽象,形成上層概念。該方法可基于行業(yè)現(xiàn)有標準轉(zhuǎn)換成數(shù)據(jù)可模式,也可基于高質(zhì)量行業(yè)數(shù)據(jù)源映射生成。

知識圖譜的構(gòu)建流程主要包括6個環(huán)節(jié):知識建模、知識存儲、知識抽取、知識融合、知識計算以及知識應用。

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)

構(gòu)建知識圖譜是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代包含:知識儲存、信息抽取、知識融合、知識計算,四個階段。

1、知識存儲:針對構(gòu)建知識圖譜設(shè)計底層的存儲方式,完成各類知識的存儲,包括基本屬性知識、關(guān)聯(lián)知識、事件知識、時序知識、資源類知識等。存儲方式的憂慮將直接導致查詢效率和應用效果。

2、 信息抽?。?/strong>從各種類型的數(shù)據(jù)源中提取出實體、屬性以及實體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達。

3、知識融合:在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;

4、知識計算:對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量。

知識圖譜的信息抽取

信息抽取

信息抽取是一種自動化地從半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù)中抽取實體、關(guān)系以及實體屬性等結(jié)構(gòu)化信息的技術(shù)。涉及的關(guān)鍵技術(shù)包括:實體抽取、關(guān)系抽取和屬性抽取。

實體抽取(Entity Extraction)

實體抽取又稱為命名實體識別(named entity recognition,NER),是指從文本數(shù)據(jù)集中自動識別出命名實體。實體抽取的質(zhì)量(準確率和召回率)對后續(xù)的知識獲取效率和質(zhì)量影響極大,因此是信息抽取中最為基礎(chǔ)和關(guān)鍵的部分。

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)

但是隨著互聯(lián)網(wǎng)中內(nèi)容的動態(tài)變化,采用人工預定義實體分類體系的方式已經(jīng)很難適應時代的需求,因此提出了面向開放域的實體識別和分類研究。

關(guān)系抽取(Relation Extraction)

文本語料經(jīng)過實體抽取,得到的是一系列離散的命名實體,為了得到語義信息,還需要從相關(guān)的語料中提取出實體之間的關(guān)聯(lián)關(guān)系,通過關(guān)聯(lián)關(guān)系將實體(概念)聯(lián)系起來,才能夠形成網(wǎng)狀的知識結(jié)構(gòu),研究關(guān)系抽取技術(shù)的目的,就是解決如何從文本語料中抽取實體間的關(guān)系這一基本問題。

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)


  1. 人工構(gòu)造語法和語義規(guī)則(模式匹配)
  2. 統(tǒng)計機器學習方法
  3. 基于特征向量或核函數(shù)的有監(jiān)督學習方法
  4. 研究重點轉(zhuǎn)向半監(jiān)督和無監(jiān)督
  5. 開始研究面向開放域的信息抽取方法
  6. 將面向開放域的信息抽取方法和面向封閉領(lǐng)域的傳統(tǒng)方法結(jié)合

屬性抽取(Attribute Extraction)

屬性抽取的目標是從不同信息源中采集特定實體的屬性信息。例如針對某個公眾人物,可以從網(wǎng)絡(luò)公開信息中得到其昵稱、生日、國籍、教育背景等信息。屬性抽取技術(shù)能夠從多種數(shù)據(jù)來源中匯集這些信息,實現(xiàn)對實體屬性的完整勾畫。

  1. 將實體的屬性視作實體與屬性值之間的一種名詞性關(guān)系,將屬性抽取任務(wù)轉(zhuǎn)化為關(guān)系抽取任務(wù)。
  2. 基于規(guī)則和啟發(fā)式算法,抽取結(jié)構(gòu)化數(shù)據(jù)
  3. 基于百科類網(wǎng)站的半結(jié)構(gòu)化數(shù)據(jù),通過自動抽取生成訓練語料,用于訓練實體屬性標注模型,然后將其應用于對非結(jié)構(gòu)化數(shù)據(jù)的實體屬性抽取。
  4. 采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性和屬性值之間的關(guān)系模式,據(jù)此實現(xiàn)對屬性名和屬性值在文本中的定位。

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)


UIE(Universal Information Extraction)是一種基于深度學習的自然語言處理技術(shù),旨在從非結(jié)構(gòu)化文本中自動抽取有價值的信息。它整合了多種信息抽取任務(wù),包括實體識別、關(guān)系抽取、事件抽取等,形成一個統(tǒng)一的框架。

UIE 的基本概念
  • 信息抽取:指從文本中提取出結(jié)構(gòu)化的信息,例如命名實體、實體間的關(guān)系、事件及其屬性等。信息抽取能夠?qū)⒎墙Y(jié)構(gòu)化數(shù)據(jù)(如文章、報告等)轉(zhuǎn)換為可用于分析和決策的結(jié)構(gòu)化數(shù)據(jù)。
  • 統(tǒng)一性:UIE 將多種信息抽取任務(wù)整合在同一個模型中,能夠同時處理多個抽取任務(wù),提高了模型的通用性和適用性。
UIE 的主要任務(wù)

UIE 主要包括以下幾個子任務(wù):

  1. 實體識別(Entity Recognition):識別文本中的特定實體,如人名、地名、組織、日期等。UIE 模型能夠自動標識這些實體并將其分類。
  2. 關(guān)系抽?。≧elation Extraction):識別實體之間的關(guān)系。例如,從句子“馬云創(chuàng)立了阿里巴巴”中抽取“馬云”和“阿里巴巴”之間的“創(chuàng)立”關(guān)系。
  3. 事件抽?。‥vent Extraction):從文本中抽取事件及其相關(guān)信息,通常包括事件的觸發(fā)詞、參與者、時間、地點等。例如,從“2020年,阿里巴巴收購了某公司”中識別出“收購”事件及相關(guān)參與者。
  4. 屬性抽取(Attribute Extraction):提取實體的特征和屬性,例如提取“產(chǎn)品”的品牌、型號、價格等信息。

知識融合

知識融合

通過信息抽取,我們就從原始的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取到了實體、關(guān)系以及實體的屬性信息。

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)

如果我們將接下來的過程比喻成拼圖的話,那么這些信息就是拼圖碎片,散亂無章,甚至還有從其他拼圖里跑來的碎片、本身就是用來干擾我們拼圖的錯誤碎片。知識融合包括2部分內(nèi)容:實體鏈接知識合并

實體鏈接

實體鏈接(entity linking):是指對于從文本中抽取得到的實體對象,將其鏈接到知識庫中對應的正確實體對象的操作。其基本思想是首先根據(jù)給定的實體指稱項,從知識庫中選出一組候選實體對象,然后通過相似度計算將指稱項鏈接到正確的實體對象。

研究歷史:

  1. 僅關(guān)注如何將從文本中抽取到的實體鏈接到知識庫中,忽視了位于同一文檔的實體間存在的語義聯(lián)系。
  2. 開始關(guān)注利用實體的共現(xiàn)關(guān)系,同時將多個實體鏈接到知識庫中。

實體鏈接的流程:

  1. 從文本中通過實體抽取得到實體指稱項。
  2. 進行實體消歧共指消解,判斷知識庫中的同名實體與之是否代表不同的含義以及知識庫中是否存在其他命名實體與之表示相同的含義。
  3. 在確認知識庫中對應的正確實體對象之后,將該實體指稱項鏈接到知識庫中對應實體。
  • 實體消歧:專門用于解決同名實體產(chǎn)生歧義問題的技術(shù),通過實體消歧,就可以根據(jù)當前的語境,準確建立實體鏈接,實體消歧主要采用聚類法。其實也可以看做基于上下文的分類問題,類似于詞性消歧和詞義消歧。
  • 共指消解主要用于解決多個指稱對應同一實體對象的問題。在一次會話中,多個指稱可能指向的是同一實體對象。利用共指消解技術(shù),可以將這些指稱項關(guān)聯(lián)(合并)到正確的實體對象,由于該問題在信息檢索和自然語言處理等領(lǐng)域具有特殊的重要性,吸引了大量的研究努力。共指消解還有一些其他的名字,比如對象對齊、實體匹配和實體同義。

知識加工和更新

通過信息抽取,從原始語料中提取出了實體、關(guān)系與屬性等知識要素,并且經(jīng)過知識融合,消除實體指稱項與實體對象之間的歧義,得到一系列基本的事實表達。然而事實本身并不等于知識。要想最終獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識體系,還需要經(jīng)歷知識加工的過程。知識加工主要包括3方面內(nèi)容:本體構(gòu)建、知識推理和質(zhì)量評估

本體構(gòu)建

本體(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。本體可以采用人工編輯的方式手動構(gòu)建(借助本體編輯軟件),也可以以數(shù)據(jù)驅(qū)動的自動化方式構(gòu)建本體,該過程包含三個階段:

  1. 實體并列關(guān)系相似度計算
  2. 實體上下位關(guān)系抽取
  3. 本體的生成

比如對下面這個例子,當知識圖譜剛得到“阿里巴巴”、“騰訊”、“手機”這三個實體的時候,可能會認為它們?nèi)齻€之間并沒有什么差別,但當它去計算三個實體之間的相似度后,就會發(fā)現(xiàn),阿里巴巴和騰訊之間可能更相似,和手機差別更大一些。這個知識圖譜可能就會明白,“阿里巴巴和騰訊,其實都是公司這樣一個實體下的細分實體。它們和手機并不是一類?!?/p>

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)

知識推理

在我們完成了本體構(gòu)建這一步之后,一個知識圖譜的雛形便已經(jīng)搭建好了。但可能在這個時候,知識圖譜之間大多數(shù)關(guān)系都是殘缺的,缺失值非常嚴重,那么這個時候,我們就可以使用知識推理技術(shù),去完成進一步的知識發(fā)現(xiàn)。我們可以發(fā)現(xiàn):如果A是B的配偶,B是C的主席,C坐落于D,那么我們就可以認為,A生活在D這個城市。

推理屬性值:已知某實體的生日屬性,可以通過推理得到該實體的年齡屬性;推理概念:已知(老虎,科,貓科)和(貓科,目,食肉目)可以推出(老虎,目,食肉目)。

質(zhì)量評估

質(zhì)量評估也是知識庫構(gòu)建技術(shù)的重要組成部分,這一部分存在的意義在于:可以對知識的可信度進行量化,通過舍棄置信度較低的知識來保障知識庫的質(zhì)量。

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)

知識更新

從邏輯上看知識庫的更新包括概念層的更新和數(shù)據(jù)層的更新。概念層的更新是指新增數(shù)據(jù)后獲得了新的概念,需要自動將新的概念添加到知識庫的概念層中。數(shù)據(jù)層的更新主要是新增或更新實體、關(guān)系、屬性值,對數(shù)據(jù)層進行更新需要考慮數(shù)據(jù)源的可靠性、數(shù)據(jù)的一致性(是否存在矛盾或冗雜等問題)等可靠數(shù)據(jù)源,并選擇在各數(shù)據(jù)源中出現(xiàn)頻率高的事實和屬性加入知識庫。

知識圖譜的內(nèi)容更新有兩種方式:

  • 全面更新:指以更新后的全部數(shù)據(jù)為輸入,從零開始構(gòu)建知識圖譜。這種方法比較簡單,但資源消耗大,而且需要耗費大量人力資源進行系統(tǒng)維護;
  • 增量更新:以當前新增數(shù)據(jù)為輸入,向現(xiàn)有知識圖譜中添加新增知識。這種方式資源消耗小,但目前仍需要大量人工干預(定義規(guī)則等),因此實施起來十分困難。

淺談大模型知識圖譜的構(gòu)建過程-AI.x社區(qū)

經(jīng)過上述環(huán)節(jié),專項領(lǐng)域的知識圖譜已經(jīng)構(gòu)建完成,在其具備的特有應用形態(tài),與領(lǐng)域數(shù)據(jù)和業(yè)務(wù)場景相結(jié)合后,將實際助力企業(yè)在該領(lǐng)域取得實際的商業(yè)價值。現(xiàn)今知識圖譜在很多行業(yè)中都有了成功的應用。例如:

- 信息檢索:搜索引擎中對實體信息的精準聚合和匹配、對關(guān)鍵詞的理解以及對搜索意圖的語義分析等;

- 自然語言理解:知識圖譜中的知識作為理解自然語言中實體和關(guān)系的背景信息;

- 問答系統(tǒng):匹配問答模式和知識圖譜中知識子圖之間的映射;

- 推薦系統(tǒng):將知識圖譜作為一種輔助信息集成到推薦系統(tǒng)中以提供更加精準的推薦選項;

- 電子商務(wù):構(gòu)建商品知識圖譜來精準地匹配用戶的購買意愿和商品候選集合;

- 金融風控:利用實體之間的關(guān)系來分析金融活動的風險以提供在風險觸發(fā)后的補救措施(如聯(lián)系人等);

- 公安刑偵:分析實體和實體之間的關(guān)系以獲得線索等;

- 司法輔助:法律條文的結(jié)構(gòu)化表示和查詢來輔助案件的判決等;

- 教育醫(yī)療:提供可視化的知識表示,用于藥物分析、疾病診斷等;

... ...

事實上,知識圖譜的應用遠不止于此。這個世界就是一張巨大的知識圖譜,是無數(shù)個實體關(guān)系對,在未來工業(yè)界對圖數(shù)據(jù)庫、知識圖譜將展現(xiàn)出巨大需求和應用契機!


本文轉(zhuǎn)載自??????數(shù)字化助推器??????  作者:天涯咫尺TGH

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關(guān)推薦