知識圖譜的入門與應(yīng)用
在人類獲取知識的過程中越來越關(guān)注事物的本質(zhì),借助人工智能以及大數(shù)據(jù)分析的能力,在其基礎(chǔ)上衍生了各類各樣的智能應(yīng)用,其中知識圖譜的構(gòu)建,至關(guān)重要。
初識知識圖譜
1.知識圖譜的意義
AI需要從感知智能邁向認知智能,本質(zhì)上知識是一個基礎(chǔ),然后基于知識的推理,剛好知識圖譜其實是具備這樣的一個屬性。
2. 知識工程的歷史
3.什么是知識
信息:是指外部的客觀事實,如封面新聞,中國,第一智媒體
知識:是對外部客觀規(guī)律的歸納和總結(jié),如封面新聞是中國的第一智媒體。
4.什么是知識圖譜
知識圖譜(Knowledge Graph)本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條變?yōu)閷嶓w與實體之間的“關(guān)系”。知識圖譜是關(guān)系的最有效的表示方式。
5. 知識圖譜的構(gòu)成
實體:具有可區(qū)別性且獨立存在的某種事物。如某一個人、某一座城市、某一種植物、某一件商品等等。
概念:具有同種特性的實體構(gòu)成的集合,如國家、民族、書籍、電腦等。
內(nèi)容:通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達。
屬性:從一個實體指向它的屬性值。不同的屬性類型對應(yīng)于不同類型屬性的邊。屬性值主要指對象指定屬性的值。如 “面積”、“人口”、“首都”是幾種不同的屬性。屬性值主要指對象指定屬性的值,例如960萬平方公里等。
關(guān)系:關(guān)系是連接不同的實體,指代實體之間的聯(lián)系。通過關(guān)系節(jié)點把知識圖譜中的節(jié)點連接起來,形成一張大圖。
構(gòu)建知識圖譜
1.數(shù)據(jù)類型
知識圖譜的數(shù)據(jù)類型包含結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫),半結(jié)構(gòu)化數(shù)據(jù)(如XML、JSON、百科),非結(jié)構(gòu)化數(shù)據(jù)(如圖片、音頻、視頻、文本)。
2. 邏輯結(jié)構(gòu)
模式層:模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實表達。本體是結(jié)構(gòu)化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強,并且冗余程度較小。
數(shù)據(jù)層:數(shù)據(jù)層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。如果用(實體1,關(guān)系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數(shù)據(jù)庫作為存儲介質(zhì)
3. 存儲方式
RDF(資源描述框架):其本質(zhì)是一個數(shù)據(jù)模型(Data Model)。它提供了一個統(tǒng)一的標準,用于描述實體/資源。簡單來說,就是表示事物的一種方法和手段。
RDF由節(jié)點和邊組成,節(jié)點表示實體/資源、屬性,邊則表示了實體和實體之間的關(guān)系以及實體和屬性的關(guān)系。
圖數(shù)據(jù)庫:在知識圖譜方面,圖數(shù)據(jù)庫比關(guān)系數(shù)據(jù)庫靈活的多。
在數(shù)據(jù)少的時候,關(guān)系數(shù)據(jù)庫也沒有問題,效率也不低。但是隨著知識圖譜變的復(fù)雜,圖數(shù)據(jù)庫的優(yōu)勢會明顯增加。當涉及到2,3度的關(guān)聯(lián)查詢,基于圖數(shù)據(jù)庫的效率會比關(guān)系數(shù)據(jù)庫的效率高出幾千倍甚至幾百萬倍。
4.技術(shù)架構(gòu)
5.知識圖譜構(gòu)建過程
知識圖譜應(yīng)用
1. 信息檢索
語義搜索-答案檢索型
[ 原理 ] 對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語句,然后在知識圖譜中查詢答案
[ 場景 ] 直接找到問題的答案,而非大量的網(wǎng)頁鏈接
關(guān)系搜索
[ 場景 ] 快速準確地查詢兩個實體之間的關(guān)系
可視化展示
[ 場景 ] 直觀清晰的呈現(xiàn)概念的所有實例
2.智能推薦
推薦系統(tǒng)作為一種信息過濾的重要手段,是當前解決信息超載問題的最有效的方法之一,是面向用戶的互聯(lián)網(wǎng)產(chǎn)品的核心技術(shù)。
使用推薦服務(wù)會遇到2個問題:
使用數(shù)據(jù)稀疏:在實際場景中,用戶和物品的交互信息往往是非常稀疏的。
冷啟動問題:對于新加入的用戶或者物品,由于系統(tǒng)沒有其歷史交互信息,因此無法進行準確地建模和推薦。
解決上述問題的常用方式就是:在推薦算法中額外引入一些輔助信息
(1)社交網(wǎng)絡(luò)(social networks):一個用戶對某個物品感興趣,他的朋友可能也會對該物品感興趣;
(2)用戶/物品屬性(attributes):擁有同種屬性的用戶可能會對同一類物品感興趣;
圖像/視頻/音頻/文本等多媒體信息(multimedia):例如商品圖片、電影預(yù)告片、音樂、新聞標題等;
(3)上下文(context):用戶-物品交互的時間、地點、當前會話信息等。
知識圖譜…
知識圖譜包含了實體之間豐富的語義關(guān)聯(lián),為推薦系統(tǒng)提供了潛在的輔助信息來源。知識圖譜在諸多推薦場景中都有應(yīng)用的潛力,例如電影、新聞、景點、餐館、購物等。
精確性:知識圖譜為物品引入了更多的語義關(guān)系,可以深層次地發(fā)現(xiàn)用戶興趣;
多樣性:知識圖譜提供了不同的關(guān)系連接種類,有利于推薦結(jié)果的發(fā)散,避免推薦結(jié)果局限于單一類型;
可解釋性:知識圖譜可以連接用戶的歷史記錄和推薦結(jié)果,從而提高用戶對推薦結(jié)果的滿意度和接受度,增強用戶對推薦系統(tǒng)的信任。
3.反欺詐
不一致性驗證:不一致性驗證可以用來判斷一個借款人的欺詐風(fēng)險
比如借款人張三和借款人李四填寫的是同一個公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個風(fēng)險點,需要審核人員格外的注意。
再比如,借款人說跟張三是朋友關(guān)系,跟李四是父子關(guān)系。很顯然,朋友的朋友不是父子關(guān)系,所以存在著明顯的不一致性。
4.其他行業(yè)應(yīng)用
公安刑偵:分析實體和實體之間的關(guān)系以獲得線索等;
司法輔助:法律條文的結(jié)構(gòu)化表示和查詢來輔助案件的判決等;
電子商務(wù):構(gòu)建商品知識圖譜來精準地匹配用戶的購買意愿和商品候選集合;
醫(yī)療診斷:提供可視化的知識表示,用于藥物分析、疾病診斷等。