知識圖譜火了,還不快來pick一下!
原創(chuàng)【51CTO.com原創(chuàng)稿件】 隨著移動互聯(lián)網(wǎng)的發(fā)展,萬物互聯(lián)成為了可能,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長,這些數(shù)據(jù)不僅為分析關(guān)系提供了有效原料,更為人工智能的飛速發(fā)展帶來了***的數(shù)據(jù)紅利。知識圖譜因此應(yīng)運(yùn)而生,成為近些年來的熱點(diǎn)技術(shù)。
今天就讓我們從知識圖譜的概念、表示、構(gòu)成及應(yīng)用四方面,對其進(jìn)行一個深入、全面的探究。
什么是知識圖譜
知識圖譜(KnowledgeGraph/Vault)又稱為科學(xué)知識圖譜,是由Google公司在2012年提出來的一個新的概念。基于谷歌知識圖譜的架構(gòu),可以知識圖譜大致可以理解為一個語義網(wǎng),是與知識庫的密切關(guān)聯(lián)、但又有明顯差異的一個技術(shù)棧(Technology Stack),在谷歌的設(shè)計(jì)理念中,知識圖譜的目標(biāo)是解決信息過載問題。
谷歌知識圖譜架構(gòu)
是不是覺得有點(diǎn)抽象?那我們換個角度,從實(shí)際應(yīng)用的角度出發(fā)其實(shí)可以簡單地把知識圖譜理解成多關(guān)系圖(Multi-relational Graph),知識圖譜就是把所有不同種類的信息(Heterogeneous Information)通過數(shù)據(jù)挖掘、信息處理、知識計(jì)量和圖形繪制等一系列方式,連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)。知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。
知識圖譜的表示 知識圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識圖譜,也可以把它認(rèn)為是一個知識庫。這也是為什么它可以用來回答一些搜索相關(guān)問題的原因,比如在百度搜索引擎里輸入“鹿晗的女朋友?”,我們直接可以得到答案-“關(guān)曉彤”。這是因?yàn)槲覀冊谙到y(tǒng)層面上已經(jīng)創(chuàng)建好了一個包含“鹿晗”和“關(guān)曉彤”的實(shí)體以及他倆之間關(guān)系的知識庫。所以,當(dāng)我們執(zhí)行搜索的時候,就可以通過關(guān)鍵詞提取("鹿晗", "關(guān)曉彤", "女朋友")以及知識庫上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的,一個傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁、而不是最終的答案,所以就多了一層用戶自己篩選并過濾信息的過程。 在現(xiàn)實(shí)世界中,實(shí)體和關(guān)系也會擁有各自的屬性,比如人可以有“姓名”和“年齡”。當(dāng)一個知識圖譜擁有屬性時,我們可以用屬性圖(Property Graph)來表示。下面的圖表示一個簡單的屬性圖。劉二和劉強(qiáng)是父子關(guān)系,并且劉二擁有一個159開頭的電話號,這個電話號開通時間是2018年,其中2018年就可以作為關(guān)系的屬性。類似的,劉二本人也帶有一些屬性值比如年齡為35歲、職位是個體經(jīng)營者等。
知識圖譜的構(gòu)成 構(gòu)建知識圖譜是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代包含三個階段: 1信息抽?。簭母鞣N類型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá); 2知識融合:在獲得新知識之后,需要對其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個特定稱謂也許對應(yīng)于多個不同的實(shí)體等; 3知識加工(計(jì)算+應(yīng)用):對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量。 知識圖譜架構(gòu)分析圖 知識圖譜的應(yīng)用 知識圖譜技術(shù)為不同的商業(yè)場景帶來了大量的智能應(yīng)用和成功案例,上面所提到的用于搜索引擎(國外的搜索引擎以谷歌的Google Search、微軟的Bing Search]最為典型;國內(nèi)的主流搜索引擎公司如百度、搜狗等)的例子只是冰山一角,接下來就和小編一起看看知識圖譜的其他應(yīng)用吧! 通過知識圖譜相關(guān)技術(shù)從招股書、年報(bào)、公司公告、券商研究報(bào)告、新聞等半結(jié)構(gòu)化表格和非結(jié)構(gòu)化文本數(shù)據(jù)中批量自動抽取公司的股東、子公司、供應(yīng)商、客戶、合作伙伴、競爭對手等信息,構(gòu)建出公司的知識圖譜。 在某個宏觀經(jīng)濟(jì)事件或者企業(yè)相關(guān)事件發(fā)生的時候,券商分析師、交易員、基金公司基金經(jīng)理等投資研究人員可以通過此圖譜做更深層次的分析和更好的投資決策,比如在美國限制向中興通訊出口的消息發(fā)布之后,如果我們有中興通訊的客戶供應(yīng)商、合作伙伴以及競爭對手的關(guān)系圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國際國內(nèi)上市公司從而挖掘投資機(jī)會或者進(jìn)行投資組合風(fēng)險控制。 知識圖譜技術(shù)可以幫助我們快速構(gòu)建一個法律知識圖譜,目前還缺乏法律知識圖譜的理論工作。跟其他領(lǐng)域的知識圖譜相比,法律知識圖譜需要考慮法律的邏輯,下面就是一個法律知識圖譜的片段: 從上面這個例子可以看出,每一個犯罪行為都有主體、客體、主觀要件和客觀要件,我們就需要從文本中去抽取這些信息,從而形成一個關(guān)于犯罪行為的圖譜,而通過對海量判決書的挖掘,可以建立犯罪行為之間的關(guān)聯(lián),比如說,防衛(wèi)過當(dāng)和故意傷害之間有一個關(guān)聯(lián),即誤判為的關(guān)系。通過這個圖譜,給定一個判決書,可以輔助法官判的一個案件是否有誤判,是否需要補(bǔ)充信息。 通過融合來自不同數(shù)據(jù)源的信息構(gòu)成知識圖譜,同時引入領(lǐng)域?qū)<医I(yè)務(wù)專家規(guī)則。我們通過數(shù)據(jù)不一致性檢測,利用繪制出的知識圖譜可以識別潛在的欺詐風(fēng)險。比如借款人張 xx 和借款人吳 x 填寫信息為同事,但是兩個人填寫的公司名卻不一樣, 以及同一個電話號碼屬于兩個借款人,這些不一致性很可能有欺詐行為。 反欺詐情報(bào)分析 如教育科研,醫(yī)療,生物醫(yī)療以及需要進(jìn)行大數(shù)據(jù)分析的一些行業(yè)。這些行業(yè)對整合性和關(guān)聯(lián)性的資源需求迫切,知識圖譜可以為其提供更加精確規(guī)范的行業(yè)數(shù)據(jù)以及豐富的表達(dá),幫助用戶更加便捷地獲取行業(yè)知識。 知識圖譜的行業(yè)應(yīng)用 結(jié)語 知識圖譜是一個既充滿挑戰(zhàn)而且非常有趣的領(lǐng)域。相信在未來幾年時間內(nèi),知識圖譜毫無疑問將是人工智能的前沿研究問題。知識圖譜的重要性不僅在于它是一個全局知識庫,更是支撐智能搜索和深度問答等智能應(yīng)用的基礎(chǔ),而且在于它是一把鑰匙,能夠打開人類的知識寶庫,為許多相關(guān)學(xué)科領(lǐng)域開啟新的發(fā)展機(jī)會。從這個意義上來看,知識圖譜不僅是一項(xiàng)技術(shù),更是一項(xiàng)戰(zhàn)略資產(chǎn)。 當(dāng)然,還要強(qiáng)調(diào)一點(diǎn),知識圖譜工程本身還是業(yè)務(wù)為重心,以數(shù)據(jù)為中心,不能低估業(yè)務(wù)和數(shù)據(jù)的重要性哦。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】