偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

行業(yè)規(guī)模的知識(shí)圖譜——經(jīng)驗(yàn)和挑戰(zhàn)

開發(fā) 開發(fā)工具 知識(shí)圖譜
如今,知識(shí)圖譜對(duì)許多企業(yè)來說至關(guān)重要——它們提供了結(jié)構(gòu)化數(shù)據(jù)和事實(shí)知識(shí),以這些數(shù)據(jù)和知識(shí)驅(qū)動(dòng)了許多產(chǎn)品,使它們更加智能化甚至“神奇”。

[[355133]]

【引子】

本文是石頭兄弟推薦的一篇關(guān)于知識(shí)圖譜綜述性文章,老碼對(duì)去年ACM上的這篇“Industry-Scale Knowledge Graphs: Lessons and Challenges”,Communications of the ACM, August 2019, Vol. 62 No. 8, Pages 36-43, 10.1145/3331166 進(jìn)行了翻譯整理。原文作者是Natasha Noy(Google), Yuqing Gao(MicroSoft), Anshu Jain(IBM), Anant Narayanan(Facebook), Alan Patterson(eBay)和Jamie Taylor(Google)。為了緩解閱讀的枯燥,點(diǎn)綴了一些風(fēng)景圖片。

如今,知識(shí)圖譜對(duì)許多企業(yè)來說至關(guān)重要——它們提供了結(jié)構(gòu)化數(shù)據(jù)和事實(shí)知識(shí),以這些數(shù)據(jù)和知識(shí)驅(qū)動(dòng)了許多產(chǎn)品,使它們更加智能化甚至“神奇”。

一般來說,知識(shí)圖譜描述了感興趣的對(duì)象和它們之間的聯(lián)系。例如,知識(shí)圖譜中可能包含電影節(jié)點(diǎn)、電影中的演員、導(dǎo)演等等。每個(gè)節(jié)點(diǎn)可能具有諸如參與者的名稱和年齡等屬性,可能存在涉及特定演員的多部電影的節(jié)點(diǎn)。然后,用戶可以遍歷知識(shí)圖表,收集演員出現(xiàn)的所有電影的信息,如果適用的話,也可以收集導(dǎo)演的信息。

許多知識(shí)圖譜的實(shí)際實(shí)現(xiàn)方案通過定義模式或本體對(duì)圖譜中的鏈接施加約束。例如,從電影到其導(dǎo)演的鏈接必須將 Movie 類型的對(duì)象連接到 Person 類型的對(duì)象。在某些情況下,鏈接本身可能具有自己的屬性,例如連接演員和電影的鏈接可能具有演員所扮演的特定角色的名稱。同樣,將政治家與政府中的特定角色聯(lián)系起來的鏈接可能包含政治家擔(dān)任這一角色的時(shí)間期限。

本文考察了五個(gè)不同的科技公司的知識(shí)圖譜,比較了他們各自建立圖譜和使用經(jīng)驗(yàn)的異同,并討論了當(dāng)今所有知識(shí)驅(qū)動(dòng)型企業(yè)面臨的挑戰(zhàn)。這里討論的知識(shí)圖譜集合涵蓋了從搜索、產(chǎn)品描述到社交網(wǎng)絡(luò)的廣泛應(yīng)用:

  • 微軟的 Bing 知識(shí)圖譜和 Google搜索引擎的知識(shí)圖譜都支持搜索并回答搜索中以及談話中的問題。從人、地點(diǎn)、事物和組織的描述和聯(lián)系開始,這些圖譜包括了關(guān)于世界的一般知識(shí)。
  • Facebook 擁有世界上最大的社交圖譜,其中還包括音樂、電影、名人和 Facebook 用戶所關(guān)心的信息。
  • eBay 目前正在開發(fā)的產(chǎn)品知識(shí)圖譜,將對(duì)產(chǎn)品、實(shí)體以及它們與外部世界之間關(guān)系的語義知識(shí)進(jìn)行編碼。
  • IBM Watson Discovery 產(chǎn)品的知識(shí)圖譜框架解決了兩個(gè)需求: 一個(gè)側(cè)重于發(fā)現(xiàn)不明顯信息的用例,另一個(gè)側(cè)重于提供“構(gòu)建自己的知識(shí)圖譜”框架。

這里的目標(biāo)不是詳盡地描述這些知識(shí)圖譜,而是利用作者在當(dāng)今一些大型科技公司中構(gòu)建知識(shí)圖譜的實(shí)踐經(jīng)驗(yàn),作為任何企業(yè)級(jí)知識(shí)圖譜所面臨的挑戰(zhàn)以及需要進(jìn)行一些創(chuàng)新研究的支點(diǎn)。

什么是知識(shí)圖譜? ——設(shè)計(jì)上的決策

讓我們從描述五個(gè)知識(shí)圖譜和每個(gè)設(shè)計(jì)中的決策開始,并確定每個(gè)圖譜的范圍。盡管許多挑戰(zhàn)是所有企業(yè)共同面臨的,但是,每個(gè)應(yīng)用程序和產(chǎn)品目標(biāo)的不同導(dǎo)致了不同的方法和系統(tǒng)架構(gòu),附表總結(jié)了這些知識(shí)圖譜的性質(zhì)。

Microsoft

多年以來,微軟的工程師和科學(xué)家一直致力于大規(guī)模圖譜的研究。這項(xiàng)工作包括根據(jù)基礎(chǔ)研究來構(gòu)建端到端系統(tǒng),以及為數(shù)億用戶提供全球規(guī)模的服務(wù)。在整個(gè)公司,有幾個(gè)主要的圖譜系統(tǒng),每一個(gè)都帶來了圍繞創(chuàng)建圖譜和最新的具體挑戰(zhàn)。許多不同的產(chǎn)品都可以使用知識(shí)圖譜為消費(fèi)者帶來價(jià)值。以下是微軟的一些圖譜:

  • 必應(yīng)的知識(shí)圖譜包含了世界的信息和必應(yīng)上的問答功能。它包含人、地點(diǎn)、事物、組織、位置等實(shí)體,以及用戶可能采取的操作(例如,播放視頻或購買歌曲)。這是微軟最大的知識(shí)圖譜,因?yàn)樗哪繕?biāo)是包含關(guān)于整個(gè)世界的一般知識(shí)。
  • 學(xué)術(shù)圖譜是人員、出版物、研究領(lǐng)域、會(huì)議和地點(diǎn)等實(shí)體的集合。它允許用戶看到研究人員和研究方向之間的聯(lián)系,否則可能很難確定。
  • LinkedIn的知識(shí)圖譜包含人員、工作、技能、公司、地點(diǎn)等實(shí)體。LinkedIn 的經(jīng)濟(jì)圖譜基于5.9億會(huì)員和3千萬家公司,用于尋找國家和地區(qū)的經(jīng)濟(jì)層面的洞察力。

當(dāng)必應(yīng)搜索引擎在必應(yīng)知識(shí)圖譜中有額外的有用信息時(shí),顯示一個(gè)知識(shí)面板。例如,搜索電影導(dǎo)演詹姆斯 · 卡梅隆可以找到他的出生日期、身高、他導(dǎo)演的電影和電視節(jié)目、他以前的戀人、他做過的 TED 演講、 Reddit 上的“問我任何事”問題和答案等信息。搜索不同類型的實(shí)體會(huì)返回完全不同的信息,例如,搜索“ Woodblock 餐廳”會(huì)得到菜單摘要、專業(yè)評(píng)論和用戶評(píng)論,以及預(yù)訂表格選項(xiàng)。

所有這些圖譜系統(tǒng)以及任何一個(gè)大型知識(shí)圖譜系統(tǒng),都可能會(huì)有關(guān)于質(zhì)量和有用性的三個(gè)關(guān)鍵的決定因素:

完備性

圖譜是否包含了所有需要的信息?實(shí)際上,答案總是否定的,因?yàn)殚_發(fā)人員總是在尋找新的方法來為用戶提供價(jià)值和新的信息來源。

正確性

信息是否正確?如何知道兩個(gè)信息來源實(shí)際上是否關(guān)于同一事實(shí),如果它們發(fā)生沖突,該怎么辦?回答這些問題本身就是一個(gè)巨大的研究和投資領(lǐng)域。

及時(shí)性

內(nèi)容是最新的嗎?它可能曾經(jīng)是正確的,但實(shí)際上已經(jīng)過時(shí)了。對(duì)于那些幾乎不斷變化的東西(股票價(jià)格) ,與那些變化很少的東西(一個(gè)國家的首都)相比,及時(shí)性會(huì)有所不同,其間夾雜著許多不同類型的信息。

為了生成關(guān)于世界的知識(shí),數(shù)據(jù)有多個(gè)來源,這可能是非常嘈雜和矛盾的,必須整理成一個(gè)單一、一致且準(zhǔn)確的圖譜。用戶看到的最后一個(gè)事實(shí)只是冰山的一角,下面隱藏著大量的工作和復(fù)雜性。例如,僅在維基百科上就有200個(gè)威爾 · 史密斯,演員威爾 · 史密斯的必應(yīng)知識(shí)結(jié)果是由41個(gè)網(wǎng)站上的108,000個(gè)事實(shí)組成的。

知識(shí)圖譜具備強(qiáng)大的高級(jí)人工智能,從搜索到對(duì)話,允許將單個(gè)查詢變成一個(gè)持續(xù)的對(duì)話。具體來說,這允許用戶與系統(tǒng)進(jìn)行對(duì)話,并讓系統(tǒng)在對(duì)話的每一輪中維護(hù)上下文。例如,在未來的一個(gè)場(chǎng)景中,用戶可以對(duì)必應(yīng)說,“給我看看世界上現(xiàn)在溫度超過華氏70度的所有國家。”一旦系統(tǒng)返回答案,用戶還可以說,“給我看看兩個(gè)小時(shí)飛行之內(nèi)的那些國家。”

我們可以將同樣的想法進(jìn)一步推廣,從而獲得完整的對(duì)話體驗(yàn)。例如,用戶可以說,“我想在感恩節(jié)前兩天到紐約市旅行,并在那里停留一周” ,系統(tǒng)會(huì)使用基礎(chǔ)知識(shí)圖譜來理解查詢,然后請(qǐng)求那些缺失的信息片段。在這個(gè)例子中,系統(tǒng)需要知道“ NYC”可能意味著“ JFK 機(jī)場(chǎng)” ,而感恩節(jié)是11月22日。然后,它必須知道如何進(jìn)行航班搜索,這需要一個(gè)起點(diǎn)和目的地位置。然后,系統(tǒng)必須知道對(duì)話的下一輪必須確定出發(fā)地點(diǎn),所以它會(huì)說,“好的,預(yù)訂11月20日至27日飛往肯尼迪機(jī)場(chǎng)的航班。你從哪里飛過來? ”

Google

Google的知識(shí)圖譜數(shù)據(jù)庫有超過700億的斷言描述了10億個(gè)實(shí)體,涵蓋了廣泛的主題,是十多年來不同個(gè)體數(shù)據(jù)活動(dòng)貢獻(xiàn)的結(jié)果,他們中的大多數(shù)都從未有過知識(shí)管理系統(tǒng)的經(jīng)驗(yàn)。

或許,更重要的是,知識(shí)圖譜作為一個(gè)長期穩(wěn)定的類和實(shí)體標(biāo)識(shí)的來源,許多Google的產(chǎn)品和功能在幕后使用它。外部用戶和開發(fā)人員在使用 YouTube 和 Google Cloud api 等服務(wù)時(shí)可以觀察到這些特性。這種對(duì)身份的關(guān)注使得Google的搜索結(jié)果轉(zhuǎn)變?yōu)?ldquo;事物而不是字符串”,知識(shí)圖譜不是簡(jiǎn)單地返回傳統(tǒng)的“10個(gè)藍(lán)色鏈接” ,而是幫助谷歌產(chǎn)品將用戶的請(qǐng)求解釋為對(duì)用戶世界中概念的引用,并作出適當(dāng)?shù)捻憫?yīng)。

Google的知識(shí)圖譜應(yīng)用中可能最可見的是,當(dāng)用戶發(fā)出關(guān)于實(shí)體的查詢時(shí),搜索結(jié)果包括了知識(shí)圖譜服務(wù)中的一系列事實(shí)實(shí)體。例如,對(duì)“ I.M.Pei”的查詢會(huì)在搜索結(jié)果中產(chǎn)生一個(gè)小面板,其中有包含關(guān)于建筑師的教育、獎(jiǎng)項(xiàng)和他設(shè)計(jì)的重要結(jié)構(gòu)的信息。

知識(shí)圖譜還認(rèn)識(shí)到,某些類型的交互可以發(fā)生在不同的實(shí)體上。對(duì)“ The Russian Tea Room”的查詢提供了一個(gè)按鈕來預(yù)訂,而對(duì)“ Rita Ora”的查詢則提供了各種音樂服務(wù)的鏈接。

在 Google知識(shí)圖譜的范圍內(nèi),一個(gè)人無法記住整個(gè)圖譜中使用的詳細(xì)結(jié)構(gòu),更不用說管理了。為了確保系統(tǒng)隨著時(shí)間的推移保持一致,Google根據(jù)一組基本的底層結(jié)構(gòu)構(gòu)建了自己的知識(shí)圖譜。它在不同的抽象層次上復(fù)制了相似的結(jié)構(gòu)和推理機(jī)制,從概念上引導(dǎo)了許多基本斷言的結(jié)構(gòu)。例如,為了檢查特定的不變式結(jié)構(gòu),Google 利用了“類型本身就是類型的實(shí)例”這一思想來引入元類型的概念。然后,它可以推理元類型,以驗(yàn)證細(xì)粒度類型是否違反了它感興趣的不變量。證明了獨(dú)立于時(shí)間的恒等式不是結(jié)構(gòu)的子類,而是依賴于時(shí)間的。因?yàn)檫@種可伸縮的抽象級(jí)別基于相同的低級(jí)附加,所以相對(duì)容易地以開箱即用的方式來添加。

這個(gè)元級(jí)別模式還允許大規(guī)模的驗(yàn)證數(shù)據(jù)。例如,可以確認(rèn)畫家在他們的藝術(shù)作品創(chuàng)作之前就已經(jīng)存在,方法是將畫家確定為他們繪畫作品”產(chǎn)品”的”來源” ,并對(duì)這些元類之間的所有關(guān)系都可以進(jìn)行一般性檢查。

在稍高的概念層面上,知識(shí)圖譜“理解”作者與他們的創(chuàng)造性作品是不同的,即使這些實(shí)體經(jīng)常在口語表達(dá)中被混為一談。同樣,創(chuàng)造性作品可能有多種表達(dá)方式,而這些表達(dá)方式本身又是截然不同的。隨著圖譜的增長,這種本體論知識(shí)有助于維護(hù)實(shí)體的身份。

通過這些自描述層構(gòu)建的知識(shí)圖譜,不僅簡(jiǎn)化了機(jī)器的一致性檢查,而且使內(nèi)部用戶更容易理解知識(shí)圖譜。一旦新的開發(fā)人員接受了知識(shí)圖譜組織的基礎(chǔ)知識(shí)培訓(xùn),他們就可以了解其結(jié)構(gòu)清單的全部內(nèi)容。類似地,通過將圖譜結(jié)構(gòu)與一些核心原則綁定在一起,并在模式中明確地揭示元關(guān)系,為內(nèi)部開發(fā)人員簡(jiǎn)化了查找和理解新模式結(jié)構(gòu)的過程。

Facebook

Facebook 以擁有世界上最大的社交網(wǎng)絡(luò)而聞名。在過去的十年中,F(xiàn)acebook 的工程師們已經(jīng)開發(fā)出了能夠?qū)崿F(xiàn)人與人之間豐富聯(lián)系的技術(shù)?,F(xiàn)在,他們正在應(yīng)用同樣的技術(shù),不僅對(duì)人們,而且對(duì)人們關(guān)心的事情建立了更深刻的理解。

通過以一種結(jié)構(gòu)化的方式和規(guī)模來模擬世界,F(xiàn)acebook 的工程師們能夠解開社交圖譜本身無法滿足的用例。即使是看起來很簡(jiǎn)單的事情,比如對(duì)音樂和歌詞的結(jié)構(gòu)性理解,再加上能夠檢測(cè)人們何時(shí)在軟件中使用它們,能夠讓人們?cè)趥€(gè)人之間產(chǎn)生有意外收獲的時(shí)刻。今天,F(xiàn)acebook 產(chǎn)品中的許多經(jīng)驗(yàn),例如幫助人們?cè)?Messenger 上規(guī)劃電影放映,都是由知識(shí)圖譜驅(qū)動(dòng)的。

Facebook 知識(shí)圖譜關(guān)注的是最具社會(huì)相關(guān)性的實(shí)體,比如那些最常被用戶討論的實(shí)體: 名人、地點(diǎn)、電影和音樂。隨著 Facebook 知識(shí)圖譜的不斷增長,開發(fā)者們開始關(guān)注那些最有可能提供實(shí)用性和用戶體驗(yàn)愉悅的領(lǐng)域。

覆蓋范圍、正確性、結(jié)構(gòu)化和不斷的變化都驅(qū)動(dòng)著 Facebook 知識(shí)圖譜的設(shè)計(jì):

  • 覆蓋范圍意味著在正在建模的領(lǐng)域中要面面俱到。默認(rèn)的立場(chǎng)來自多個(gè)提供者,這意味著整個(gè)圖譜生成系統(tǒng)是在假設(shè)數(shù)據(jù)來自多個(gè)來源的基礎(chǔ)上構(gòu)建的,所有這些來源都提供了關(guān)于重疊實(shí)體集的信息(有時(shí)是相互沖突的)。知識(shí)圖譜以兩種方式來處理這些相互沖突的信息: 如果信息被認(rèn)為是足夠低的可信度,可以放棄; 或者通過保留出處和推斷出的關(guān)于斷言的可信度,將相互沖突的觀點(diǎn)合并到實(shí)體中。
  • 正確性并不意味著知識(shí)圖譜總是知道屬性的“正確”值,而是它總是能夠解釋為什么做出某個(gè)斷言。因此,它保存從數(shù)據(jù)采集到服務(wù)層流經(jīng)系統(tǒng)的所有數(shù)據(jù)起源。
  • 結(jié)構(gòu)化意味著知識(shí)圖譜必須是自描述的。如果一段數(shù)據(jù)不是強(qiáng)類型的,或者不符合描述實(shí)體的模式,那么圖譜會(huì)嘗試執(zhí)行以下操作之一: 將數(shù)據(jù)轉(zhuǎn)換為預(yù)期的類型(例如,執(zhí)行簡(jiǎn)單的類型強(qiáng)制,處理格式不正確的日期) ; 在非結(jié)構(gòu)化文本上提取與類型相匹配的結(jié)構(gòu)化數(shù)據(jù)(例如,運(yùn)行自然語言處理) ,例如將用戶評(píng)論轉(zhuǎn)換為類型的槽位; 或者將其完全刪除。
  • 最后,F(xiàn)acebook 的知識(shí)圖譜是為不斷變化而設(shè)計(jì)的。圖譜不是數(shù)據(jù)庫中的單個(gè)表示形式,而是在接收到新信息時(shí)進(jìn)行更新。取而代之的是,每天都要從頭開始構(gòu)建圖譜,從源代碼開始,在最后由構(gòu)建系統(tǒng)生成一個(gè)完整的知識(shí)圖譜。

對(duì)Facebook 知識(shí)圖譜而言,一個(gè)顯而易見的起點(diǎn)是 Facebook 頁面生態(tài)系統(tǒng)。企業(yè)和個(gè)人在 Facebook 上創(chuàng)建的頁面代表了各種各樣的想法和興趣。此外,讓實(shí)體的所有者對(duì)其進(jìn)行斷言是一個(gè)有價(jià)值的數(shù)據(jù)源。然而,與任何來源廣泛的數(shù)據(jù)一樣,這也不是沒有挑戰(zhàn)的。

Facebook 頁面是非常公開的,每天都有數(shù)以百萬計(jì)的人與之互動(dòng)。因此,頁面所有者的興趣并不總是與知識(shí)圖譜的需求保持一致。

最常見的是,頁面和實(shí)體沒有嚴(yán)格的1:1映射,因?yàn)轫撁婵梢员硎緦?shí)體的集合(例如,電影特許經(jīng)營權(quán))。數(shù)據(jù)也可能是不完整的或非結(jié)構(gòu)化的(文本塊) ,這使得它更難在知識(shí)圖譜的上下文中使用。

Facebook 最大的挑戰(zhàn)是利用其頁面上的數(shù)據(jù),并將其與其他更加結(jié)構(gòu)化的數(shù)據(jù)源結(jié)合起來,以實(shí)現(xiàn)一個(gè)干凈、結(jié)構(gòu)化知識(shí)圖譜的目標(biāo)。對(duì)于 Facebook 來說,一個(gè)有用的工具就是把圖譜看作一個(gè)模型,把 Facebook 頁面看作是圖譜中一個(gè)實(shí)體或一系列實(shí)體的視圖投影。

eBay

eBay 正在構(gòu)建自己的產(chǎn)品知識(shí)圖譜,這個(gè)圖譜將對(duì)產(chǎn)品、實(shí)體及其相互關(guān)系和外部世界的語義知識(shí)進(jìn)行編碼。這些知識(shí)對(duì)于理解賣家提供的產(chǎn)品和買家尋找的產(chǎn)品以及明智地將兩者聯(lián)系起來是非常關(guān)鍵的,而這正是 eBay 營銷技術(shù)的關(guān)鍵部分。

例如,eBay 的知識(shí)圖譜可以將產(chǎn)品與現(xiàn)實(shí)世界中的實(shí)體聯(lián)系起來,定義產(chǎn)品的身份以及為什么它對(duì)買家可能有價(jià)值。一件芝加哥公牛隊(duì)的籃球運(yùn)動(dòng)衫是一個(gè)產(chǎn)品,但如果它是由邁克爾喬丹簽過名,它就是一個(gè)非常不同的產(chǎn)品。1940年巴黎的明信片可能只是一張明信片; 但如果知道巴黎在法國,而1940年是二戰(zhàn)期間,就完全改變了產(chǎn)品性質(zhì)。

知識(shí)圖譜中的實(shí)體也可以將產(chǎn)品相互關(guān)聯(lián)。如果用戶搜索梅西的紀(jì)念品,圖譜會(huì)顯示梅西效力于巴塞羅那足球俱樂部,那么,也許,該俱樂部的商品也很有意思。也許其他著名的巴塞羅那球員的紀(jì)念品會(huì)引起這位購物者的興趣。相關(guān)商品應(yīng)該包括以足球?yàn)榛A(chǔ)的產(chǎn)品,如有簽名的襯衫、條帶、靴子和足球。這種思想可以從體育延伸到音樂、電影、文學(xué)、歷史事件等等。

與實(shí)體關(guān)系同樣重要的是了解產(chǎn)品本身及其關(guān)系。知道一個(gè)產(chǎn)品是 iPhone,另一個(gè)是 iPhone 的外殼顯然是很重要的。但是,這種情況下可能適合一些手機(jī),而不是其他品類,所以eBay需要產(chǎn)品型號(hào)的零件和配件尺寸。了解產(chǎn)品的許多變體和關(guān)系也很重要: 哪些產(chǎn)品是一種產(chǎn)品的制造商變體?它們有不同的大小、容量或顏色嗎?哪些是相同的意思?是他們有相同的規(guī)格,但可能不同的品牌或顏色?該系統(tǒng)還需要了解那些組合在一起的產(chǎn)品,比如捆綁包、工具包,甚至是時(shí)裝。

與其他知識(shí)圖表一樣,eBay 必須處理規(guī)模性問題。在任何時(shí)候都可能有超過10億的活躍產(chǎn)品分布在成千上萬個(gè)類別中。這些列表可能包括數(shù)億個(gè)產(chǎn)品和為這些產(chǎn)品指定的數(shù)百億個(gè)屬性。

eBay 知識(shí)圖譜有幾個(gè)不同的用戶,這些用戶有非常不同的服務(wù)級(jí)別需求。當(dāng)搜索服務(wù)需要理解用戶的查詢時(shí),知識(shí)圖譜必須支持需要毫秒級(jí)的答案。而在規(guī)模化的另一端,大型圖譜的查詢可能需要數(shù)小時(shí)才能運(yùn)行完。

為了應(yīng)對(duì)這些挑戰(zhàn),eBay 的工程師設(shè)計(jì)了一個(gè)架構(gòu),提供靈活性的同時(shí)確保數(shù)據(jù)的一致性。知識(shí)圖譜使用一個(gè)復(fù)制的日志對(duì)圖譜進(jìn)行所有的寫入和編輯。日志提供了數(shù)據(jù)的一致有序視圖。此方法支持滿足不同用例的多個(gè)后端數(shù)據(jù)存儲(chǔ)。具體來說,有一個(gè)用于提供低延遲搜索查詢的扁平文檔存儲(chǔ)和一個(gè)用于進(jìn)行長時(shí)間運(yùn)行圖譜分析的圖存儲(chǔ)。這些存儲(chǔ)中的每一個(gè)都只是將其操作附加到寫日志中,并以保證的順序?qū)⑻砑雍途庉嬏砑拥綀D譜中。因此,每個(gè)商店將是一致的。

IBM

IBM 開發(fā)了知識(shí)圖譜框架,Watson Discovery Services 使用該框架并提供相關(guān)服務(wù),這些服務(wù)已經(jīng)部署在 IBM 以外的許多行業(yè)配置中。IBM Watson 以兩種不同的方式使用知識(shí)圖譜框架: 第一,該框架直接支持 Watson Discovery,它關(guān)注于使用結(jié)構(gòu)化和非結(jié)構(gòu)化的知識(shí)來發(fā)現(xiàn)新的、不明顯的信息,以及發(fā)現(xiàn)之上的相關(guān)垂直產(chǎn)品; 第二,該框架允許其他人以預(yù)先構(gòu)建的知識(shí)圖譜為核心構(gòu)建自己的知識(shí)圖譜。

Discovery 用例創(chuàng)建了領(lǐng)域文檔或數(shù)據(jù)源中不直接顯示的新知識(shí)。這種新知識(shí)可能是令人驚訝和反常的。雖然搜索和檢測(cè)工具可以獲取系統(tǒng)現(xiàn)有資源中已有的知識(shí),但這些工具對(duì)于Discovery來說是必要的,但還不夠。不明顯的發(fā)現(xiàn)包括實(shí)體之間的新聯(lián)系(例如,藥物的新副作用、作為收購目標(biāo)的新興公司或銷售線索)、領(lǐng)域中潛在新的重要實(shí)體(例如,顯示技術(shù)的新材料、特定投資領(lǐng)域的新投資者) ,或改變現(xiàn)有實(shí)體的重要性(投資者在一個(gè)組織中持有越來越多的股份,或在情報(bào)收集場(chǎng)景中增加利益相關(guān)者與某些犯罪分子之間的互動(dòng))。

考慮到 IBM 在各個(gè)領(lǐng)域應(yīng)用認(rèn)知技術(shù)中廣泛的企業(yè)客戶基礎(chǔ),IBM 專注于為客戶和客戶團(tuán)隊(duì)創(chuàng)建一個(gè)框架,以構(gòu)建他們自己的知識(shí)圖譜。IBM 的行業(yè)團(tuán)隊(duì)利用這個(gè)框架來構(gòu)建特定領(lǐng)域的實(shí)例??蛻羯婕岸鄠€(gè)領(lǐng)域,從以消費(fèi)者為導(dǎo)向的銀行和金融、保險(xiǎn)、 IT 服務(wù)、媒體和娛樂、零售和客戶服務(wù),到幾乎完全專注于深度發(fā)現(xiàn)特別是科學(xué)領(lǐng)域的行業(yè),如生命科學(xué)、石油和天然氣、化學(xué)品和石油、國防和太空探索。這種廣度要求框架具有客戶自己構(gòu)建和管理知識(shí)圖所需的所有機(jī)制??蚣苤袠?gòu)建的一些關(guān)鍵技術(shù)包括文檔轉(zhuǎn)換、文檔提取、通道存儲(chǔ)和實(shí)體規(guī)范化。

以下是 IBM 工程師從為 Watson Discovery 構(gòu)建知識(shí)圖譜和在其他行業(yè)系統(tǒng)部署中學(xué)到的一些重要見解和經(jīng)驗(yàn)教訓(xùn)。

  • IBM Watson 知識(shí)圖譜使用多態(tài)存儲(chǔ),支持多個(gè)索引、數(shù)據(jù)庫結(jié)構(gòu)、內(nèi)存和圖存儲(chǔ)。這種體系結(jié)構(gòu)將實(shí)際數(shù)據(jù)(通常是冗余的)分割為一個(gè)或多個(gè)存儲(chǔ),允許每個(gè)存儲(chǔ)解決特定的需求和工作負(fù)載。IBM 的工程師和研究人員解決了一些挑戰(zhàn),如保持這些多個(gè)商店同步,允許商店之間通過微服務(wù)通信,允許攝取新知識(shí)或重新處理原始數(shù)據(jù)的方式,而不需要重新加載或重建整個(gè)圖譜。
  • 證據(jù)對(duì)系統(tǒng)來說必須是原始的?,F(xiàn)實(shí)世界(開發(fā)人員經(jīng)常嘗試對(duì)其建模)和保存所提取知識(shí)的數(shù)據(jù)結(jié)構(gòu)之間的主要聯(lián)系是知識(shí)的“證據(jù)”。這種證據(jù)通常是原始文檔、數(shù)據(jù)庫、字典或圖像、文本和視頻文件,從中獲取知識(shí)。在發(fā)現(xiàn)過程中進(jìn)行有針對(duì)性的、有用的上下文查詢時(shí),元數(shù)據(jù)和其他相關(guān)信息往往在知識(shí)推理中起著重要作用。因此,關(guān)鍵是不要丟失存儲(chǔ)在圖譜中的關(guān)系和這些關(guān)系的來源之間的聯(lián)系。
  • 通過上下文將實(shí)體解析推送到運(yùn)行時(shí)。解決對(duì)部分名稱、表面形式或具有相同名稱的多個(gè)實(shí)體所引用的實(shí)體不明確引用是自然語言理解中的一個(gè)典型問題。然而,在知識(shí)發(fā)現(xiàn)領(lǐng)域,開發(fā)人員經(jīng)常尋找一些不明顯的模式,其中一個(gè)實(shí)體的行為不是以其熟悉的形式或出現(xiàn)在一個(gè)新的上下文中。因此,在知識(shí)圖譜創(chuàng)建過程中過早地消除實(shí)體的歧義與發(fā)現(xiàn)的目標(biāo)相沖突。最好是讓多個(gè)實(shí)體來解析這些話術(shù)或消除它們的歧義,然后在運(yùn)行時(shí)使用查詢的上下文來解析實(shí)體名稱。

未來的挑戰(zhàn)

這里所討論的知識(shí)圖譜在需求、覆蓋范圍和體系結(jié)構(gòu)上有很大的不同,但是大多數(shù)實(shí)現(xiàn)中的許多挑戰(zhàn)都是一致的。這些挑戰(zhàn)包括規(guī)?;⑵缌x消除、從異構(gòu)和非結(jié)構(gòu)化來源提取知識(shí)以及管理知識(shí)進(jìn)化。多年來,這些挑戰(zhàn)一直處于研究的前沿,然而它們?nèi)匀焕_著行業(yè)的從業(yè)人員。其中一些挑戰(zhàn)存在于一些系統(tǒng)中,但在其他環(huán)境中可能不那么重要。

實(shí)體消歧和管理身份

雖然實(shí)體消歧和解析是語義網(wǎng)中一個(gè)活躍的研究領(lǐng)域,已經(jīng)在知識(shí)圖譜中存在了好幾年,但幾乎令人驚訝的是,它仍然幾乎是整個(gè)行業(yè)的最大挑戰(zhàn)之一。最簡(jiǎn)單形式的挑戰(zhàn)是給一個(gè)話語或一個(gè)提及的實(shí)體指定一個(gè)唯一的標(biāo)準(zhǔn)化身份和類型。許多自動(dòng)提取的實(shí)體具有非常相似的表面形式,比如具有相同或相似名稱的人,或者具有相同或相似標(biāo)題的電影、歌曲和書籍。名稱相似的兩個(gè)產(chǎn)品可能指的是不同的列表。如果沒有正確的鏈接和歧義消除,實(shí)體將與錯(cuò)誤的事實(shí)相關(guān)聯(lián),并導(dǎo)致不正確的推理。

雖然這些問題在較小的系統(tǒng)中可能看起來很明顯,但當(dāng)身份管理必須在異構(gòu)貢獻(xiàn)者基礎(chǔ)和規(guī)模上完成時(shí),問題就變得更具挑戰(zhàn)性了。如何用不同團(tuán)隊(duì)能夠達(dá)成一致并且知道其他團(tuán)隊(duì)正在描述的方式來描述身份?開發(fā)者如何確保有足夠的人類可讀信息來裁決沖突?

類型成員和解析

多數(shù)現(xiàn)有的知識(shí)圖譜系統(tǒng)允許每個(gè)實(shí)體具有多種類型,特定的類型在不同的情況下可能很重要。例如,巴拉克 · 奧巴馬是一個(gè)人,但也是一個(gè)政治家和演員,一個(gè)受歡迎得多的政治家,而不是一個(gè)非常知名的演員。古巴可以是一個(gè)國家,也可以是一個(gè)政府。在某些情況下,知識(shí)圖系統(tǒng)將類型分配轉(zhuǎn)移到運(yùn)行時(shí): 每個(gè)實(shí)體描述其屬性,應(yīng)用程序根據(jù)用戶任務(wù)來使用特定的類型和屬性集合。

雖然類成員關(guān)系的標(biāo)準(zhǔn)在早期可能很簡(jiǎn)單,但隨著實(shí)例范圍的增長,在保持語義穩(wěn)定性的同時(shí)強(qiáng)制執(zhí)行這些標(biāo)準(zhǔn)變得具有挑戰(zhàn)性。例如,當(dāng)谷歌在其知識(shí)圖譜中定義“體育”的類別時(shí),電子競(jìng)技并不存在。那么,谷歌如何在保持體育類別身份的同時(shí)還包括電子競(jìng)技呢?

管理不斷變化的知識(shí)

有效的實(shí)體鏈接系統(tǒng)還需要根據(jù)其不斷變化的輸入數(shù)據(jù)有機(jī)地發(fā)展。例如,公司可能會(huì)合并或分拆,新的科學(xué)發(fā)現(xiàn)可能會(huì)將一個(gè)現(xiàn)有的實(shí)體分裂成多個(gè)實(shí)體。當(dāng)一家公司收購另一家公司時(shí),收購公司是否改變了身份?如果一個(gè)部門被分拆出去呢?身份是否伴隨著名稱變更而獲得呢?

雖然大多數(shù)知識(shí)圖譜框架在存儲(chǔ)知識(shí)圖譜的時(shí)間點(diǎn)版本,管理知識(shí)圖譜的瞬時(shí)變化,不斷演化圖譜正變得越來越有效,但在能夠管理圖譜中高度動(dòng)態(tài)的知識(shí)方面還存在差距。此外,通過多個(gè)存儲(chǔ)(例如,IBM 的多態(tài)存儲(chǔ))管理更新的能力是必要的。

關(guān)于更新過程的完整性、最終一致性、沖突的更新以及流暢的運(yùn)行時(shí)性能,有很多需要考慮的因素??赡苡袡C(jī)會(huì)考慮現(xiàn)有分布式數(shù)據(jù)存儲(chǔ)的不同變體,這些存儲(chǔ)設(shè)計(jì)用于處理增量的級(jí)聯(lián)更新。管理不斷變化的模式和類型系統(tǒng),而不與系統(tǒng)中已有的知識(shí)產(chǎn)生不一致,也是至關(guān)重要的。例如,Google 通過將元模型層概念化成多個(gè)層來解決這個(gè)問題。較低的基本層保持相當(dāng)穩(wěn)定,較高的層次是通過元類型(實(shí)際上是類型的實(shí)例)的概念構(gòu)建的,它可以用來類型豐富系統(tǒng)。

從多個(gè)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源中抽取知識(shí)

盡管在自然語言理解方面取得了最新進(jìn)展,結(jié)構(gòu)化知識(shí)(包括實(shí)體、它們的類型、屬性和關(guān)系)的提取仍然是一個(gè)全面的挑戰(zhàn)。圖譜的大規(guī)模生長不僅需要人工方法,還需要在開放域中實(shí)現(xiàn)無監(jiān)督和半監(jiān)督的非結(jié)構(gòu)化數(shù)據(jù)知識(shí)提取。

例如,在 eBay 的產(chǎn)品知識(shí)圖譜中,許多圖譜關(guān)系是從列表和賣家目錄中的非結(jié)構(gòu)化文本中提取出來的; IBM 的Discovery知識(shí)圖譜依賴于文檔作為圖中表示的事實(shí)證據(jù)。傳統(tǒng)的有監(jiān)督機(jī)器學(xué)習(xí)框架需要?jiǎng)趧?dòng)密集型的人工注釋來訓(xùn)練知識(shí)提取系統(tǒng)。采用完全無監(jiān)督的方法(矢量表示的聚類)或半監(jiān)督的方法(利用已有知識(shí)進(jìn)行遠(yuǎn)程監(jiān)督、多實(shí)例學(xué)習(xí)、主動(dòng)學(xué)習(xí)等)可以減少或消除這種高成本。實(shí)體識(shí)別、分類、文本和實(shí)體嵌入都被證明是有用的工具,可以將非結(jié)構(gòu)化文本鏈接到我們所知道圖譜中的實(shí)體。

規(guī)?;芾?/strong>

這里所描述的所有知識(shí)圖譜系統(tǒng)都面臨著大規(guī)模管理的挑戰(zhàn),這可能并不令人驚訝。這個(gè)維度經(jīng)常使得在行業(yè)設(shè)置中以多種形式已經(jīng)被學(xué)術(shù)和研究團(tuán)體所解決的問題(如消除歧義和非結(jié)構(gòu)化數(shù)據(jù)提取)呈現(xiàn)出了新的挑戰(zhàn)。規(guī)模化管理是直接影響與性能和工作量相關(guān)的若干業(yè)務(wù)的根本挑戰(zhàn)。它還會(huì)間接地影響到其他業(yè)務(wù),如管理大規(guī)模知識(shí)圖譜的快速增量更新(如 IBM) ,或管理不斷演變的大規(guī)模知識(shí)圖譜的一致性(如 Google)。

其他的關(guān)鍵挑戰(zhàn)

除了這些普遍存在的挑戰(zhàn)之外,對(duì)于本文中描述的工作,以下挑戰(zhàn)也是至關(guān)重要的。這些都是研究和學(xué)術(shù)團(tuán)體感興趣且有趣的課題。

知識(shí)圖譜的語義嵌入

利用大規(guī)模的知識(shí)圖譜,開發(fā)人員可以構(gòu)建實(shí)體和關(guān)系的高維表示。由此產(chǎn)生的嵌入將大大有益于許多機(jī)器學(xué)習(xí)、 NLP 和 AI 任務(wù),因?yàn)樗鼈兪翘匦院图s束的來源,并且可以為更復(fù)雜的推理和管理訓(xùn)練數(shù)據(jù)的方法奠定基礎(chǔ)。深度學(xué)習(xí)技術(shù)可以應(yīng)用于實(shí)體重復(fù)數(shù)據(jù)刪除和屬性推理的問題。

知識(shí)推理與驗(yàn)證

在構(gòu)建知識(shí)圖譜時(shí),確保事實(shí)正確是一項(xiàng)核心任務(wù),而且在規(guī)模龐大的情況下,手動(dòng)驗(yàn)證所有事實(shí)是根本不可能的。這就需要一種自動(dòng)化的方法: 可以用先進(jìn)的知識(shí)表示、概率圖模型和自然語言推斷來構(gòu)建一個(gè)自動(dòng)或半自動(dòng)的系統(tǒng),用于一致性檢查和事實(shí)驗(yàn)證。

全球、特定領(lǐng)域和特定客戶知識(shí)的聯(lián)合

在類似于 IBM 客戶構(gòu)建定制知識(shí)圖譜的情況下,客戶不需要告訴圖譜關(guān)于基本知識(shí)的信息。例如,一個(gè)癌癥研究人員不會(huì)提供給我們這樣的一個(gè)知識(shí)圖譜,即皮膚是一種組織形式。這就是所謂的“常識(shí)” ,在常識(shí)圖譜中捕獲。

下一個(gè)層次的信息是領(lǐng)域內(nèi)任何人都知道的知識(shí),例如,癌癥是一種病癥,或者 NHL 更經(jīng)常代表非霍奇金氏淋巴瘤,而不是國家冰球聯(lián)盟??蛻魬?yīng)該只需要輸入私人和機(jī)密的知識(shí)或系統(tǒng)尚不知道的任何知識(shí)?;緦雍皖I(lǐng)域?qū)拥母綦x、聯(lián)合和在線更新是由于這個(gè)需求而出現(xiàn)的一些主要問題。

個(gè)性化設(shè)備上知識(shí)圖譜的安全性和隱私性

按照定義,知識(shí)圖譜是巨大的,因?yàn)樗鼈兛释麨槭澜缟系拿總€(gè)名詞創(chuàng)建一個(gè)實(shí)體,因此只能合理地運(yùn)行在云服務(wù)中。然而,實(shí)際上,大多數(shù)人并不關(guān)心世界上存在的所有實(shí)體,而是關(guān)心與他們個(gè)人相關(guān)的一小部分或子集。在為個(gè)人用戶個(gè)性化知識(shí)圖譜的方向有很多前景,甚至可以縮小到一個(gè)足夠小的尺寸,可以交付到移動(dòng)設(shè)備上。這將允許開發(fā)人員通過在本地的小型知識(shí)圖譜實(shí)例上進(jìn)行更多的設(shè)備學(xué)習(xí)和計(jì)算,以尊重隱私的方式繼續(xù)為用戶提供價(jià)值。

多語種知識(shí)系統(tǒng)

一個(gè)全面的知識(shí)圖譜必須涵蓋多種語言表達(dá)的事實(shí),并將這些語言表達(dá)的概念合并為一個(gè)內(nèi)聚的集合。除了從多語言資源中提取知識(shí)的挑戰(zhàn)之外,不同的文化可能以不同的微妙方式將世界概念化,這也對(duì)本體的設(shè)計(jì)提出了挑戰(zhàn)。

結(jié)論

我們?cè)诒疚闹杏懻摰膯栴}是,不同的知識(shí)圖譜是否有朝一日可以共享某些核心元素,如人、地點(diǎn)和類似實(shí)體的描述。分享這些描述的途徑之一是將它們作為一個(gè)共同的、多語言的核心貢獻(xiàn)給 Wikidata。

知識(shí)表示是一項(xiàng)在工作中很難學(xué)會(huì)的技能。發(fā)展的速度和知識(shí)表示的選擇對(duì)用戶和數(shù)據(jù)產(chǎn)生影響的程度,并不能促進(jìn)理解和探索其原則和替代辦法的環(huán)境。知識(shí)表示在不同的行業(yè)環(huán)境中的重要性,正如本文的討論所證明的,應(yīng)該強(qiáng)化這樣一種觀點(diǎn),即知識(shí)表示應(yīng)該是計(jì)算機(jī)科學(xué)課程的基本組成部分,就像數(shù)據(jù)結(jié)構(gòu)和算法一樣基礎(chǔ)。

最后,人工智能系統(tǒng)將為組織在如何與客戶互動(dòng)方面開啟新的機(jī)遇,在他們的領(lǐng)域提供獨(dú)特的價(jià)值,并改變他們的運(yùn)作和勞動(dòng)力。為了實(shí)現(xiàn)這個(gè)承諾,這些組織必須找出如何建立新的系統(tǒng)來解鎖知識(shí),使他們成為真正的智能組織。

參考資料

H?ffner, K., Walter, S., Marx, E., Usbeck, R., Lehmann, J. and Ngonga Ngomo, A.C. Survey on challenges of question answering in the semantic Web. Semantic Web 8, 6 (2017), 895920.

Lin, Y., Liu, Z., Sun, M., Liu, Y. and Zhu, X. Learning entity and relation embeddings for knowledge graph completion. In Proceedings of the Assoc. Advancement of Artificial Intelligence 15, (2015), 21812187.

Nickel, M., Murphy, K., Tresp, V. and Gabrilovich, E. 2016. A review of relational machine learning for knowledge graphs. In Proceedings of the IEEE 104, 1 (2016), 1133.

Paulheim, H., Knowledge graph refinement: a survey of approaches and evaluation methods. Semantic Web 8, 3 (2017), 489508.

 

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2025-06-06 01:00:00

AI人工智能知識(shí)圖譜

2025-06-09 09:10:26

2025-06-05 02:00:00

人工智能知識(shí)圖譜AI

2018-02-27 08:39:47

圖譜數(shù)據(jù)存儲(chǔ)

2025-06-05 09:09:50

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2021-01-19 10:52:15

知識(shí)圖譜

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2025-06-03 06:03:06

2025-06-03 15:00:04

2019-11-13 10:16:14

大數(shù)據(jù)架構(gòu)數(shù)據(jù)科學(xué)

2025-06-03 06:14:37

2020-03-12 09:00:00

數(shù)據(jù)庫知識(shí)圖譜多模型數(shù)據(jù)庫

2025-06-09 03:00:00

人工智能AI知識(shí)圖譜

2025-07-28 05:00:00

知識(shí)圖譜AI人工智能

2023-09-08 07:45:32

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2020-03-13 20:01:08

知識(shí)圖譜人工智能自然語言處理

2017-04-13 11:48:05

NLP知識(shí)圖譜
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)