終于有人把知識(shí)圖譜講明白了
1.知識(shí)圖譜的由來(lái)
1977年,美國(guó)計(jì)算機(jī)科學(xué)家費(fèi)根鮑姆正式命名知識(shí)工程,他曾于1994年獲得圖靈獎(jiǎng),被譽(yù)為專家系統(tǒng)之父,知識(shí)工程奠基人。知識(shí)工程是自上而下的,并嚴(yán)重依賴專家干預(yù)。知識(shí)工程的基本目標(biāo)就是把專家的知識(shí)賦予機(jī)器,利用機(jī)器解決問(wèn)題。
在傳統(tǒng)的知識(shí)工程里,首先需要有相關(guān)領(lǐng)域的專家,而且專家能夠把自己的知識(shí)表達(dá)出來(lái);其次,還需要有知識(shí)工程師把專家表達(dá)的知識(shí)變成計(jì)算機(jī)能夠處理的形式。
互聯(lián)網(wǎng)的應(yīng)用催生了大數(shù)據(jù)時(shí)代下的知識(shí)工程。雖然知識(shí)工程解決問(wèn)題的思路極具前瞻性,但傳統(tǒng)知識(shí)工程能夠表示的規(guī)模有限,難以適應(yīng)互聯(lián)網(wǎng)時(shí)代大規(guī)模開(kāi)放應(yīng)用的需求。
為應(yīng)對(duì)這些問(wèn)題,學(xué)界和業(yè)界的知識(shí)工程研究者們?cè)噲D尋找新的解決方案。于是學(xué)者們將目光轉(zhuǎn)移到數(shù)據(jù)本身上,提出了鏈接數(shù)據(jù)的概念。
鏈接數(shù)據(jù)中的數(shù)據(jù)不僅僅需要發(fā)布于語(yǔ)義網(wǎng)中,更需要建立自身數(shù)據(jù)之間的聯(lián)系,從而形成一張巨大的鏈接數(shù)據(jù)網(wǎng)。首先在這項(xiàng)技術(shù)上取得重大突破的是谷歌的搜索引擎產(chǎn)品,谷歌將其命名為“知識(shí)圖譜”。
2.知識(shí)圖譜的定義
知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,其構(gòu)成了一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成?,F(xiàn)在的知識(shí)圖譜已被用來(lái)泛指各種大規(guī)模的知識(shí)庫(kù)。圖1.5便是一個(gè)圍繞產(chǎn)品全生命周期的知識(shí)圖譜示例,一般來(lái)說(shuō)知識(shí)圖譜中包含三種節(jié)點(diǎn):
▲圖1.5 產(chǎn)品全生命周期知識(shí)圖譜
實(shí)體或概念指的是具有可區(qū)別性且獨(dú)立存在的某種事物。以圖1.5為例,產(chǎn)品、產(chǎn)品1、研發(fā)設(shè)計(jì)、生產(chǎn)制造、采購(gòu)、質(zhì)量等都是一個(gè)個(gè)實(shí)體。世界萬(wàn)物由若干具體事物組成,實(shí)體是知識(shí)圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。
屬性及屬性值用來(lái)刻畫實(shí)體的內(nèi)在特性,從一個(gè)實(shí)體指向它的屬性值。不同的屬性類型對(duì)應(yīng)不同類型屬性的邊。屬性值主要指對(duì)象指定屬性的值。如圖1.5所示的“采購(gòu)”“生產(chǎn)”“質(zhì)量”是幾種不同的屬性。屬性值則是采購(gòu)物料的數(shù)量和價(jià)格、生產(chǎn)數(shù)量和進(jìn)度、采購(gòu)和生產(chǎn)的質(zhì)量指標(biāo)。
關(guān)系則是用來(lái)連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。知識(shí)圖譜亦可被看作一張巨大的關(guān)系網(wǎng)圖,圖中的節(jié)點(diǎn)表示實(shí)體或概念,而圖中的邊則由屬性或關(guān)系構(gòu)成。
3.知識(shí)圖譜的技術(shù)架構(gòu)
知識(shí)圖譜的技術(shù)架構(gòu)是指其構(gòu)建模式的結(jié)構(gòu),如圖1.6所示。圖1.6中虛線框內(nèi)的部分為知識(shí)圖譜的構(gòu)建過(guò)程,也包含知識(shí)圖譜的更新過(guò)程。
▲圖1.6 知識(shí)圖譜的技術(shù)架構(gòu)
知識(shí)圖譜構(gòu)建從最原始的數(shù)據(jù)(包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))出發(fā),采用一系列自動(dòng)或者半自動(dòng)的技術(shù)手段,從原始數(shù)據(jù)庫(kù)和第三方數(shù)據(jù)庫(kù)中進(jìn)行知識(shí)提取,并將其存入知識(shí)庫(kù)的數(shù)據(jù)層和模式層中,這一過(guò)程包含數(shù)據(jù)采集、知識(shí)抽取、知識(shí)融合、知識(shí)加工、知識(shí)應(yīng)用五個(gè)過(guò)程,每一次更新迭代均包含這四個(gè)階段。
知識(shí)圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構(gòu)建方式。
自頂向下指的是先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式,再將實(shí)體加入知識(shí)庫(kù)中。該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識(shí)庫(kù)作為其基礎(chǔ)知識(shí)庫(kù),例如Freebase項(xiàng)目就是采用這種方式,它的絕大部分?jǐn)?shù)據(jù)是從維基百科中得到的。自底向上指的是從一些開(kāi)放鏈接數(shù)據(jù)中提取出實(shí)體,選擇其中置信度較高的加入知識(shí)庫(kù)中,再構(gòu)建頂層的本體模式。
對(duì)于大多數(shù)制造業(yè)企業(yè)來(lái)說(shuō),由于缺乏大量的實(shí)證數(shù)據(jù),在應(yīng)用初期主要使用自頂向下的構(gòu)建方式。
4.知識(shí)圖譜與大數(shù)據(jù)的區(qū)別
知識(shí)圖譜是運(yùn)用一套新的技術(shù)和方法論在知識(shí)結(jié)構(gòu)化和分析洞察兩個(gè)方面提升信息轉(zhuǎn)化為知識(shí)并且被利用的效率。大數(shù)據(jù)和知識(shí)圖譜的抽象工作都是關(guān)于“結(jié)構(gòu)化”和“關(guān)聯(lián)”的,不過(guò)大數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)化和數(shù)據(jù)級(jí)別的關(guān)聯(lián),知識(shí)圖譜是知識(shí)結(jié)構(gòu)化和知識(shí)級(jí)別的關(guān)聯(lián)。
所謂知識(shí)結(jié)構(gòu)化在知識(shí)圖譜技術(shù)中就是用三元組的數(shù)據(jù)結(jié)構(gòu)對(duì)實(shí)體和關(guān)系建模。知識(shí)圖譜在解決分析洞察這類問(wèn)題時(shí),在處理“關(guān)系”這件事情上,更直觀也更高效。知識(shí)圖譜技術(shù)無(wú)非是將人工的過(guò)程平移,希望計(jì)算機(jī)能夠更高效地完成這一工程。
大數(shù)據(jù)很大程度上是在嘗試將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化的數(shù)據(jù),使其能被計(jì)算機(jī)分析,從這個(gè)意義上講,傳統(tǒng)的企業(yè)大數(shù)據(jù)平臺(tái)、數(shù)據(jù)治理和知識(shí)圖譜無(wú)疑都要共享企業(yè)的大數(shù)據(jù)。
本文摘編自《智能制造:AI落地制造業(yè)之道》(ISBN:978-7-111-69931-6),經(jīng)出版方授權(quán)發(fā)布。?