螞蟻集團(tuán)大規(guī)模語(yǔ)義知識(shí)管理關(guān)鍵技術(shù)及實(shí)踐
一、螞蟻金融知識(shí)圖譜平臺(tái)介紹
首先介紹知識(shí)圖譜的發(fā)展和螞蟻知識(shí)圖譜平臺(tái)的現(xiàn)狀。
1、知識(shí)圖譜的發(fā)展
根據(jù)《艾瑞咨詢(xún):2022年中國(guó)知識(shí)圖譜行業(yè)研究報(bào)告》,2021年,知識(shí)圖譜在國(guó)內(nèi)的核心市場(chǎng)規(guī)模預(yù)計(jì)達(dá)到百億元級(jí)別。到2026年,相應(yīng)規(guī)模將超過(guò)296億元,每年復(fù)合增長(zhǎng)率超過(guò)20%。其中金融和公安兩大行業(yè)的占比較高而且增長(zhǎng)的速度更快一些。
在學(xué)術(shù)和產(chǎn)業(yè)界,自從2012年谷歌在搜索領(lǐng)域提出了知識(shí)圖譜的概念并應(yīng)用之后,隨后的10年時(shí)間,國(guó)內(nèi)外科技公司在知識(shí)圖譜包括圖數(shù)據(jù)庫(kù)和圖計(jì)算上都爭(zhēng)先布局。從谷歌學(xué)術(shù)發(fā)表的知識(shí)圖譜文章來(lái)看,最近5到10年時(shí)間,越來(lái)越多的技術(shù)人員投入到知識(shí)圖譜領(lǐng)域研發(fā)中。
2、螞蟻知識(shí)圖譜平臺(tái)目標(biāo)
螞蟻知識(shí)圖譜平臺(tái)建設(shè)初期遇到了幾個(gè)挑戰(zhàn):
- 大量復(fù)雜的跨業(yè)務(wù)域多元關(guān)系。在金融領(lǐng)域,面臨的業(yè)務(wù)場(chǎng)景是多元化的,如支付、安全、保險(xiǎn)、財(cái)富等。
- 多個(gè)不同職能的用戶(hù)群體。面向不同職能的用戶(hù)群體比較多,比如算法、運(yùn)營(yíng)、數(shù)據(jù)等。
- 分析/決策實(shí)時(shí)化要求。圖譜的分析或者決策的實(shí)時(shí)性要求比較高。比如面向C端的保險(xiǎn)理賠這些場(chǎng)景。
- 專(zhuān)家規(guī)則的復(fù)雜性。比如安全風(fēng)控領(lǐng)域的專(zhuān)家規(guī)則就十分復(fù)雜。
螞蟻知識(shí)圖譜平臺(tái)的目標(biāo)就是建設(shè)面向金融領(lǐng)域的一站式知識(shí)研發(fā)和管理平臺(tái),提供面向業(yè)務(wù)的知識(shí)建模、知識(shí)構(gòu)建、可視化分析、專(zhuān)家經(jīng)驗(yàn)決策和圖譜算法推理等全場(chǎng)景知識(shí)生命周期解決方案。
3、螞蟻金融知識(shí)圖譜建設(shè)現(xiàn)狀
經(jīng)過(guò)4-5年時(shí)間的建設(shè),螞蟻金融知識(shí)圖譜已經(jīng)覆蓋了整個(gè)金融領(lǐng)域的安全、消費(fèi)金融、支付、保險(xiǎn)、財(cái)富、網(wǎng)商、智能資金等很多場(chǎng)景,實(shí)體、概念、關(guān)系類(lèi)型超過(guò)了5000,知識(shí)規(guī)模從最初的億級(jí)別快速增長(zhǎng)到萬(wàn)億級(jí)別,知識(shí)應(yīng)用調(diào)用量也已經(jīng)超過(guò)了每天千億級(jí)別。這也說(shuō)明金融領(lǐng)域業(yè)務(wù)對(duì)知識(shí)圖譜的應(yīng)用需求越來(lái)越多。
二、語(yǔ)義知識(shí)表示模型
知識(shí)圖譜作為一種語(yǔ)義網(wǎng)絡(luò),是大數(shù)據(jù)時(shí)代知識(shí)表示的重要方式之一。接下來(lái)我們首先介紹語(yǔ)義化的作用、知識(shí)的定義和分類(lèi)以及語(yǔ)義知識(shí)表示等基本概念,并引出螞蟻語(yǔ)義知識(shí)表示模型。
1、語(yǔ)義化的作用
語(yǔ)義化的概念,源于語(yǔ)義網(wǎng)絡(luò)(Semantic Network),這個(gè)概念由奎林(J. R. Quillian)于1968年提出,是一種以網(wǎng)絡(luò)格式表達(dá)人類(lèi)知識(shí)構(gòu)造的形式,使用語(yǔ)義和語(yǔ)義的關(guān)系表示知識(shí)的網(wǎng)絡(luò)結(jié)構(gòu)。語(yǔ)義網(wǎng)絡(luò)圖中,包含兩種類(lèi)型的知識(shí)。一種是人們總結(jié)的常識(shí)類(lèi)知識(shí)。比如從貓到哺乳動(dòng)物再到動(dòng)物,它是一種概念的分類(lèi)體系。另外一種是面向事實(shí)類(lèi)的知識(shí),比如不同貓的個(gè)體和人的個(gè)體之間的被飼養(yǎng)(has)的關(guān)系。
語(yǔ)義化的作用主要是兩點(diǎn),一是讓數(shù)據(jù)表示標(biāo)準(zhǔn)化,實(shí)現(xiàn)數(shù)據(jù)的復(fù)用。二是不同領(lǐng)域的數(shù)據(jù)可交互,促進(jìn)數(shù)據(jù)編織(Data Fabric)。例如一所醫(yī)院和一個(gè)自然人,他們都有地理位置的信息,有可能是簡(jiǎn)稱(chēng),也有可能是全稱(chēng)。要通過(guò)地理位置建立醫(yī)院和自然人之間的聯(lián)系,就要實(shí)現(xiàn)地址位置信息的表示標(biāo)準(zhǔn)化,之后才能實(shí)現(xiàn)其之間的關(guān)聯(lián)。
2、知識(shí)分類(lèi)和定義
結(jié)合業(yè)務(wù)場(chǎng)景,我們把知識(shí)分成三種類(lèi)型。
- 實(shí)體。比如用戶(hù)、企業(yè)、商戶(hù)等這些業(yè)務(wù)相關(guān)性比較強(qiáng)的客觀存在的實(shí)例,它是一些個(gè)體。
- 概念。概念是對(duì)一類(lèi)實(shí)體的抽象概述。比如人的個(gè)體,可以分成喜歡運(yùn)動(dòng)的,喜歡旅游的,等等,給一類(lèi)人群貼上標(biāo)簽,就成為人群的概念。
- 事件。第三類(lèi)是會(huì)動(dòng)態(tài)發(fā)生變化的事件,它對(duì)實(shí)體類(lèi)型加入了時(shí)間、空間等約束,比如企業(yè)的事件、診療的事件,或者交易的事件。
事件、實(shí)體及關(guān)系、概念構(gòu)成的語(yǔ)義網(wǎng)絡(luò),相互之間會(huì)發(fā)生連接,整體構(gòu)成了知識(shí)圖譜的分類(lèi)能力。
3、語(yǔ)義知識(shí)表示- SPG(Semantic enhanced Property Graph)
語(yǔ)義知識(shí)表示,即知識(shí)建模,業(yè)界主要分為標(biāo)記屬性圖(Labeled Property Graph)和資源描述框架(Resource Description Framework,RDF)兩種主流的模型。兩種模型各有優(yōu)勢(shì)。LPG基于點(diǎn)邊屬性實(shí)現(xiàn)知識(shí)表示,這種建模方式更貼近于圖的數(shù)據(jù)結(jié)構(gòu)表示,相對(duì)來(lái)說(shuō)更清晰、更簡(jiǎn)單,建模成本更低。RDF采用三元組的表示方式,實(shí)體之間通過(guò)屬性建立了豐富的連接,但RDF在工業(yè)界的落地相對(duì)差一些。
在知識(shí)圖譜構(gòu)建過(guò)程中,面臨從業(yè)務(wù)數(shù)據(jù)到知識(shí)標(biāo)準(zhǔn)化的演化過(guò)程。因?yàn)樵跇I(yè)務(wù)建設(shè)初期,很多屬性的類(lèi)型都是文本類(lèi)型。隨著概念網(wǎng)絡(luò)的完善,這些文本類(lèi)型需要不斷地演化到標(biāo)準(zhǔn)類(lèi)型,從而實(shí)現(xiàn)知識(shí)的復(fù)用,以及與更多其他領(lǐng)域的數(shù)據(jù)進(jìn)行連接。
因此,我們提出了一種語(yǔ)義增強(qiáng)的屬性圖模型,它是結(jié)合了LPG和RDF優(yōu)勢(shì)的混合模型,更適合業(yè)務(wù)數(shù)據(jù)到知識(shí)標(biāo)準(zhǔn)化的演化過(guò)程。它提供業(yè)務(wù)易理解的表達(dá),更利于知識(shí)復(fù)用,可規(guī)模化落地。
這種語(yǔ)義增強(qiáng)的屬性圖模型,有一些語(yǔ)義約束的范式。我們參考了OWL的表達(dá)方式,大概分成如下幾類(lèi):
- 邏輯推演。包括symmetric(spouse),transitive(located_in)等。以可傳遞性為例,比如說(shuō)某個(gè)人位于成都市,那他一定位于四川省。
- 數(shù)據(jù)完整性約束。包括mutexOf等。以互斥類(lèi)型為例,如果兩個(gè)人是兄弟關(guān)系,就一定不是父子關(guān)系。
- 屬性類(lèi)型約束。語(yǔ)義增強(qiáng)的屬性圖模型,它支持int、string這些基礎(chǔ)屬性類(lèi)型,也支持City等標(biāo)準(zhǔn)類(lèi)型。區(qū)別于String類(lèi)型,標(biāo)準(zhǔn)類(lèi)型可枚舉,支持實(shí)體間可傳播計(jì)算,基礎(chǔ)類(lèi)型演化到標(biāo)準(zhǔn)類(lèi)型,即可實(shí)現(xiàn)屬性圖到語(yǔ)義圖內(nèi)置轉(zhuǎn)換。
- 實(shí)體衍生/鏈指。包括subClassOf、equivalent、fuse等,主要是知識(shí)復(fù)用的約束范式。
三、語(yǔ)義知識(shí)管理關(guān)鍵技術(shù)及應(yīng)用
接下來(lái)重點(diǎn)介紹語(yǔ)義知識(shí)管理的底層關(guān)鍵技術(shù)和在業(yè)務(wù)上的應(yīng)用。
1、語(yǔ)義知識(shí)管理核心能力
語(yǔ)義知識(shí)管理的核心能力分成以下幾個(gè)部分:
- 語(yǔ)義增強(qiáng)。主要是結(jié)合語(yǔ)義知識(shí)的表示,提供語(yǔ)義增強(qiáng)的能力。
- 知識(shí)演化。是實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)到知識(shí)標(biāo)準(zhǔn)化的過(guò)程,包括圖譜Schema及其綁定算子的增、刪、改,比如把屬性類(lèi)型從string等基礎(chǔ)類(lèi)型變更為Brand等可枚舉標(biāo)準(zhǔn)語(yǔ)義類(lèi)型。
- 跨域融合。在金融業(yè)務(wù)場(chǎng)景通常會(huì)面臨多領(lǐng)域的圖譜構(gòu)建,領(lǐng)域和領(lǐng)域之間的數(shù)據(jù)要互通,實(shí)現(xiàn)業(yè)務(wù)價(jià)值增益。
- 推理預(yù)構(gòu)圖。是在應(yīng)用端通過(guò)分布式推理實(shí)現(xiàn)計(jì)算的加速。整個(gè)知識(shí)的管理,底層以語(yǔ)義圖layout方式表示,上層對(duì)接圖計(jì)算引擎提高推理的效率。
- 多場(chǎng)景構(gòu)建。對(duì)于事件、概念、實(shí)體及關(guān)系,不同場(chǎng)景有不同更新頻率,需要支持多種場(chǎng)景下實(shí)時(shí)和批量知識(shí)更新的需求。
2、基于DFS的知識(shí)管理架構(gòu)
我們整個(gè)知識(shí)圖譜的知識(shí)管理架構(gòu)分成兩層,下層為存儲(chǔ)層,基于DFS(分布式文件系統(tǒng))實(shí)現(xiàn)全量知識(shí)的管理。上層為應(yīng)用層,通過(guò)SDK對(duì)接到圖數(shù)據(jù)庫(kù)、圖計(jì)算等引擎,支持知識(shí)服務(wù)、知識(shí)推理分析以及知識(shí)構(gòu)建等應(yīng)用。
這種架構(gòu)的優(yōu)勢(shì)和特點(diǎn)為:
- 基于DFS的萬(wàn)億級(jí)知識(shí)管理及演化。采用存算分離架構(gòu)具有更好的擴(kuò)展性和伸縮性,知識(shí)演化效率高,成本也比較低。
- 語(yǔ)義增強(qiáng)的屬性圖模型。底層支持RDF和屬性圖混合模型,實(shí)現(xiàn)了概念掛載、實(shí)體繼承等語(yǔ)義圖能力擴(kuò)展。
- 零拷貝知識(shí)復(fù)用。底層根據(jù)不同的領(lǐng)域數(shù)據(jù)按照name space管理,實(shí)現(xiàn)了多租戶(hù)數(shù)據(jù)的隔離管理,以及零拷貝的知識(shí)復(fù)用。
- 多引擎對(duì)接。上層通過(guò)多引擎對(duì)接,支持知識(shí)構(gòu)建、分析和推理等不同的應(yīng)用;通過(guò)預(yù)構(gòu)圖加速推理;支持流批知識(shí)增量更新等。
3、語(yǔ)義知識(shí)生產(chǎn)及算子演化
下面介紹知識(shí)生產(chǎn)的過(guò)程。一般的,知識(shí)圖譜的知識(shí)生產(chǎn)過(guò)程包括知識(shí)抽取、屬性標(biāo)準(zhǔn)化、實(shí)體鏈指及融合等幾個(gè)關(guān)鍵部分。語(yǔ)義知識(shí)生產(chǎn)鏈路提供的核心能力包括:
- 基于搜索(向量/文本/LBS索引等)實(shí)現(xiàn)大規(guī)模的實(shí)體鏈指和融合能力。這里面會(huì)用到向量、文本或者LBS的索引能力。舉一個(gè)例子,線(xiàn)下支付場(chǎng)景一般存在一個(gè)商戶(hù)有多個(gè)店鋪、一店多碼這種情況,識(shí)別商戶(hù)同店,就需要用到向量或者LBS索引。
- 知識(shí)生產(chǎn)過(guò)程支持用戶(hù)通過(guò)Python/Java SDK自助研發(fā)pipeline,并支持算子版本演化。比如事件抽取服務(wù)是通過(guò)Python SDK去調(diào)用NLP服務(wù)實(shí)現(xiàn)知識(shí)的抽取。
- 知識(shí)生產(chǎn)鏈路可適配到blink、spark等通用流批計(jì)算引擎,來(lái)支持多云部署。目前完成在螞蟻內(nèi)部blink適配,以及中信spark等私有云環(huán)境適配。
接下來(lái)以事理圖譜構(gòu)建為例,介紹語(yǔ)義知識(shí)生產(chǎn)過(guò)程。
4、案例:事理圖譜構(gòu)建
首先我們從中國(guó)地震臺(tái)網(wǎng)發(fā)布的一則地震新聞信息,通過(guò)NLP模型進(jìn)行事件抽取,抽取得到地震事件發(fā)生的地理位置和時(shí)間等關(guān)鍵要素。通過(guò)屬性的標(biāo)準(zhǔn)化,可以把地震事件的地理位置標(biāo)準(zhǔn)化,歸屬到相應(yīng)的省市區(qū),然后和中國(guó)行政區(qū)的標(biāo)準(zhǔn)概念網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)。同時(shí),這個(gè)事件也會(huì)歸屬到事件分類(lèi)的概念網(wǎng)絡(luò)里面,比如它屬于這個(gè)地域的事件,或者是氣象的事件。這樣的好處就是通過(guò)這個(gè)地震事件,關(guān)聯(lián)到周邊的一些房地產(chǎn)企業(yè),地震事件對(duì)它們的經(jīng)營(yíng)產(chǎn)生影響,從而有利于支撐我們對(duì)這些企業(yè)進(jìn)行風(fēng)險(xiǎn)評(píng)估。
5、語(yǔ)義增強(qiáng)模型實(shí)現(xiàn)
下面介紹如何基于hybrid layout實(shí)現(xiàn)語(yǔ)義增強(qiáng)模型。首先,底層有兩種類(lèi)型的layout,一種就是LPG,通過(guò)屬性和圖結(jié)構(gòu)的表示方式實(shí)現(xiàn)。另一種是RDF,主要通過(guò)SPO三元組索引實(shí)現(xiàn),這也是典型RDF存儲(chǔ)的實(shí)現(xiàn)方案。其次,上層通過(guò)語(yǔ)義解釋器和schema語(yǔ)義模型聯(lián)動(dòng),把對(duì)圖譜的讀寫(xiě)流程轉(zhuǎn)化為底層針對(duì)兩種不同layout的讀寫(xiě)IO。
6、概念模型實(shí)現(xiàn)
概念模型是一個(gè)樹(shù)狀的分類(lèi)分層體系,我們對(duì)概念樹(shù)進(jìn)行分層編碼,形成概念詞典。這樣的好處是在概念改名時(shí),只需要更新概念詞典信息,而不需要更新索引或者關(guān)系的數(shù)據(jù)。因?yàn)楹鸵话愕母拍铌P(guān)聯(lián)的實(shí)體非常多,概念一變就涉及整個(gè)樹(shù)的變更,變更量非常大,用概念詞典就能很好的解決這個(gè)問(wèn)題。
另外,屬性的ID化能夠讓實(shí)體的屬性連接到唯一的概念實(shí)例,通過(guò)構(gòu)建RDF的SPO索引實(shí)現(xiàn)屬性到實(shí)體到概念的正反向傳播。這樣的好處是減少了大量的概念到實(shí)體之間的物理邊的維護(hù)成本。
7、事件模型實(shí)現(xiàn)
事件模型的實(shí)現(xiàn)有兩個(gè)比較關(guān)鍵的要求:一是事件具有時(shí)序特性,一般需要支持時(shí)間窗口查詢(xún)表達(dá),以及TTL版本控制能力。比如通過(guò)時(shí)間的分片,把所有數(shù)據(jù)按時(shí)間切割成不同的分片,從而提升構(gòu)建或者推理的效率。
二是事件表達(dá)的是多元的關(guān)系,需要通過(guò)多要素索引支持事件與實(shí)體要素的傳播計(jì)算。比如線(xiàn)下購(gòu)買(mǎi)事件,通常會(huì)關(guān)聯(lián)到一個(gè)用戶(hù)、一個(gè)商品,也會(huì)關(guān)聯(lián)到一個(gè)商店和它的地理位置信息。這和傳統(tǒng)的pairwise二元關(guān)系還是有區(qū)別的。為了實(shí)現(xiàn)事件到實(shí)體要素之間的傳播,我們需要構(gòu)建它的多維索引,包括事件關(guān)聯(lián)的實(shí)體要素索引,以及實(shí)體要素到事件的索引。
8、基于事件模型構(gòu)建資金圖譜案例
接下來(lái)我們通過(guò)螞蟻資金圖譜的一個(gè)例子介紹如何通過(guò)事件模型構(gòu)建圖譜。螞蟻資金圖譜構(gòu)建的背景是公安反詐。公安部門(mén)接到一筆資金報(bào)案之后,需要查看資金的流向,判斷資金流向涉及的個(gè)人信息。資金溯源的過(guò)程牽扯到很多人工線(xiàn)下操作,查控操作繁瑣,通常要耗費(fèi)好幾個(gè)小時(shí),分析成本很高。我們提供了兩個(gè)能力來(lái)解決這個(gè)問(wèn)題。
一是通過(guò)事件模型把千億級(jí)的資金交易事件,與交易發(fā)生的WIFI和地理位置等信息融合,來(lái)構(gòu)建螞蟻資金圖譜,把交易事件、設(shè)備和時(shí)空的信息關(guān)聯(lián)起來(lái),更便于分析洗錢(qián)的賬戶(hù)及黑產(chǎn)信息,輔助公安部門(mén)偵查。
二是基于大規(guī)模資金交易事件進(jìn)行資金的深度追蹤,結(jié)合沉淀的大量資金事件專(zhuān)家規(guī)則,能夠?qū)崟r(shí)洞察每一筆資金的流向,提升案件偵查的效率。
資金圖譜支持資金追蹤的可視化分析、一鍵處理,大幅提升了偵查效率,目前在多個(gè)省市的幾十家公安部門(mén)中試用,凍結(jié)折還的資金已經(jīng)達(dá)到了數(shù)百萬(wàn)。
9、分布式推理構(gòu)圖實(shí)現(xiàn)
分布式知識(shí)推理過(guò)程基于圖計(jì)算引擎實(shí)現(xiàn),整個(gè)推理的流程包括構(gòu)圖和圖迭代兩個(gè)部分。我們采用圖表示的存儲(chǔ)模型,能更高效對(duì)接GeaFlow等圖計(jì)算引擎,實(shí)現(xiàn)無(wú)shuffle構(gòu)圖,提升推理效率。測(cè)試表明,我們現(xiàn)在的這種知識(shí)管理方案,比以前直接基于table的關(guān)系模型,實(shí)現(xiàn)了構(gòu)圖效率的大幅提升。后續(xù)我們也會(huì)和TuGraph團(tuán)隊(duì)合作,更好地實(shí)現(xiàn)引擎銜接,做到無(wú)序列化推理構(gòu)圖。另外我們也在探索局部性友好的知識(shí)編碼,提升圖迭代效率。
10、SPO索引:語(yǔ)義圈人
語(yǔ)義圖推理一個(gè)比較重要的場(chǎng)景是語(yǔ)義圈人,特別是營(yíng)銷(xiāo)推薦。語(yǔ)義圖推理本質(zhì)上是一個(gè)子圖匹配的過(guò)程,如圖所示。比如我們?nèi)x一些商家,通過(guò)品牌偏好、城市、職業(yè)和收入等級(jí)去圈選需要投放的營(yíng)銷(xiāo)用戶(hù)群體。這可以轉(zhuǎn)化為RDF SPO索引的join問(wèn)題。面臨的技術(shù)難點(diǎn)是,這個(gè)語(yǔ)意圖熱點(diǎn)問(wèn)題非常突出。比如一個(gè)運(yùn)動(dòng)的品牌或者一個(gè)城市,它關(guān)聯(lián)的用戶(hù)和商家非常多。我們提出了兩個(gè)解決方案。
一是在分布式的計(jì)算場(chǎng)景上實(shí)現(xiàn)subject分區(qū)優(yōu)化,提升計(jì)算的局部性,減少消息的傳遞。二是在多條件情況下選擇合適的join算法(如BinaryJoin、WCOJ等),優(yōu)化dense/sparse下的搜索空間。
11、知識(shí)復(fù)用-實(shí)體繼承
實(shí)體繼承是語(yǔ)義知識(shí)復(fù)用的一個(gè)非常典型的場(chǎng)景。在螞蟻的內(nèi)部場(chǎng)景中,我們的POI/AOI,支付寶用戶(hù)等億級(jí)別的實(shí)體復(fù)用,已經(jīng)用到了實(shí)體繼承。實(shí)體繼承類(lèi)似面向?qū)ο蟮睦^承概念,比如一個(gè)公司實(shí)體,它有一些通用屬性。而在這個(gè)公司上面還有上市公司,上市公司會(huì)有市值等特有屬性信息。實(shí)體繼承就是要解決子父類(lèi)屬性的冗余和一致性問(wèn)題,即通過(guò)一種方案,使得查詢(xún)或者推理在獲取子類(lèi)屬性的時(shí)候,能夠動(dòng)態(tài)拼接父類(lèi)的屬性。我們的解決方案首先是子類(lèi)和父類(lèi)實(shí)體的ID相同,各自屬性保持獨(dú)立更新和互為索引。然后在讀取端通過(guò)語(yǔ)義解釋器,生成readPlan,實(shí)現(xiàn)子父類(lèi)實(shí)體的屬性動(dòng)態(tài)IO合并。
12、知識(shí)復(fù)用-圖譜融合
圖譜融合是知識(shí)管理的一個(gè)難點(diǎn),也是非常重要的業(yè)務(wù)場(chǎng)景。圖譜融合簡(jiǎn)單來(lái)說(shuō)就是把兩個(gè)領(lǐng)域的圖譜通過(guò)某種方式融合到一起,實(shí)現(xiàn)兩個(gè)領(lǐng)域的圖譜互通,解決數(shù)據(jù)孤島問(wèn)題。由于圖本身的連通性,實(shí)現(xiàn)兩個(gè)圖譜融合,涉及的數(shù)據(jù)范圍非常廣,所以首先要解決數(shù)據(jù)冗余的問(wèn)題。我們把圖譜融合分成兩個(gè)階段,第一個(gè)階段叫做鏈指,第二個(gè)階段叫做歸一。鏈指是指在兩個(gè)不同的領(lǐng)域圖譜里面選擇一個(gè)錨點(diǎn)實(shí)體,通過(guò)鏈指算法建立這個(gè)錨點(diǎn)實(shí)體的關(guān)聯(lián)。歸一是指對(duì)這個(gè)錨點(diǎn)實(shí)體對(duì)應(yīng)的子圖信息進(jìn)行合并的過(guò)程。
如果把歸一的過(guò)程放在構(gòu)建端,每一次錨點(diǎn)實(shí)體的更新,都會(huì)觸發(fā)圖數(shù)據(jù)的歸并,這個(gè)成本非常高。因?yàn)橐粋€(gè)點(diǎn)關(guān)聯(lián)的周邊關(guān)系或者一度子圖,可能是非常龐大的。所以我們?cè)跇?gòu)建融合實(shí)體的時(shí)候,都是把它作為一個(gè)虛擬的實(shí)體存在,僅存儲(chǔ)鏈指的idmap和它的局部子圖信息。更重要是融合算法或者規(guī)則發(fā)生更新的時(shí)候,鏈指關(guān)系的變化只會(huì)觸發(fā)增量更新,更好地適應(yīng)算法的迭代。
13、螞蟻圖譜融合案例:金融消費(fèi)
我們舉一個(gè)金融消費(fèi)的例子解釋螞蟻知識(shí)圖譜的融合場(chǎng)景。在這個(gè)例子里,我們有兩個(gè)不同領(lǐng)域的圖譜,一個(gè)是用戶(hù)消費(fèi)側(cè)的知識(shí)圖譜,另一個(gè)是商家供給側(cè)的知識(shí)圖譜,兩個(gè)都是數(shù)百億的知識(shí)圖譜。消費(fèi)側(cè)知識(shí)圖譜關(guān)注消費(fèi)的場(chǎng)景信息,供給側(cè)知識(shí)圖譜關(guān)注的是商家的品牌、類(lèi)目、門(mén)店以及地理位置等信息。通過(guò)把用戶(hù)或者商戶(hù)作為錨點(diǎn)實(shí)體就可以建立兩個(gè)圖譜之間的零拷貝關(guān)聯(lián)。商戶(hù)作為消費(fèi)金融產(chǎn)業(yè)鏈重要的一環(huán),串聯(lián)起了用戶(hù)和消費(fèi)場(chǎng)景。通過(guò)關(guān)聯(lián),這樣圍繞商戶(hù)的關(guān)系就更加豐富,表征能力更強(qiáng),提升了商戶(hù)的畫(huà)像刻畫(huà)能力。
四、展望
我們對(duì)大規(guī)模語(yǔ)義知識(shí)管理的未來(lái)展望,一個(gè)是面向DataFabric的企業(yè)級(jí)知識(shí)管理平臺(tái),另一個(gè)是跨領(lǐng)域知識(shí)共享與應(yīng)用。
1、面向DataFabric的企業(yè)級(jí)知識(shí)管理平臺(tái)
我們的目標(biāo)是建設(shè)面向DataFabric的企業(yè)級(jí)知識(shí)管理平臺(tái),主要方向包括:
- 知識(shí)圖譜的數(shù)據(jù)管理平臺(tái),位于數(shù)據(jù)湖或者數(shù)據(jù)倉(cāng)儲(chǔ)之上,它可以集成并管理結(jié)構(gòu)化、非結(jié)構(gòu)化等多源數(shù)據(jù)。
- 通過(guò)語(yǔ)義增強(qiáng)模型實(shí)現(xiàn)數(shù)據(jù)到知識(shí)的約束和統(tǒng)一表示。同時(shí),通過(guò)開(kāi)放的API,支持不同的企業(yè)應(yīng)用場(chǎng)景。
- 在知識(shí)管理過(guò)程中,需要遵循企業(yè)數(shù)據(jù)管理標(biāo)準(zhǔn),實(shí)現(xiàn)血緣追蹤、數(shù)據(jù)安全和質(zhì)量保證等機(jī)制。
2、跨領(lǐng)域知識(shí)共享與應(yīng)用
我們的最終目標(biāo)是實(shí)現(xiàn)跨領(lǐng)域的知識(shí)共享和應(yīng)用,主要方向包括:
- 推進(jìn)知識(shí)語(yǔ)義化、標(biāo)準(zhǔn)化,兼顧工業(yè)界落地和業(yè)務(wù)的理解成本。
- 在實(shí)現(xiàn)跨機(jī)構(gòu)、跨主體的知識(shí)互聯(lián)的時(shí)候,需要更多的考慮隱私計(jì)算。另外就是沉淀行業(yè)解決方案,輔助更多的機(jī)構(gòu)應(yīng)用知識(shí)圖譜。
- 知識(shí)管理和大模型結(jié)合,例如利用高質(zhì)量知識(shí)圖譜,提升大模型在推理上準(zhǔn)確率和專(zhuān)業(yè)性,增強(qiáng)大模型的在金融等特定領(lǐng)域的知識(shí)深度。
五、Q&A
Q1:知識(shí)管理平臺(tái)底層有屬性圖和RDF圖,兩者是相對(duì)獨(dú)立的存儲(chǔ),那他們是怎么融合的?在查詢(xún)引擎上是用哪種方式融合的?
A:我們知識(shí)管理平臺(tái)提供語(yǔ)義增強(qiáng)的圖譜schema和底層倉(cāng)儲(chǔ)SDK,包括build、query、scan等構(gòu)建和讀取圖譜的API或tool。這些API里面植入了一些語(yǔ)義和我們的語(yǔ)義模型去聯(lián)動(dòng),通過(guò)語(yǔ)義解釋器實(shí)現(xiàn)底層的RDF或者是LPG文件的讀取IO。
上層和GeaFlow圖計(jì)算引擎銜接,它調(diào)用query或scan等SDK實(shí)現(xiàn)對(duì)圖譜語(yǔ)義數(shù)據(jù)的加載,這些SDK的輸出會(huì)轉(zhuǎn)換成圖計(jì)算引擎能識(shí)別的屬性圖。
Q2:歸一的結(jié)果是將不同領(lǐng)域的同一實(shí)體在融合圖中形成了同一個(gè)主鍵嗎?
A:歸一是將兩個(gè)實(shí)體的圖結(jié)構(gòu)合并為一個(gè)實(shí)體圖結(jié)構(gòu)的過(guò)程,包括屬性和關(guān)系的合并和沖突解決。兩個(gè)圖結(jié)構(gòu)分別維護(hù)不同領(lǐng)域的數(shù)據(jù),最后在應(yīng)用的時(shí)候,用戶(hù)看到的是一個(gè)新的實(shí)體類(lèi)型,我們把它叫做融合實(shí)體,融合實(shí)體在讀取時(shí)按需做圖結(jié)構(gòu)合并,解決了存儲(chǔ)冗余的問(wèn)題。
Q3:知識(shí)管理平臺(tái)融合了很多的引擎,比如GeaFlow、GeaBase、Flink等,現(xiàn)在有沒(méi)有一種語(yǔ)言能把它們都包裝起來(lái),實(shí)際使用的時(shí)候的入口是同一個(gè)?
A:現(xiàn)在整個(gè)應(yīng)用端分成兩部分,一個(gè)叫做構(gòu)建側(cè)或者叫生產(chǎn)側(cè),另一個(gè)叫做推理側(cè)或者服務(wù)側(cè)。在服務(wù)側(cè),現(xiàn)在正在推進(jìn)的就是通過(guò)接口統(tǒng)一去表達(dá)。在生產(chǎn)側(cè),因?yàn)橹R(shí)的構(gòu)建是一個(gè)并行計(jì)算場(chǎng)景,不一定是圖計(jì)算場(chǎng)景,它通過(guò)一個(gè)流水線(xiàn)SDK去表示。這個(gè)流水線(xiàn)SDK會(huì)植入一些算子或者組件,比如我們剛才提到的實(shí)體鏈指組件,然后通過(guò)執(zhí)行計(jì)劃的翻譯,適配運(yùn)行在Flink或spark等不同計(jì)算引擎上。