人人都在談的圖數(shù)據(jù)庫到底是個(gè)啥?
近些年來,在大數(shù)據(jù)處理過程中有一種被廣泛提及和使用的數(shù)據(jù)庫,那就是圖數(shù)據(jù)庫。那么圖數(shù)據(jù)庫究竟是什么呢?
圖數(shù)據(jù)庫,如果是剛接觸的人,可能會(huì)被其字面意思所誤導(dǎo)。其實(shí),圖數(shù)據(jù)庫并不是指存儲(chǔ)圖片、圖像的數(shù)據(jù)庫,而是指存儲(chǔ)圖這種數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)庫。那么圖又是什么呢?
什么是圖
我們通過下面的例子來認(rèn)識(shí)一下。
東漢末年,孫權(quán)、劉備聯(lián)軍曾在赤壁一帶以火攻敵船之計(jì)大破曹軍。
如果我們把各陣營之間的關(guān)系抽象一下,以陣營作為點(diǎn),陣營之間的關(guān)系作為邊,這樣我們就可以用如下的圖來形象地表示上述關(guān)系:
以上就是這里所謂的圖(的可視化展示)。
我們把這種存儲(chǔ)實(shí)體和實(shí)體之間關(guān)系的數(shù)據(jù)結(jié)構(gòu),稱為圖,Graph,圖由點(diǎn)和邊組成,一個(gè)點(diǎn)就是一個(gè)實(shí)體,比如上述實(shí)例中的陣營,兩個(gè)實(shí)體之間的關(guān)系則用有方向或無方向的邊來表示,比如劉備和孫權(quán)之間的聯(lián)盟關(guān)系等。這種通用的結(jié)構(gòu)可以對(duì)現(xiàn)實(shí)中的各種場(chǎng)景進(jìn)行建模,從交通運(yùn)輸系統(tǒng)到組織架構(gòu)管理,從工藝流程設(shè)計(jì)到社交網(wǎng)絡(luò)。
什么是圖數(shù)據(jù)庫
知道了圖的概念,你就可以理解什么是圖數(shù)據(jù)庫了。簡(jiǎn)單來說,圖數(shù)據(jù)庫就是用來處理圖這種數(shù)據(jù)結(jié)構(gòu)的工具。
不同于傳統(tǒng)的使用二維表格存儲(chǔ)數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫,圖數(shù)據(jù)庫在傳統(tǒng)意義上被歸類為NoSQL(Not Only SQL)數(shù)據(jù)庫的一種,也就是說圖數(shù)據(jù)庫屬于非關(guān)系型數(shù)據(jù)庫。
一般的圖數(shù)據(jù)庫至少包含圖存儲(chǔ)、圖查詢、圖分析這三種功能。
為什么要用圖數(shù)據(jù)庫
那我們?yōu)槭裁匆脠D數(shù)據(jù)庫呢?我們還是用東漢末年的例子來講解一下圖數(shù)據(jù)庫相對(duì)于關(guān)系型數(shù)據(jù)庫的優(yōu)勢(shì)。
假設(shè)某關(guān)系型數(shù)據(jù)庫中有三張表,分別是東漢末年人物表、東漢末年戰(zhàn)役表和東漢末年人物參戰(zhàn)表。
當(dāng)我們想知道“樊城之戰(zhàn)的守方是誰”,查詢一般會(huì)比較快,從表2可以直接得到,但當(dāng)我們想知道“劉備集團(tuán)發(fā)動(dòng)了哪些戰(zhàn)爭(zhēng)”的時(shí)候,盡管我們也可以從表2查到答案,但是我們可能需要遍歷整個(gè)表2,查詢效率會(huì)瞬間降低。而當(dāng)我們要查詢諸如“關(guān)羽出戰(zhàn)過劉備集團(tuán)發(fā)動(dòng)的哪些戰(zhàn)爭(zhēng)”的時(shí)候,我們來看一下執(zhí)行這條查詢時(shí)關(guān)系型數(shù)據(jù)庫是怎么做的:
A. 首先通過東漢末年人物表找到關(guān)羽對(duì)應(yīng)的人物ID
B. 再使用東漢末年人物參戰(zhàn)表找到其參戰(zhàn)的戰(zhàn)役
C. 最后通過東漢末年戰(zhàn)役表找到其參戰(zhàn)的哪些戰(zhàn)役的攻方是劉備集團(tuán)
我們會(huì)發(fā)現(xiàn),這個(gè)查詢實(shí)在是太繁瑣了。
而如果我們將以上表格轉(zhuǎn)化為如下的一張關(guān)系圖譜,那么誰和誰是什么關(guān)系就一目了然了。
這么說也許你還沒有真正領(lǐng)略到圖數(shù)據(jù)庫的巨大威力,我們?cè)賮砜匆粋€(gè)最經(jīng)典的社交網(wǎng)絡(luò)中查詢性能對(duì)比的數(shù)據(jù)。
在《Neo4j in Action》這本書中,作者做了一個(gè)測(cè)試:在一個(gè)包含100萬人,每個(gè)人約有50個(gè)朋友的社交網(wǎng)絡(luò)中找最大深度為5的朋友的朋友,得到的實(shí)驗(yàn)結(jié)果如下:
測(cè)試結(jié)果表明,深度為2時(shí)兩種數(shù)據(jù)庫的性能差別不大,都很迅速;當(dāng)深度為3時(shí),關(guān)系型數(shù)據(jù)庫需要半分鐘完成查詢,圖數(shù)據(jù)庫依舊在1秒內(nèi)搞定;當(dāng)深度為4時(shí),關(guān)系型數(shù)據(jù)庫耗費(fèi)了接近半小時(shí)返回結(jié)果,圖數(shù)據(jù)庫不到2秒;而當(dāng)深度達(dá)到5以后,關(guān)系型數(shù)據(jù)庫就遲遲無法響應(yīng)了,圖數(shù)據(jù)庫卻依舊可以「秒殺」,表現(xiàn)出了非常良好的性能。
據(jù)此,我們可以從以下幾個(gè)方面理解為什么要用圖數(shù)據(jù)庫:
- 關(guān)系型數(shù)據(jù)庫不擅長(zhǎng)處理數(shù)據(jù)之間的關(guān)系,而圖數(shù)據(jù)庫在處理數(shù)據(jù)之間關(guān)系方面靈活且高性能
我們不可否認(rèn)關(guān)系型數(shù)據(jù)庫自上世紀(jì)80年代以來一直都是數(shù)據(jù)庫領(lǐng)域發(fā)展的主力,當(dāng)前,隨著社交、物聯(lián)網(wǎng)、金融、電商等領(lǐng)域的快速發(fā)展,由此產(chǎn)生的數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)的增長(zhǎng),而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在處理復(fù)雜關(guān)系的數(shù)據(jù)上表現(xiàn)很差,這是因?yàn)殛P(guān)系型數(shù)據(jù)庫是通過外鍵的約束來實(shí)現(xiàn)多表之間的關(guān)系引用的。查詢實(shí)體之間的關(guān)系需要JOIN操作,而JOIN操作通常非常耗時(shí)。
而圖數(shù)據(jù)庫的原始設(shè)計(jì)動(dòng)機(jī)就是更好地描述實(shí)體之間的關(guān)系。圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫最大的不同就是免索引鄰接。圖數(shù)據(jù)模型中的每個(gè)節(jié)點(diǎn)都會(huì)維護(hù)與它相鄰的節(jié)點(diǎn)關(guān)系,這就意味著查詢時(shí)間與圖的整體規(guī)模無關(guān),只與每個(gè)節(jié)點(diǎn)的鄰點(diǎn)數(shù)量有關(guān),這使得圖數(shù)據(jù)庫在處理大量復(fù)雜關(guān)系時(shí)也能保持良好的性能。
另外,圖的結(jié)構(gòu)決定了其易于擴(kuò)展的特性。我們不必在模型設(shè)計(jì)之初就把所有的細(xì)節(jié)都考慮到,因?yàn)樵诤罄m(xù)增加新的節(jié)點(diǎn)、新的關(guān)系、新的屬性甚至新的標(biāo)簽都很容易,也不會(huì)破壞已有的查詢和應(yīng)用功能。
- 數(shù)據(jù)之間的關(guān)系越來越重要
當(dāng)我們?cè)趩枅D數(shù)據(jù)庫為什么如此重要時(shí),其實(shí)就是在問,數(shù)據(jù)之間的關(guān)系為何如此重要?正如大家都知道人際關(guān)系的價(jià)值,其實(shí)數(shù)據(jù)的價(jià)值也在于它們之間的關(guān)聯(lián)關(guān)系上。
舉個(gè)例子。最近直播帶貨非?;?,假如某個(gè)主播在微博上有幾百萬的粉絲,這個(gè)數(shù)據(jù)如果不利用起來,價(jià)值并不大,但如果他直播帶貨,把關(guān)注他的粉絲和可能來他直播間購物的顧客聯(lián)系起來時(shí),這些數(shù)據(jù)立馬展現(xiàn)出巨大的商業(yè)價(jià)值。
- 使用圖的方式表達(dá)現(xiàn)實(shí)世界中的很多事物更直接,更直觀,也更易于理解
自然界中有各種各樣的關(guān)系,而關(guān)系型數(shù)據(jù)庫只能把這些拍扁成表格形態(tài)的行列數(shù)據(jù),而圖數(shù)據(jù)基于圖模型以一種直觀的方式去模擬這些關(guān)系,因而更形象。
另外,現(xiàn)在大部分的圖數(shù)據(jù)庫都提供了可視化的圖展示,使得查詢和分析變得很直觀。
- 專業(yè)的圖分析算法為實(shí)際場(chǎng)景提供解決方案
圖數(shù)據(jù)庫起源于圖理論,借助于專業(yè)的圖分析算法,能夠?yàn)閷?shí)際場(chǎng)景提供合適的解決方案。
圖數(shù)據(jù)庫如何存儲(chǔ)、查詢、分析
-
圖存儲(chǔ)
圖數(shù)據(jù)庫如何存儲(chǔ)圖,對(duì)查詢和分析效率至關(guān)重要。圖數(shù)據(jù)庫使用圖模型來操作圖數(shù)據(jù)。所謂的圖模型是指圖數(shù)據(jù)庫描述和組織圖數(shù)據(jù)的方式。
目前主流的圖數(shù)據(jù)庫選擇的圖模型是屬性圖。屬性圖由點(diǎn)、邊、標(biāo)簽和屬性組成,我們結(jié)合一個(gè)具體的屬性圖實(shí)例來看一下。
以上屬性圖可以幫助我們理解一些相關(guān)概念:
1) 可以為點(diǎn)設(shè)置標(biāo)簽,比如 person, war等,擁有相同標(biāo)簽的點(diǎn)我們認(rèn)為它們屬于一個(gè)分組,是一個(gè)集合,這樣劉備和曹操屬于一個(gè)分組;
2) 同樣可以為邊設(shè)置標(biāo)簽,標(biāo)簽可以為 relation等;
3) 節(jié)點(diǎn)可以擁有很多屬性,比如 style name、year等,這些屬性值以鍵值對(duì)的形式表示,例如:劉備的style name是玄德;
4) 邊也可以擁有屬性,比如army等;
5) 邊允許有方向,例如劉備和漢中之戰(zhàn)之間的邊的方向是由劉備指向漢中之戰(zhàn)的;
6) 元數(shù)據(jù)是用來描述點(diǎn)和邊的屬性信息的,元數(shù)據(jù)由若干標(biāo)簽組成,每個(gè)標(biāo)簽由若干屬性組成。
-
圖查詢
如果我們想知道劉備的籍貫在哪,劉備和曹操是什么關(guān)系,漢中之戰(zhàn)的發(fā)動(dòng)方是誰等等,這些都屬于圖查詢的范疇。
我們知道,SQL是關(guān)系型數(shù)據(jù)庫的查詢語言,但是圖數(shù)據(jù)庫的查詢語言并沒有復(fù)用SQL。這是因?yàn)楸举|(zhì)上圖數(shù)據(jù)庫處理的是高維數(shù)據(jù),而SQL所適用的是二維的數(shù)據(jù)結(jié)構(gòu),其并不擅長(zhǎng)關(guān)系的查詢和操作。使用專門的圖查詢語言比SQL更加高效。
目前主流的圖查詢語言包括Gremlin和Cypher等。
-
圖分析
圖分析是指通過各種圖算法來挖掘圖信息的一門技術(shù)。
核心的圖算法可以分成三類:路徑搜索類、中心性分析類和社區(qū)發(fā)現(xiàn)類。
路徑搜索是探索圖中節(jié)點(diǎn)通過邊建立的直接或間接的聯(lián)系。例如在下圖中,通過路徑搜索,我們發(fā)現(xiàn)了這樣一條路徑:孫策-[夫妻]-大喬-[姐妹]-小喬-[夫妻]-周瑜,據(jù)此得知孫策和周瑜是連襟的關(guān)系。路徑搜索類算法廣泛用于物流配送、社交關(guān)系分析等場(chǎng)景。
中心性分析是指分析特定節(jié)點(diǎn)在圖中的重要程度及其影響力。例如在上圖中,直觀來看,孫權(quán)是一個(gè)重要的人物,因?yàn)榕c他直接相連的邊的數(shù)量最多。中心性分析類算法一般用于網(wǎng)頁排序、意見領(lǐng)袖挖掘、流感傳播等場(chǎng)景。
社區(qū)發(fā)現(xiàn)意在發(fā)現(xiàn)圖中聯(lián)系更緊密的群體結(jié)構(gòu)。如果把更多的三國人物和關(guān)系加到上圖中,利用Louvain等社團(tuán)挖掘類算法,我們很容易發(fā)現(xiàn)這些人物分屬三個(gè)陣營,如下圖所示。
社區(qū)發(fā)現(xiàn)類算法可用于犯罪團(tuán)伙挖掘等場(chǎng)景。
圖數(shù)據(jù)庫有什么用
介紹完圖數(shù)據(jù)庫的主要功能,我們?cè)賮砜纯磮D數(shù)據(jù)庫都有哪些應(yīng)用場(chǎng)景。圖數(shù)據(jù)庫擅長(zhǎng)的應(yīng)用領(lǐng)域包括:
- 社交領(lǐng)域: Facebook, Twitter用它來進(jìn)行社交關(guān)系管理、好友推薦
我們熟悉的好友推薦。就可以采用推薦好友的好友的方法。
徐庶和司馬徽向劉備推薦諸葛亮可以通過下圖形象地展示
- 電商領(lǐng)域: 華為商城用它來實(shí)現(xiàn)商品實(shí)時(shí)推薦
通過分析目標(biāo)用戶和其他用戶的喜好商品,找到相似的其他用戶,把這些用戶購買過的商品推薦給目標(biāo)用戶。
- 金融領(lǐng)域: 中國工商銀行、摩根大通用它來做風(fēng)控管理
目前來看,金融領(lǐng)域?qū)D數(shù)據(jù)庫的需求很迫切,以貸款為例,在整個(gè)貸款周期中,圖數(shù)據(jù)庫都能發(fā)揮巨大的作用。
- 安平領(lǐng)域: 公安用它來進(jìn)行嫌疑關(guān)系審查、犯罪團(tuán)伙挖掘
東漢末年,曹操刺殺董卓,貂蟬挑撥董卓父子關(guān)系,呂布斬殺董卓,但是董卓卻不知道,這些事件幕后主兇之一都有王允,如下圖所示?,F(xiàn)實(shí)中也可能是這樣,幕后真兇可能與目標(biāo)案件沒有直接關(guān)系,只有間接的關(guān)系。
什么樣的場(chǎng)景適合用圖數(shù)據(jù)庫
你可以根據(jù)以下幾點(diǎn)來判斷你的問題是否需要圖數(shù)據(jù)庫:
如果你的問題中頻繁出現(xiàn)多對(duì)多的關(guān)系,建議首選圖數(shù)據(jù)庫;
如果你的問題中數(shù)據(jù)之間的關(guān)系非常重要,建議首選圖數(shù)據(jù)庫;
如果你需要處理大規(guī)模數(shù)據(jù)集之間的關(guān)系,建議首選圖數(shù)據(jù)庫。