人人都在談的圖數(shù)據(jù)庫到底是個啥?
近些年來,在大數(shù)據(jù)處理過程中有一種被廣泛提及和使用的數(shù)據(jù)庫,那就是圖數(shù)據(jù)庫。那么圖數(shù)據(jù)庫究竟是什么呢?
圖數(shù)據(jù)庫,如果是剛接觸的人,可能會被其字面意思所誤導(dǎo)。其實,圖數(shù)據(jù)庫并不是指存儲圖片、圖像的數(shù)據(jù)庫,而是指存儲圖這種數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)庫。那么圖又是什么呢?
什么是圖
我們通過下面的例子來認識一下。
東漢末年,孫權(quán)、劉備聯(lián)軍曾在赤壁一帶以火攻敵船之計大破曹軍。
如果我們把各陣營之間的關(guān)系抽象一下,以陣營作為點,陣營之間的關(guān)系作為邊,這樣我們就可以用如下的圖來形象地表示上述關(guān)系:

以上就是這里所謂的圖(的可視化展示)。
我們把這種存儲實體和實體之間關(guān)系的數(shù)據(jù)結(jié)構(gòu),稱為圖,Graph,圖由點和邊組成,一個點就是一個實體,比如上述實例中的陣營,兩個實體之間的關(guān)系則用有方向或無方向的邊來表示,比如劉備和孫權(quán)之間的聯(lián)盟關(guān)系等。這種通用的結(jié)構(gòu)可以對現(xiàn)實中的各種場景進行建模,從交通運輸系統(tǒng)到組織架構(gòu)管理,從工藝流程設(shè)計到社交網(wǎng)絡(luò)。
什么是圖數(shù)據(jù)庫
知道了圖的概念,你就可以理解什么是圖數(shù)據(jù)庫了。簡單來說,圖數(shù)據(jù)庫就是用來處理圖這種數(shù)據(jù)結(jié)構(gòu)的工具。
不同于傳統(tǒng)的使用二維表格存儲數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫,圖數(shù)據(jù)庫在傳統(tǒng)意義上被歸類為NoSQL(Not Only SQL)數(shù)據(jù)庫的一種,也就是說圖數(shù)據(jù)庫屬于非關(guān)系型數(shù)據(jù)庫。
一般的圖數(shù)據(jù)庫至少包含圖存儲、圖查詢、圖分析這三種功能。
為什么要用圖數(shù)據(jù)庫
那我們?yōu)槭裁匆脠D數(shù)據(jù)庫呢?我們還是用東漢末年的例子來講解一下圖數(shù)據(jù)庫相對于關(guān)系型數(shù)據(jù)庫的優(yōu)勢。
假設(shè)某關(guān)系型數(shù)據(jù)庫中有三張表,分別是東漢末年人物表、東漢末年戰(zhàn)役表和東漢末年人物參戰(zhàn)表。

當我們想知道“樊城之戰(zhàn)的守方是誰”,查詢一般會比較快,從表2可以直接得到,但當我們想知道“劉備集團發(fā)動了哪些戰(zhàn)爭”的時候,盡管我們也可以從表2查到答案,但是我們可能需要遍歷整個表2,查詢效率會瞬間降低。而當我們要查詢諸如“關(guān)羽出戰(zhàn)過劉備集團發(fā)動的哪些戰(zhàn)爭”的時候,我們來看一下執(zhí)行這條查詢時關(guān)系型數(shù)據(jù)庫是怎么做的:
A. 首先通過東漢末年人物表找到關(guān)羽對應(yīng)的人物ID
B. 再使用東漢末年人物參戰(zhàn)表找到其參戰(zhàn)的戰(zhàn)役
C. 最后通過東漢末年戰(zhàn)役表找到其參戰(zhàn)的哪些戰(zhàn)役的攻方是劉備集團
我們會發(fā)現(xiàn),這個查詢實在是太繁瑣了。
而如果我們將以上表格轉(zhuǎn)化為如下的一張關(guān)系圖譜,那么誰和誰是什么關(guān)系就一目了然了。

這么說也許你還沒有真正領(lǐng)略到圖數(shù)據(jù)庫的巨大威力,我們再來看一個最經(jīng)典的社交網(wǎng)絡(luò)中查詢性能對比的數(shù)據(jù)。
在《Neo4j in Action》這本書中,作者做了一個測試:在一個包含100萬人,每個人約有50個朋友的社交網(wǎng)絡(luò)中找最大深度為5的朋友的朋友,得到的實驗結(jié)果如下:

測試結(jié)果表明,深度為2時兩種數(shù)據(jù)庫的性能差別不大,都很迅速;當深度為3時,關(guān)系型數(shù)據(jù)庫需要半分鐘完成查詢,圖數(shù)據(jù)庫依舊在1秒內(nèi)搞定;當深度為4時,關(guān)系型數(shù)據(jù)庫耗費了接近半小時返回結(jié)果,圖數(shù)據(jù)庫不到2秒;而當深度達到5以后,關(guān)系型數(shù)據(jù)庫就遲遲無法響應(yīng)了,圖數(shù)據(jù)庫卻依舊可以「秒殺」,表現(xiàn)出了非常良好的性能。
據(jù)此,我們可以從以下幾個方面理解為什么要用圖數(shù)據(jù)庫:
- 關(guān)系型數(shù)據(jù)庫不擅長處理數(shù)據(jù)之間的關(guān)系,而圖數(shù)據(jù)庫在處理數(shù)據(jù)之間關(guān)系方面靈活且高性能
我們不可否認關(guān)系型數(shù)據(jù)庫自上世紀80年代以來一直都是數(shù)據(jù)庫領(lǐng)域發(fā)展的主力,當前,隨著社交、物聯(lián)網(wǎng)、金融、電商等領(lǐng)域的快速發(fā)展,由此產(chǎn)生的數(shù)據(jù)呈現(xiàn)指數(shù)級的增長,而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在處理復(fù)雜關(guān)系的數(shù)據(jù)上表現(xiàn)很差,這是因為關(guān)系型數(shù)據(jù)庫是通過外鍵的約束來實現(xiàn)多表之間的關(guān)系引用的。查詢實體之間的關(guān)系需要JOIN操作,而JOIN操作通常非常耗時。
而圖數(shù)據(jù)庫的原始設(shè)計動機就是更好地描述實體之間的關(guān)系。圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫最大的不同就是免索引鄰接。圖數(shù)據(jù)模型中的每個節(jié)點都會維護與它相鄰的節(jié)點關(guān)系,這就意味著查詢時間與圖的整體規(guī)模無關(guān),只與每個節(jié)點的鄰點數(shù)量有關(guān),這使得圖數(shù)據(jù)庫在處理大量復(fù)雜關(guān)系時也能保持良好的性能。
另外,圖的結(jié)構(gòu)決定了其易于擴展的特性。我們不必在模型設(shè)計之初就把所有的細節(jié)都考慮到,因為在后續(xù)增加新的節(jié)點、新的關(guān)系、新的屬性甚至新的標簽都很容易,也不會破壞已有的查詢和應(yīng)用功能。
- 數(shù)據(jù)之間的關(guān)系越來越重要
當我們在問圖數(shù)據(jù)庫為什么如此重要時,其實就是在問,數(shù)據(jù)之間的關(guān)系為何如此重要?正如大家都知道人際關(guān)系的價值,其實數(shù)據(jù)的價值也在于它們之間的關(guān)聯(lián)關(guān)系上。
舉個例子。最近直播帶貨非?;?,假如某個主播在微博上有幾百萬的粉絲,這個數(shù)據(jù)如果不利用起來,價值并不大,但如果他直播帶貨,把關(guān)注他的粉絲和可能來他直播間購物的顧客聯(lián)系起來時,這些數(shù)據(jù)立馬展現(xiàn)出巨大的商業(yè)價值。
- 使用圖的方式表達現(xiàn)實世界中的很多事物更直接,更直觀,也更易于理解
自然界中有各種各樣的關(guān)系,而關(guān)系型數(shù)據(jù)庫只能把這些拍扁成表格形態(tài)的行列數(shù)據(jù),而圖數(shù)據(jù)基于圖模型以一種直觀的方式去模擬這些關(guān)系,因而更形象。
另外,現(xiàn)在大部分的圖數(shù)據(jù)庫都提供了可視化的圖展示,使得查詢和分析變得很直觀。
- 專業(yè)的圖分析算法為實際場景提供解決方案
圖數(shù)據(jù)庫起源于圖理論,借助于專業(yè)的圖分析算法,能夠為實際場景提供合適的解決方案。
圖數(shù)據(jù)庫如何存儲、查詢、分析
-
圖存儲
圖數(shù)據(jù)庫如何存儲圖,對查詢和分析效率至關(guān)重要。圖數(shù)據(jù)庫使用圖模型來操作圖數(shù)據(jù)。所謂的圖模型是指圖數(shù)據(jù)庫描述和組織圖數(shù)據(jù)的方式。
目前主流的圖數(shù)據(jù)庫選擇的圖模型是屬性圖。屬性圖由點、邊、標簽和屬性組成,我們結(jié)合一個具體的屬性圖實例來看一下。

以上屬性圖可以幫助我們理解一些相關(guān)概念:
1) 可以為點設(shè)置標簽,比如 person, war等,擁有相同標簽的點我們認為它們屬于一個分組,是一個集合,這樣劉備和曹操屬于一個分組;
2) 同樣可以為邊設(shè)置標簽,標簽可以為 relation等;
3) 節(jié)點可以擁有很多屬性,比如 style name、year等,這些屬性值以鍵值對的形式表示,例如:劉備的style name是玄德;
4) 邊也可以擁有屬性,比如army等;
5) 邊允許有方向,例如劉備和漢中之戰(zhàn)之間的邊的方向是由劉備指向漢中之戰(zhàn)的;
6) 元數(shù)據(jù)是用來描述點和邊的屬性信息的,元數(shù)據(jù)由若干標簽組成,每個標簽由若干屬性組成。
-
圖查詢
如果我們想知道劉備的籍貫在哪,劉備和曹操是什么關(guān)系,漢中之戰(zhàn)的發(fā)動方是誰等等,這些都屬于圖查詢的范疇。
我們知道,SQL是關(guān)系型數(shù)據(jù)庫的查詢語言,但是圖數(shù)據(jù)庫的查詢語言并沒有復(fù)用SQL。這是因為本質(zhì)上圖數(shù)據(jù)庫處理的是高維數(shù)據(jù),而SQL所適用的是二維的數(shù)據(jù)結(jié)構(gòu),其并不擅長關(guān)系的查詢和操作。使用專門的圖查詢語言比SQL更加高效。
目前主流的圖查詢語言包括Gremlin和Cypher等。
-
圖分析
圖分析是指通過各種圖算法來挖掘圖信息的一門技術(shù)。
核心的圖算法可以分成三類:路徑搜索類、中心性分析類和社區(qū)發(fā)現(xiàn)類。
路徑搜索是探索圖中節(jié)點通過邊建立的直接或間接的聯(lián)系。例如在下圖中,通過路徑搜索,我們發(fā)現(xiàn)了這樣一條路徑:孫策-[夫妻]-大喬-[姐妹]-小喬-[夫妻]-周瑜,據(jù)此得知孫策和周瑜是連襟的關(guān)系。路徑搜索類算法廣泛用于物流配送、社交關(guān)系分析等場景。

中心性分析是指分析特定節(jié)點在圖中的重要程度及其影響力。例如在上圖中,直觀來看,孫權(quán)是一個重要的人物,因為與他直接相連的邊的數(shù)量最多。中心性分析類算法一般用于網(wǎng)頁排序、意見領(lǐng)袖挖掘、流感傳播等場景。
社區(qū)發(fā)現(xiàn)意在發(fā)現(xiàn)圖中聯(lián)系更緊密的群體結(jié)構(gòu)。如果把更多的三國人物和關(guān)系加到上圖中,利用Louvain等社團挖掘類算法,我們很容易發(fā)現(xiàn)這些人物分屬三個陣營,如下圖所示。

社區(qū)發(fā)現(xiàn)類算法可用于犯罪團伙挖掘等場景。
圖數(shù)據(jù)庫有什么用
介紹完圖數(shù)據(jù)庫的主要功能,我們再來看看圖數(shù)據(jù)庫都有哪些應(yīng)用場景。圖數(shù)據(jù)庫擅長的應(yīng)用領(lǐng)域包括:
- 社交領(lǐng)域: Facebook, Twitter用它來進行社交關(guān)系管理、好友推薦
我們熟悉的好友推薦。就可以采用推薦好友的好友的方法。

徐庶和司馬徽向劉備推薦諸葛亮可以通過下圖形象地展示

- 電商領(lǐng)域: 華為商城用它來實現(xiàn)商品實時推薦
通過分析目標用戶和其他用戶的喜好商品,找到相似的其他用戶,把這些用戶購買過的商品推薦給目標用戶。

- 金融領(lǐng)域: 中國工商銀行、摩根大通用它來做風(fēng)控管理
目前來看,金融領(lǐng)域?qū)D數(shù)據(jù)庫的需求很迫切,以貸款為例,在整個貸款周期中,圖數(shù)據(jù)庫都能發(fā)揮巨大的作用。

- 安平領(lǐng)域: 公安用它來進行嫌疑關(guān)系審查、犯罪團伙挖掘
東漢末年,曹操刺殺董卓,貂蟬挑撥董卓父子關(guān)系,呂布斬殺董卓,但是董卓卻不知道,這些事件幕后主兇之一都有王允,如下圖所示?,F(xiàn)實中也可能是這樣,幕后真兇可能與目標案件沒有直接關(guān)系,只有間接的關(guān)系。

什么樣的場景適合用圖數(shù)據(jù)庫
你可以根據(jù)以下幾點來判斷你的問題是否需要圖數(shù)據(jù)庫:
如果你的問題中頻繁出現(xiàn)多對多的關(guān)系,建議首選圖數(shù)據(jù)庫;
如果你的問題中數(shù)據(jù)之間的關(guān)系非常重要,建議首選圖數(shù)據(jù)庫;
如果你需要處理大規(guī)模數(shù)據(jù)集之間的關(guān)系,建議首選圖數(shù)據(jù)庫。



























