為什么阿里巴巴禁止數(shù)據(jù)庫中做多表join?
?阿里出過一個(gè)《Java開發(fā)手冊》,上面有一條規(guī)約是禁止超過三張表的join。
而實(shí)際操作過程中,我們平時(shí)確實(shí)在SQL中寫JOIN也比較少,兩張表JOIN有的時(shí)候也有,多張表的JOIN在離線數(shù)據(jù)分析的時(shí)候很多,但是在線系統(tǒng)確實(shí)很少。經(jīng)常有人問我為什么?
其實(shí)最主要的原因就是join的效率比較低。
MySQL是使用了嵌套循環(huán)(Nested-Loop Join)的方式來實(shí)現(xiàn)關(guān)聯(lián)查詢的,簡單點(diǎn)說就是要通過兩層循環(huán),用第一張表做外循環(huán),第二張表做內(nèi)循環(huán),外循環(huán)的每一條記錄跟內(nèi)循環(huán)中的記錄作比較,符合條件的就輸出。
而具體到算法實(shí)現(xiàn)上主要有simple nested loop,block nested loop和index nested loop這三種。
而且這三種的效率都沒有特別高。
首先,最差的算法就是simple nested loop,他的做法簡單粗暴,就是全量掃描連接兩張表進(jìn)行數(shù)據(jù)的兩兩對(duì)比,所以他的復(fù)雜度可以認(rèn)為是O(n^2)
好一點(diǎn)的算法是index nested loop,當(dāng)Inner Loop的表用到字段有索引的話,可以用到索引進(jìn)行查詢數(shù)據(jù),因?yàn)樗饕荁+樹的,復(fù)雜度可以近似認(rèn)為是O(nlogn)
那block nested loop這種算法,其實(shí)是引入了一個(gè)Buffer,會(huì)提前把外循環(huán)的一部分結(jié)果提前放到多個(gè)JOIN BUFFER中,然后內(nèi)循環(huán)的每一行都和多個(gè)buffer中的所有數(shù)據(jù)作比較,從而減少內(nèi)循環(huán)的次數(shù)。他的復(fù)雜度是O(M*N),這里的M是buffer的個(gè)數(shù)。
所以,雖然MySQL已經(jīng)盡可能的在優(yōu)化了,但是這幾種算法復(fù)雜度都還是挺高的,這也是為什么不建議在數(shù)據(jù)庫中多表JOIN的原因。隨著表越多,表中的數(shù)據(jù)量越多,JOIN的效率會(huì)呈指數(shù)級(jí)下降。
如果不能通過數(shù)據(jù)庫做關(guān)聯(lián)查詢,那么需要查詢多表的數(shù)據(jù)的時(shí)候要怎么做呢?
主要有兩種做法:
1、在內(nèi)存中自己做關(guān)聯(lián),即先從數(shù)據(jù)庫中把數(shù)據(jù)查出來之后,我們在代碼中再進(jìn)行二次查詢,然后再進(jìn)行關(guān)聯(lián)。
2、數(shù)據(jù)冗余,那就是把一些重要的數(shù)據(jù)在表中做冗余,這樣就可以避免關(guān)聯(lián)查詢了。
其實(shí)數(shù)據(jù)冗余是互聯(lián)網(wǎng)業(yè)務(wù)中比較常見的做法,其實(shí)本質(zhì)上是軟件開發(fā)中一個(gè)比較典型的方案,那就是"用空間換時(shí)間",通過做一些數(shù)據(jù)冗余,來提升查詢速度。
在互聯(lián)網(wǎng)業(yè)務(wù)中,比較典型的就是數(shù)據(jù)量大,并發(fā)高,并且通常查詢的頻率要遠(yuǎn)高于寫入的頻率,所以適當(dāng)?shù)淖鲆恍┓捶妒?,通過做一些字段的冗余,可以提升查詢性能,降低響應(yīng)時(shí)長,從而提升并發(fā)度。?