墨天輪關(guān)系型分布式數(shù)據(jù)庫榜單解讀
原創(chuàng)近期受墨天輪社區(qū)邀約,就墨天輪社區(qū)榜單上國產(chǎn)分布式關(guān)系型數(shù)據(jù)庫發(fā)展加以分析。從近年發(fā)展來看,分布式產(chǎn)品已漸漸成為主要數(shù)據(jù)庫架構(gòu),受到更多用戶的關(guān)注。本文分析數(shù)據(jù)源,來自墨天輪最新一期的榜單數(shù)據(jù)。
1、分布式關(guān)系型數(shù)據(jù)庫概述
作為數(shù)據(jù)庫演進方向之一,分布式能力受到更多用戶的關(guān)注。從技術(shù)架構(gòu)演進來看,數(shù)據(jù)庫正走過了從單機式、集中式到分布式的發(fā)展過程,目前是多種架構(gòu)并存的階段。分布式架構(gòu)以其更好的存儲與計算擴展能力,受到更多的關(guān)注。在墨天輪社區(qū)上,收集了國內(nèi)160多家關(guān)系型數(shù)據(jù)庫廠商產(chǎn)品。針對這些產(chǎn)品做個架構(gòu)分類不難發(fā)現(xiàn),從數(shù)量上來看,分布式與集中式架構(gòu)不分伯仲,甚至分布式還稍有占優(yōu)(如左下圖)。如果考慮到流行度因素,按架構(gòu)分類統(tǒng)計相應數(shù)據(jù)庫的流行度分數(shù)可以發(fā)現(xiàn),分布式架構(gòu)優(yōu)勢更為明顯(如右下圖),這也說明了分布式數(shù)據(jù)庫產(chǎn)品受到更多流行關(guān)注。
從上述分析來看,分布式產(chǎn)品正更多地受到關(guān)注,并已開始在用戶場景落地。究其原因,可簡單歸納為幾點:
場景驅(qū)動
隨著企業(yè)數(shù)字化轉(zhuǎn)型深化,更多的數(shù)據(jù)被挖掘,更多的場景被發(fā)現(xiàn)。上述變化對數(shù)據(jù)的重要載體-數(shù)據(jù)庫來說,提出了更大存儲規(guī)模與更強計算要求。分布式數(shù)據(jù)庫的技術(shù)特點正可以滿足上述要求。此外,隨著數(shù)據(jù)價值被企業(yè)更加關(guān)注,對數(shù)據(jù)可用性、數(shù)據(jù)一致性要求更高,分布式數(shù)據(jù)庫也有其可發(fā)揮空間。
業(yè)務驅(qū)動
隨著業(yè)務互聯(lián)網(wǎng)化,很多企業(yè)都面臨著敏態(tài)業(yè)務快速發(fā)展問題。這對于數(shù)據(jù)庫提出了更高彈性要求,如何快速滿足多變的業(yè)務訴求。分布式數(shù)據(jù)庫通常采用的存算分離架構(gòu),可提供存儲與計算資源的彈性伸縮能力,非常契合這一訴求。
技術(shù)趨勢
分布式技術(shù)發(fā)展多年,在與數(shù)據(jù)庫結(jié)合方面一直存在若干難點,但隨著Google的三篇論文及工程化產(chǎn)品出現(xiàn),為分布式數(shù)據(jù)庫的落地奠定了理論基礎(chǔ)。很多分布式數(shù)據(jù)庫產(chǎn)品正是踩著巨人的肩膀,快速發(fā)展起來。
硬件發(fā)展
分布式架構(gòu)因其組件拆分,天然對網(wǎng)絡(luò)有著更高的要求。過去受限于網(wǎng)絡(luò)技術(shù)本身,很難達到很好的效果。但隨著高帶寬、低延時網(wǎng)絡(luò)技術(shù)實現(xiàn)突破,為分布式架構(gòu)提供了良好的基礎(chǔ)。此外,如高速存儲、多核CPU等技術(shù)也助力了分布式技術(shù)在數(shù)據(jù)庫領(lǐng)域的快速成熟。
政策引導
近年來,國家也非常重視基礎(chǔ)軟件的發(fā)展,包括針對數(shù)據(jù)庫產(chǎn)品。相關(guān)部門曾多次出臺政策,明確指出要加快分布式數(shù)據(jù)庫產(chǎn)品的研發(fā)和應用推廣。很多行業(yè)也明確提出的時間表,加速這一過程。
2、分布式關(guān)系型數(shù)據(jù)庫產(chǎn)品點評
近年來分布式數(shù)據(jù)庫產(chǎn)品發(fā)展迅速,并且在多類場景中廣泛使用。在墨天輪榜單中,共收錄有85款關(guān)系型分布式數(shù)據(jù)庫。如下圖是按使用場景進行分類統(tǒng)計,因部分產(chǎn)品支持多種場景,故進行重復統(tǒng)計。無論是OLTP、OLAP還是新興的 HTAP 場景都有分布式架構(gòu)產(chǎn)品。特別是OLAP、HTAP等領(lǐng)域,因其承載數(shù)據(jù)規(guī)模及算力更大,分布式產(chǎn)品更有優(yōu)勢。
從部署方式上來看,分布式架構(gòu)產(chǎn)品多支持本地部署,同時也有部分產(chǎn)品支持云原生部署。從整體來看,仍然是以本地部署方式為主,云原生的部署方式占少數(shù),但相對而言分布式更容易利用云原生提供的計算與存儲能力,因此未來將更多地支持云原生部署。
從墨天輪榜單上,按照屬性進行篩選,選擇分布式架構(gòu)的關(guān)系型數(shù)據(jù)庫廠商共85家。從分布式數(shù)據(jù)庫廠家分類來看,大體可分為幾類。一是以 OceanBase、PolarDB、TDSQL 為代表的來自互聯(lián)網(wǎng)大廠的產(chǎn)品;二是以 GaussDB、GoldenDB 為代表的傳統(tǒng)大廠產(chǎn)品;三是以TiDB 為代表的新興數(shù)據(jù)庫廠商產(chǎn)品;四是以 GBase、AntDB為代表的傳統(tǒng)廠商產(chǎn)品。上述幾類廠商產(chǎn)品因其發(fā)展路線、階段不同,各產(chǎn)品差異也較大。
下面就作為主流的一些關(guān)系型分布式數(shù)據(jù)庫產(chǎn)品加以點評。
OceanBase
OceanBase 近年發(fā)展迅速,目前占據(jù)榜單首位。在22年底的4.0版本中,其率先提出了“單機分布式一體化”理念,降低分布式數(shù)據(jù)庫使用門檻,讓用戶可根據(jù)業(yè)務發(fā)展平滑過渡。在23年上半年最新的4.1版本,則將“面向開發(fā)者”定位凸顯,強化其在易用性、兼容性、高性能等方面能力。目前OceanBase在金融、政企、互聯(lián)網(wǎng)等諸多行業(yè)得到廣泛使用。特別是其良好的兼容能力,受到很多傳統(tǒng)企業(yè)關(guān)注,將其作為信創(chuàng)改造的首選方案。
TiDB
TiDB作為一款知名的開源分布式數(shù)據(jù)庫產(chǎn)品,長期占據(jù)榜單前三名。在23年4月份,其正式發(fā)布了7.0版本。這一版本聚焦于幫助用戶通過可靠性能和簡化數(shù)據(jù)庫操作來快速響應業(yè)務需求,從而滿足客戶的高期望值,并提升開發(fā)人員和 IT 運維人員的生產(chǎn)力。重點特性包括多租戶下的資源管控增強、TiFlash數(shù)據(jù)落盤穩(wěn)定分析負載、自動執(zhí)行計劃緩存、TiFlash支持存算分離等。在產(chǎn)品運營上一方面通過與合作伙伴共建加快國內(nèi)落地步伐,一方面持續(xù)擴大海外運營工作。
GaussDB
GaussDB,是華為自研的企業(yè)級原生分布式關(guān)系型數(shù)據(jù)庫,其重要是面向金融政企核心交易和企業(yè)生產(chǎn)系統(tǒng)等復雜場景。近年在傳統(tǒng)領(lǐng)域建樹頗多,特別是在信創(chuàng)改造領(lǐng)域,取得不少成果。從產(chǎn)品發(fā)展角度來看,GaussDB與榜單上另一款單機開源產(chǎn)品-openGauss,有著千絲萬縷的關(guān)聯(lián)。目前Gauss系列已形成了商用數(shù)據(jù)庫、開源數(shù)據(jù)庫、基于開源數(shù)據(jù)庫的第三方商用數(shù)據(jù)庫的復合生態(tài)模式。當然從品牌建設(shè)角度,個人建議還需進一步增強,形成品牌合力。
PolarDB
PolarDB,是國內(nèi)最早打出云原生數(shù)據(jù)庫理念,并且完成工程化實踐的代表產(chǎn)品。從早期的存算分離架構(gòu)開始支持云基礎(chǔ)環(huán)境;到近期的Serverless架構(gòu),多層解耦拆分,提供更為精細粒度的資源管理能力。走過了云原生的1.0、2.0到如今的3.0,也成為最具代表性的云原生數(shù)據(jù)庫產(chǎn)品。其與云原生環(huán)境的緊密結(jié)合,提供了極致的分布式能力。其產(chǎn)品已在云平臺及私有化環(huán)境大量使用。
TDSQL
TDSQL,作為來自互聯(lián)網(wǎng)應用的又一產(chǎn)品,早期支持騰訊社交、游戲等場景;后期商業(yè)化后大量支持如金融等關(guān)鍵領(lǐng)域客戶系統(tǒng)。特別是近期,其剛剛通過TPC-C基準測試,并創(chuàng)造了新的世界紀錄,在業(yè)內(nèi)引發(fā)廣泛關(guān)注。
GBase
GBase,作為老牌數(shù)據(jù)庫廠商,很早就在分布式領(lǐng)域布局。無論是其面向 OLAP 領(lǐng)域的GBase 8a產(chǎn)品,還是面向交易及多模領(lǐng)域的 GBase 8c\8s產(chǎn)品,都將分布式能力作為其核心能力之一。經(jīng)過多年積累,已在全球數(shù)百家客戶中使用。
AnalyticDB
AnalyticDB,是阿里云的一款 OLAP 產(chǎn)品,也是阿里云的自研兩大核心產(chǎn)品之一。其特點是支持超大規(guī)模、極致性能,可滿足在萬億數(shù)據(jù)規(guī)模下的秒級數(shù)據(jù)分析能力,在很多涉及國計民生領(lǐng)域被廣泛使用。其良好的兼容性,也為用戶降低使用門檻。近期其與 PolarDB 聯(lián)合,形成頗具競爭力的 HTAP 解決方案。
AntDB
AntDB,是亞信集團的一款分布式、面向 TP 和 AP 多場景產(chǎn)品。早期在電信領(lǐng)域得到廣泛實踐,現(xiàn)已走向全行業(yè)。近期其上升勢頭很猛,也得到了很多關(guān)注。
GoldenDB
GoldenDB,作為來自中興研發(fā)的一款分布式數(shù)據(jù)庫,長期以來一直比較低調(diào)。其實在金融、運營商等很多關(guān)鍵領(lǐng)域,已經(jīng)得到非常廣泛的使用。近期其推出的7.0版本,在 HTAP、自動化工具及云原生方向有重大進展,已成為一支不可忽視的力量。
除了上述產(chǎn)品外,還有些產(chǎn)品近年來進步很快,我們也盤點下:
Doris
Doris,作為 OLAP 領(lǐng)域近年來一款現(xiàn)象級開源產(chǎn)品,得到廣泛關(guān)注,其在墨天輪榜單上的排名半年便提升了42個位次。開源活躍度很高,版本迭代迅速。其已孵化了多款商業(yè)產(chǎn)品,并都取得不俗的商業(yè)進展,間接證明其產(chǎn)品能力突出。其生態(tài)用戶廣泛,覆蓋很多頭部互聯(lián)網(wǎng)公司。
PieCloudDB
PieCloudDB,其墨天輪流行度排名相較2022年11月提升了139名,核心團隊來自于著名的MPP數(shù)據(jù)庫GreenPlum。其創(chuàng)造性地提出了全新eMPP分布式技術(shù),實現(xiàn)云上彈性大規(guī)模并行計算。充分利用云基礎(chǔ)實施,解決大規(guī)模數(shù)據(jù)分析的資源問題。近期其又發(fā)布基于eMPP分布式技術(shù)的存算分離軟硬件一體機,完全支持國產(chǎn)化信創(chuàng)環(huán)境,標志其啟動全面啟動國產(chǎn)軟硬件一體機商業(yè)化。
MatrixOne
MatrixOne,定義為一款面向未來的超融合異構(gòu)云原生數(shù)據(jù)庫,其主打融合異構(gòu)架構(gòu)。一方面通過一份存儲和一套計算引擎支持多種工作負載,一方面以統(tǒng)一技術(shù)架構(gòu),支持公有云、自建數(shù)據(jù)中心、邊緣節(jié)點部署使用,應用乃至數(shù)據(jù)可以云上云下無縫遷移。
YaoBase
YaoBase,是一款自研云原生NewSQL分布式數(shù)據(jù)庫,其在墨天輪榜單上排名113位,相較半年前的172位進步明顯。其提出的增量聚集系統(tǒng)架構(gòu),在實現(xiàn)高并發(fā)事務處理的同時,兼顧復雜事務處理能力的可擴展性,彌補了現(xiàn)有NewSQL類系統(tǒng)處理復雜事務的短板。
CASICloud DBCP
CASICloud DBCP(航天天域數(shù)據(jù)庫管理系統(tǒng)),由北京航天紫光科技自主研發(fā),是一款是采用無共享架構(gòu)的分布式交易型通用數(shù)據(jù)庫系統(tǒng)。之前在航天領(lǐng)域已經(jīng)有非常多的實踐,可作為國產(chǎn)數(shù)據(jù)庫信創(chuàng)替換的選型之一,其性能較國產(chǎn)傳統(tǒng)數(shù)據(jù)庫有著明顯優(yōu)勢。
3、分布式技術(shù)發(fā)展趨勢及觀察
從分布式技術(shù)發(fā)展來看,有一些明確的變化趨勢。
云與分布式加速融合
云,作為一種新的資源供給方式,在過去十幾年得到了快速發(fā)展。其天然具備的海量資源快速供給,與分布式架構(gòu)對資源的需求不謀而合??梢哉f兩者的強強結(jié)合,可以更大發(fā)揮出分布式架構(gòu)的威力。我們可以看到,一方面云廠商的云數(shù)據(jù)庫產(chǎn)品大都采用分布式架構(gòu);一方面非常多的分布式數(shù)據(jù)庫產(chǎn)品也開始云及云原生化。
分布式多場景適配
無論是傳統(tǒng)的 OLTP 和 OLAP 業(yè)務,還是新興的 HTAP 業(yè)務。只要是對規(guī)模、算力、一致性有著更好的要求,分布式架構(gòu)都可以在一定程度上解決。當然從使用場景來看,不同架構(gòu)占比還有所差異。從觀察來看,對于 OLAP、HTAP 場景,因其承載數(shù)據(jù)規(guī)模及算力要求更大,分布式產(chǎn)品更有優(yōu)勢。
單機分布式一體化
如果說分布式產(chǎn)品還有什么缺陷,較高使用門檻是其中最為主要的。分布式架構(gòu)天然帶來的復雜性、高成本,對客戶造成很大的困擾。單機分布式一體化,正是為了解決這一問題。一方面通過這一架構(gòu)優(yōu)化可極大降低分布式數(shù)據(jù)庫的門檻,另一方面也可將擴展需求掌握在客戶手中。真正做到“豐儉由人”,將分布式數(shù)據(jù)庫做到了普惠大眾。
分布式生態(tài)化加速
分布式產(chǎn)品作為一種新架構(gòu)產(chǎn)品,如何讓用戶快速接受?如何減低潛在的使用風險?這些都對分布式數(shù)據(jù)庫提出了更高要求。構(gòu)建完整、友好、活躍的生態(tài)圈,將有助于解決上述問題。一方面分布式架構(gòu)的復雜性、易用性,可通過生態(tài)工具加速在企業(yè)落地,降低使用門檻和風險;一方面良好的兼容性,充分享受已有生態(tài)紅利有成為很多分布式產(chǎn)品的發(fā)展策略之一。
4、選擇分布式關(guān)系型數(shù)據(jù)庫難點
雖然說分布式數(shù)據(jù)庫代表著數(shù)據(jù)庫重要的發(fā)展方向之一,且已經(jīng)取得了不俗的表現(xiàn)。但在用戶選擇上,仍然存在著諸多痛點,這也妨礙了分布式數(shù)據(jù)庫的盡快普及。這其中比較重要的有以下幾點:
穩(wěn)定性、可靠性待驗證
分布式數(shù)據(jù)庫作為一種復雜架構(gòu),其組件眾多且與基礎(chǔ)環(huán)境存在較多依賴。其單點可用性往往不高,其產(chǎn)品正是希望其具備的分布式能力,通過整體的可用性解決單點問題,但這一過程還需要大量工程化實踐積累過程。因為一旦數(shù)據(jù)庫出現(xiàn)災難性情況,也就意味著承載應用和業(yè)務中斷。
運維復雜度大幅提高
作為一類新架構(gòu)產(chǎn)品,其運維復雜度自身就比較高。且很多傳統(tǒng)運維經(jīng)驗在新架構(gòu)下將失去意義,需要結(jié)合新產(chǎn)品去積累完善運維體系。同時伴隨著產(chǎn)品的成熟度發(fā)展同樣需要一個過程等因素,也加大了運維難度。
分布式改造成本高
分布式數(shù)據(jù)庫不僅對運維側(cè),同時對架構(gòu)、研發(fā)側(cè)也帶來新的問題。分布式架構(gòu)與集中式架構(gòu)不同,兩者在很多方面并不兼容,需要從多方位進行改造。同時由于行業(yè)內(nèi),尚無形成統(tǒng)一分布式數(shù)據(jù)庫設(shè)計開發(fā)標準,應用開發(fā)不得不針對不同數(shù)據(jù)庫采用不同的策略,也加大的改造成本。
專業(yè)人才匱乏
好的技術(shù),還需要懂的人才能發(fā)揮最大作用。分布式數(shù)據(jù)庫作為相對較新的一類產(chǎn)品,還沒有形成較為完備的人才體系。無論是面向架構(gòu)、開發(fā)、運維方面,都面臨人才的短缺,且短時間內(nèi)還無法快速補充。這需要有個長期的培育過程。
展望未來:更快更高更強
分布式關(guān)系型數(shù)據(jù)庫作為一種新架構(gòu)基礎(chǔ)軟件,滿足人們對數(shù)據(jù)在更大規(guī)模、更強算力、更高可用性上的要求。通過近些年時間,其技術(shù)已展示出蓬勃的生命力,并已開始落地開花。核心的分布式理念,已成為未來數(shù)據(jù)庫的發(fā)展的重點方向之一,相信在未來其將取得更大的成功,成為企業(yè)數(shù)字化轉(zhuǎn)型的利器。
作者介紹
韓鋒,51CTO社區(qū)編輯,CCIA(中國計算機協(xié)會)常務理事,前Oracle ACE,騰訊TVP,阿里云MVP,dbaplus等多家社群創(chuàng)始人或?qū)<覉F成員。有著豐富的一線數(shù)據(jù)庫架構(gòu)、軟件研發(fā)、產(chǎn)品設(shè)計、團隊管理經(jīng)驗。曾擔任多家公司首席DBA、數(shù)據(jù)庫架構(gòu)師等職。在云、電商、金融、互聯(lián)網(wǎng)等行業(yè)均有涉獵,精通多種關(guān)系型數(shù)據(jù)庫,對NoSQL及大數(shù)據(jù)相關(guān)技術(shù)也有涉足,實踐經(jīng)驗豐富。曾著有數(shù)據(jù)庫相關(guān)著作《SQL優(yōu)化最佳實踐》、《數(shù)據(jù)庫高效優(yōu)化》。