從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)中臺(tái)再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史
作為一名后端開發(fā)工程師,每天都離不開與數(shù)據(jù)打交道,有幸見證了數(shù)據(jù)技術(shù)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)中臺(tái)再到數(shù)據(jù)飛輪這一系列技術(shù)的演化過程。
在當(dāng)今數(shù)據(jù)經(jīng)濟(jì)時(shí)代,數(shù)據(jù)已經(jīng)成為了我們必不可少的一部分,成為了關(guān)鍵的生產(chǎn)要素乃至是最有戰(zhàn)略意義的資產(chǎn)。
在這幾年的職業(yè)生涯當(dāng)中,我親身經(jīng)歷了,企業(yè)對(duì)數(shù)據(jù)的使用方式從早期的Excel表格,到后來企業(yè)級(jí)的數(shù)據(jù)庫(kù)產(chǎn)品,再到云計(jì)算時(shí)代下的數(shù)據(jù)倉(cāng)庫(kù),到六七年前開始建設(shè)大一統(tǒng)的數(shù)據(jù)中臺(tái),直至當(dāng)今數(shù)智化和AI時(shí)代下衍生出來的數(shù)據(jù)飛輪,這是一場(chǎng)沒有終點(diǎn)的進(jìn)化。
下面展示了整體演化的過程:
從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)中臺(tái)再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史_數(shù)據(jù)倉(cāng)庫(kù)
圖中展示了初始數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)中臺(tái)再到數(shù)據(jù)飛輪的整個(gè)層次演化。
一、數(shù)據(jù)庫(kù)時(shí)期
在最早期的互聯(lián)網(wǎng)時(shí)代下,數(shù)據(jù)庫(kù)主要的作用就是做數(shù)據(jù)的持久化存儲(chǔ)和簡(jiǎn)單的數(shù)據(jù)查詢,項(xiàng)目前期的業(yè)務(wù)數(shù)據(jù)量不大,簡(jiǎn)單的GB級(jí)別的數(shù)據(jù),后端數(shù)據(jù)庫(kù)只需要做數(shù)據(jù)查詢與展示就足夠了,沒有什么高并發(fā),批處理的情況下,做數(shù)據(jù)分析只需要用Excel就可以滿足需求。到后來數(shù)據(jù)量從GB發(fā)展到TB,數(shù)據(jù)庫(kù)進(jìn)行大數(shù)據(jù)查詢的壓力提高,只能進(jìn)行改造升級(jí),這就有了后面數(shù)據(jù)倉(cāng)庫(kù)的由來。
二、數(shù)據(jù)倉(cāng)庫(kù)時(shí)期
隨著業(yè)務(wù)與數(shù)據(jù)量的增長(zhǎng),企業(yè)的組織架構(gòu)逐漸龐大,當(dāng)時(shí)企業(yè)處理數(shù)據(jù)還是依靠傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),傳統(tǒng)企業(yè)級(jí)數(shù)據(jù)庫(kù)在處理事務(wù)上還是很出色,但是在復(fù)雜查詢或者數(shù)據(jù)分析的方面就感覺到了力不從心,因此為了解決這個(gè)問題,IBM等公司就提出了數(shù)據(jù)倉(cāng)庫(kù)的概念。
我們可以根據(jù)下面這張圖看出,數(shù)據(jù)倉(cāng)庫(kù)從底至上由四個(gè)層次組成:
從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)中臺(tái)再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史_數(shù)據(jù)_02
最底層就是最原始的數(shù)據(jù)層,通常是用來存放企業(yè)實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù),這一層為數(shù)據(jù)倉(cāng)庫(kù)提供了原始數(shù)據(jù),是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的直接輸入源,沒有了這層的支持,數(shù)據(jù)倉(cāng)庫(kù)也就失去了數(shù)據(jù)支持。第二層是一整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心,將第一層的數(shù)據(jù)進(jìn)行抽取,轉(zhuǎn)換,加載,以確保數(shù)據(jù)的一致性與準(zhǔn)確性,還能將數(shù)據(jù)進(jìn)行聚合和匯總,以支持復(fù)雜的分析和報(bào)告,在這層處理的數(shù)據(jù)可以支持企業(yè)級(jí)的分析和決策,例如趨勢(shì)分析,預(yù)測(cè)分析等。第三層是數(shù)據(jù)集市的一個(gè)子集,它這里的數(shù)據(jù)通常是從數(shù)據(jù)倉(cāng)庫(kù)中提取并進(jìn)一步加工,以滿足特定的業(yè)務(wù)領(lǐng)域的分析需求,有可能包含數(shù)據(jù)的進(jìn)一步聚合,匯總或特定格式的轉(zhuǎn)換,通常用于企業(yè)特定業(yè)務(wù)領(lǐng)域的深入分析,可以讓特定部門快速訪問到數(shù)據(jù),而不需要處理整個(gè)企業(yè)的數(shù)據(jù)。最頂層是用戶與數(shù)據(jù)倉(cāng)庫(kù)的交互頁(yè)面,它包括報(bào)表工具,數(shù)據(jù)分析工具,數(shù)據(jù)可視化工具,它不直接處理數(shù)據(jù),而是基于數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)集市進(jìn)行數(shù)據(jù)的獲取,使得用戶可以根據(jù)自己的需求獲取數(shù)據(jù),即使是非技術(shù)用戶也能夠進(jìn)行復(fù)雜的數(shù)據(jù)分析和報(bào)告生成。
三、數(shù)據(jù)中臺(tái)時(shí)期
由于數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng),為了能更好的賦能業(yè)務(wù),企業(yè)啟動(dòng)中臺(tái)戰(zhàn)略,打通各個(gè)業(yè)務(wù)線的數(shù)據(jù),整合匯集數(shù)據(jù),在底層通過技術(shù)手段解決數(shù)據(jù)統(tǒng)一存儲(chǔ)和統(tǒng)一計(jì)算問題。
數(shù)據(jù)中臺(tái)的四個(gè)核心能力:
下面是數(shù)據(jù)中臺(tái)的整體架構(gòu)圖:
首先整體架構(gòu)圖的底層是由企業(yè)通過網(wǎng)絡(luò)進(jìn)行資源整合,獲取到的數(shù)據(jù)構(gòu)建起整個(gè)數(shù)據(jù)中臺(tái)的基底,包含內(nèi)部數(shù)據(jù)與外部數(shù)據(jù),數(shù)據(jù)層使用Oracle,MySQL,用于存儲(chǔ)內(nèi)部結(jié)構(gòu)化數(shù)據(jù),通過Hadoop進(jìn)行大量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),這就是一整個(gè)數(shù)據(jù)源層。通過使用Kafka進(jìn)行實(shí)時(shí)的數(shù)據(jù)流處理,用Flink處理實(shí)時(shí)數(shù)據(jù)。使用spark進(jìn)行數(shù)據(jù)的匯聚。通過這些中間件,對(duì)數(shù)據(jù)進(jìn)行了接入,傳輸,和初步的處理,確保數(shù)據(jù)可以正確高效穩(wěn)定的流入數(shù)據(jù)中臺(tái)。再往下就是數(shù)據(jù)體系層,它涉及到數(shù)據(jù)的匯聚,存儲(chǔ),處理和轉(zhuǎn)換,是整個(gè)數(shù)據(jù)中后的核心部分,這部分結(jié)合了數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)的存儲(chǔ)和管理分析數(shù)據(jù)。數(shù)據(jù)中臺(tái)部分,是整個(gè)架構(gòu)的核心,整個(gè)提供了數(shù)據(jù)存儲(chǔ),處理和支持上層應(yīng)用的數(shù)據(jù)需求。數(shù)據(jù)運(yùn)營(yíng)體系則負(fù)責(zé)整體數(shù)據(jù)的監(jiān)控,維護(hù)優(yōu)化,確保整體中臺(tái)系統(tǒng)的穩(wěn)定運(yùn)行和數(shù)據(jù)的質(zhì)量。數(shù)據(jù)資產(chǎn)管理是負(fù)責(zé)數(shù)據(jù)的分類,標(biāo)簽,元數(shù)據(jù)管理等,提高數(shù)據(jù)的可發(fā)現(xiàn)性與可管理性,服務(wù)體系是為數(shù)據(jù)服務(wù)提供了API接口,數(shù)據(jù)服務(wù)門戶等,使得上層應(yīng)用可以方便的進(jìn)行調(diào)用,最后就是上層應(yīng)用,直接面向業(yè)務(wù)用戶,為用戶提供數(shù)據(jù)分析和決策支持,包括決策支持,運(yùn)營(yíng)大屏,業(yè)務(wù)中臺(tái),創(chuàng)新應(yīng)用等。整個(gè)數(shù)據(jù)中臺(tái)架構(gòu)從數(shù)據(jù)源的采集,處理,存儲(chǔ)到上層應(yīng)用的過程,是一個(gè)持續(xù)演化的過程,需要企業(yè)不斷的進(jìn)行優(yōu)化與升級(jí),用來適應(yīng)不斷變化的場(chǎng)景與技術(shù)。
從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)中臺(tái)再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史_數(shù)據(jù)庫(kù)_03
四、數(shù)據(jù)飛輪時(shí)期
近幾年,在數(shù)智化時(shí)代的到來,我們面臨著數(shù)據(jù)收集整合與治理的嚴(yán)峻挑戰(zhàn),因此出現(xiàn)了數(shù)據(jù)飛輪這個(gè)技術(shù)。數(shù)據(jù)飛輪與數(shù)據(jù)中臺(tái)相輔相成,數(shù)據(jù)中臺(tái)是數(shù)據(jù)應(yīng)用的基礎(chǔ)而數(shù)據(jù)飛輪是數(shù)據(jù)應(yīng)用的升級(jí)版,在數(shù)據(jù)中臺(tái)中引入數(shù)據(jù)飛輪,可以對(duì)數(shù)據(jù)價(jià)值的深度挖掘,更核心的一點(diǎn)在于與業(yè)務(wù)相融合,驅(qū)動(dòng)業(yè)務(wù)發(fā)展,是動(dòng)態(tài)的。
從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)中臺(tái)再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史_數(shù)據(jù)倉(cāng)庫(kù)_04
從上面這張圖就可以清晰的認(rèn)識(shí)到數(shù)據(jù)飛輪包含的幾個(gè)關(guān)鍵環(huán)節(jié):
? 資產(chǎn)豐富化(Data Abundance):需要意識(shí)到自身所擁有數(shù)據(jù)的潛在價(jià)值,并通過各種手段進(jìn)行收集、存儲(chǔ)和管理,形成龐大的數(shù)據(jù)資產(chǎn)庫(kù)。
? 質(zhì)量標(biāo)準(zhǔn)化(Data Standardization):擁有了大量的數(shù)據(jù)之后,接下來就是對(duì)它們進(jìn)行清洗、整理、合并等工作,以確保數(shù)據(jù)的準(zhǔn)確性和一致性。
? 研發(fā)流程化(R&D Streamlining):利用經(jīng)過處理的數(shù)據(jù),開展深入的數(shù)據(jù)分析和挖掘,發(fā)現(xiàn)隱藏在其中的規(guī)律和模式。提高研發(fā)效率和產(chǎn)品質(zhì)量。
? 數(shù)據(jù)應(yīng)用化(Data Application):將分析得出的結(jié)果轉(zhuǎn)化為具體的業(yè)務(wù)決策和行動(dòng)指南,更好地理解市場(chǎng)需求、優(yōu)化供應(yīng)鏈管理、改進(jìn)客戶服務(wù)等各個(gè)方面。
? 行動(dòng)敏捷化(Agile Action):憑借對(duì)數(shù)據(jù)的深刻洞察,夠迅速響應(yīng)市場(chǎng)變化和競(jìng)爭(zhēng)挑戰(zhàn),調(diào)整戰(zhàn)略方向,搶占先機(jī)。
? 價(jià)值最大化(Value Maximization):通過持續(xù)的迭代和優(yōu)化,不斷提升數(shù)據(jù)的價(jià)值貢獻(xiàn)度,實(shí)現(xiàn)從數(shù)據(jù)到知識(shí)的轉(zhuǎn)化。
? 決策智能化(Intelligent Decision-Making):隨著技術(shù)的進(jìn)步和經(jīng)驗(yàn)的積累,可以將更多的決策權(quán)交給機(jī)器學(xué)習(xí)算法,讓AI代替人工完成一些重復(fù)性高、邏輯性強(qiáng)的工作,從而進(jìn)一步提高決策的科學(xué)性和準(zhǔn)確性。
五、數(shù)據(jù)技術(shù)的未來展望
從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)中臺(tái)再到數(shù)據(jù)飛輪,數(shù)據(jù)技術(shù)發(fā)展反應(yīng)了企業(yè)對(duì)數(shù)據(jù)應(yīng)用形式的持續(xù)變化。隨著數(shù)智化的時(shí)代到來,云計(jì)算,大數(shù)據(jù),AI技術(shù)的相融合,數(shù)據(jù)技術(shù)的發(fā)展,為企業(yè)推動(dòng)數(shù)智化轉(zhuǎn)型奠定了夯實(shí)的基礎(chǔ)。
我相信,未來隨著數(shù)據(jù)技術(shù)的不斷發(fā)展,數(shù)據(jù)飛輪的未來將是一個(gè)動(dòng)態(tài)的、高度集成和智能化的系統(tǒng),它將成為企業(yè)持續(xù)創(chuàng)新和保持競(jìng)爭(zhēng)力的關(guān)鍵驅(qū)動(dòng)力。隨著技術(shù)的不斷進(jìn)步,數(shù)據(jù)飛輪將不斷演化,以適應(yīng)日益復(fù)雜的數(shù)據(jù)環(huán)境和業(yè)務(wù)需求。