2021年值得關(guān)注的5大數(shù)據(jù)趨勢
就像其他領(lǐng)域一樣,2020年顛覆了數(shù)據(jù)世界。當COVID關(guān)閉企業(yè)并派遣員工在家工作時,企業(yè)必須迅速適應“新常態(tài)”。
隨著組織轉(zhuǎn)移到遠程工作,云成為絕對必要。數(shù)據(jù)治理和安全性成為重中之重,每個人都從不同的位置和系統(tǒng)訪問數(shù)據(jù)?,F(xiàn)在,歷史模型已經(jīng)變得毫無意義,因此智慧的AI變得越來越有吸引力。簡而言之,組織意識到他們需要快速進行更改。數(shù)據(jù)投資增加,組織尋求升級其系統(tǒng)并創(chuàng)建完美的數(shù)據(jù)堆棧。
有了2020年的后視鏡,我們現(xiàn)在正期待著新的一年,并希望更好的一年。2021年將為數(shù)據(jù)世界帶來什么?數(shù)據(jù)基礎架構(gòu)將如何發(fā)展以跟上所有最新的創(chuàng)新和變更?
今年,我們將看到幾個新的數(shù)據(jù)趨勢:新數(shù)據(jù)角色和數(shù)據(jù)質(zhì)量框架的出現(xiàn),現(xiàn)代數(shù)據(jù)堆棧和現(xiàn)代元數(shù)據(jù)解決方案的興起以及數(shù)據(jù)湖和倉庫的融合。
1.數(shù)據(jù)湖和倉庫正在融合
在過去的十年中,數(shù)據(jù)架構(gòu)師圍繞兩個關(guān)鍵單元設計了數(shù)據(jù)操作:
- 數(shù)據(jù)湖:便宜的存儲空間,可以存儲大量的原始數(shù)據(jù)甚至是非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖架構(gòu)通常非常適合臨時探索和數(shù)據(jù)科學用例。
- 數(shù)據(jù)倉庫:傳統(tǒng)上,數(shù)據(jù)倉庫具有優(yōu)化的計算和處理速度。這對于報表和商業(yè)智能很有幫助,使倉庫成為分析團隊的首選系統(tǒng)。
如今,許多公司仍然使用這兩種系統(tǒng)-所有數(shù)據(jù)的數(shù)據(jù)湖,以及用于分析和報告用例的專用數(shù)據(jù)倉庫。
雖然還沒有到此,但隨著數(shù)據(jù)湖和倉庫都增加了更多功能,我們開始看到兩個生態(tài)系統(tǒng)融合在一起。
像Snowflake這樣的數(shù)據(jù)倉庫已經(jīng)將存儲和計算成本分開了,從而大大降低了將所有數(shù)據(jù)存儲在數(shù)據(jù)倉庫中的成本。更進一步,一些數(shù)據(jù)倉庫參與者已經(jīng)開始增加對半結(jié)構(gòu)化數(shù)據(jù)的支持。
另一方面,諸如Databricks之類的數(shù)據(jù)湖參與者已經(jīng)開始朝著“數(shù)據(jù)湖舍”的概念邁進,他們最近宣布支持SQL分析和ACID事務。
了解更多:
- Data Lakehouses:一種新興的系統(tǒng)設計,將數(shù)據(jù)倉庫中的數(shù)據(jù)結(jié)構(gòu)和管理功能與數(shù)據(jù)湖的低成本存儲相結(jié)合。
- 偉大的數(shù)據(jù)辯論:a16z播客的很酷的一集,其中包含有關(guān)數(shù)據(jù)堆棧中出現(xiàn)的不同技術(shù)和體系結(jié)構(gòu)的發(fā)人深省的注釋。
2.“現(xiàn)代數(shù)據(jù)棧”成為主流
從2020年開始,“現(xiàn)代數(shù)據(jù)堆棧”一詞在數(shù)據(jù)世界中無處不在。它指的是用于處理大量數(shù)據(jù)的新型最佳現(xiàn)代數(shù)據(jù)體系結(jié)構(gòu)。
強大的云平臺是現(xiàn)代數(shù)據(jù)堆棧的關(guān)鍵支柱之一。最初以云數(shù)據(jù)倉庫為中心,現(xiàn)在也開始包括云數(shù)據(jù)湖和相關(guān)的數(shù)據(jù)湖引擎。
如今,現(xiàn)代數(shù)據(jù)堆棧為數(shù)據(jù)工作流的每個部分提供了一套工具:
- 數(shù)據(jù)提?。豪鏔ivetran,Stitch,Hovodata
- 數(shù)據(jù)倉庫:例如雪花,BigQuery
- 數(shù)據(jù)湖:例如亞馬遜S3
- 數(shù)據(jù)湖處理:例如Presto,Dremio,Databricks,Starburst
- 數(shù)據(jù)轉(zhuǎn)換:例如dbt,Matillion
- 元數(shù)據(jù)管理:例如亞特蘭
- BI工具:例如外觀
了解更多:
- 現(xiàn)代數(shù)據(jù)基礎架構(gòu)的新興體系結(jié)構(gòu):基于對20多個從業(yè)人員的訪談,深入,深入地了解了哪些技術(shù)在現(xiàn)代數(shù)據(jù)堆棧中取勝。
- 2020年現(xiàn)代數(shù)據(jù)堆棧大會:Fivetran的第一次現(xiàn)代數(shù)據(jù)堆棧大會的資源,有關(guān)最新的創(chuàng)新,工具和最佳實踐。
- 《現(xiàn)代數(shù)據(jù)堆棧新聞》:每兩周發(fā)布一次的新聞通訊,其中包含有關(guān)現(xiàn)代數(shù)據(jù)堆棧的博客,指南和播客。
3.元數(shù)據(jù)3.0:元數(shù)據(jù)管理重生
隨著現(xiàn)代數(shù)據(jù)堆棧的成熟,公司已開展了雄心勃勃的項目來升級其數(shù)據(jù)基礎架構(gòu)并理清基本數(shù)據(jù)需求(即,提取數(shù)據(jù),包裝云遷移項目以及設置新的BI工具)。這些雖然釋放了很多潛力,但也造成了混亂。
諸如“此列名稱實際上意味著什么?”之類的上下文問題。和“為什么儀表板上的銷售數(shù)字又出錯了?”殺死那些以驚人速度前進的團隊的敏捷性。
盡管這些不是新問題,但我們正處于新的顛覆性解決方案的風口浪尖。隨著現(xiàn)代數(shù)據(jù)平臺圍繞五個主要參與者(AWS,Azure,Google Cloud Platform,Snowflake和Databricks)匯聚,并且元數(shù)據(jù)本身正在成為大數(shù)據(jù),因此,將智能和自動化帶入元數(shù)據(jù)空間具有巨大的潛力。
在接下來的24到36個月內(nèi),我們將看到為現(xiàn)代數(shù)據(jù)棧構(gòu)建的一個或多個現(xiàn)代元數(shù)據(jù)管理平臺的興起,該平臺可解決數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)分類,數(shù)據(jù)沿襲和可觀察性的問題。
了解更多:
- Data Catalog 3.0:我的文章介紹元數(shù)據(jù)解決方案的過去和未來,以及為什么我們要在為現(xiàn)代數(shù)據(jù)堆棧創(chuàng)建現(xiàn)代元數(shù)據(jù)方面取得巨大飛躍。
4.出現(xiàn)了新角色:分析工程師和數(shù)據(jù)平臺負責人
2020年,兩個角色的興起比以往任何時候都更為主流。
數(shù)據(jù)平臺負責人
組織越來越意識到需要有一個負責開發(fā)數(shù)據(jù)平臺的中央團隊,以幫助組織的其他成員更好地開展工作。當然,這個團隊需要一個領(lǐng)導者。
過去,這是由更傳統(tǒng)的角色(如數(shù)據(jù)倉庫專家或數(shù)據(jù)架構(gòu)師)來處理的。現(xiàn)在,擁有數(shù)據(jù)領(lǐng)導者變得很普遍,他可以領(lǐng)導整個組織的數(shù)據(jù)計劃。這些人的頭銜范圍很廣,例如“數(shù)據(jù)平臺負責人”或“數(shù)據(jù)平臺主管”。
數(shù)據(jù)平臺負責人通常負責監(jiān)督公司數(shù)據(jù)堆棧的現(xiàn)代化(或從頭開始,以供初創(chuàng)企業(yè)使用)。這包括設置云數(shù)據(jù)湖和倉庫,實施數(shù)據(jù)治理框架,選擇BI工具等等。
這個新角色伴隨著一個重要的新KPI:最終用戶采用率。這是指領(lǐng)導者具有使組織中的人員和團隊在日常工作流程中采用數(shù)據(jù)(和數(shù)據(jù)平臺)的能力。這是一個可喜的變化,因為它決定了決定投資哪些數(shù)據(jù)產(chǎn)品的人們與最終使用該產(chǎn)品的人們的動機。
分析工程師
在過去的十年中,與我交談的每個分析師都感到一個主要的挫敗感:依靠數(shù)據(jù)工程師進行生產(chǎn)化和建立數(shù)據(jù)管道。
強大的基于SQL的管道構(gòu)建工具(如dbt和Dataform)的興起使這種情況變得更好。通過賦予分析人員超能力,他們將整個數(shù)據(jù)轉(zhuǎn)換過程交給了數(shù)據(jù)分析人員。
結(jié)果就是“分析工程師”一詞的興起,該術(shù)語描述了以前的分析師,他們現(xiàn)在擁有從攝取和轉(zhuǎn)換到最終將可用數(shù)據(jù)集提供給其余業(yè)務的整個數(shù)據(jù)棧。
了解更多:
- 什么是分析工程師?dbt的克萊爾·卡羅爾(Claire Carroll)的一篇文章,介紹了為什么以及如何支持新的分析工程角色。
5.數(shù)據(jù)質(zhì)量框架正在上升
在過去的二十年里,數(shù)據(jù)質(zhì)量是一個沒有太多創(chuàng)新的空間。但是,它最近取得了長足的進步,并且整個數(shù)據(jù)堆棧都集成了數(shù)據(jù)質(zhì)量的不同方面。
數(shù)據(jù)質(zhì)量分析
數(shù)據(jù)概要分析是檢查數(shù)據(jù)以了解其內(nèi)容和結(jié)構(gòu),檢查其質(zhì)量并確定將來如何使用的過程。
在數(shù)據(jù)資產(chǎn)的整個生命周期中,概要分析可能會發(fā)生多次,從淺層評估到深入評估。它包括計算缺失值,最小值和最大值,中位數(shù)和眾數(shù),頻率分布以及其他有助于用戶了解基礎數(shù)據(jù)質(zhì)量的關(guān)鍵統(tǒng)計指標。
盡管數(shù)據(jù)質(zhì)量概要分析通常是數(shù)據(jù)堆棧中的獨立產(chǎn)品,但是公司越來越多地將其作為功能集成到現(xiàn)代數(shù)據(jù)目錄中,從而使最終用戶能夠理解和信任他們的數(shù)據(jù)。
業(yè)務驅(qū)動的數(shù)據(jù)質(zhì)量規(guī)則
數(shù)據(jù)質(zhì)量不僅僅是關(guān)于數(shù)據(jù)的統(tǒng)計理解。根據(jù)業(yè)務環(huán)境,還取決于數(shù)據(jù)是否值得信賴。
例如,您的銷售數(shù)字通常每周增長不應超過10%。100%的銷售激增應提醒合適的團隊成員并停止數(shù)據(jù)管道運行,而不是將其傳遞給CEO使用的儀表板!
對智能警報的需求已導致組織將業(yè)務團隊帶入編寫數(shù)據(jù)質(zhì)量檢查的過程。
數(shù)據(jù)團隊仍然沒有一種很好的方式與業(yè)務部門合作進行數(shù)據(jù)質(zhì)量檢查,但是我希望這個領(lǐng)域在未來的幾年中會帶來很多創(chuàng)新。將來,我們將看到更智能的解決方案,它們可以根據(jù)數(shù)據(jù)趨勢自動生成業(yè)務驅(qū)動的數(shù)據(jù)質(zhì)量規(guī)則。
數(shù)據(jù)管道中的數(shù)據(jù)質(zhì)量測試
數(shù)據(jù)質(zhì)量變得普遍的第三種方式是將其寫入數(shù)據(jù)管道本身。這借鑒了軟件工程界“單元測試”的原理。
多年來,軟件工程已包含單元測試框架。它們會自動測試每個單獨的代碼單元,以確保它們可以使用。管道模擬單元測試框架中的數(shù)據(jù)質(zhì)量測試可為數(shù)據(jù)工程帶來相同的信心和速度。
這有助于團隊在上游數(shù)據(jù)更改影響組織的工作流和報告之前發(fā)現(xiàn)其數(shù)據(jù)質(zhì)量問題。
了解更多:
- 亞馬遜Deequ:Deequ是在亞馬遜內(nèi)部構(gòu)建的,是用于數(shù)據(jù)質(zhì)量分析的有前途的開源框架。
- 寄予厚望:這正在成為一個流行的開源社區(qū),用于在數(shù)據(jù)管道內(nèi)進行數(shù)據(jù)質(zhì)量測試。
- Netflix關(guān)于擴展數(shù)據(jù)質(zhì)量的演示:對于任何開始從事數(shù)據(jù)質(zhì)量之旅的數(shù)據(jù)領(lǐng)導者來說,這都是一個有趣的閱讀。