25個(gè)熱門(mén)新數(shù)據(jù)工具
"等等,工具X和工具Y是否一起工作? 我認(rèn)為他們具有競(jìng)爭(zhēng)力。"
當(dāng)今快速發(fā)展的數(shù)據(jù)生態(tài)系統(tǒng)中有數(shù)十種新工具。 他們一起以令人興奮,高效且通常令人驚訝的方式重塑數(shù)據(jù)工作。 下十年的數(shù)據(jù)前景已經(jīng)播下,并且正在瘋狂增長(zhǎng)。
事實(shí)證明,培育一個(gè)新的生態(tài)系統(tǒng)很麻煩。
混亂
混亂的一個(gè)癥狀是,即使其中的一些工具不具競(jìng)爭(zhēng)力,它們中的許多工具也被認(rèn)為具有競(jìng)爭(zhēng)力。
虛假競(jìng)爭(zhēng)的感覺(jué)不足為奇,因?yàn)椋?/p>
- 工具之間有很多重疊的功能。 部分原因是工具和產(chǎn)品需要"保留"基本功能-有時(shí)是在不是主要重點(diǎn)的領(lǐng)域;
- 增長(zhǎng)軌跡和類(lèi)別邊界仍然不確定;
- 甚至在給定的利基市場(chǎng)中,還沒(méi)有一種工具無(wú)處不在。
- 鼓勵(lì)企業(yè)家在推介風(fēng)投和銷(xiāo)售產(chǎn)品時(shí)都講"大故事"。
因此,混亂是自然的。
這也很糟糕。 這對(duì)試圖集中精力的工具制造者不利,對(duì)試圖評(píng)估市場(chǎng)的投資者不利,尤其對(duì)于試圖利用優(yōu)秀新工具選項(xiàng)來(lái)構(gòu)建生產(chǎn)性數(shù)據(jù)堆棧的數(shù)據(jù)科學(xué)家和工程師尤其不利。
清晰的時(shí)間
這篇博客文章是Sarah Catanzaro(Amplify Partners的合伙人),Abe Gong(Superduct / Great Expectations的聯(lián)合創(chuàng)始人)和我本人(Data Council&Data Community Fund的創(chuàng)始人)之間的合作,旨在消除混亂和糾結(jié)。 它源于創(chuàng)業(yè)社區(qū)中厭倦了"等待,您不是競(jìng)爭(zhēng)對(duì)手?"之類(lèi)的人之間的對(duì)話(huà)。
我們已經(jīng)遇到足夠多的問(wèn)題來(lái)識(shí)別模式了。 我們已經(jīng)看到了它們對(duì)采用和協(xié)作造成的不幸影響。 現(xiàn)在該采取措施了。
您的工具不能做什么?
為了解決這個(gè)問(wèn)題,我們聯(lián)系了數(shù)據(jù)生態(tài)系統(tǒng)中的數(shù)十位企業(yè)家和開(kāi)源維護(hù)者,并提出了兩個(gè)問(wèn)題:
1.您最擅長(zhǎng)的工具是什么?
2.您的工具不能做什么?
我們的搜索范圍僅限于開(kāi)源項(xiàng)目和B系列之前的公司。 回答簡(jiǎn)短簡(jiǎn)短,并進(jìn)行了編輯以保持清晰。
下面列出了所有參與工具,并按其響應(yīng)順序列出了這些工具。
生態(tài)系統(tǒng)的混亂不會(huì)在一夜之間消除,但我們希望這篇文章是一個(gè)好的開(kāi)始。
工具與答案
- Great Expectations/Superconductive:Great Expectations特別擅長(zhǎng)測(cè)試數(shù)據(jù)系統(tǒng)并從這些測(cè)試創(chuàng)建文檔。 寄予厚望的同時(shí)也進(jìn)行數(shù)據(jù)分析。 寄予厚望是高度可插入和可擴(kuò)展的,并且是完全開(kāi)源的。 它不是管道執(zhí)行框架或數(shù)據(jù)版本控制工具。
- Databand:Databand是DataOps解決方案,其獨(dú)特的優(yōu)勢(shì)在于可以監(jiān)視生產(chǎn)管道并在工作流代碼,數(shù)據(jù)或系統(tǒng)級(jí)別檢測(cè)問(wèn)題,并幫助工程師對(duì)問(wèn)題進(jìn)行根本原因分析。 數(shù)據(jù)帶不是管道編排,數(shù)據(jù)質(zhì)量測(cè)試或數(shù)據(jù)版本控制的解決方案。
- Dolt / Liquidata:Dolt是具有Git版本控制的SQL數(shù)據(jù)庫(kù)。 您可以像在Git中一樣對(duì)SQL數(shù)據(jù)庫(kù)進(jìn)行提交,比較,克隆,提取,分支和合并。 Dolt是用于共享數(shù)據(jù)的獨(dú)特好格式。 Dolt不是為特定的數(shù)據(jù)用例(例如功能存儲(chǔ)或數(shù)據(jù)轉(zhuǎn)換)設(shè)計(jì)的。 Dolt是可以在這些用例中應(yīng)用的通用數(shù)據(jù)庫(kù)。
- Bayes:Bayes是一種可視化的探索性數(shù)據(jù)分析工具。 它會(huì)指導(dǎo)您進(jìn)行建議的可視化操作,并通過(guò)基于交互式敘事的報(bào)告實(shí)現(xiàn)輕松,可解釋的見(jiàn)解共享。 Bayes不是商業(yè)智能儀表板,也不是供程序員使用的基于代碼的筆記本。
- Hex:Hex是一個(gè)計(jì)算筆記本平臺(tái),擅長(zhǎng)共享。 用戶(hù)可以連接到數(shù)據(jù),進(jìn)行分析,然后輕松構(gòu)建組織中任何人都可以使用的完全交互式,精美的應(yīng)用程序。 Hex不是ML工程平臺(tái)或圖表工具。
- Sisu數(shù)據(jù):Sisu是一個(gè)主動(dòng)分析平臺(tái),非常適合快速探索復(fù)雜的企業(yè)數(shù)據(jù)并幫助分析師解釋關(guān)鍵業(yè)務(wù)指標(biāo)為何在變化。 Sisu可以在幾秒鐘內(nèi)測(cè)試數(shù)億個(gè)假設(shè),并引導(dǎo)用戶(hù)找到影響很大的變革驅(qū)動(dòng)力。 Sisu既不是預(yù)測(cè)工具或模型構(gòu)建工具,也不是描述性?xún)x表板。
- Ascend:Ascend獨(dú)特地擅長(zhǎng)以更少的代碼構(gòu)建,運(yùn)行和優(yōu)化僅云數(shù)據(jù)管道。 Ascend將數(shù)據(jù)鏈接到生成它的代碼,從而通過(guò)自動(dòng)維護(hù),數(shù)據(jù)概要分析,沿襲跟蹤,成本優(yōu)化以及易于集成到數(shù)據(jù)庫(kù),倉(cāng)庫(kù),筆記本和BI工具的方式來(lái)建立聲明性數(shù)據(jù)管道。 Ascend不是通用的Spark解決方案,而是位于最上面的數(shù)據(jù)工程平臺(tái)。
- Dataform:數(shù)據(jù)形式獨(dú)特地擅長(zhǎng)于幫助您管理數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)百個(gè)數(shù)據(jù)集。 Dataform幫助團(tuán)隊(duì)將原始數(shù)據(jù)轉(zhuǎn)換為一組定義明確,經(jīng)過(guò)測(cè)試和記錄在案的數(shù)據(jù)集以進(jìn)行分析。 數(shù)據(jù)格式不是提取工具。
- DataKitchen:DataKitchen是一個(gè)DataOps處理工具,獨(dú)特地擅長(zhǎng)將連續(xù)部署,可觀察性,測(cè)試和環(huán)境管理帶入復(fù)雜的數(shù)據(jù)科學(xué)和分析領(lǐng)域。 DataKitchen自動(dòng)執(zhí)行分析創(chuàng)建/部署工作流,管道執(zhí)行,代碼/數(shù)據(jù)測(cè)試以及管道監(jiān)視/維護(hù)。 DataKitchen不是數(shù)據(jù)科學(xué),ETL或?qū)S镁幣殴ぞ摺?/li>
- Snorkel:Snorkel是用于以編程方式構(gòu)建訓(xùn)練數(shù)據(jù)集的平臺(tái)。 在Snorkel中,用戶(hù)可以編寫(xiě)標(biāo)簽功能,而無(wú)需手工標(biāo)記數(shù)據(jù),Snorkel使用理論上扎實(shí)的建模技術(shù)將其結(jié)合在一起。 呼吸管與無(wú)監(jiān)督學(xué)習(xí)無(wú)關(guān)。 它是一個(gè)在環(huán)人員平臺(tái),致力于從根本上加速用戶(hù)如何將其領(lǐng)域知識(shí)注入ML模型。
- Transform (stealth):Transform正在構(gòu)建度量標(biāo)準(zhǔn)存儲(chǔ)庫(kù),以確保企業(yè)可以以標(biāo)準(zhǔn)化,格式合理且有組織的方式捕獲度量標(biāo)準(zhǔn)定義,以簡(jiǎn)化分析并以信心和速度進(jìn)行決策。 轉(zhuǎn)換不是數(shù)據(jù)流水線(xiàn)框架或商業(yè)智能工具。
- Materialize:Materialize非常擅長(zhǎng)在流數(shù)據(jù)之上執(zhí)行和維護(hù)PostgreSQL查詢(xún)(包括聯(lián)接),使這些查詢(xún)?cè)诟咄掏铝肯乱院撩爰?jí)的延遲保持最新?tīng)顟B(tài)。 Materialize不是時(shí)間序列數(shù)據(jù)庫(kù)或其他流式微服務(wù)平臺(tái)。
- Data Hub/ LinkedIn:DataHub是一個(gè)由元數(shù)據(jù)提供支持的搜索和發(fā)現(xiàn)應(yīng)用程序,旨在提高AI和數(shù)據(jù)科學(xué)的生產(chǎn)率。 它具有獨(dú)特的流優(yōu)先的分布式元數(shù)據(jù)體系結(jié)構(gòu),已使其在LinkedIn的人員和大數(shù)據(jù)規(guī)模上獲得成功。 它不是數(shù)據(jù)集成或處理工具,也不是用于運(yùn)行數(shù)據(jù)質(zhì)量檢查的協(xié)調(diào)器。
- Prefect:Prefect是一種工作流程編排工具,可讓您使用純Python API定義任務(wù)流,并使用現(xiàn)代的可擴(kuò)展基礎(chǔ)結(jié)構(gòu)輕松部署它們。 Prefect為您提供了建立健壯管道所需的語(yǔ)義,例如重試,日志記錄,緩存,狀態(tài)轉(zhuǎn)換回調(diào),故障通知等,而又不會(huì)妨礙代碼。 Prefect不是非代碼工具或基礎(chǔ)結(jié)構(gòu)提供程序。
- Mara / Project A:Mara擅長(zhǎng)將SQL,Bash和Python腳本組合到管道中。 從命令行或通過(guò)Web UI運(yùn)行管道。 本地執(zhí)行,沒(méi)有隊(duì)列,沒(méi)有工人,沒(méi)有魔術(shù)。 Mara不是計(jì)劃,數(shù)據(jù)移動(dòng)或依賴(lài)關(guān)系檢測(cè)工具。
- dbt / Fishtown Analytics:dbt擅長(zhǎng)在數(shù)據(jù)倉(cāng)庫(kù)中創(chuàng)建,維護(hù)和記錄基于SQL的業(yè)務(wù)邏輯DAG。 dbt不是通用的工作編排器。
- Watchful:Watchful獨(dú)特地擅長(zhǎng)于快速,大規(guī)模地創(chuàng)建高質(zhì)量,帶有概率標(biāo)記的訓(xùn)練數(shù)據(jù),而無(wú)需大批人工貼標(biāo)簽。 通過(guò)Watchful,您可以通過(guò)反饋快速構(gòu)建,測(cè)試和原型化模型。 它不是托管標(biāo)簽服務(wù)或分析工具。
- Preset:Preset是Apache Superset的制造商基于SaaS的數(shù)據(jù)探索和可視化平臺(tái)。 預(yù)設(shè)與可視化和數(shù)據(jù)消耗有關(guān),它不是計(jì)算或編排平臺(tái)。
- Kedro:Kedro展示了數(shù)據(jù)和ML管道的軟件工程優(yōu)秀實(shí)踐。 Kedro使用可重現(xiàn)的分析工作流程,I / O抽象和管道建模,實(shí)現(xiàn)了從實(shí)驗(yàn)到生產(chǎn)的無(wú)縫過(guò)渡。 Kedro不是工作流程協(xié)調(diào)器或?qū)嶒?yàn)跟蹤框架。
- Toro數(shù)據(jù):Toro獨(dú)特地擅長(zhǎng)于幫助團(tuán)隊(duì)在其數(shù)據(jù)上部署監(jiān)視,建議監(jiān)視哪些內(nèi)容并使其易于執(zhí)行而無(wú)需編寫(xiě)和部署代碼。 Toro不會(huì)清理或轉(zhuǎn)換數(shù)據(jù),也不會(huì)原生控制管道/工作流程。
- Tecton:Tecton擅長(zhǎng)策劃和提供功能。 Tecton不是數(shù)據(jù)處理引擎(例如Spark)或模型管理工具。 相反,它利用現(xiàn)有的數(shù)據(jù)處理引擎來(lái)處理原始批處理/流/實(shí)時(shí)數(shù)據(jù),將其轉(zhuǎn)換為功能,并部署這些功能以進(jìn)行培訓(xùn)和提供服務(wù)。
- Dagster / Elementl:Dagster是一個(gè)數(shù)據(jù)協(xié)調(diào)器,擅長(zhǎng)為本地開(kāi)發(fā),測(cè)試,部署和操作構(gòu)建數(shù)據(jù)應(yīng)用程序。 Dagster管道組件可以使用任何語(yǔ)言或框架進(jìn)行創(chuàng)作,并通過(guò)通用的元數(shù)據(jù)和工具組合在一起以形成統(tǒng)一的數(shù)據(jù)應(yīng)用程序。 Dagster不是處理引擎,也不是數(shù)據(jù)倉(cāng)庫(kù)/對(duì)象存儲(chǔ)。
- Select Star:Select Star是解決數(shù)據(jù)發(fā)現(xiàn)問(wèn)題的數(shù)據(jù)目錄和管理工具。 它在幫助您理解數(shù)據(jù)方面具有獨(dú)特的優(yōu)勢(shì),即您擁有的數(shù)據(jù),數(shù)據(jù)的存放位置,結(jié)構(gòu)和使用方式。 Select Star不提供SQL客戶(hù)端或ETL處理。
- Monte Carlo (stealth):Monte Carlo是一個(gè)數(shù)據(jù)可靠性平臺(tái),其中包括數(shù)據(jù)監(jiān)視,故障排除和事件管理。 蒙特卡洛不是測(cè)試框架,管道或版本控制工具。
- Flyte / Lyft:Flyte獨(dú)特地擅長(zhǎng)迭代開(kāi)發(fā)可伸縮的,容器本機(jī)的和可重復(fù)的管道,這些管道連接不同的分布式系統(tǒng),同時(shí)使數(shù)據(jù)流處于中心位置。 Flyte不是機(jī)器學(xué)習(xí)平臺(tái),但可以成為其中的核心組件。
開(kāi)始對(duì)話(huà)
我們編制這份清單的愿望是雙重的。 一方面,我們想贊揚(yáng)這些驚人的工具,創(chuàng)始人和OSS領(lǐng)導(dǎo)者,以推動(dòng)我們的數(shù)據(jù)工具生態(tài)系統(tǒng)的發(fā)展。 另一方面,我們希望圍繞社區(qū)清楚地了解這些工具的故意局限性展開(kāi)有益的對(duì)話(huà)。 沒(méi)有人能比所有人做得更好。 甚至是創(chuàng)新者!
我們希望本文能夠?yàn)槲覀儸F(xiàn)代的數(shù)據(jù)工具生態(tài)系統(tǒng)野生花園提供有益的啟示。 祝愿它在我們有意培育的過(guò)程中繼續(xù)蓬勃發(fā)展。