2021年超酷的 10 個(gè)大數(shù)據(jù)工具!你知道幾個(gè)?
管理不斷增長(zhǎng)的數(shù)據(jù)量仍然是企業(yè)和組織面臨的挑戰(zhàn)。這里有 10 個(gè)很酷的大數(shù)據(jù)管理工具和平臺(tái),引起了我們的注意。

大數(shù)據(jù)管理的大挑戰(zhàn)
全球 COVID-19 大流行并沒(méi)有減緩數(shù)據(jù)的指數(shù)增長(zhǎng):IDC 最近計(jì)算出,2020 年全球創(chuàng)建、消費(fèi)和存儲(chǔ)了 64.2 澤字節(jié)的數(shù)據(jù)。市場(chǎng)研究人員預(yù)測(cè),全球數(shù)據(jù)創(chuàng)建和復(fù)制將經(jīng)歷 23% 2020 年至 2025 年的復(fù)合年增長(zhǎng)率。
好消息是創(chuàng)新的 IT 供應(yīng)商,無(wú)論是老牌公司還是初創(chuàng)公司,都在繼續(xù)為一系列數(shù)據(jù)管理任務(wù)開發(fā)下一代平臺(tái)和工具,包括數(shù)據(jù)操作、數(shù)據(jù)集成、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)科學(xué)、數(shù)據(jù)治理、數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)沿襲跟蹤。
以下是一些很酷的大數(shù)據(jù)管理工具,它們?cè)?2021 年年中引起了我們的注意。

Airbyte
早期創(chuàng)業(yè)公司 Airbyte(成立于 2020 年 1 月)開發(fā)了一個(gè)開源數(shù)據(jù)集成平臺(tái),用于將來(lái)自不同來(lái)源的數(shù)據(jù)復(fù)制和整合到數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖中。組織可以使用該平臺(tái)在數(shù)據(jù)源之間構(gòu)建管道,包括 Salesforce 和 Facebook Ads 等運(yùn)營(yíng)應(yīng)用程序,以及 Snowflake 和 AWS Redshift 等云數(shù)據(jù)倉(cāng)庫(kù)。
雖然 Airbyte 正在與眾多成熟的 ETL(提取、轉(zhuǎn)換和加載)工具供應(yīng)商競(jìng)爭(zhēng),但該公司鼓吹其軟件的簡(jiǎn)單性,并堅(jiān)持認(rèn)為即使是非技術(shù)業(yè)務(wù)分析師也可以使用它來(lái)復(fù)制數(shù)據(jù)。這家初創(chuàng)公司的開源方法創(chuàng)造了一個(gè)活躍的用戶社區(qū),該社區(qū)正在為該平臺(tái)快速開發(fā)其他連接器。
今年 1 月至 5 月期間,Airbyte 的客戶群增長(zhǎng)了八倍,達(dá)到 2,000 多個(gè)。這家總部位于舊金山的公司于 5 月在 A 輪融資中籌集了 2600 萬(wàn)美元。

Alation Cloud Service
Alation 已將其原始數(shù)據(jù)目錄軟件擴(kuò)展為用于一系列企業(yè)數(shù)據(jù)智能任務(wù)的平臺(tái),包括數(shù)據(jù)搜索和發(fā)現(xiàn)、數(shù)據(jù)治理、數(shù)據(jù)管理、分析和數(shù)字轉(zhuǎn)換。
4 月,該公司通過(guò)其新的 Alation 云服務(wù)將這些功能擴(kuò)展到云,這是一個(gè)基于云的綜合數(shù)據(jù)智能平臺(tái),可以通過(guò)云原生連接器連接到云中或本地的任何數(shù)據(jù)源。
該公司總部位于加利福尼亞州雷德伍德城,該公司表示,新的云產(chǎn)品及其持續(xù)集成和部署選項(xiàng)提供了一種簡(jiǎn)單的方法,可以在組織的混合架構(gòu)中推動(dòng)數(shù)據(jù)智能,同時(shí)降低維護(hù)和管理開銷并縮短交付時(shí)間。價(jià)值。

AtScale CloudStart
AtScale 的旗艦產(chǎn)品智能數(shù)據(jù)虛擬化平臺(tái)使用語(yǔ)義層技術(shù)為分布式數(shù)據(jù)提供基于云的 OLAP(在線分析處理)分析——無(wú)論它位于何處。
這家總部位于波士頓的公司于 5 月推出的全新 AtScale CloudStart 通過(guò)將 AtScale 的語(yǔ)義層與云數(shù)據(jù)管理系統(tǒng)(包括 Snowflake、Microsoft Azure Synapse SQL、Google BigQuery、Amazon Redshift 和 DataBricks)集成,提供了一種在云數(shù)據(jù)平臺(tái)上構(gòu)建分析基礎(chǔ)設(shè)施的方法。
CloudStart 可以更輕松地將 Tableau、Power BI 和 Looker 等業(yè)務(wù)分析工具連接到多個(gè)云數(shù)據(jù)源。

CockroachDB 21.1
位于紐約的 Cockroach Labs 開發(fā)了 CockroachDB,這是一種云原生分布式 SQL 數(shù)據(jù)庫(kù),旨在處理具有大量事務(wù)數(shù)據(jù)的工作負(fù)載。
Cockroach 在 5 月推出了 CockroachDB 21.1,使用單一數(shù)據(jù)庫(kù)將數(shù)據(jù)關(guān)聯(lián)到世界任何地方的特定位置變得更加簡(jiǎn)單——這是一項(xiàng)重大挑戰(zhàn),因?yàn)樵絹?lái)越多的國(guó)家和地區(qū)要求將數(shù)據(jù)保留在其境內(nèi)。
新的數(shù)據(jù)庫(kù)版本提供了獨(dú)特的架構(gòu)和內(nèi)置功能,可使用少量 SQL 語(yǔ)句管理世界任何地方數(shù)據(jù)的地理位置——無(wú)需架構(gòu)更改或手動(dòng)分片——為用戶提供近乎即時(shí)的數(shù)據(jù)訪問(wèn),同時(shí)確保本地合規(guī)性。
該版本通過(guò)將數(shù)據(jù)放置在靠近最終用戶的物理位置來(lái)最大限度地減少事務(wù)延遲,通過(guò)使用在區(qū)域或云故障中幸存下來(lái)的冗余來(lái)消除中斷,并支持本地?cái)?shù)據(jù)隱私要求。

Databricks Delta Sharing
Databricks 在 5 月份啟動(dòng)了 Delta Sharing 計(jì)劃,旨在創(chuàng)建一個(gè)開源數(shù)據(jù)共享協(xié)議,用于跨組織實(shí)時(shí)安全地共享數(shù)據(jù),獨(dú)立于數(shù)據(jù)所在的平臺(tái)。
Delta 共享包含在開源 Delta Lake 1.0 項(xiàng)目中,它建立了一個(gè)通用標(biāo)準(zhǔn),用于共享所有數(shù)據(jù)類型(結(jié)構(gòu)化和非結(jié)構(gòu)化),其開放協(xié)議可用于 SQL、可視化分析工具和編程語(yǔ)言(如 Python 和R. 大規(guī)模數(shù)據(jù)集也可以實(shí)時(shí)共享 Apache Parquet 和 Delta Lake 格式,無(wú)需復(fù)制。
據(jù) Databricks 稱,Delta Sharing 計(jì)劃已經(jīng)吸引了包括納斯達(dá)克、標(biāo)準(zhǔn)普爾和 Factset 在內(nèi)的許多數(shù)據(jù)提供商以及包括亞馬遜網(wǎng)絡(luò)服務(wù)、微軟和谷歌云在內(nèi)的領(lǐng)先 IT 供應(yīng)商的支持。
Delta Sharing 是 Databricks 的最新開源計(jì)劃,Databricks 是最受關(guān)注的大數(shù)據(jù)初創(chuàng)公司之一。由 Apache Spark 分析引擎的開發(fā)人員創(chuàng)立,總部位于舊金山的 Databricks 銷售其旗艦統(tǒng)一數(shù)據(jù)分析平臺(tái) Databricks Lakehouse 平臺(tái)。

Dremio Dart Initiative
6 月,數(shù)據(jù)湖引擎開發(fā)商 Dremio 推出了 Dremio Dart 計(jì)劃,這家總部位于加利福尼亞州圣克拉拉的公司大膽宣稱這是“在淘汰云數(shù)據(jù)倉(cāng)庫(kù)方面向前邁出的重要一步”。
Dremio 的軟件提供了一種直接分析數(shù)據(jù)湖(大量無(wú)組織數(shù)據(jù)存儲(chǔ))中的數(shù)據(jù)的方法,而無(wú)需將數(shù)據(jù)復(fù)制并移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中。Dart Initiative 通過(guò)使直接在數(shù)據(jù)湖上運(yùn)行所有關(guān)鍵任務(wù) SQL 工作負(fù)載成為可能,將其提升到一個(gè)新的水平。
最初的 Dart Initiative 功能內(nèi)置于最新的 Dremio 版本中,包括更快的查詢執(zhí)行和優(yōu)化查詢計(jì)劃、增強(qiáng)的查詢加速自動(dòng)化管理、對(duì)更廣泛的 SQL 工作負(fù)載的支持以及改進(jìn)的分布式和實(shí)時(shí)元數(shù)據(jù)管理以支持更大的數(shù)據(jù)集。
Nexla Nexsets
Nexla 開發(fā)了一個(gè)統(tǒng)一的數(shù)據(jù)操作平臺(tái)——公司稱之為“融合數(shù)據(jù)結(jié)構(gòu)”——用于在整個(gè)組織中創(chuàng)建可擴(kuò)展、可重復(fù)和可預(yù)測(cè)的數(shù)據(jù)流。該軟件用于集成、自動(dòng)化和監(jiān)控?cái)?shù)據(jù)用例的傳入和傳出數(shù)據(jù),包括數(shù)據(jù)科學(xué)和業(yè)務(wù)分析。
Nexsets 是 Nexla 最新加入其技術(shù)組合的產(chǎn)品,可自動(dòng)執(zhí)行耗時(shí)的手動(dòng)數(shù)據(jù)工程任務(wù),從而更輕松地訪問(wèn)、集成和轉(zhuǎn)換可能分散在不同系統(tǒng)中的數(shù)據(jù)。Nexsets 無(wú)需復(fù)制或復(fù)制數(shù)據(jù)即可創(chuàng)建數(shù)據(jù)的邏輯視圖,為業(yè)務(wù)用戶提供對(duì)精選數(shù)據(jù)視圖的訪問(wèn)權(quán)限,他們可用于創(chuàng)建報(bào)告和儀表板、將數(shù)據(jù)移動(dòng)到應(yīng)用程序或?qū)?shù)據(jù)存儲(chǔ)在云中。

Octopai Data Lineage XD
Octopai 總部位于以色列特拉維夫,開發(fā)自動(dòng)化元數(shù)據(jù)管理和分析的軟件工具,幫助組織定位和理解他們的數(shù)據(jù),以改進(jìn)運(yùn)營(yíng)、數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理。
Octopai 于 5 月 10 日推出了 Data Lineage XD,這是一個(gè)先進(jìn)的多維數(shù)據(jù)血緣平臺(tái),該公司表示將數(shù)據(jù)血緣提升到一個(gè)新的水平。Data Lineage XD 使用可視化表示來(lái)顯示從源到目的地的數(shù)據(jù)流,讓用戶更全面地了解數(shù)據(jù)來(lái)源、發(fā)生的事情以及數(shù)據(jù)在數(shù)據(jù)環(huán)境中的分布位置。
此類功能用于跟蹤數(shù)據(jù)錯(cuò)誤、實(shí)施流程變更、管理系統(tǒng)遷移和提高業(yè)務(wù)分析效率。

Splunk Observability Cloud and Splunk Security Cloud
Splunk 一直在擴(kuò)展其產(chǎn)品組合,以利用其“數(shù)據(jù)到一切”Splunk Enterprise 和 Splunk Cloud 平臺(tái)的功能在可搜索存儲(chǔ)庫(kù)中捕獲、索引和關(guān)聯(lián)機(jī)器數(shù)據(jù)。
IT 系統(tǒng)和應(yīng)用程序監(jiān)控是 Splunk 平臺(tái)最常見的用途之一。Splunk 總部位于舊金山,通過(guò)為 IT 和 DevOps 團(tuán)隊(duì)開發(fā) Splunk Observability Cloud,這是一個(gè) Splunk 軟件包,包括 Splunk Log Observer、Splunk Real User Monitoring、Splunk Infrastructure Monitoring、Splunk APM 和 Splunk On-Call .
面向 IT 和 DevOps 團(tuán)隊(duì)的 Observability Cloud 于 2020 年 10 月首次推出測(cè)試版,并于 5 月全面上市。
用于網(wǎng)絡(luò)安全任務(wù)的系統(tǒng)監(jiān)控和數(shù)據(jù)收集是 Splunk 平臺(tái)的另一個(gè)主要應(yīng)用。6 月,Splunk 推出了 Splunk Security Cloud,這是一個(gè)以數(shù)據(jù)為中心的安全運(yùn)營(yíng)平臺(tái),利用其“數(shù)據(jù)到一切”技術(shù)提供高級(jí)安全分析、自動(dòng)化安全運(yùn)營(yíng)和集成威脅情報(bào)功能。

YugabyteDB
Yugabyte 位于加利福尼亞州桑尼維爾,是新一代數(shù)據(jù)庫(kù)開發(fā)商之一,提供旨在超越和超越傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的技術(shù)。YugabyteDB 是一個(gè)高性能的分布式 SQL 數(shù)據(jù)庫(kù),用于構(gòu)建全球互聯(lián)網(wǎng)規(guī)模的應(yīng)用程序。
5 月,Yugabyte 發(fā)布了 YugabyteDB 2.7,其中包含一套全面的部署選項(xiàng),適用于希望使用 Red Hat OpenShift 和 VMware Tanzu 等 Kubernetes 平臺(tái)跨混合云環(huán)境擴(kuò)展分布式 SQL 的組織。
該公司表示,YugabyteDB 對(duì)公共和云原生環(huán)境的支持使企業(yè)和組織能夠貫徹其戰(zhàn)略 Kubernetes、分布式 SQL 和微服務(wù)計(jì)劃,同時(shí)避免云鎖定。
YugabyteDB 2.7 版本可以回滾意外更改并將數(shù)據(jù)庫(kù)恢復(fù)到更早的時(shí)間點(diǎn)。它還支持表空間,以細(xì)粒度控制跨區(qū)域和可用區(qū)的數(shù)據(jù)分布。

























