偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

六個(gè)2023年熱門開源數(shù)據(jù)質(zhì)量管理工具

開源 大數(shù)據(jù)
目前,開源社區(qū)出現(xiàn)了許多數(shù)據(jù)質(zhì)量工具,可選擇的項(xiàng)目越來越多,下面是2023年比較熱門的6個(gè)開源數(shù)據(jù)質(zhì)量管理工具。

城市管理、智慧社區(qū)、工業(yè)智能化、智慧金融、智慧醫(yī)療等社會(huì)千行百業(yè)的數(shù)字化和智能化發(fā)展,離不開以大數(shù)據(jù)和AI為基礎(chǔ)的技術(shù)體系。我們的社會(huì)(或者我們關(guān)注的領(lǐng)域)每天都在產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)有的是生產(chǎn)數(shù)據(jù),有的是行為數(shù)據(jù),如何利用好這些數(shù)據(jù),讓數(shù)據(jù)產(chǎn)生價(jià)值就需要對(duì)數(shù)據(jù)的產(chǎn)生、收集、管理、應(yīng)用等方面進(jìn)行數(shù)據(jù)治理。數(shù)據(jù)質(zhì)量是大數(shù)據(jù)領(lǐng)域的一個(gè)重要特征,低質(zhì)量的數(shù)據(jù)不僅浪費(fèi)資源,更影響數(shù)據(jù)計(jì)算結(jié)果,數(shù)據(jù)質(zhì)量的高低對(duì)大數(shù)據(jù)應(yīng)用價(jià)值有著很大影響。因此,數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)治理的一個(gè)重要模塊。

數(shù)據(jù)質(zhì)量管理旨在評(píng)估和改善數(shù)據(jù)質(zhì)量,提供了識(shí)別、測(cè)量、監(jiān)控和提高數(shù)據(jù)資產(chǎn)整體質(zhì)量的功能。然而,大數(shù)據(jù)平臺(tái)建設(shè)初期,數(shù)據(jù)質(zhì)量往往是一個(gè)容易被忽視的領(lǐng)域,隨著數(shù)據(jù)架構(gòu)的不斷成熟以及開源數(shù)據(jù)質(zhì)量工具的發(fā)展,數(shù)據(jù)質(zhì)量管理逐步得到重視和改善。

目前,開源社區(qū)出現(xiàn)了許多數(shù)據(jù)質(zhì)量工具,可選擇的項(xiàng)目越來越多,下面是2023年比較熱門的6個(gè)開源數(shù)據(jù)質(zhì)量管理工具。

1.Deequ

GITHUB:https://github.com/awslabs/deequ

隨著Spark的應(yīng)用越來越多,Deequ是一款非常適合用于Spark的質(zhì)量檢測(cè)工具,非常適合測(cè)試大批量數(shù)據(jù),Spark DataFrame的任何東西都可以使用Deequ進(jìn)行測(cè)試。并將結(jié)果輸出到任何關(guān)系數(shù)據(jù)庫、CSV文件或者日志等。Spark的作業(yè)主要使用Scala或Python語言編寫,對(duì)于原生Scala,Deequ可以直接使用,但對(duì)于Python,就需要一個(gè)名為PyDeequ的包裝器。

pip install pydeequ

相關(guān)文檔可以參考:https://pydeequ.readthedocs.io/en/latest/README.html

2.dbt Core

GITHUB:https://github.com/dbt-labs/dbt-core

dbt是一個(gè)數(shù)據(jù)管道開發(fā)平臺(tái),支持動(dòng)態(tài)SQL、模板和建模等功能。dbt的一個(gè)重要特性是自動(dòng)化測(cè)試,用戶可以使用dbt執(zhí)行全面數(shù)據(jù)測(cè)試、數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)驗(yàn)證??梢栽跀?shù)據(jù)管道、數(shù)據(jù)源和目標(biāo)數(shù)據(jù)之上使用dbt執(zhí)行的質(zhì)量檢測(cè)模型,例如:數(shù)據(jù)范式(3NF及以上)模型、維度模型和數(shù)據(jù)倉庫模型。

dbt除了提供數(shù)據(jù)測(cè)試和數(shù)據(jù)質(zhì)量功能,在應(yīng)用生態(tài)上,許多公司還為dbt擴(kuò)展數(shù)據(jù)質(zhì)量功能。例如:Elementary,它能夠總結(jié)dbt中的所有內(nèi)容,提供數(shù)據(jù)質(zhì)量監(jiān)控指標(biāo)、數(shù)據(jù)新鮮度、數(shù)據(jù)異常信息和異常數(shù)據(jù)分析的功能。 

3.MobyDQ

GITHUB:https://github.com/ubisoft

DEMO:https://ubisoft.github.io/mobydq/pages/demo/

MobyDQ是數(shù)據(jù)工程團(tuán)隊(duì)的一個(gè)工具,可以自動(dòng)對(duì)數(shù)據(jù)管道進(jìn)行數(shù)據(jù)質(zhì)量檢查,捕獲數(shù)據(jù)質(zhì)量問題并在異常情況下觸發(fā)警報(bào),無論他們使用的數(shù)據(jù)源是什么。

數(shù)據(jù)質(zhì)量檢測(cè)工具M(jìn)obyDQ可以獨(dú)立運(yùn)行于開發(fā)環(huán)境和測(cè)試環(huán)境。而在生產(chǎn)環(huán)境中,MobyDQ也支持使用Docker或Kubernetes容器運(yùn)行。  MobyDQ的數(shù)據(jù)質(zhì)量框架主要側(cè)重四大質(zhì)量指標(biāo):完整性、新鮮度、響應(yīng)時(shí)間和有效性。MobyDQ支持豐富的數(shù)據(jù)源,例如:MySQL、PostgreSQL、Teradata、Hive、Snowflake和MariaDB等。 MobyDQ允許用戶使用其GraphQL API運(yùn)行測(cè)試,支持將此API與Python 或 JavaScript之類的編程語言一起使用,另外,MobyDQ在結(jié)構(gòu)化數(shù)據(jù)測(cè)試方面,它還提供了基于Hive,PostgreSQL,MySQL等數(shù)據(jù)源的Demo。

4.Great Expectations

https://github.com/great-expectations/great_expectations

Great Expectations(GX)可以數(shù)據(jù)工程師進(jìn)行質(zhì)量檢測(cè)、創(chuàng)建分析文檔來提高團(tuán)隊(duì)成員對(duì)數(shù)據(jù)的理解。

Great Expectations(GX)是最受歡迎的數(shù)據(jù)質(zhì)量管理工具之一。創(chuàng)建Great Expectations的核心思想是:“instead of just testing code, and we should be testing data. After all, that’s where the complexity lives.”

意思是:“不僅僅是測(cè)試代碼,更應(yīng)該測(cè)試數(shù)據(jù)。畢竟,數(shù)據(jù)才是復(fù)雜性所在?!?/p>

GX期望通過連接到數(shù)據(jù)源運(yùn)行事先定義好的集成模板來檢測(cè)數(shù)據(jù)。在官方指南中,可以找到更多關(guān)于GX與Databasericks、Flyte、Prefect和EMR等工具和平臺(tái)集成的信息。目前Great Expectation維護(hù)非常積極,并且已被Vimeo、Calm、ING、Glovo、Avito、DeliveryHero、Atlan和Heineken等公司使用。

        GX規(guī)范了“數(shù)據(jù)的預(yù)期狀態(tài)”。GX與數(shù)據(jù)源的集成意味著所有的數(shù)據(jù)質(zhì)量檢查都在適當(dāng)?shù)奈恢猛瓿桑⑶覜]有數(shù)據(jù)被移出數(shù)據(jù)源。GX還可通過自動(dòng)化數(shù)據(jù)質(zhì)量檢測(cè)、實(shí)時(shí)監(jiān)測(cè)結(jié)果記錄以及運(yùn)行摘要來支持?jǐn)?shù)據(jù)質(zhì)量管理。GX還可以直接與Airflow , Meltano等工具集成。支持將質(zhì)量檢測(cè)結(jié)果保存到各種數(shù)據(jù)庫或者文件系統(tǒng)中。

5.Soda Core

https://github.com/sodadata

Soda Core是一個(gè)Python開發(fā)的開源數(shù)據(jù)質(zhì)量工具,旨在確保數(shù)據(jù)平臺(tái)中的數(shù)據(jù)可靠性。它附帶了命令行工具。支持SodaCL(Soda Checks Language),SodaCL是一種兼容YAML,可靠的,用于特定領(lǐng)域的語言。Soda Core可以連接到數(shù)據(jù)源和工作流,確保數(shù)據(jù)不論在管道內(nèi)還是管道外都能夠被檢測(cè)。Soda Core支持廣泛的數(shù)據(jù)源、連接器和測(cè)試類型,它是目前開源項(xiàng)目中對(duì)數(shù)據(jù)連接器覆蓋最全面的數(shù)據(jù)質(zhì)量工具,如Dask、DuckDB、Dremio等。

Soda Core Python庫的主要目標(biāo)之一是能夠?qū)\(yùn)行檢查數(shù)據(jù)源來查找數(shù)據(jù)源中的數(shù)據(jù)質(zhì)量問題。Soda Core支持使用命令行執(zhí)行SodaCL檢查文件以完成預(yù)定義規(guī)則的掃描任務(wù),命令行任務(wù)的方式和使用Soda Core運(yùn)行查詢來執(zhí)行質(zhì)量檢測(cè)一樣。

6.Cucumber

https://github.com/cucumber/

Cucumber框架其實(shí)并非一個(gè)真正意義上的數(shù)據(jù)質(zhì)量檢測(cè)工具。但它卻能夠與pytest-bdd測(cè)試庫集成,以支持基于行為驅(qū)動(dòng)的開發(fā)和測(cè)試。

Cucumber的核心特性在于不需要考慮開發(fā)人員、數(shù)據(jù)工程師或安全工程師的需求,而是以最終用戶為中心編寫測(cè)試要求,因此在Cucumber中只需要使用簡(jiǎn)單的英語說明填充預(yù)定義的測(cè)試模板,便可完成新的測(cè)試要求。

Cucumber的目標(biāo)是讓你編寫任何人都能理解的測(cè)試要求,大大減輕工作難度??梢詫ucumber與任何編排和工作流引擎集成在一起,比如 Jenkins、 Airflow等等,實(shí)現(xiàn)測(cè)試用例的編寫和執(zhí)行。

以上六種比較熱門的開源數(shù)據(jù)質(zhì)量檢測(cè)工具,您可以將這些工具與現(xiàn)代數(shù)據(jù)管理系統(tǒng)一起使用,以測(cè)試和監(jiān)控?cái)?shù)據(jù)質(zhì)量,并設(shè)置警報(bào),實(shí)現(xiàn)數(shù)據(jù)質(zhì)量可視化和可分析,以便更深入地了解數(shù)據(jù)平臺(tái)的整體狀態(tài)。

責(zé)任編輯:趙寧寧 來源: andflow
相關(guān)推薦

2023-12-26 08:37:41

2012-12-06 11:31:40

虛擬化

2021-08-23 11:35:00

工具yyds開源

2023-03-07 14:21:57

2022-06-16 11:06:07

開源Grafanaon-call

2019-12-19 14:42:40

開源數(shù)據(jù)科學(xué)項(xiàng)目

2023-10-22 11:47:37

大數(shù)據(jù)質(zhì)量管理

2025-02-28 10:20:17

2022-06-20 14:57:50

漏洞安全威脅

2022-12-19 14:38:59

2023-11-20 22:40:30

2020-02-26 11:50:19

RSAC2020安全工具網(wǎng)絡(luò)安全

2019-10-12 14:47:58

Excel大數(shù)據(jù)數(shù)據(jù)庫

2024-11-14 12:00:00

Python開源大數(shù)據(jù)

2023-10-30 14:49:43

2019-12-17 17:54:16

程序員軟件編程語言

2015-03-31 09:49:56

Docker開發(fā)工具開發(fā)工具分類

2014-09-10 09:20:01

2022-12-29 15:20:42

2023-03-29 15:26:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)