偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="tqfbf"></dfn>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

20個GitHub優(yōu)秀開源大數(shù)據(jù)項目

作者：zone7 2023-10-13 13:11:26

大數(shù)據(jù)

大數(shù)據(jù)技術(shù)的發(fā)展最開始便得益于開源社區(qū)的貢獻，出現(xiàn)了許多優(yōu)秀的大數(shù)據(jù)相關(guān)的開源項目。下面列舉了20個最受歡迎且有趣的開源大數(shù)據(jù)項目，供研究、參考。

近年來數(shù)字戰(zhàn)略的推動進一步增加了市場對大數(shù)據(jù)相關(guān)項目的需求，而大數(shù)據(jù)技術(shù)的發(fā)展也支撐著社會數(shù)字化的發(fā)展。大數(shù)據(jù)技術(shù)的發(fā)展最開始便得益于開源社區(qū)的貢獻，出現(xiàn)了許多優(yōu)秀的大數(shù)據(jù)相關(guān)的開源項目。根據(jù)“第九屆開源未來年度調(diào)查” ，全世界有72-78%的公司參與了開源項目。其中大數(shù)據(jù)35%、云計算39%、操作系統(tǒng)33%，物聯(lián)網(wǎng)31%，這些技術(shù)方向的快速發(fā)展多少都離不開開源項目的推動。

下面列舉了20個最受歡迎且有趣的開源大數(shù)據(jù)項目，供研究、參考。

1.Apache Beam

https://github.com/apache/beam

Apache Beam是2016年推出的高級統(tǒng)一編程開源模型。它的名字“Beam”來源于 “Batch” 和 “Stream” ，beam支持眾多分布式處理后端，包括Apache Flink、Apache Spark、Apache Samza、Hazelcast Jet、Google Cloud Dataflow等。它甚至允許您使用任意三種編程語言的開源Beam SDK（軟件開發(fā)工具包）構(gòu)建定義數(shù)據(jù)管道的程序：Java、Python和Go。

Apache Beam 的優(yōu)點主要有：統(tǒng)一的批處理和流式API、更高的抽象級別和跨運行時的可移植性。唯一的缺陷是透明度和可定制化較低，與其他Apache API相比，在性能優(yōu)化上相對不足。

2.Clickhouse

https://github.com/ClickHouse/ClickHouse

Clickhouse是列數(shù)據(jù)庫管理系統(tǒng)，用于在線分析處理任務（OLAP）。它允許在運行時同時創(chuàng)建庫和表、加載數(shù)據(jù)、運行查詢，無需重新配置或重新啟動服務器。通過減少磁盤IO、數(shù)據(jù)本地化和壓縮，clickhouse能夠做到比傳統(tǒng)關(guān)系數(shù)據(jù)庫快100- 1000倍。

它的優(yōu)勢主要包括：使用編解碼器進行數(shù)據(jù)壓縮以獲得出色的性能、支持多核并行處理、支持多服務器分布式處理、支持SQL語法、提供向量計算引擎、支持實時數(shù)據(jù)更新、支持自適應連接算法、支持數(shù)據(jù)復制和數(shù)據(jù)完整性、支持基于角色的訪問控制等。

因為Clickhouse優(yōu)秀的性能、可擴展性、可靠性和安全性。像Yandex、CloudFare、Uber、eBay、Spotify這樣的公司更傾向于使用Clickhouse。

同時Clickhouse也存在一些缺陷，例如：缺乏事務機制，沒有高效的切換、刪除、插入數(shù)據(jù)的能力、低延遲和稀疏索引。

3.Apache Flink

https://github.com/apache/flink

ApacheFlink是一個有狀態(tài)的計算框架。它可以作為兩類數(shù)據(jù)流的分布式處理引擎：無界數(shù)據(jù)流和有界數(shù)據(jù)流。Flink可以在所有典型的集群環(huán)境中運行，并在任何規(guī)模的內(nèi)存中進行速度計算，支持流和批處理，具備全面的狀態(tài)管理，擁有事件時（event-time）處理語義和狀態(tài)的一致性保證等功能。

Flink具有動態(tài)消息、狀態(tài)一致性、多語言支持、云原生、無數(shù)據(jù)庫要求和“無狀態(tài)”操作等優(yōu)勢。

Flink的常見缺點包括：社區(qū)和論壇較少、缺乏出色的API支持，以及難以對數(shù)據(jù)可視化進行編程等。

4.Nvidia RAPIDS

https://github.com/rapidsai

RAPIDS項目主要用于在GPU上運行端到端的數(shù)據(jù)科學和分析管道?；贑UDA-X AI構(gòu)建，它使用NVIDIA CUDA原生語言進行基本算法優(yōu)化，提供友好的Python用戶界面展示GPU并行性能和高帶寬內(nèi)存的速度。除了分析和數(shù)據(jù)科學之外，RAPIDS還可用于日常數(shù)據(jù)預處理任務。通過提供DataFrame API，與各種機器學習算法連接，以加速端到端管道，而不會產(chǎn)生通常的序列化開銷。RAPIDS還支持多個節(jié)點、多GPU部署，從而在更大的數(shù)據(jù)集上實現(xiàn)更快的處理和訓練。另外，RAPIDS還具備輕松集成、頂級模型準確性、支持開源和減少學習成本等優(yōu)勢。

5.TDengine

https://github.com/taosdata/TDengine

TDengine是一個用于物聯(lián)網(wǎng)、聯(lián)網(wǎng)汽車和工業(yè)物聯(lián)網(wǎng)的開源大數(shù)據(jù)平臺。它的應用場景可以包括：機器人、電梯、石油/天然氣開采、智能家居、汽車互聯(lián)網(wǎng)、電網(wǎng)、互聯(lián)網(wǎng)接入記錄、電話、金融交易以及水、空氣之類的環(huán)境監(jiān)測等。它集成了緩存、流計算、消息隊列等功能，以降低開發(fā)的復雜性和成本，此外還附帶了時間序列數(shù)據(jù)庫。低云服務成本、全棧時序數(shù)據(jù)、強大的數(shù)據(jù)分析、與其他工具的無縫集成、零管理、無學習曲線是TDengine的突出亮點。

6.Apache Spark

https://github.com/apache/spark

Apache Spark是一個開源的分布式計算框架。它帶有集群的編程接口，包括SQL、機器學習、實時數(shù)據(jù)流、圖形處理等功能，這使其擁有快速大數(shù)據(jù)處理能力。Apache Spark的核心是Spark Core，它建立在RDD抽象之上。

Spark SQL使用DataFrames來容納結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。Spark可以在集群模式或Hadoop YARN，EC2，Mesos，Kubernetes等環(huán)境上運行，因此可以說非常通用。

可以通過非關(guān)系型數(shù)據(jù)庫訪問數(shù)據(jù)，例如：Apache Cassandra、Apache HBase、Apache Hive或者Hadoop分布式文件系統(tǒng)等。

Apache Spark還可以根據(jù)歷史或?qū)崟r數(shù)據(jù)來執(zhí)行實時判斷，因此非常適合預測分析，欺詐檢測，情感分析等應用程序。

7.Presto

https://github.com/prestodb/presto

Presto是一個開源的分布式SQL查詢引擎。它使用戶能夠?qū)腉B到PB的各種大小的數(shù)據(jù)源運行交互式分析查詢。為交互式分析而構(gòu)建是它的設計初衷，使得它可以擴展到類似Facebook的規(guī)模，同時又能夠保證具備接近商業(yè)數(shù)據(jù)倉庫的速度。Presto允許查詢的數(shù)據(jù)庫包括：Hive、Cassandra、關(guān)系數(shù)據(jù)庫甚至定制數(shù)據(jù)存儲等。Presto可以在一個查詢中聚合來自多個數(shù)據(jù)源，支持對整個企業(yè)的數(shù)據(jù)進行分析。

但Presto在使用時也存在一些缺點，例如：它不支持大的實體連接、缺乏UDF（用戶定義的函數(shù)）支持等。

8.Apache Zeppelin

https://github.com/apache/zeppelin

Apache Zeppelin是一款多用途筆記本，支持數(shù)據(jù)提取、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)可視化和數(shù)據(jù)協(xié)作?？梢宰鳛锳pache Spark的前端Web產(chǎn)品，允許無縫與Spark應用程序?qū)?。Zeppelin 解釋器允許任何數(shù)據(jù)處理后端對接到Zeppelin，支持Spark、Markdown、Python、Shell和JDBC等。它提供了單用戶和多用戶兩種部署類型。Zeppelin的最新創(chuàng)新包括：Zeppelin SDK，改進的Spark Interpreter，F(xiàn)link Interpreter，Yarn Interpreter Mode，Inline Configuration，Interpreter Lifecycle Management。

Zeppelin也存在一些缺點，例如：UI BUG、缺乏對個別庫的支持、有限的可視化配置等。

9.CMAK

https://github.com/yahoo/CMAK

CMAK是Cluster Manager for Apache Kafka的縮寫，以前稱為Kafka Manager，是Apache Kafka集群的管理工具。該項目目前由Verizon Media和社區(qū)共同管理。CMAK的主要功能包括：多集群管理、集群狀態(tài)檢查、運行首選副本選舉、生成具有選擇代理的選項的分區(qū)分配、運行分區(qū)重新分配（基于生成的分配）、刪除主題、批量生成分區(qū)分配、批量運行多個主題的分區(qū)重新分配、添加分區(qū)或更新現(xiàn)有主題的配置等等。

CMAK最顯著的優(yōu)點是它的分區(qū)重新分配功能，但它在Ops任務的限制方面相對就是個缺點。

10.Cython

https://github.com/cython/cython

Cython是Python編程語言的靜態(tài)優(yōu)化器。使得為Python構(gòu)建C擴展與編寫Python本身一樣簡單。Cython結(jié)合了Python和C的強大功能，支持編寫隨時在原生C和C++代碼之間來回切換的Python代碼。

通過在Python語法中引入靜態(tài)類型聲明，可以快速將可理解的Python代碼優(yōu)化為純C語言以提高性能。使用集成的源代碼級調(diào)試，可以識別Python、Cython和C代碼中存在的問題。開發(fā)人員可以在廣泛且成熟的CPython生態(tài)系統(tǒng)中快速構(gòu)建應用程序。

Cython編程語言也可以稱為Python的超集，它允許在python上運行C函數(shù)并在變量和類屬性上聲明C類型，使編譯器能夠通過Cython代碼構(gòu)建C代碼。

Cython的主要缺點包括：Cython代碼不能獨立重用。除此之外，通過Cython編譯輸出的C語言在大多數(shù)情況下都無法達到手動調(diào)優(yōu)的C語言的速度。

11.CatBoost

https://github.com/catboost/catboost

CatBoost是一種機器學習決策樹梯度算法。是一個開源庫。它由Yandex的研究人員和工程師開發(fā)，并被Yandex和其他組織（如CERN，Cloudflare和Careem出租車）用于搜索引擎、推薦系統(tǒng)、個人助理、自動駕駛汽車、天氣預測等應用場景。

CatBoost的功能包括：支持無需參數(shù)調(diào)整的高質(zhì)量模型訓練，支持分類、實現(xiàn)有序增強、支持GPU版本、支持缺失值、出色的可視化、高度準確性和快速預測能力。

CatBoost是解決異構(gòu)數(shù)據(jù)問題的優(yōu)秀解決方案，但對于處理同構(gòu)數(shù)據(jù)的情況，它可能不是最好的學習器。預處理、預測時間和模型分析是Catboost的強項，而訓練和優(yōu)化時間則是其弱點。

12.Apache CouchDB

https://github.com/apache/couchdb

Apache CouchDB數(shù)據(jù)庫于2005年由Apache Software Foundation發(fā)布。CouchDB使用Erlang開發(fā)。支持將數(shù)據(jù)存儲在JSON中，使用MapReduce在JavaScript中執(zhí)行查詢，并通過HTTP提供API。因此，CouchDB非常適合當前的移動的應用程序。使用CouchDB的增量復制，可以高效地傳輸數(shù)據(jù)，CouchDB允許主——主配置與自動沖突檢測。CouchDB的動態(tài)文檔轉(zhuǎn)換和實時更改通知等功能可以使Web開發(fā)更加簡單。

CouchDB的主要缺點包括：資源消耗較大、動態(tài)查詢耗時、大型數(shù)據(jù)集臨時視圖長耗時、缺乏事務支持、大型數(shù)據(jù)庫復制的偶爾會失敗。

13.Apache Airflow

https://github.com/apache/airflow

Apache Airflow是一個編程的框架，用于自動編寫、調(diào)度和監(jiān)控Beam數(shù)據(jù)管道。Beam數(shù)據(jù)管道是動態(tài)的，因為它們是通過編程構(gòu)建的，所以我們可以使用Airflow的可視化圖形或有向無環(huán)圖（DAG）創(chuàng)建工作流任務。Airflow還提供了一個用戶界面，可以輕松地實現(xiàn)生產(chǎn)中管道的可視化，便于調(diào)試問題，跟蹤管道進度。它另一個優(yōu)勢是它的可擴展性，支持構(gòu)建自己的操作符，并將庫擴展到您的環(huán)境所需的抽象級別。

但是Airflow沒有數(shù)據(jù)管道的版本控制，對新用戶來說不太直觀，開始很容易就配置過載，難以在本地使用。

14.Trino

https://github.com/trinodb/trino

Trino是一個分布式SQL查詢引擎。支持從異構(gòu)數(shù)據(jù)源查詢大型數(shù)據(jù)集。Trino旨在解決數(shù)據(jù)倉庫的聯(lián)機分析處理（OLAP）問題，包括：數(shù)據(jù)分析、聚合和報告生成等。可以有效地查詢分析大量數(shù)據(jù)。在Hadoop和HDFS運行環(huán)境下，Trino可以作為MapReduce功能查詢HDFS，有點像Hive或Pig。Trino并不限于支持對HDFS的訪問，也支持其他數(shù)據(jù)源，包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫和Cassandra等。

特里諾的一個重大缺陷是，如果查詢所占用的內(nèi)存超過集群可用的內(nèi)存，查詢將失敗。不過，得益于其容錯能力，查詢引擎將重試查詢而不是直接報告失敗。

15.Delta Lake

https://github.com/delta-io/delta

Delta Lake 開源項目主要用于數(shù)據(jù)湖的數(shù)據(jù)倉庫設計。Delta Lake可以在現(xiàn)有的數(shù)據(jù)湖（如S3，ADLS，GCS和HDFS）之上，運行ACID事務、擴展的元數(shù)據(jù)處理，并且可以統(tǒng)一流和批處理數(shù)據(jù)。Delta Lake的主要功能包括ACID事務、可擴展的元數(shù)據(jù)處理、數(shù)據(jù)版本控制、開放的格式、統(tǒng)一的批處理、數(shù)據(jù)源和接收器流程化、強制執(zhí)行模式、演進模式、歷史審計、更新和刪除、與Apache Spark API的100%兼容性和delta Sharing。

目前已經(jīng)有許多公司在使用Delta Lake處理EB數(shù)據(jù)，例如：Databricks、維亞康姆、阿里巴巴集團、McAfee、Upwork、eBay、Informatica等等。

16.Apache Cassandra

https://github.com/apache/cassandra

Apache Cassandra是一個高可擴展性的數(shù)據(jù)庫，可以在商業(yè)基礎(chǔ)設施上運行，并且具有較高容錯性，可以在多個節(jié)點上自動復制數(shù)據(jù)，支持在不關(guān)閉系統(tǒng)的情況下替換損壞的節(jié)點。Cassandra是一個NoSQL數(shù)據(jù)庫，其中所有節(jié)點都是對等節(jié)點，而不是主從架構(gòu)。這使得它具有高度的可擴展性和容錯性，并且允許您添加更多的新機器而不中斷現(xiàn)有應用程序?？梢赃x擇同步復制和異步復制以完成每次更新。目前像蘋果、Netflix、Instagram、Spotify和Uber這些大公司都在使用Cassandra。

但Cassandra不支持ACID屬性，不支持聚合、延遲、連接、數(shù)據(jù)復制、緩慢讀取、VM內(nèi)存管理，這些都是Apache Cassandra的缺點。

17.Vespa

https://github.com/vespa-engine/vespa

Vespa是一個用于海量數(shù)據(jù)集的低延遲計算引擎。它通過索引支持在服務時可以對其進行查詢、選擇和處理。通過Vespa內(nèi)的應用組件，使應用程序開發(fā)人員能夠構(gòu)建后端以及中間件系統(tǒng)，這些系統(tǒng)可擴展以快速并可靠地處理大量數(shù)據(jù)。Vespa實例由幾個無狀態(tài)Java容器集群和一個或多個數(shù)據(jù)存儲節(jié)點集群組成。Vespa在文本搜索、推薦、個性化、問答、半結(jié)構(gòu)化導航等許多應用場合中被廣泛應用。

18.Apache Calcite

https://github.com/apache/calcite

Apache Calcite是一個用于管理動態(tài)數(shù)據(jù)的全棧工具。它是一個開源的數(shù)據(jù)庫和數(shù)據(jù)管理框架。它附帶了一個SQL解析器、一個用于創(chuàng)建關(guān)系代數(shù)表達式的API和一個查詢計劃引擎。

盡管它包含許多標準數(shù)據(jù)庫管理系統(tǒng)的組件，但還是缺幾個關(guān)鍵特性，如：數(shù)據(jù)存儲、數(shù)據(jù)處理方法和元數(shù)據(jù)存儲庫。Calcite的優(yōu)點包括：查詢解析器、驗證器、優(yōu)化器、用于閱讀JSON格式模型的輔助工具、眾多標準函數(shù)、聚合函數(shù)、Linq 4j的JDBC查詢、JDBC后端、Linq 4j前端和SQL特性等。

19.DataHub

https://github.com/linkedin/datahub

DataHub是第三代現(xiàn)代數(shù)據(jù)棧的開源元數(shù)據(jù)平臺，這個可擴展的元數(shù)據(jù)平臺旨在幫助開發(fā)人員駕馭其快速發(fā)展的數(shù)據(jù)生態(tài)系統(tǒng)的復雜性，并幫助數(shù)據(jù)從業(yè)者在其組織內(nèi)利用數(shù)據(jù)的最大價值。它每天可以處理超過1000萬個實體關(guān)系更改事件，并索引總計超過500萬個實體和關(guān)系。與毫秒級SLA服務運營元數(shù)據(jù)查詢一起完成，從而實現(xiàn)元數(shù)據(jù)管理具備高效率、合規(guī)性和流程化的特點。DataHub是一個現(xiàn)代化的數(shù)據(jù)平臺，支持端到端的數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)可觀察性和數(shù)據(jù)治理。

LinkedIn目前使用了DataHub來部署數(shù)據(jù)集、模式、流、合規(guī)性注釋、GraphQL端點、指標、儀表板、功能和AI模型。使DataHub在實戰(zhàn)方面經(jīng)得起考驗。

20.Koalas

https://github.com/databricks/koalas

Koalas項目在Apache Spark的基礎(chǔ)上實現(xiàn)了pandas DataFrame API功能，使數(shù)據(jù)科學家在處理海量數(shù)據(jù)時更有效率。Spark是大數(shù)據(jù)處理的事實標準，而pandas是Python中事實標準（單節(jié)點）DataFrame實現(xiàn)。如果你已經(jīng)熟悉了pandas，你可以立即使用Spark與Koalas，沒有多少學習曲線。使用Koalas可以讓用戶直接與pandas一起測試較小的數(shù)據(jù)集，也可以與Spark一起測試較大的分布式數(shù)據(jù)集。

由于開源社區(qū)在幾個頻繁的版本中不斷貢獻，Koalas中pandas API的覆蓋率迅速增加，并且增加了spark訪問器、提升了類型提示支持、更廣泛的繪圖支持、更全面的就地更新支持、更好的缺失值支持等。

責任編輯：趙寧寧來源： andflow

大數(shù)據(jù)技術(shù)開源

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營