偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)領(lǐng)域新星,帶你了解DuckDB

大數(shù)據(jù) 數(shù)據(jù)分析
與基于云的系統(tǒng)相比,DuckDB 更具吸引力,因?yàn)樗鼘τ布囊筝^低且成本效益較高。從開發(fā)人員的筆記本電腦到生產(chǎn)設(shè)置,DuckDB 在各種環(huán)境中都保持一致,這與基于云的解決方案形成了鮮明對比,后者往往會隨著時間的推移、數(shù)據(jù)的陳舊或無效而發(fā)生漂移。

隨著大數(shù)據(jù)領(lǐng)域的不斷發(fā)展,新的數(shù)據(jù)處理和分析工具不斷涌現(xiàn)。在這些工具中,DuckDB 是個亮點(diǎn),它是一個開源的數(shù)據(jù)庫管理系統(tǒng),使用 SQL 作為查詢語言,旨在提供內(nèi)存中分析的高性能解決方案。DuckDB 還支持與 pandas DataFrame 的無縫集成,可以便捷地與 pandas 等工具進(jìn)行數(shù)據(jù)處理和分析。因此,DuckDB 是一個非常值得關(guān)注和探索的數(shù)據(jù)庫管理系統(tǒng)。

1 DuckDB的崛起

DuckDB 是個正在快速崛起非常受歡迎的內(nèi)置 SQL 分析引擎。統(tǒng)計(jì)數(shù)據(jù)如下:

  • 每月在 PyPI 上有 170 萬次下載
  • 在 GitHub 上有 13,800 個星標(biāo),在短短幾年內(nèi)已與 Postgres 達(dá)到了同樣的歡迎程度

圖片DuckDB 與 Postgres 的比較 - GitHub Star Rating

在可比的兩年時間內(nèi),DuckDB 的增長速度與 Snowflake 相當(dāng),據(jù) DB-Engines 趨勢報告顯示,DuckDB很可能在未來幾年內(nèi)成為主流,并至少取代目前在傳統(tǒng)數(shù)據(jù)倉庫中處理的一些負(fù)載。

圖片DuckDB 與 Snowflake 的比較 - DB Engines 排名

DuckDB 的 MIT 許可證保證其永久開源,這也增加了它的吸引力。

2 DuckDB 的優(yōu)勢

  • 易于安裝:運(yùn)行 DuckDB 只需執(zhí)行一行命令brew install duckdb。
  • 低復(fù)雜性:由于沒有服務(wù)器(DuckDB 只是一個二進(jìn)制文件),因此不需要處理憑證、訪問控制列表、防火墻配置等問題。
  • 通用兼容性:DuckDB 幾乎沒有依賴性,可以在瀏覽器中運(yùn)行。
  • 與 Pandas DataFrame 集成:DuckDB 的 Python 庫具有查詢 Pandas DataFrames 的能力。這種集成還使 DuckDB 能夠在自己和其他無法直接查詢的系統(tǒng)之間起到統(tǒng)一層或 "粘合劑" 的作用,促進(jìn)了數(shù)據(jù)處理中的轉(zhuǎn)換步驟。
  • 擴(kuò)展:DuckDB 具有靈活的擴(kuò)展機(jī)制,這對于直接從 JSON 和 Parquet 或直接從 S3 讀取數(shù)據(jù)特別重要,能夠大大提高開發(fā)人員的體驗(yàn)。
  • 穩(wěn)定性和效率:DuckDB 旨在處理超出內(nèi)存限制(雖然有一些限制)的工作負(fù)載。這在分析數(shù)據(jù)集大于可用 RAM 但小于磁盤容量的情況下特別重要,這使得分析工作可以使用 "便宜"且隨時可用的硬件(如筆記本電腦)來完成。

3 DuckDB:實(shí)際數(shù)據(jù)流中的高效數(shù)據(jù)處理引擎

與基于云的系統(tǒng)相比,DuckDB 更具吸引力,因?yàn)樗鼘τ布囊筝^低且成本效益較高。從開發(fā)人員的筆記本電腦到生產(chǎn)設(shè)置,DuckDB 在各種環(huán)境中都保持一致,這與基于云的解決方案形成了鮮明對比,后者往往會隨著時間的推移、數(shù)據(jù)的陳舊或無效而發(fā)生漂移。

DuckDB 可以在幾乎任何地方輕松運(yùn)行,有效地繞過分布式系統(tǒng)中常見的挑戰(zhàn),例如將數(shù)據(jù)移動到計(jì)算節(jié)點(diǎn)、VM/作業(yè)編排和故障處理。現(xiàn)代機(jī)器(基于云或由蘋果公司 M1 SoC 驅(qū)動的機(jī)器)的能力進(jìn)一步增強(qiáng)了 DuckDB 的實(shí)用性,可以在單機(jī)處理場景下處理大量數(shù)據(jù)集。盡管只有少數(shù)客戶每天需要處理 TB 級別的數(shù)據(jù),但實(shí)際上所需的計(jì)算能力超出了所有公有云現(xiàn)有的能力。

4 SQL "語法糖"

DuckDB 的相對新穎性使其能夠靈活地引入新的 SQL 語法增強(qiáng)功能,如GROUP BY ALL、SELECT * EXCLUDE、ASOF JOINS等。這些新增功能使 SQL 查詢更直觀、更易讀;請看下面的代碼段:

-- 在 ANSI SQL 中按多個字段分組
SELECT country, city, region, postal_code, AVG(price) AS avg_price
FROM customers
-- 這里需要重復(fù)非分組字段
GROUP BY country, city, region, postal_code;

-- 在 DuckDB 中按所有字段分組
SELECT country, city, region, postal_code, AVG(price) AS avg_price
-- Fields are only listed once; maintaining the code becomes easier
GROUP BY ALL;
-- 在 ANSI SQL 中查詢除 'email' 字段外的所有字段
SELECT country, city, region, postal_code, address, phone_number
  /*, email*/
FROM customers;

-- 在 DuckDB 中查詢除 'email' 字段外的所有字段
SELECT * EXCLUDE (email) FROM customers;
-- 考慮將“接近”的時間戳連接在一起。
-- 在 ANSI SQL 中,通常需要將它們分成桶
-- 在 DuckDB 中,可以使用 ASOF JOIN 來實(shí)現(xiàn)相同的結(jié)果,更簡單、更高效。
SELECT events.id, events.ts, events.val, metadata.details
FROM events
ASOF JOIN metadata USING(id, ts);

5 與Pandas Dataframes集成

DuckDB 的一個明顯優(yōu)勢(尤其在 Python 生態(tài)系統(tǒng)中)就是與 Pandas Dataframes 的無縫集成。這個特性簡化了合并不同來源數(shù)據(jù)集的過程,使數(shù)據(jù)分析和轉(zhuǎn)換任務(wù)變得更加簡單。

例如,在 Jupyter Notebook 中,可以執(zhí)行以下操作(基于電影推薦系統(tǒng)數(shù)據(jù)集https://www.kaggle.com/datasets/bandikarthik/movie-recommendation-system):

# 安裝依賴
%pip install --quiet duckdb
%pip install --quiet jupysql
%pip install --quiet duckdb-engine
%pip install --quiet pandas
%pip install --quiet matplotlib
%pip install --quiet psycopg2-binary
%pip install --quiet dash
%pip install --quiet plotly

import duckdb
import pandas as pd

# 加載并配置 jupysql
%load_ext sql
%config SqlMagic.autopandas = True
%config SqlMagic.feedback = False
%config SqlMagic.displaycon = False
%config SqlMagic.named_parameters=True

# 連接到本地 DuckDB 實(shí)例
%sql duckdb:///

# 啟用 DuckDB 查詢遠(yuǎn)程文件(例如 S3)
%%sql
INSTALL httpfs;
LOAD httpfs;

# 配置 S3 訪問密鑰
SET s3_region = '...';
SET s3_access_key_id = '...';
SET s3_secret_access_key = '...';

# 連接到遠(yuǎn)程 Postgres 數(shù)據(jù)庫
ATTACH 'dbname=DATABASE user=USER host=HOST password=PASSWORD connect_timeout=10' AS postgres (TYPE postgres, READ_ONLY);

# 執(zhí)行查詢并將結(jié)果存儲在 dataframe 中
%%sql
df << SELECT 
    t1.movieId,
    t1.title,
    t1.genres,
    t2.userId,
    t2.rating,
    t3.tag
  # 查詢 Postgres 中的表
  FROM postgres.public.movies AS t1
  # 與 DuckDB 中的表連接
  INNER JOIN ratings AS t2 USING (movieId)
  # 與 S3 中的 JSON 數(shù)據(jù)集連接
  INNER JOIN 's3://S3-BUCKET/tags.json' AS t3 USING (userId, movieId)

# 最后,從另一個查詢中引用 dataframe
%%sql
by_genres << SELECT genres, COUNT(*) AS cnt 
             FROM df
             GROUP BY ALL
             ORDER BY 2 DESC
             LIMIT 5;

# 或者繪制轉(zhuǎn)換后的數(shù)據(jù)集
import plotly.express as px
fig = px.pie(by_genres,
             values='cnt',
             names='genres',
             title='Top 5 movie genres')
fig.show()

6 結(jié)語

本文關(guān)于 DuckDB 的概述強(qiáng)調(diào)了它作為大數(shù)據(jù)領(lǐng)域多功能、高效和用戶友好型工具的潛力。作為一個相對較新的工具,DuckDB 具有獨(dú)特的優(yōu)勢,可以彌合差距,為數(shù)據(jù)工程師和軟件開發(fā)人員提供與不斷變化的需求相符的解決方案。

責(zé)任編輯:武曉燕 來源: Java學(xué)研大本營
相關(guān)推薦

2020-10-08 14:32:57

大數(shù)據(jù)工具技術(shù)

2024-05-07 08:49:36

Hadoop數(shù)據(jù)存儲-分布式存儲

2021-03-10 08:55:42

Go數(shù)據(jù)語言

2012-02-29 09:20:24

Hadoop大數(shù)據(jù)解決方案

2020-01-17 13:26:38

大數(shù)據(jù)計(jì)算方案

2020-12-11 11:33:15

大數(shù)據(jù)Hadoop

2018-09-06 16:10:37

數(shù)據(jù)庫大數(shù)據(jù)區(qū)塊鏈

2019-09-27 09:40:06

ElvishShellLinux

2010-07-05 16:20:32

NetBEUI協(xié)議

2016-12-23 18:27:45

聯(lián)想

2022-09-26 11:30:40

MQTT協(xié)議客戶端協(xié)議

2020-12-25 13:51:49

大數(shù)據(jù)醫(yī)療大數(shù)據(jù)

2020-08-31 10:48:11

MySQL數(shù)據(jù)庫數(shù)據(jù)庫技巧

2017-11-29 13:31:19

大數(shù)據(jù)農(nóng)業(yè)農(nóng)產(chǎn)品

2018-09-17 16:30:24

數(shù)據(jù)庫MySQL小技巧

2015-09-01 09:33:50

教育大數(shù)據(jù)

2021-01-06 13:45:32

大數(shù)據(jù)語言編程

2016-05-04 14:57:49

賽迪網(wǎng)

2021-05-31 14:22:56

物聯(lián)網(wǎng)物聯(lián)網(wǎng)安全

2021-12-10 10:29:07

在線客服系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號