偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Blaze RangePartitioning 算子 Native 實(shí)現(xiàn)全解析原創(chuàng)

快手技術(shù)

發(fā)布于 2025-2-21 16:36

瀏覽

0收藏

引言：本文將全面且深入地解析 Blaze RangePartitioning 算子的 Native 實(shí)現(xiàn)過(guò)程。相較于原生 Spark，RangePartitioning 的 Native 實(shí)現(xiàn)在執(zhí)行時(shí)間上達(dá)到了 30%的顯著下降，同時(shí)在資源開(kāi)銷方面節(jié)省了高達(dá) 76%。這一改進(jìn)大幅降低了運(yùn)行成本，展現(xiàn)了 Native 實(shí)現(xiàn)帶來(lái)的巨大優(yōu)勢(shì)。

一、算子描述

RangePartitioning 是 shuffle partitioning 的一種分區(qū)類型。它通過(guò)根據(jù)數(shù)據(jù)的值范圍將數(shù)據(jù)劃分成多個(gè)分區(qū)。每個(gè)分區(qū)包含特定范圍內(nèi)的值，通常用于處理有序的數(shù)據(jù)集，能夠根據(jù)數(shù)據(jù)值進(jìn)行動(dòng)態(tài)劃分。

RangePartitioning 的基本思想是：先對(duì)數(shù)據(jù)采樣找到劃分標(biāo)志 bounds，根據(jù) bounds 將數(shù)據(jù)劃分成多個(gè)近似大小的區(qū)間，然后將數(shù)據(jù)按所屬區(qū)間寫(xiě)入對(duì)應(yīng) partition，用于 order by 全排序場(chǎng)景。

二、實(shí)現(xiàn)方案

RangePartitioning 實(shí)現(xiàn)主要包含采樣和 partition 劃分兩個(gè)部分。

步驟一：首先需要獲取每個(gè) partition 對(duì)應(yīng)的區(qū)間劃分范圍 bounds，所以會(huì)先對(duì)全量數(shù)據(jù)進(jìn)行采樣，算出 partitionNum - 1 個(gè)區(qū)間分割點(diǎn) bounds。具體流程如下：

1、在 driver 端基于 InternalRow 進(jìn)行數(shù)據(jù)采樣：

通過(guò) spark.sql.execution.rangeExchange.sampleSizePerPartition 參數(shù)控制每個(gè)分區(qū)平均采樣數(shù)量，設(shè)置一個(gè)稍微過(guò)采樣一點(diǎn)的采樣數(shù) sampleSizePerPartition。
對(duì)每個(gè)分區(qū)采用蓄水池采樣（Reservoir Sampling）算法進(jìn)行采樣。
對(duì)采樣結(jié)果評(píng)估，記錄采樣不均衡的分區(qū)重新采樣（某個(gè)分區(qū)數(shù)據(jù)量過(guò)多，按照 sampleSizePerPartition 均值采樣會(huì)出現(xiàn)樣本數(shù)少于實(shí)際應(yīng)采樣數(shù)量，即采樣不均衡的情況）。
計(jì)算每個(gè)樣本的權(quán)重 weight，通過(guò) sumWeights/numReducer = step 找到每個(gè)邊界的步長(zhǎng)，類似于直方圖劃分邊界找出 numReducer-1 個(gè)分割點(diǎn) bounds。

2、由于采樣數(shù)據(jù)量可能不足導(dǎo)致 bounds 較少，需要重新設(shè)置 partitionNum=bounds.len + 1。因此會(huì)出現(xiàn) RangePartitioning 的實(shí)際 partition num 與設(shè)置數(shù)量不同的情況。

3、定義 rangepartition 的序列化方式，主要包括三個(gè)參數(shù)：SortExpr、numPartitions、Bounds。進(jìn)而轉(zhuǎn)成 native 算子進(jìn)行后續(xù)處理。

Blaze RangePartitioning 算子 Native 實(shí)現(xiàn)全解析-AI.x社區(qū)

步驟二：在 native 端需要再計(jì)算一次全量數(shù)據(jù)，將數(shù)據(jù)按分割點(diǎn) bounds 寫(xiě)入對(duì)應(yīng)的 partition。具體流程如下：

1、將 bounds 和 input 數(shù)據(jù)都轉(zhuǎn)成可直接比較的 arrow-row 類型。

2、針對(duì)每個(gè) batch，對(duì)將數(shù)據(jù)與 bounds 進(jìn)行比較并確定所在 partition id：

如果 bounds.len<=128，直接進(jìn)行比較。
如果 bounds.len>128，進(jìn)行二分查找提速。

Blaze RangePartitioning 算子 Native 實(shí)現(xiàn)全解析-AI.x社區(qū)

三、優(yōu)化效果

通過(guò)構(gòu)造 sql 語(yǔ)句測(cè)試加速效果：

sql 測(cè)試?yán)?/strong>

11.8GB 數(shù)據(jù)量：

insert overwrite table blaze_t.like_lineitem select * from tpch_parquet_1000.lineitem order by l_quantity

復(fù)制代碼

實(shí)現(xiàn) Native RangePartitioning

執(zhí)行計(jì)劃：

sql 時(shí)間 1073.516 s

Stage Total Time Across All Tasks: 8.9h

沒(méi)有實(shí)現(xiàn) Native RangePartitioning，會(huì)回退到 spark 的 RangePartitioning

sql 時(shí)間 1357.814 s

Stage Total Time Across All Tasks 38.1h

多個(gè)不同 sql 測(cè)試取均值

Stage 時(shí)間提升：76.94%

四、總結(jié)

多次測(cè)試取均值，RangePartitioning 實(shí)現(xiàn) native 相比舊版執(zhí)行時(shí)間下降 30%，資源開(kāi)銷節(jié)約 70%
由于采樣結(jié)果可能較少導(dǎo)致 bounds 小于 partition num-1，RangePartitioning 可能實(shí)際執(zhí)行的 partition num 與設(shè)置不同。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽
sql
spark

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報(bào)
舉報(bào)

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

深度探索：LLaMa-3 網(wǎng)絡(luò)安全能力全解析

戀戀青鳥(niǎo) ? 3235瀏覽 ? 0回復(fù)
LangChain百萬(wàn)代碼全解析：這個(gè)模型胃口很大！

ermulong ? 3486瀏覽 ? 0回復(fù)
大模型開(kāi)發(fā)之算子

AI探索時(shí)代 ? 1.5w瀏覽 ? 0回復(fù)
小白也能讀懂的GraphRAG知識(shí)圖譜全流程解析，多圖預(yù)警！

AI博物院 ? 1.2w瀏覽 ? 0回復(fù)
4種革新性AI Agent工作流設(shè)計(jì)模式全解析

大語(yǔ)言模型論文跟蹤 ? 4417瀏覽 ? 0回復(fù)
從零開(kāi)始掌握OpenCV：Python圖像處理最詳細(xì)入門(mén)教程（實(shí)戰(zhàn)代碼全解析）

唐克 ? 5879瀏覽 ? 0回復(fù)
LangChain生態(tài)全解析， LangGraph、LangFlow、LangSmith

AI科技論談 ? 1.3w瀏覽 ? 0回復(fù)
探秘大語(yǔ)言模型數(shù)據(jù)合成能力：AgoraBench基準(zhǔn)測(cè)試全解析

十一月雨_55 ? 3884瀏覽 ? 0回復(fù)
基于 Gemini AI 實(shí)現(xiàn)音頻和視頻解析

丟翅膀的魚(yú) ? 5251瀏覽 ? 0回復(fù)
一文讀懂AI智能體：概念、特性、類型與應(yīng)用全解析

Halo咯咯 ? 9910瀏覽 ? 0回復(fù)
LocalAPI.ai升級(jí)，功能亮點(diǎn)全解析

V0ne ? 2973瀏覽 ? 0回復(fù)
MCP 全解析，手把手教你基于 MCP 開(kāi)發(fā) Agent

玄姐聊AGI ? 2.0w瀏覽 ? 0回復(fù)
企業(yè)級(jí)RAG全解析：實(shí)現(xiàn)精準(zhǔn)、安全、高效智能客服

云原生AI百寶箱 ? 3196瀏覽 ? 0回復(fù)
AI Agents開(kāi)源工具棧全解析~

探索AGI ? 4186瀏覽 ? 0回復(fù)
閱讀效率提升300%：Dify+Markdown實(shí)現(xiàn)自動(dòng)化知識(shí)梳理全解析

AI博物院 ? 6314瀏覽 ? 0回復(fù)
RAG：7個(gè)檢索增強(qiáng)生成技術(shù)的解析（含實(shí)現(xiàn)代碼）

Halo咯咯 ? 8080瀏覽 ? 0回復(fù)
CLIP：打通圖文壁壘的多模態(tài)神器，原理與實(shí)戰(zhàn)全解析

鴻煊的學(xué)習(xí)筆記 ? 9006瀏覽 ? 0回復(fù)
解鎖LLM的“安全帶”：2025年評(píng)估工具與實(shí)踐全解析

Halo咯咯 ? 2414瀏覽 ? 0回復(fù)
PandasAI 全解析：一個(gè)AI加持的數(shù)據(jù)分析利器

Halo咯咯 ? 3733瀏覽 ? 0回復(fù)

快手技術(shù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

端到端短視頻多目標(biāo)排序機(jī)制框架EMER詳解 2天前發(fā)布
兼顧效率和性能！快手低代碼平臺(tái)在大型活動(dòng)中的技術(shù)實(shí)踐！ 2025-09-29 16:40:24發(fā)布

熱門(mén)推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)
別再怪AI“聽(tīng)不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)
Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)
代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)
DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：動(dòng)效資源交付的突破：Vision 平臺(tái)準(zhǔn)入準(zhǔn)出方案

下一篇：秒開(kāi)率從 18% 到 64%，我們對(duì)小程序模擬器做了什么？

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
偷偷摘套内射激情视频