偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一條 FlinkSQL 從提交到運(yùn)行結(jié)束到底經(jīng)歷了哪些奇妙的故事？

作者：隨川 2025-10-09 07:25:00

大數(shù)據(jù)

本文我們將逐一揭開(kāi)Flink SQL神秘的面紗，深入解析其經(jīng)歷的每一個(gè)關(guān)鍵階段：SQL提交與解析、語(yǔ)法驗(yàn)證、邏輯計(jì)劃生成、邏輯計(jì)劃優(yōu)化、物理計(jì)劃轉(zhuǎn)換、JobGraph構(gòu)建、作業(yè)提交與調(diào)度、分布式執(zhí)行與狀態(tài)管理，以及最終的作業(yè)終結(jié)。

Apache Flink，作為業(yè)界領(lǐng)先的流處理框架，以其卓越的性能、精確一次（Exactly-Once）的狀態(tài)管理和強(qiáng)大的事件時(shí)間處理能力，贏得了廣泛的贊譽(yù)。而Flink SQL，作為Flink提供的高級(jí)API，更是將復(fù)雜的流處理邏輯封裝在簡(jiǎn)潔的SQL語(yǔ)句中，極大地降低了實(shí)時(shí)開(kāi)發(fā)的門(mén)檻，讓數(shù)據(jù)分析師和工程師都能輕松構(gòu)建強(qiáng)大的實(shí)時(shí)應(yīng)用。

我們常常驚嘆于Flink SQL的簡(jiǎn)潔與強(qiáng)大，一條簡(jiǎn)單的INSERT INTO ... SELECT ... FROM ...語(yǔ)句，就能啟動(dòng)一個(gè)復(fù)雜的、分布式的、高可用的流處理作業(yè)。然而，這行代碼背后究竟隱藏著怎樣的技術(shù)奇觀？它如何從一個(gè)靜態(tài)的文本字符串，演變成一個(gè)在集群中奔騰不息的數(shù)據(jù)洪流？

這篇文章將帶你踏上一場(chǎng)深度探索之旅，我們將以“上帝視角”全程跟蹤一條Flink SQL從被敲下的那一刻起，到最終在集群中穩(wěn)定運(yùn)行、處理數(shù)據(jù)、直至結(jié)束的完整生命周期。我們將逐一揭開(kāi)其神秘的面紗，深入解析其經(jīng)歷的每一個(gè)關(guān)鍵階段：SQL提交與解析、語(yǔ)法驗(yàn)證、邏輯計(jì)劃生成、邏輯計(jì)劃優(yōu)化、物理計(jì)劃轉(zhuǎn)換、JobGraph構(gòu)建、作業(yè)提交與調(diào)度、分布式執(zhí)行與狀態(tài)管理，以及最終的作業(yè)終結(jié)。

這不僅是一次技術(shù)原理的梳理，更是一次對(duì)現(xiàn)代分布式計(jì)算系統(tǒng)設(shè)計(jì)哲學(xué)的洞察。準(zhǔn)備好了嗎？讓我們一同潛入Flink SQL的冰山之下，探索那個(gè)宏偉而精密的內(nèi)在世界。

第一章：旅程的起點(diǎn) - SQL提交與客戶端網(wǎng)關(guān)

一切故事都始于一個(gè)意圖。用戶，無(wú)論是通過(guò)命令行工具、IDE插件還是應(yīng)用程序，編寫(xiě)了一條SQL語(yǔ)句，意圖從某個(gè)數(shù)據(jù)源（如Kafka）讀取數(shù)據(jù)，經(jīng)過(guò)一系列轉(zhuǎn)換，最終將結(jié)果寫(xiě)入某個(gè)目標(biāo)（如MySQL、Elasticsearch或另一個(gè)Kafka主題）。

1. 多樣的提交渠道

Flink SQL提供了多種與用戶交互的入口，以適應(yīng)不同的使用場(chǎng)景：

SQL Client：這是Flink官方提供的命令行工具，非常適合進(jìn)行交互式查詢和快速原型驗(yàn)證。用戶啟動(dòng)SQL Client后，會(huì)進(jìn)入一個(gè)類似MySQL的命令行界面。在這里，用戶可以逐條輸入SQL語(yǔ)句，按下回車(chē)鍵，客戶端便會(huì)將這條SQL語(yǔ)句封裝成一個(gè)請(qǐng)求，發(fā)送給其背后連接的Flink集群。SQL Client本身不執(zhí)行任何計(jì)算，它只是一個(gè)輕量級(jí)的“信使”。
SQL Gateway：對(duì)于生產(chǎn)環(huán)境，一個(gè)長(zhǎng)期運(yùn)行、可被多用戶/多應(yīng)用并發(fā)訪問(wèn)的服務(wù)更為合適。SQL Gateway正是為此而生。它是一個(gè)獨(dú)立的守護(hù)進(jìn)程，提供了RESTful API接口。任何能夠發(fā)送HTTP請(qǐng)求的客戶端（如Web應(yīng)用、Java/Python程序）都可以通過(guò)調(diào)用這些API來(lái)提交SQL查詢、獲取結(jié)果、管理會(huì)話等。SQL Gateway負(fù)責(zé)管理用戶的會(huì)話狀態(tài)、維護(hù)Catalog（元數(shù)據(jù)）信息，并將SQL請(qǐng)求安全地轉(zhuǎn)發(fā)給Flink集群。它解耦了客戶端與計(jì)算集群，提供了更好的隔離性和可管理性。
Table API（編程式）：對(duì)于需要將Flink SQL深度集成到Java/Scala應(yīng)用程序中的場(chǎng)景，F(xiàn)link提供了Table API。開(kāi)發(fā)者可以在代碼中直接嵌入SQL字符串，并通過(guò)TableEnvironment對(duì)象來(lái)執(zhí)行它。例如：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

// 在代碼中定義和執(zhí)行SQL
tableEnv.executeSql("CREATE TABLE KafkaSource (...) WITH (...)");
tableEnv.executeSql("CREATE TABLE MySqlSink (...) WITH (...)");

// 提交SQL查詢，這會(huì)觸發(fā)后續(xù)所有流程
TableResult result = tableEnv.executeSql(
    "INSERT INTO MySqlSink " +
    "SELECT userId, COUNT(*) AS cnt FROM KafkaSource WHERE action = 'click' GROUP BY userId"
);

這種方式賦予了開(kāi)發(fā)者最大的靈活性，可以在SQL和更底層的DataStream API之間無(wú)縫切換。

2. 進(jìn)入“黑盒”：TableEnvironment

無(wú)論通過(guò)哪種渠道提交，SQL語(yǔ)句最終都會(huì)抵達(dá)一個(gè)核心組件——TableEnvironment?？梢詫⑵淅斫鉃镕link SQL世界的“中央處理器”或“編譯器前端”。它負(fù)責(zé)維護(hù)整個(gè)SQL執(zhí)行上下文，包括：

Catalog：元數(shù)據(jù)的注冊(cè)中心，記錄了所有的表、視圖、函數(shù)等信息及其對(duì)應(yīng)的物理連接器、數(shù)據(jù)格式、Schema等。
當(dāng)前數(shù)據(jù)庫(kù)/命名空間：類似于傳統(tǒng)數(shù)據(jù)庫(kù)的USE database。
配置參數(shù)：影響SQL執(zhí)行行為的各種參數(shù)，如時(shí)區(qū)、空閑狀態(tài)保留時(shí)間等。

當(dāng)tableEnv.executeSql(sql)被調(diào)用時(shí)，這條SQL字符串就正式踏上了它在Flink內(nèi)部的奇幻漂流。TableEnvironment接收到這個(gè)字符串后，第一站便是“語(yǔ)言學(xué)院”——解析與驗(yàn)證。

第二章：解構(gòu)語(yǔ)言 - SQL解析與驗(yàn)證

計(jì)算機(jī)無(wú)法直接理解人類自然語(yǔ)言或SQL這樣的聲明式語(yǔ)言。它需要將這段文本翻譯成一種結(jié)構(gòu)化的、機(jī)器可讀的格式。這個(gè)過(guò)程分為兩步：詞法/語(yǔ)法分析和語(yǔ)義分析。

1. 詞法與語(yǔ)法分析：從字符串到語(yǔ)法樹(shù)

這個(gè)過(guò)程的核心是Apache Calcite，一個(gè)強(qiáng)大的、可擴(kuò)展的動(dòng)態(tài)數(shù)據(jù)管理框架。Flink SQL深度依賴Calcite來(lái)完成SQL的解析、優(yōu)化和執(zhí)行計(jì)劃的生成。

詞法分析：Calcite的解析器首先會(huì)掃描SQL字符串，將其拆分成一個(gè)個(gè)有意義的最小單元，稱為“詞法單元”。例如，SELECT userId FROM events會(huì)被拆分為SELECT（關(guān)鍵字）、userId（標(biāo)識(shí)符）、FROM（關(guān)鍵字）、events（標(biāo)識(shí)符）。
語(yǔ)法分析：接下來(lái)，解析器會(huì)根據(jù)預(yù)定義的SQL語(yǔ)法規(guī)則（通常以BNF范式定義），檢查這些詞法單元的組合是否構(gòu)成一個(gè)合法的SQL語(yǔ)句。這個(gè)過(guò)程就像我們檢查一個(gè)句子的主謂賓是否齊全、語(yǔ)序是否正確。

如果語(yǔ)法正確，解析器會(huì)生成一個(gè)抽象語(yǔ)法樹(shù)。AST是一種樹(shù)形數(shù)據(jù)結(jié)構(gòu)，它精確地表達(dá)了SQL語(yǔ)句的語(yǔ)法結(jié)構(gòu)。每個(gè)節(jié)點(diǎn)代表一個(gè)語(yǔ)法成分，如一個(gè)查詢塊、一個(gè)表名、一個(gè)表達(dá)式等。

例如，對(duì)于SQL SELECT a, b FROM t WHERE c > 10，其AST可能簡(jiǎn)化為：

SelectStmt
         /      \
    ProjectList   WhereClause
      /    \          |
    a      b      BinaryExpr(>)
                   /    \
                  c      10

AST是純語(yǔ)法層面的，它只關(guān)心“結(jié)構(gòu)”，不關(guān)心“含義”。

2. 語(yǔ)義分析：賦予語(yǔ)法以意義

一個(gè)語(yǔ)法正確的SQL語(yǔ)句可能仍然是毫無(wú)意義或錯(cuò)誤的。例如，SELECT non_existent_column FROM my_table。語(yǔ)義分析階段的目的就是檢查SQL的“含義”是否正確，確保它在當(dāng)前TableEnvironment的上下文中是可執(zhí)行的。

TableEnvironment會(huì)遍歷AST，并執(zhí)行一系列檢查：

對(duì)象存在性檢查：查詢中引用的表、視圖、函數(shù)是否在Catalog中注冊(cè)？
字段/列存在性檢查：訪問(wèn)的列是否存在于對(duì)應(yīng)的表中？
類型兼容性檢查：表達(dá)式中的操作數(shù)類型是否匹配？例如，WHERE age > 'twenty'，如果age是整數(shù)類型，這里就會(huì)報(bào)類型不匹配的錯(cuò)誤。函數(shù)調(diào)用的參數(shù)類型和數(shù)量是否正確？
聚合與GROUP BY檢查：SELECT子句中的非聚合列是否都出現(xiàn)在GROUP BY子句中？
權(quán)限檢查（在更復(fù)雜的部署中）：用戶是否有權(quán)限訪問(wèn)指定的表或執(zhí)行特定操作？

如果語(yǔ)義分析發(fā)現(xiàn)任何錯(cuò)誤，它會(huì)拋出一個(gè)ValidationException，并將詳細(xì)的錯(cuò)誤信息返回給用戶，整個(gè)流程就此終止。

如果所有檢查都通過(guò)，SQL語(yǔ)句就被認(rèn)為是“有效”的。此時(shí)，AST雖然仍然是語(yǔ)法樹(shù)，但其中的每個(gè)節(jié)點(diǎn)都已經(jīng)被賦予了豐富的語(yǔ)義信息（如數(shù)據(jù)類型、表的Schema等）。這個(gè)經(jīng)過(guò)驗(yàn)證的AST，是通往下一階段——邏輯計(jì)劃生成的基石。

第三章：構(gòu)建藍(lán)圖 - 從SQL到邏輯計(jì)劃

現(xiàn)在我們有了一個(gè)經(jīng)過(guò)驗(yàn)證的、語(yǔ)義清晰的AST。下一步是將其轉(zhuǎn)換為一個(gè)更能體現(xiàn)關(guān)系代數(shù)思想的邏輯計(jì)劃。邏輯計(jì)劃是關(guān)系數(shù)據(jù)庫(kù)理論的核心，它描述了“需要做什么”，而不關(guān)心“具體怎么做”。

1. RelNode樹(shù)：Calcite的邏輯表示

在Calcite的世界里，邏輯計(jì)劃由一棵RelNode樹(shù)來(lái)表示。每個(gè)RelNode代表一個(gè)關(guān)系操作，如掃描、過(guò)濾、投影、連接、聚合等。RelNode樹(shù)從根到葉描述了數(shù)據(jù)的計(jì)算流程。

轉(zhuǎn)換過(guò)程大致如下：TableEnvironment會(huì)調(diào)用Calcite的SqlToRelConverter，它會(huì)遞歸地遍歷驗(yàn)證后的AST，并將每個(gè)語(yǔ)法節(jié)點(diǎn)映射為對(duì)應(yīng)的RelNode。

讓我們通過(guò)一個(gè)具體的例子來(lái)理解這個(gè)過(guò)程：

INSERT INTO sink_table
SELECT
  user_id,
  COUNT(*) AS purchase_cnt
FROM source_table
WHERE event_type = 'purchase'
GROUP BY user_id

FROM source_table：AST中的表引用節(jié)點(diǎn)會(huì)被轉(zhuǎn)換為一個(gè)LogicalTableScan節(jié)點(diǎn)。這個(gè)節(jié)點(diǎn)代表了從source_table這個(gè)邏輯表中讀取數(shù)據(jù)的操作。它是整個(gè)RelNode樹(shù)的葉子節(jié)點(diǎn)。
WHERE event_type = 'purchase'：這個(gè)過(guò)濾條件會(huì)被轉(zhuǎn)換為一個(gè)LogicalFilter節(jié)點(diǎn)。它的輸入是上一步生成的LogicalTableScan節(jié)點(diǎn)，表示數(shù)據(jù)流先經(jīng)過(guò)表掃描，再進(jìn)行過(guò)濾。
GROUP BY user_id, COUNT(*)：聚合操作會(huì)被轉(zhuǎn)換為一個(gè)LogicalAggregate節(jié)點(diǎn)。它的輸入是LogicalFilter節(jié)點(diǎn)。這個(gè)節(jié)點(diǎn)內(nèi)部包含了分組鍵（user_id）和聚合函數(shù)（COUNT(*)）。
SELECT user_id, COUNT(*) AS purchase_cnt：投影操作（選擇最終的輸出列并可能重命名）會(huì)被轉(zhuǎn)換為一個(gè)LogicalProject節(jié)點(diǎn)。它的輸入是LogicalAggregate節(jié)點(diǎn)。它定義了從上游節(jié)點(diǎn)的輸出中提取哪些列，以及如何進(jìn)行計(jì)算和重命名。
INSERT INTO sink_table：這個(gè)寫(xiě)入操作在邏輯計(jì)劃階段通常被特殊處理。它不是一個(gè)RelNode，而是作為整個(gè)查詢的“匯”信息被記錄下來(lái)。

最終，我們得到一棵未經(jīng)優(yōu)化的初始邏輯計(jì)劃樹(shù)（RelNode樹(shù)），其結(jié)構(gòu)如下：

LogicalProject(user_id, COUNT(*) AS purchase_cnt)
  |
  +-- LogicalAggregate(group by: [user_id], aggregates: [COUNT(*)])
       |
       +-- LogicalFilter(condition: [event_type = 'purchase'])
            |
            +-- LogicalTableScan(table: [source_table])

這棵樹(shù)精確地描述了數(shù)據(jù)處理的邏輯步驟，但它可能不是最高效的。比如，過(guò)濾操作應(yīng)該在聚合之前執(zhí)行，但目前的樹(shù)結(jié)構(gòu)已經(jīng)體現(xiàn)了這一點(diǎn)。然而，還有更多潛在的優(yōu)化空間，這正是下一階段要解決的問(wèn)題。

第四章：精煉與優(yōu)化 - 邏輯計(jì)劃優(yōu)化

初始的邏輯計(jì)劃雖然功能正確，但往往執(zhí)行效率低下。它就像一份建筑師畫(huà)的初稿，功能齊全但細(xì)節(jié)粗糙。優(yōu)化器的任務(wù)就是對(duì)其進(jìn)行精雕細(xì)琢，生成一份更高效的執(zhí)行藍(lán)圖。

Flink SQL的優(yōu)化器同樣是基于Calcite構(gòu)建的，主要采用兩種優(yōu)化策略：基于規(guī)則的優(yōu)化和基于成本的優(yōu)化。

1. 基于規(guī)則的優(yōu)化

RBO是一套啟發(fā)式的“經(jīng)驗(yàn)法則”，優(yōu)化器會(huì)遍歷RelNode樹(shù)，并嘗試應(yīng)用這些規(guī)則來(lái)重寫(xiě)計(jì)劃樹(shù)。這些規(guī)則通常是“公理”，即應(yīng)用后不會(huì)改變最終結(jié)果，但能提升性能。

一些經(jīng)典的RBO規(guī)則包括：

(1) 謂詞下推：這是最重要、最有效的優(yōu)化規(guī)則之一。其核心思想是將過(guò)濾條件盡可能地向數(shù)據(jù)源方向推送。在RelNode樹(shù)中，這意味著LogicalFilter節(jié)點(diǎn)會(huì)被移動(dòng)到LogicalJoin節(jié)點(diǎn)的下方。

為什么？因?yàn)樵皆邕^(guò)濾數(shù)據(jù)，后續(xù)操作需要處理的數(shù)據(jù)量就越小。這能顯著減少網(wǎng)絡(luò)傳輸、內(nèi)存占用和CPU計(jì)算。

例子：在JOIN操作中，如果有一個(gè)過(guò)濾條件只涉及其中一張表，那么應(yīng)該先對(duì)這張表進(jìn)行過(guò)濾，再執(zhí)行JOIN。

-- 優(yōu)化前
SELECT * FROM A JOIN B ON A.id = B.id WHERE A.age > 20

-- 優(yōu)化后（謂詞下推）
SELECT * FROM (SELECT * FROM A WHERE age > 20) A_filtered JOIN B ON A_filtered.id = B.id

(2) 投影剪枝：移除所有在最終結(jié)果中不被使用的列。

為什么？減少每條記錄的數(shù)據(jù)大小，從而降低內(nèi)存消耗和網(wǎng)絡(luò)I/O。

例子：如果source_table有100列，但查詢最終只用到user_id和event_type兩列，那么在邏輯計(jì)劃中，LogicalTableScan節(jié)點(diǎn)之后應(yīng)該緊跟著一個(gè)LogicalProject節(jié)點(diǎn)，只保留這兩列，后續(xù)的所有操作都基于這個(gè)“瘦身”后的數(shù)據(jù)流進(jìn)行。

(3) 常量折疊：在編譯期間預(yù)先計(jì)算出結(jié)果為常量的表達(dá)式。

例子：WHERE price * 1.1 > 100 AND 1 + 2 = 3 會(huì)被優(yōu)化為 WHERE price * 1.1 > 100 AND TRUE，進(jìn)一步簡(jiǎn)化為 WHERE price * 1.1 > 100。

(4) 合并操作：將連續(xù)的、可以合并的操作合并成一個(gè)。

例子：兩個(gè)連續(xù)的LogicalFilter節(jié)點(diǎn)可以被合并成一個(gè)，其條件是AND關(guān)系。一個(gè)LogicalProject節(jié)點(diǎn)如果只是簡(jiǎn)單地重命名列，可能會(huì)和另一個(gè)LogicalProject合并。

優(yōu)化器會(huì)反復(fù)掃描RelNode樹(shù)，應(yīng)用所有適用的規(guī)則，直到?jīng)]有規(guī)則可以再應(yīng)用為止，此時(shí)得到的是一個(gè)經(jīng)過(guò)RBO優(yōu)化的邏輯計(jì)劃。

2. 基于成本的優(yōu)化

RBO雖然有效，但它不考慮數(shù)據(jù)的實(shí)際特征。例如，對(duì)于JOIN操作，RBO不知道應(yīng)該用哪張表作為驅(qū)動(dòng)表（廣播哈希連接中的小表）更高效。CBO則彌補(bǔ)了這一不足。

CBO的核心思想是：為同一個(gè)邏輯操作生成多種不同的物理實(shí)現(xiàn)方式，并根據(jù)數(shù)據(jù)統(tǒng)計(jì)信息估算每種方式的執(zhí)行成本，選擇成本最低的那個(gè)。

(1) 統(tǒng)計(jì)信息收集：CBO的決策依賴于準(zhǔn)確的統(tǒng)計(jì)信息。Flink可以通過(guò)ANALYZE TABLE語(yǔ)句手動(dòng)收集表的統(tǒng)計(jì)信息，或者某些Source連接器（如JDBC）也能提供元數(shù)據(jù)統(tǒng)計(jì)。這些信息包括：

表的行數(shù)（表大?。?/li>
列的基數(shù)（NDV，Number of Distinct Values，唯一值數(shù)量）
列的數(shù)據(jù)分布（直方圖）
列是否為空（NULL）等

(2) 成本模型：Flink內(nèi)置了一個(gè)成本模型，它會(huì)根據(jù)RelNode的類型和輸入數(shù)據(jù)的統(tǒng)計(jì)信息，來(lái)估算其執(zhí)行成本。成本通常由I/O成本（讀寫(xiě)數(shù)據(jù)量）和CPU成本（計(jì)算復(fù)雜度）加權(quán)得出。

(3) 計(jì)劃枚舉與選擇：對(duì)于像JOIN這樣的關(guān)鍵操作，CBO會(huì)考慮多種物理實(shí)現(xiàn)策略：CBO會(huì)利用統(tǒng)計(jì)信息估算每種策略的成本，并選擇成本最低的那個(gè)。

Broadcast Hash Join：如果一張表很小，可以將其廣播到所有下游任務(wù)，在內(nèi)存中構(gòu)建哈希表，然后與另一張大表進(jìn)行流式關(guān)聯(lián)。成本取決于小表的大小。
Shuffle Hash Join：如果兩張表都很大，則需要對(duì)JOIN key進(jìn)行shuffle，將相同key的數(shù)據(jù)發(fā)送到同一個(gè)任務(wù)，然后在任務(wù)內(nèi)存中構(gòu)建哈希表進(jìn)行關(guān)聯(lián)。成本取決于網(wǎng)絡(luò)shuffle的數(shù)據(jù)量和兩表的大小。
Nested-Loop Join：通常效率最低，但在特定情況下（如右表非常小且沒(méi)有索引）可能被考慮。

經(jīng)過(guò)RBO和CBO的雙重洗禮，我們最終得到了一棵高度優(yōu)化的邏輯計(jì)劃樹(shù)。這棵樹(shù)在邏輯上是最優(yōu)的，但它仍然是抽象的，無(wú)法直接在Flink集群上執(zhí)行。下一步，就是將其翻譯成Flink能懂的“物理語(yǔ)言”。

第五章：連接現(xiàn)實(shí) - 從邏輯計(jì)劃到物理計(jì)劃

如果說(shuō)邏輯計(jì)劃是“做什么”的藍(lán)圖，那么物理計(jì)劃就是“怎么做”的施工圖。它需要將抽象的關(guān)系操作，具體化為Flink運(yùn)行時(shí)能夠理解和執(zhí)行的算子。

1. FlinkPhysicalRel：Flink的物理計(jì)劃節(jié)點(diǎn)

Flink定義了一套自己的物理計(jì)劃節(jié)點(diǎn)，它們都繼承自Calcite的PhysicalRel接口，通常以Exec結(jié)尾，如StreamExecCalc、StreamExecAggregate、StreamExecJoin等。這些節(jié)點(diǎn)直接映射了Flink DataStream API中的算子。

轉(zhuǎn)換過(guò)程由FlinkRelOptPlanner的transform方法驅(qū)動(dòng)，它會(huì)遍歷優(yōu)化后的邏輯RelNode樹(shù)，并將每個(gè)節(jié)點(diǎn)替換為對(duì)應(yīng)的Flink物理節(jié)點(diǎn)。

LogicalProject 和 LogicalFilter 通常會(huì)被合并成一個(gè) StreamExecCalc。Calc是計(jì)算（Calculate）的縮稱，它可以同時(shí)實(shí)現(xiàn)投影和過(guò)濾功能，效率更高。
LogicalAggregate 會(huì)被轉(zhuǎn)換為 StreamExecGroupAggregate。在流處理場(chǎng)景下，為了處理無(wú)限數(shù)據(jù)流和實(shí)現(xiàn)增量計(jì)算，F(xiàn)link的聚合算子非常復(fù)雜，需要依賴狀態(tài)和窗口。
LogicalJoin 會(huì)被轉(zhuǎn)換為 StreamExecJoin。根據(jù)JOIN的類型（Regular Join, Interval Join, Temporal Table Join）和窗口的設(shè)置，會(huì)生成不同的物理Join算子。
LogicalTableScan 會(huì)被轉(zhuǎn)換為 StreamExecTableSourceScan，它直接關(guān)聯(lián)到用戶在DDL中定義的Connector和Format。

2. 流處理特有的物理轉(zhuǎn)換

在流處理模式下，這個(gè)轉(zhuǎn)換過(guò)程需要特別處理一些關(guān)鍵概念：

窗口：SQL中的GROUP BY TUMBLE/HOP/SESSION(...)子句，在邏輯計(jì)劃中可能被表示為特殊的LogicalWindow節(jié)點(diǎn)。在轉(zhuǎn)換為物理計(jì)劃時(shí)，它們會(huì)被具體化為窗口算子，如StreamExecGlobalWindowAggregate，并負(fù)責(zé)分配窗口、觸發(fā)計(jì)算等。

兩階段聚合：為了優(yōu)化分布式聚合的性能，F(xiàn)link的物理計(jì)劃器會(huì)智能地引入一個(gè)兩階段聚合的優(yōu)化。

問(wèn)題：如果所有數(shù)據(jù)都通過(guò)網(wǎng)絡(luò)shuffle到一個(gè)聚合節(jié)點(diǎn)進(jìn)行計(jì)算，該節(jié)點(diǎn)會(huì)成為瓶頸，且容易發(fā)生數(shù)據(jù)傾斜。

解決方案：在本地聚合（Local Aggregation）之前，先進(jìn)行一次預(yù)聚合（Pre-aggregation）。

第一階段（本地預(yù)聚合）：數(shù)據(jù)在進(jìn)入網(wǎng)絡(luò)shuffle之前，先在各自的算子實(shí)例中進(jìn)行一次部分聚合。例如，COUNT會(huì)累加本地的計(jì)數(shù)，SUM會(huì)累加本地的和。
第二階段（全局聚合）：將預(yù)聚合后的結(jié)果進(jìn)行shuffle，然后在全局聚合算子中進(jìn)行最終的匯總。在物理計(jì)劃中，一個(gè)LogicalAggregate節(jié)點(diǎn)可能會(huì)被展開(kāi)為L(zhǎng)ocalAggregate + GlobalAggregate兩個(gè)物理節(jié)點(diǎn)。這大大減少了網(wǎng)絡(luò)shuffle的數(shù)據(jù)量。

經(jīng)過(guò)這一系列轉(zhuǎn)換，我們最終得到了一棵Flink物理計(jì)劃樹(shù)（FlinkPhysicalRel樹(shù)）。這棵樹(shù)上的每一個(gè)節(jié)點(diǎn)都對(duì)應(yīng)著一個(gè)或多個(gè)具體的Flink運(yùn)行時(shí)算子，它們之間的連接關(guān)系也明確了數(shù)據(jù)是如何流動(dòng)的?，F(xiàn)在，我們離一個(gè)可執(zhí)行的Flink作業(yè)只有一步之遙了。

第六章：鑄就作業(yè) - 從物理計(jì)劃到JobGraph

物理計(jì)劃雖然已經(jīng)很具體，但它仍然是一個(gè)“計(jì)劃”。Flink集群需要一個(gè)更底層、更面向資源調(diào)度的數(shù)據(jù)結(jié)構(gòu)來(lái)描述一個(gè)作業(yè)，這就是JobGraph。

1. JobGraph：Flink作業(yè)的執(zhí)行藍(lán)圖

JobGraph是Flink作業(yè)被提交給JobManager的最終形式。它是一個(gè)有向無(wú)環(huán)圖（DAG），由以下核心元素構(gòu)成：

JobVertex：代表一個(gè)可以并行執(zhí)行的“算子鏈”。一個(gè)JobVertex是JobGraph的基本調(diào)度單元。
JobEdge：代表兩個(gè)JobVertex之間的數(shù)據(jù)連接，定義了數(shù)據(jù)的分發(fā)模式（如POINTWISE點(diǎn)對(duì)點(diǎn)，ALL_TO_ALL全連接，后者對(duì)應(yīng)于keyBy或rebalance）和交換數(shù)據(jù)的類型（如PIPELINED流式交換，BLOCKING批處理交換）。
IntermediateDataSet：代表JobVertex的輸出，是JobEdge的數(shù)據(jù)源。

2. 算子鏈：性能優(yōu)化的關(guān)鍵

從物理計(jì)劃樹(shù)到JobGraph的轉(zhuǎn)換過(guò)程中，一個(gè)至關(guān)重要的優(yōu)化是算子鏈。

概念：將多個(gè)物理算子合并到一個(gè)JobVertex中，讓它們?cè)谕粋€(gè)線程（Task）中串行執(zhí)行。

為什么？為了減少線程間切換和網(wǎng)絡(luò)通信的開(kāi)銷。如果兩個(gè)算子之間是Forward分發(fā)（即上下游并行度一樣，數(shù)據(jù)一對(duì)一發(fā)送），那么將它們鏈接在一起，數(shù)據(jù)就可以直接在內(nèi)存中傳遞，無(wú)需序列化/反序列化和網(wǎng)絡(luò)傳輸。

鏈接條件：并非所有算子都能被鏈接。主要的限制包括：

算子之間的數(shù)據(jù)分發(fā)模式不能是ALL_TO_ALL（即不能有keyBy、broadcast等改變分區(qū)的操作）。
上下游算子的并行度必須相同。
不能打破用戶對(duì)shuffle的顯式控制。

例如，一個(gè)典型的流處理作業(yè)鏈可能是：Source -> Filter -> Map -> Keyed Aggregation -> Sink。其中，Source -> Filter -> Map可以被鏈接成一個(gè)JobVertex，因?yàn)樗鼈冎g都是Forward分發(fā)。而Keyed Aggregation會(huì)引入keyBy（ALL_TO_ALL分發(fā)），所以它必須成為一個(gè)獨(dú)立的JobVertex。Sink通常也是獨(dú)立的。

3. 構(gòu)建過(guò)程

PipelineExecutor會(huì)遍歷物理計(jì)劃樹(shù)，執(zhí)行以下操作：

創(chuàng)建JobVertex：為物理計(jì)劃樹(shù)的每個(gè)節(jié)點(diǎn)（或一組可鏈接的節(jié)點(diǎn)）創(chuàng)建一個(gè)JobVertex。
設(shè)置并行度：為每個(gè)JobVertex設(shè)置并行度。這個(gè)并行度可以來(lái)自表配置、執(zhí)行環(huán)境配置，也可以是算子特定的配置。
建立JobEdge：根據(jù)物理節(jié)點(diǎn)之間的數(shù)據(jù)流和分區(qū)策略，創(chuàng)建JobEdge來(lái)連接JobVertex。
序列化算子：將每個(gè)物理算子（StreamOperator）及其配置（StreamConfig）序列化，并存儲(chǔ)在對(duì)應(yīng)的JobVertex中。這些信息在后續(xù)被TaskManager加載以實(shí)例化實(shí)際的算子。

最終，一個(gè)完整的、可序列化的JobGraph對(duì)象被構(gòu)建出來(lái)。它就像一個(gè)包含了所有施工指令、物料清單和設(shè)計(jì)圖紙的壓縮包，準(zhǔn)備被發(fā)送到Flink集群的“總指揮部”——JobManager。

第七章：集群的心跳 - JobGraph提交與調(diào)度

現(xiàn)在，JobGraph已經(jīng)整裝待發(fā)。它需要被提交到Flink集群，并由集群的調(diào)度系統(tǒng)來(lái)驅(qū)動(dòng)其執(zhí)行。

1. 提交到Dispatcher

客戶端（無(wú)論是SQL Client、SQL Gateway還是應(yīng)用程序）通過(guò)REST API將JobGraph提交給Flink集群的Dispatcher組件。

Dispatcher：是集群的“前臺(tái)接待員”。它不直接執(zhí)行作業(yè)，而是負(fù)責(zé)接收作業(yè)提交請(qǐng)求，為每個(gè)作業(yè)啟動(dòng)一個(gè)專屬的JobMaster（也稱為Dispatcher的JobGraph的leader），然后將作業(yè)的管理權(quán)移交給這個(gè)JobMaster。

2. JobMaster：作業(yè)的大腦

一旦JobMaster被啟動(dòng)，它就成為這個(gè)特定作業(yè)的“總指揮”。它的生命周期與作業(yè)綁定，負(fù)責(zé)作業(yè)的整個(gè)執(zhí)行過(guò)程。

(1) 接收J(rèn)obGraph：JobMaster從Dispatcher那里獲取JobGraph。

(2) 構(gòu)建ExecutionGraph：這是JobGraph的“并行化”和“可執(zhí)行化”版本。ExecutionGraph是JobMaster進(jìn)行調(diào)度、狀態(tài)管理和故障恢復(fù)的核心數(shù)據(jù)結(jié)構(gòu)。

JobGraph中的一個(gè)JobVertex（代表一個(gè)算子鏈）會(huì)被展開(kāi)成一個(gè)ExecutionJobVertex。
ExecutionJobVertex會(huì)根據(jù)其并行度，創(chuàng)建多個(gè)ExecutionVertex。每個(gè)ExecutionVertex代表了該算子鏈的一個(gè)并行子任務(wù)。
ExecutionVertex之間通過(guò)ExecutionEdge連接，形成了ExecutionGraph。
每個(gè)ExecutionVertex的當(dāng)前執(zhí)行狀態(tài)被封裝在Execution對(duì)象中。Execution記錄了該子任務(wù)的嘗試次數(shù)、所在TaskManager、當(dāng)前狀態(tài)（如SCHEDULED、DEPLOYING、RUNNING、FINISHED、FAILED）等。

(3) 資源申請(qǐng)與調(diào)度：

JobMaster會(huì)查看ExecutionGraph，確定需要部署多少個(gè)ExecutionVertex（即多少個(gè)并行子任務(wù)）。
它會(huì)向集群的ResourceManager請(qǐng)求所需的TaskSlot（任務(wù)槽）。TaskSlot是TaskManager中資源分配的基本單位，一個(gè)TaskSlot代表一個(gè)固定的資源集合（如一定大小的內(nèi)存、CPU核心）。
ResourceManager會(huì)根據(jù)集群的資源狀況，在某個(gè)或某些TaskManager上分配空閑的TaskSlot，并將TaskSlot的歸屬信息返回給JobMaster。

(4) 任務(wù)部署：

一旦JobMaster獲得了TaskSlot，它就會(huì)將ExecutionVertex（即子任務(wù)）部署到對(duì)應(yīng)的TaskManager的TaskSlot中。

部署過(guò)程包括：將序列化的算子信息（StreamOperator和StreamConfig）、任務(wù)配置、以及整個(gè)ExecutionGraph的相關(guān)信息通過(guò)網(wǎng)絡(luò)發(fā)送給目標(biāo)TaskManager。

3. TaskManager：作業(yè)的工人

TaskManager是Flink集群的“工作節(jié)點(diǎn)”，是真正執(zhí)行計(jì)算的地方。

接收任務(wù)：TaskManager接收到JobMaster的部署請(qǐng)求后，會(huì)在指定的TaskSlot中啟動(dòng)一個(gè)Task線程。
實(shí)例化算子：Task線程會(huì)反序列化StreamOperator和StreamConfig，根據(jù)這些信息實(shí)例化用戶代碼中定義的算子（如FilterFunction、MapFunction）以及Flink的內(nèi)置算子（如窗口算子、狀態(tài)后端）。
建立網(wǎng)絡(luò)連接：Task會(huì)與上游和下游的Task建立網(wǎng)絡(luò)連接（基于Netty），為數(shù)據(jù)交換做好準(zhǔn)備。
啟動(dòng)任務(wù)：一切準(zhǔn)備就緒后，Task開(kāi)始執(zhí)行。它會(huì)調(diào)用算子的open()方法（用于初始化，如打開(kāi)狀態(tài)后端），然后進(jìn)入主循環(huán)，不斷地從上游接收數(shù)據(jù)，調(diào)用算子的處理邏輯，并將結(jié)果發(fā)送到下游。

至此，一條SQL語(yǔ)句終于從一個(gè)靜態(tài)的文本，徹底“活”了過(guò)來(lái)，變成了一個(gè)在分布式集群中協(xié)同工作、高速處理數(shù)據(jù)的物理實(shí)體。

第八章：數(shù)據(jù)流動(dòng)與作業(yè)終結(jié)

作業(yè)啟動(dòng)后，便進(jìn)入了漫長(zhǎng)的運(yùn)行階段。這個(gè)階段是Flink流處理能力的核心體現(xiàn)。

1. 數(shù)據(jù)的流動(dòng)與處理

數(shù)據(jù)記錄：數(shù)據(jù)以StreamRecord的形式在算子之間流動(dòng)。每個(gè)StreamRecord包含了實(shí)際的數(shù)據(jù)值以及一個(gè)時(shí)間戳（可以是事件時(shí)間或處理時(shí)間）。
算子處理：每個(gè)算子（StreamOperator）都實(shí)現(xiàn)了processElement()方法。當(dāng)一條數(shù)據(jù)到達(dá)時(shí)，這個(gè)方法被調(diào)用。算子可以執(zhí)行任意的用戶邏輯，如過(guò)濾、轉(zhuǎn)換、聚合等。
狀態(tài)管理：對(duì)于有狀態(tài)的計(jì)算（如聚合、窗口），算子會(huì)使用狀態(tài)后端來(lái)存儲(chǔ)和訪問(wèn)狀態(tài)。Flink提供了多種狀態(tài)后端（如HashMapStateBackend、RocksDBStateBackend），可以將狀態(tài)存儲(chǔ)在JVM堆內(nèi)存或本地磁盤(pán)上。
容錯(cuò)機(jī)制：檢查點(diǎn)：為了保證Exactly-Once語(yǔ)義，JobMaster會(huì)周期性地向所有Source算子注入一個(gè)特殊的檢查點(diǎn)屏障。這個(gè)屏障會(huì)像數(shù)據(jù)一樣，以相同的速度向下游流動(dòng)。當(dāng)一個(gè)算子收到所有上游輸入流的屏障后，它會(huì)將自己的當(dāng)前狀態(tài)快照持久化到外部存儲(chǔ)（如HDFS、S3），然后將屏障繼續(xù)向下游廣播。當(dāng)Sink算子也收到屏障并完成快照后，整個(gè)作業(yè)的一個(gè)全局一致性快照就完成了。如果作業(yè)發(fā)生故障，JobMaster可以從最近一次成功的檢查點(diǎn)恢復(fù)所有算子的狀態(tài)，并讓數(shù)據(jù)源從記錄的偏移量重新開(kāi)始消費(fèi)，從而保證數(shù)據(jù)不丟不重。

2. 作業(yè)的終結(jié)

流處理作業(yè)通常是長(zhǎng)期運(yùn)行的，但它們終有結(jié)束之時(shí)。結(jié)束的方式主要有三種：

(1) 成功完成：

批處理模式：當(dāng)所有輸入數(shù)據(jù)都被處理完畢后，作業(yè)會(huì)自然結(jié)束。Source算子會(huì)發(fā)送一個(gè)特殊的“結(jié)束”信號(hào)，信號(hào)傳遞到Sink后，所有任務(wù)正常退出，狀態(tài)為FINISHED。
流處理模式：流作業(yè)理論上永不結(jié)束。它的“完成”通常是由用戶主動(dòng)觸發(fā)的。例如，通過(guò)STOP命令（Savepoint后停止）或CANCEL命令。

(2) 失敗與重啟：

故障發(fā)生：某個(gè)Task可能因?yàn)榇a異常、網(wǎng)絡(luò)問(wèn)題、TaskManager宕機(jī)等原因而失敗。
報(bào)告失?。篢ask會(huì)向JobMaster報(bào)告失敗。
重啟策略：JobMaster會(huì)根據(jù)配置的重啟策略（如固定延遲重啟、失敗率重啟）來(lái)決定是否重啟作業(yè)。
恢復(fù)作業(yè)：如果決定重啟，JobMaster會(huì)取消所有正在運(yùn)行的任務(wù)，然后從最近一次成功的檢查點(diǎn)或保存點(diǎn)中恢復(fù)ExecutionGraph的狀態(tài)，并重新調(diào)度所有任務(wù)。整個(gè)作業(yè)會(huì)像“時(shí)光倒流”一樣，回到一個(gè)一致的狀態(tài)，然后重新開(kāi)始處理。

(3) 用戶取消：

用戶通過(guò)Flink Web UI或命令行工具（flink cancel <job_id>）向JobMaster發(fā)送取消請(qǐng)求。
JobMaster會(huì)向所有TaskManager發(fā)送取消信號(hào)。
TaskManager接收到信號(hào)后，會(huì)中斷正在運(yùn)行的Task線程，并釋放所有資源（包括TaskSlot）。
JobMaster更新ExecutionGraph中所有ExecutionVertex的狀態(tài)為CANCELED，然后自己也退出。

無(wú)論以何種方式結(jié)束，JobMaster都會(huì)在退出前清理與該作業(yè)相關(guān)的所有資源，并將最終的作業(yè)狀態(tài)（FINISHED, FAILED, CANCELED）持久化，以便用戶查詢。

結(jié)論：從簡(jiǎn)潔到強(qiáng)大的工程奇跡

回望這條Flink SQL的奇幻漂流，我們不禁為其背后設(shè)計(jì)的精妙與工程的復(fù)雜而感嘆。一行看似簡(jiǎn)單的SQL，背后卻是一場(chǎng)涉及詞法語(yǔ)法解析、語(yǔ)義驗(yàn)證、關(guān)系代數(shù)轉(zhuǎn)換、啟發(fā)式與成本優(yōu)化、物理算子映射、分布式作業(yè)圖構(gòu)建、集群資源調(diào)度、并行任務(wù)執(zhí)行、網(wǎng)絡(luò)數(shù)據(jù)交換、狀態(tài)持久化與容錯(cuò)恢復(fù)的宏大交響。

Apache Calcite作為其“大腦”，賦予了Flink SQL強(qiáng)大的解析和優(yōu)化能力，使其能夠像傳統(tǒng)數(shù)據(jù)庫(kù)一樣智能地處理查詢。
TableEnvironment作為其“中央處理器”，串聯(lián)起了從SQL到邏輯計(jì)劃的整個(gè)前端流程。
JobGraph作為其“設(shè)計(jì)藍(lán)圖”，架起了高級(jí)抽象與底層執(zhí)行之間的橋梁。
JobManager/TaskManager架構(gòu)作為其“軀干”，提供了穩(wěn)定、高效、可擴(kuò)展的分布式運(yùn)行環(huán)境。
檢查點(diǎn)機(jī)制作為其“免疫系統(tǒng)”，保證了在不可靠的分布式環(huán)境下的數(shù)據(jù)一致性。

Flink SQL的成功，在于它通過(guò)層層抽象，將用戶從繁瑣的底層實(shí)現(xiàn)中解放出來(lái)，讓他們能夠?qū)Ｗ⒂跇I(yè)務(wù)邏輯本身。而當(dāng)我們深入其內(nèi)部，才發(fā)現(xiàn)這份簡(jiǎn)潔的背后，是無(wú)數(shù)工程師智慧的結(jié)晶，是對(duì)分布式系統(tǒng)、編譯原理、數(shù)據(jù)庫(kù)理論等領(lǐng)域的深刻理解和巧妙運(yùn)用。

理解了這條從SQL到運(yùn)行的完整鏈路，我們不僅能更好地使用Flink SQL，寫(xiě)出更高效的查詢，更能欣賞到現(xiàn)代大數(shù)據(jù)處理框架的內(nèi)在之美。這趟旅程的終點(diǎn)，也是我們更深層次理解和運(yùn)用Flink的起點(diǎn)。在數(shù)據(jù)之河奔流不息的未來(lái)，F(xiàn)link SQL這艘巨輪，將繼續(xù)憑借其強(qiáng)大的內(nèi)核，載著我們駛向更廣闊的智能世界。

責(zé)任編輯：趙寧寧來(lái)源：大數(shù)據(jù)技能圈

FlinkSQL 大數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<big id="azo3s"><progress id="azo3s"><ins id="azo3s"></ins></progress></big>

<meter id="azo3s"><dfn id="azo3s"></dfn></meter>

<abbr id="azo3s"><strong id="azo3s"></strong></abbr>

<dfn id="azo3s"></dfn>