偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="ghe5w"></center>

<thead id="ghe5w"></thead>

<kbd id="ghe5w"></kbd>

<thead id="ghe5w"></thead>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如何使用 JIT 技術(shù)實(shí)現(xiàn)高效的數(shù)據(jù)庫(kù)表達(dá)式求值

作者：吳立 2024-01-17 07:00:56

數(shù)據(jù)庫(kù) 其他數(shù)據(jù)庫(kù)

本文將分享如何使用 JIT 技術(shù)高效優(yōu)化數(shù)據(jù)庫(kù)表達(dá)式求值。JIT 即時(shí)編譯技術(shù)，又稱為動(dòng)態(tài)翻譯，或運(yùn)行時(shí)編譯。其核心在于將程序在運(yùn)行過(guò)程中轉(zhuǎn)換為機(jī)器代碼，而非在執(zhí)行前預(yù)先編譯為機(jī)器代碼。

一、表達(dá)式求值

1、場(chǎng)景介紹

首先來(lái)介紹一下炎凰數(shù)據(jù)產(chǎn)品所關(guān)注并致力于解決的場(chǎng)景。

當(dāng)前各大企業(yè)都面對(duì)著海量的數(shù)據(jù)，其中包括 MySQL 等關(guān)系型數(shù)據(jù)庫(kù)內(nèi)的結(jié)構(gòu)化數(shù)據(jù)、JSON 格式存儲(chǔ)的半結(jié)構(gòu)化數(shù)據(jù)以及各類日志等非結(jié)構(gòu)化數(shù)據(jù)。需要構(gòu)建一款數(shù)據(jù)分析平臺(tái)，能接入各種異構(gòu)數(shù)據(jù)，并高效地從其中挖掘信息，從而獲得有價(jià)值的洞察和啟示。這就是炎凰數(shù)據(jù)產(chǎn)品希望解決的場(chǎng)景。

在處理日志數(shù)據(jù)時(shí)，通常會(huì)創(chuàng)建一張表，定義字段等信息。然而，這種做法并非必須。當(dāng)日志數(shù)據(jù)被輸入系統(tǒng)時(shí)，它將會(huì)直接進(jìn)入一張數(shù)據(jù)表，無(wú)需經(jīng)過(guò)任何 ETL 流程或數(shù)據(jù)清洗操作。之后可以通過(guò) SQL 語(yǔ)句對(duì)這張數(shù)據(jù)表進(jìn)行實(shí)時(shí)分析及檢索。但在這個(gè)分析的過(guò)程中，如何才能了解這個(gè)數(shù)據(jù)中包含哪些字段以及這些字段如何影響搜索結(jié)果呢？

舉一個(gè)簡(jiǎn)單的例子，查詢 client 是 iPhone，且 IP 地址為 10.1.2.3。然而，我實(shí)際上并不清楚數(shù)據(jù)庫(kù)表中是否存在諸如 IP 這類字段，因?yàn)閿?shù)據(jù)在進(jìn)入到系統(tǒng)的時(shí)候我們并沒(méi)有為它創(chuàng)建對(duì)應(yīng)的字段信息。

因此，查詢會(huì)經(jīng)過(guò)兩層過(guò)濾，首先根據(jù)查詢中已知的信息，可以迅速利用索引獲取滿足過(guò)濾條件 client=‘iPhone’的數(shù)據(jù)。然而，另一個(gè) IP 信息，并沒(méi)有相應(yīng)的 IP 字段，需要在計(jì)算層過(guò)濾，才能得到所需要的結(jié)果。這就是本文要介紹的場(chǎng)景。

2、表達(dá)式求值問(wèn)題

首先通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)解釋什么是表達(dá)式求值問(wèn)題。假設(shè)一家航空公司，面臨一個(gè)需求，即向滿足特定條件的客戶發(fā)放積分。這個(gè)特定條件為航班目的地是深圳，且航班時(shí)間少于 120 分鐘。積分規(guī)則是航班票價(jià)乘以 1.8，再加上其距離除以 1000 的結(jié)果，追加客戶積分。

這樣一個(gè)查詢?cè)跀?shù)據(jù)庫(kù)中的執(zhí)行流程會(huì)分為三個(gè)階段。首先是 table scan 階段，即系統(tǒng)會(huì)從硬盤讀取數(shù)據(jù)至內(nèi)存之中。其中會(huì)考慮一些特定的優(yōu)化措施，比如下推計(jì)算、過(guò)濾器等技術(shù)。為了便于理解，此處略過(guò)這些細(xì)節(jié)。其次是執(zhí)行 where 條件中的篩選操作，其核心在于剔除不符合條件的數(shù)據(jù)，僅留下滿足過(guò)濾條件的部分。最后是 projection，即我們常說(shuō)的投影，上述過(guò)濾和投影階段都涉及到表達(dá)式的計(jì)算。

3、解釋執(zhí)行的問(wèn)題

我們重點(diǎn)來(lái)看一下中間的過(guò)濾階段。

當(dāng)語(yǔ)法分析器識(shí)別到這樣一種表達(dá)式時(shí)，通常情況下，會(huì)將其轉(zhuǎn)換成常用的抽象語(yǔ)法樹(shù)（Abstract Syntax Tree，簡(jiǎn)稱 AST）。此過(guò)程極具簡(jiǎn)約性，除葉節(jié)點(diǎn)外，其他節(jié)點(diǎn)代表的皆為運(yùn)算符。例如，邏輯運(yùn)算符或用于判斷的等號(hào)和不等號(hào)。而葉節(jié)點(diǎn)通常是一些字段（field）或者是數(shù)值型的值。

通常的過(guò)濾過(guò)程為定義一個(gè) node 節(jié)點(diǎn)，前文提到的表達(dá)式可以通過(guò)此表達(dá)式樹(shù)來(lái)表達(dá)。還定義了一個(gè)函數(shù)以獲取該節(jié)點(diǎn)的具體值。解釋執(zhí)行過(guò)程是一個(gè)深度遍歷的過(guò)程，首先判斷節(jié)點(diǎn)操作符，再依次遍歷左節(jié)點(diǎn)和右節(jié)點(diǎn)。

這種方法看起來(lái)簡(jiǎn)單直觀，并且已成為大多數(shù)主流數(shù)據(jù)庫(kù)普遍采用的方式，但卻存在著一些問(wèn)題。

首先，這種處理方式涉及到大量的虛函數(shù)調(diào)用，虛函數(shù)調(diào)用本身對(duì)于 CPU 而言屬于非確定性指令。也就是說(shuō)，CPU 在執(zhí)行此類指令時(shí)需要進(jìn)行分支預(yù)測(cè)，若存在大量的虛函數(shù)調(diào)用，則會(huì)導(dǎo)致分支預(yù)測(cè)失敗，進(jìn)而導(dǎo)致 CPU 的整個(gè)執(zhí)行流水線頻繁中斷。

第二個(gè)問(wèn)題是，計(jì)算過(guò)程中無(wú)法明確其類型，即在執(zhí)行過(guò)程中，需頻繁地對(duì)其類型進(jìn)行識(shí)別，導(dǎo)致計(jì)算過(guò)程中產(chǎn)生了大量的動(dòng)態(tài)類型識(shí)別需求。

第三個(gè)問(wèn)題是，我們所采用的深度優(yōu)先搜索（DFS）執(zhí)行方式，涉及到大量的遞歸函數(shù)調(diào)用，也在不斷地打斷其計(jì)算執(zhí)行的流程。

這類解決方案能被眾多數(shù)據(jù)庫(kù)采用，是因?yàn)樵谠缒赀@并不是主要問(wèn)題，那時(shí)磁盤才是系統(tǒng)執(zhí)行的瓶頸。

然而，隨著硬件設(shè)備的飛速發(fā)展，它們已不再是系統(tǒng)運(yùn)作的瓶頸。相反，單核 CPU 計(jì)算單元的發(fā)展速度趨緩，與硬件發(fā)展并不匹配。當(dāng)前的硬件系統(tǒng)，有更大的內(nèi)存、更大的頁(yè)緩存。同時(shí)，越來(lái)越多的應(yīng)用場(chǎng)景催生出新的處理方式——流處理。因此，現(xiàn)在瓶頸已經(jīng)不在磁盤上了，而是在 CPU 上。解釋執(zhí)行方式存在的缺陷也日益顯露。

4、三種數(shù)據(jù)庫(kù)表達(dá)式求值方式

前文中展示的一個(gè)簡(jiǎn)單的表達(dá)式里面，僅包含了基本的 int 類型。然而，在實(shí)際應(yīng)用中，還會(huì)遇到更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)，例如嵌套類型、list 類型、union 類型以及混合類型等等。另外，也不僅是簡(jiǎn)單的布爾操作和比較操作，還有許多用戶自定義的函數(shù)。

在這樣一種場(chǎng)景下，各數(shù)據(jù)庫(kù)開(kāi)始探索新的解決方案，目前主流的有三種。

第一種仍然采取解釋執(zhí)行的方式，但會(huì)在解釋執(zhí)行的過(guò)程中加入一些優(yōu)化措施，比如加大向量的優(yōu)化力度。

第二種方式是，有些復(fù)雜的系統(tǒng)依賴虛擬機(jī)來(lái)對(duì)生成的這種字節(jié)碼進(jìn)行優(yōu)化，不過(guò)采用這一技術(shù)路線的產(chǎn)品相對(duì)較少。

最后一種就是本文要討論的，JIT 即時(shí)編譯（Just In Time Compilation）。對(duì)于一個(gè)抽象語(yǔ)法樹(shù)，先將其轉(zhuǎn)化為一個(gè)中間字節(jié)碼，然后在執(zhí)行時(shí)再轉(zhuǎn)換為機(jī)器碼。

上圖中列出了一些主流產(chǎn)品所采用的方式。

二、JIT 即時(shí)編譯技術(shù)

JIT 即時(shí)編譯技術(shù)，又稱為動(dòng)態(tài)翻譯，或運(yùn)行時(shí)編譯。其核心在于將程序在運(yùn)行過(guò)程中轉(zhuǎn)換為機(jī)器代碼，而非在執(zhí)行前預(yù)先編譯為機(jī)器代碼。

比方說(shuō)，在編寫(xiě) C++ 程序時(shí)，使用 GCC 或 C++ 進(jìn)行編譯，最終執(zhí)行的實(shí)際上是能讓機(jī)器運(yùn)行的字節(jié)碼。然而，JIT技術(shù)并非如此，它存在一個(gè)中間狀態(tài)，以 Java 的視角更易于理解。Java 文件會(huì)被編譯成（complier）進(jìn)行的 .class 文件，該文件即是一種中間狀態(tài)的編碼，然后由 JIT 的 complier 將其翻譯成機(jī)器能夠認(rèn)識(shí)的機(jī)器碼。

即時(shí)編譯技術(shù)亦存在其利弊兩面。其優(yōu)勢(shì)在于，編譯代碼速度可以得到顯著提升，無(wú)需一次性將代碼轉(zhuǎn)換為機(jī)器可執(zhí)行的格式；其次，這種技術(shù)提供了解釋的靈活性。然而，其劣勢(shì)在于運(yùn)行時(shí)需要將代碼編譯為機(jī)器碼，這將會(huì)產(chǎn)生額外的開(kāi)銷。因此，在應(yīng)用 JIT 技術(shù)時(shí)，需針對(duì)不同情況進(jìn)行測(cè)試和分析，評(píng)估該技術(shù)所帶來(lái)的收益是否大于其帶來(lái)的開(kāi)銷。

數(shù)據(jù)庫(kù)中的即時(shí)編譯（JIT）技術(shù)的運(yùn)行機(jī)制，與上述過(guò)程大致相似。主要包括以下幾個(gè)階段。

首先，SQL 解析器將語(yǔ)句翻譯為抽象語(yǔ)法樹(shù)；接著，表達(dá)式編譯器將其轉(zhuǎn)化為中間字節(jié)碼；最后，JIT 編譯器將其進(jìn)一步轉(zhuǎn)換為最終的機(jī)器碼。

在此借助程序?qū)?JIT 進(jìn)行模擬，當(dāng)然這與實(shí)際場(chǎng)景會(huì)存在一些差異。程序中有兩個(gè)函數(shù)：首先是名為 generate_code 的函數(shù)，其任務(wù)是獲取一個(gè)抽象語(yǔ)法樹(shù)（AST），之后加載定義，在遍歷 code 時(shí)，將其轉(zhuǎn)化為一個(gè)可理解的 code 字符串。Evaluator 函數(shù)直接執(zhí)行 code 字符串，即生成一個(gè)可執(zhí)行的代碼。

三、使用 Gandiva 的 JIT 即時(shí)編譯技術(shù)加速計(jì)算

接下來(lái)介紹如何運(yùn)用 JIT 技術(shù)對(duì)數(shù)據(jù)庫(kù)表達(dá)式進(jìn)行求值優(yōu)化。我們采用了 Apache 的 Gandiva，它是建立在 LLVM 編譯器框架基礎(chǔ)上的一個(gè)表達(dá)式編譯器，其核心計(jì)算適用于 Arrow 列式內(nèi)存格式，代碼編寫(xiě)采用 C++，同時(shí)也提供了 Python 與 Java 的綁定接口。

Apache Arrow 內(nèi)存格式是一種列式存儲(chǔ)格式，對(duì)于關(guān)系型數(shù)據(jù)庫(kù)而言，行式存儲(chǔ)的形式往往無(wú)法在構(gòu)建計(jì)算過(guò)程中實(shí)現(xiàn)高效的并行處理。而列式存儲(chǔ)，即數(shù)據(jù)在同一列內(nèi)，其緩沖區(qū)內(nèi)的數(shù)據(jù)將被集中存儲(chǔ)，因此在操作數(shù)據(jù)時(shí)，能極大提升操作效率。

Gandiva 的整體執(zhí)行流程如上圖所示。首先，有一個(gè)表達(dá)式樹(shù)；接著，Gandiva 的表達(dá)式編譯器將生成一種稱為 LLVM IR 的中間代碼，這是一種中間表達(dá)形式；該中間代碼將被傳遞給 Gandiva 的執(zhí)行內(nèi)核，整個(gè)過(guò)程處理的數(shù)據(jù)被稱為 Apache 的 Arrow Record Batches，最終得到預(yù)期的輸出結(jié)果。

早期的 Gandiva 比較簡(jiǎn)陋，功能性略顯不足。近年來(lái)已得到了顯著的提升，但仍存在一些待改進(jìn)之處。目前，在 Gandiva 的表達(dá)式庫(kù)中，已具備相當(dāng)豐富的內(nèi)容，除了基本的算術(shù)運(yùn)算符以外，還擁有超過(guò) 100 個(gè)內(nèi)建函數(shù)，以及布爾運(yùn)算符。這些運(yùn)算主要用于 project 和 filter 操作，即過(guò)濾和投影階段，因?yàn)橹挥性谶@兩個(gè)階段會(huì)涉及到大規(guī)模的表達(dá)式求值。

上圖中是一個(gè)簡(jiǎn)單的 C++ 程序示例，使用了 Gandiva 接口，最上面可以看到表達(dá)式為：(x > 2.0) and (x < 6.0)。

借助 Gandiva 的表達(dá)式，可以得到一個(gè)類似于 LLVM IR 表達(dá)式的結(jié)果。然而，在這個(gè)表達(dá)式及生成的代碼中可以看到，以 @ 開(kāi)頭的 less_than_float32_float32 等函數(shù)形式，這些都是 Gandiva 內(nèi)置的功能。因此，如果要形象地詮釋 JIT 代碼生成的原理，這里的內(nèi)置算子與功能便如同齒輪組，當(dāng)我們將表達(dá)式傳達(dá)給它們時(shí)，Gandiva 就會(huì)將這些齒輪組裝和運(yùn)轉(zhuǎn)起來(lái)，使表達(dá)式得以順利執(zhí)行。

通過(guò)上圖數(shù)據(jù)可以看到，LLVM 技術(shù)的整體效率較之 Java JIT 可實(shí)現(xiàn)約 4 至 89 倍的提升。

我們對(duì) Gandiva 進(jìn)行了一些改進(jìn)，增添了眾多額外功能，比如對(duì)時(shí)間戳支持，以及針對(duì)數(shù)組類型新增了超過(guò) 20 種有關(guān)函數(shù)，同時(shí)也增強(qiáng)了對(duì)于高階函數(shù)的支持，并改進(jìn)了內(nèi)存緩存的復(fù)用方式。

此外，還有一項(xiàng)極為關(guān)鍵的功能，就是前文中提到的 UDF 注冊(cè)機(jī)制，這也是我們向 Gandiva 項(xiàng)目貢獻(xiàn)的一項(xiàng)技術(shù)。

最后回顧一下本次分享的內(nèi)容。文章第一部分探討了什么是數(shù)據(jù)庫(kù)表達(dá)式求值問(wèn)題；第二部分，介紹了 JIT 即時(shí)編譯技術(shù)；最后，運(yùn)用 Gandiva 的 JIT 技術(shù)來(lái)加速表達(dá)式求值。

炎凰數(shù)據(jù)產(chǎn)品旨在解決異構(gòu)數(shù)據(jù)所面臨的復(fù)雜場(chǎng)景，歡迎大家關(guān)注、試用。

四、Q&A

Q1：Gandiva 生成的 LLVM 是標(biāo)量值，有用到向量值，就是 SIMD（單指令多數(shù)據(jù)流）或者 AVX（高級(jí)向量擴(kuò)展）等技術(shù)嗎？

A1：這是一個(gè)非常好的問(wèn)題，有些人可能會(huì)對(duì)采用 Gandiva 協(xié)助生成 LLVM IR 的代碼存在一定擔(dān)憂，是否能達(dá)到預(yù)期的性能要求。因?yàn)樵诔Ｒ?guī)執(zhí)行過(guò)程中，人們通常期望擁有準(zhǔn)確、高效的向量化支持。針對(duì)這個(gè)問(wèn)題，Gandiva 已經(jīng)做出了妥善的處理，生成的 LLVM-IR 中間形式均具備向量化支持，以確保所需的功能得以保留。

這些技術(shù)使得處理器能夠同時(shí)處理多個(gè)數(shù)據(jù)，從而大大提高了程序的執(zhí)行效率。在 Gandiva 中，LLVM IR（中間表示）被轉(zhuǎn)換為可執(zhí)行代碼的序列，這些代碼可以由 SIMD 指令集執(zhí)行。因此，Gandiva 生成的 LLVM IR 序列可以在支持 SIMD 指令集的處理器上高效運(yùn)行。

Q2：Gandiva 一生成出來(lái)就是 LLVM 的形式？就是向量化的執(zhí)行代碼？

A2：是的。它是經(jīng)過(guò)優(yōu)化的，實(shí)際執(zhí)行的和我剛剛給大家展示的 Arrow code 是不一樣的，后者代表了初始的呈現(xiàn)方式，然而在實(shí)際執(zhí)行過(guò)程中都是有向量化支持的。

Gandiva 生成的是 LLVM 的形式，并且可以生成向量化的執(zhí)行代碼。Gandiva 是一個(gè)開(kāi)源項(xiàng)目，旨在為 Apache Arrow 提供高效的數(shù)據(jù)處理功能。它使用 LLVM 作為后端，通過(guò) LLVM 編譯器將源代碼編譯為高效的機(jī)器碼，并利用 SIMD 指令集實(shí)現(xiàn)向量化的執(zhí)行代碼，從而提高數(shù)據(jù)處理性能。因此，Gandiva 生成的代碼可以在支持 SIMD 指令集的處理器上高效運(yùn)行，實(shí)現(xiàn)高性能的數(shù)據(jù)處理。

Q3：Arrow 社區(qū)提供了 compute API 以及各種語(yǔ)言的高性能實(shí)現(xiàn)以供基于 Arrow 格式進(jìn)行數(shù)據(jù)操作的向量化復(fù)用，跟 Gandiva 生成的 LLVM 的形式的向量化有什么區(qū)別和聯(lián)系？

A3：這也是一個(gè)很好的問(wèn)題，Arrow 有自己的一套執(zhí)行框架，叫做 Arrow Acero，它對(duì)向量化的支持是非常友好的。

Arrow 社區(qū)提供的 compute API 以及各種語(yǔ)言的高性能實(shí)現(xiàn)，是基于 Arrow 格式進(jìn)行數(shù)據(jù)操作的開(kāi)發(fā)人員可以直接復(fù)用的工具。這些工具可以幫助開(kāi)發(fā)人員更高效地處理數(shù)據(jù)，并提高程序的執(zhí)行效率。

而 Gandiva 生成的 LLVM 形式，是利用 LLVM 編譯器將源代碼編譯為高效的機(jī)器碼，并利用 SIMD 指令集實(shí)現(xiàn)向量化的執(zhí)行代碼。這種生成方式可以使得 Gandiva 生成的代碼在支持 SIMD 指令集的處理器上高效運(yùn)行，從而提高數(shù)據(jù)處理性能。

兩者的主要區(qū)別在于，Arrow 社區(qū)提供的工具主要是提供API和各種語(yǔ)言的高性能實(shí)現(xiàn)，而 Gandiva 生成的 LLVM 形式則是通過(guò)編譯源代碼來(lái)實(shí)現(xiàn)高效的數(shù)據(jù)處理。另外，Gandiva 生成的 LLVM 形式是向量化的執(zhí)行代碼，可以充分利用處理器的 SIMD 指令集，而 Arrow 社區(qū)提供的工具則不一定是向量化的。

所以我們的整個(gè)執(zhí)行引擎在經(jīng)過(guò)了很多次迭代之后完全切到了一個(gè)新式的、對(duì)流式計(jì)算有一個(gè)更好的支持的引擎，這個(gè)引擎也是基于 Arrow compute 構(gòu)建的。

Q4：是否有嘗試過(guò)這樣使用表達(dá)式求值的方法，因?yàn)樗淼氖墙忉寛?zhí)行加向量化的方式，每個(gè)算子會(huì)把 SIMD 指令解釋成向量化的執(zhí)行代碼？

A4：是的。這部分我們也會(huì)用，我們是結(jié)合在一起用的，不是說(shuō)單獨(dú)或者只使用這個(gè)，而不使用就是不是以數(shù)據(jù)執(zhí)行。從數(shù)據(jù)從磁盤上讀取出來(lái)，就是經(jīng)過(guò)過(guò)濾、投影再到給用戶呈現(xiàn)這個(gè)結(jié)果的過(guò)程中，有很多可以優(yōu)化的地方。在最開(kāi)始的時(shí)候一定要確保讀出來(lái)的那個(gè)數(shù)據(jù)集是最小的。然后在這個(gè)內(nèi)存當(dāng)中或者是在計(jì)算過(guò)程當(dāng)中進(jìn)行過(guò)濾時(shí)，我們可以通過(guò) JIT 技術(shù)對(duì)它進(jìn)行優(yōu)化，優(yōu)化是分為多個(gè)階段，就是看你當(dāng)前所面臨的點(diǎn)哪個(gè)是最大的瓶頸。

這樣使用表達(dá)式求值的方法，是解釋執(zhí)行加向量化的方式。每個(gè)算子會(huì)把 SIMD 指令解釋成向量化的執(zhí)行代碼，從而充分利用處理器的并行處理能力，提高程序的執(zhí)行效率。這種方法的優(yōu)點(diǎn)是可以方便地?cái)U(kuò)展到支持向量化的指令集，如 AVX 或 SSE 等。此外，由于使用了向量化的執(zhí)行代碼，還可以在多核處理器上實(shí)現(xiàn)真正的并行計(jì)算，進(jìn)一步提高程序的性能。因此，表達(dá)式求值的方法在某些情況下可以提供比傳統(tǒng)解釋執(zhí)行更高效的性能。

Q5：?jiǎn)栆粋€(gè)表達(dá)式相關(guān)但與JIT無(wú)關(guān)的問(wèn)題，是否有一種方法可以判斷某個(gè)表達(dá)式肯定為 true 或者肯定為 false。有沒(méi)有這樣的庫(kù)或者方法？

A5：此環(huán)節(jié)往往在項(xiàng)目初期便已完成，若是庫(kù)的問(wèn)題，或許仍需根據(jù)具體情況著手實(shí)施。當(dāng)前較為常用的解決方案是 Apache 旗下的 Calcite，它可用于實(shí)現(xiàn) SQL 語(yǔ)句的語(yǔ)法解析。Apache Calcite 是一款開(kāi)源 SQL 解析工具，能夠?qū)⒏黝?SQL 語(yǔ)句解析為抽象語(yǔ)法樹(shù)（Abstract Syntax Tree，AST），隨后通過(guò)對(duì) AST 的操縱，可將 SQL 所蘊(yùn)含的算法及關(guān)系映射到具體的代碼中。然而，我們并未采用此類方法，而是獨(dú)立開(kāi)發(fā)了自己的解決方案。在物理執(zhí)行計(jì)劃轉(zhuǎn)化為實(shí)際代碼之前，我們已經(jīng)對(duì)其進(jìn)行了全面優(yōu)化，這個(gè)優(yōu)化過(guò)程貫穿始終。

Q6：分享一下思路吧，我們?cè)谧龅倪^(guò)程中產(chǎn)生困擾，比如 x＞0 and x ＜0 這樣的篩選條件？

A6：對(duì)，這是一個(gè)比較典型的場(chǎng)景，這個(gè)可能得和具體的產(chǎn)品結(jié)合來(lái)看。就是（x＞0 and x ＜0）這個(gè)明顯是一個(gè) false 的場(chǎng)景。

當(dāng)遇到 x＞0 and x ＜0 這樣的篩選條件時(shí)，語(yǔ)法解析器會(huì)將其視為無(wú)效的語(yǔ)法。因?yàn)樵谝粋€(gè)邏輯表達(dá)式中，and 操作符連接的兩個(gè)條件必須都是真值，即 x＞0 和 x ＜0 兩個(gè)條件必須同時(shí)滿足，這在邏輯上是矛盾的，因此無(wú)法解析這樣的表達(dá)式。

語(yǔ)法解析器在解析 SQL 語(yǔ)句時(shí)，會(huì)根據(jù)語(yǔ)言的語(yǔ)法規(guī)則將輸入的字符串轉(zhuǎn)換成抽象語(yǔ)法樹(shù) AST（Abstract Syntax Tree）。在解析 AST 時(shí)，語(yǔ)法解析器會(huì)根據(jù)語(yǔ)法規(guī)則對(duì) AST 進(jìn)行驗(yàn)證，確保 AST 符合語(yǔ)法的約束條件。

在處理 and 操作符時(shí)，語(yǔ)法解析器會(huì)檢查其左右兩個(gè)操作數(shù)的真值性。如果兩個(gè)操作數(shù)都是真值，則整個(gè) and 表達(dá)式為真值；如果其中一個(gè)操作數(shù)為假值，則整個(gè) and 表達(dá)式為假值。因此，當(dāng)遇到 x＞0 and x ＜0 這樣的表達(dá)式時(shí)，由于兩個(gè)條件在邏輯上是矛盾的，因此整個(gè)表達(dá)式為假值。

在處理篩選條件時(shí)，語(yǔ)法解析器會(huì)根據(jù)表達(dá)式的類型和上下文信息來(lái)解析。對(duì)于比較操作符（如＞、＜、= 等）連接的兩個(gè)表達(dá)式，語(yǔ)法解析器會(huì)先解析每個(gè)表達(dá)式，確定其類型和值，然后根據(jù)比較操作符的類型進(jìn)行比較運(yùn)算。如果比較運(yùn)算的結(jié)果是真值，則該條件可以被篩選出來(lái)；如果比較運(yùn)算的結(jié)果是假值，則該條件不能被篩選出來(lái)。

總之，語(yǔ)法解析器在解析 SQL 語(yǔ)句時(shí)，會(huì)根據(jù)語(yǔ)言的語(yǔ)法規(guī)則對(duì)輸入的字符串進(jìn)行解析和驗(yàn)證，確保生成的 AST 符合語(yǔ)法的約束條件。對(duì)于無(wú)效的語(yǔ)法，語(yǔ)法解析器會(huì)報(bào)錯(cuò)并提示用戶進(jìn)行修正。

對(duì)于這種情況可以采用的一個(gè)辦法是假設(shè)法，即假設(shè) x > 0 為真，在這個(gè)假設(shè)的基礎(chǔ)上去判斷 x < 0 是否為真，如果不成立那么兩者 and 的結(jié)果一定為假。

責(zé)任編輯：姜華來(lái)源： DataFunTalk

JIT 技術(shù)數(shù)據(jù)庫(kù)表達(dá)式求值

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="bl03i"><fieldset id="bl03i"><tbody id="bl03i"></tbody></fieldset></pre>