番外篇:國產數據庫直方圖能力對比
原創(chuàng)近期看到某群里關于數據庫直方圖的討論,不禁回想起剛學習 Oracle 的時候,為直方圖的設計而感嘆。直方圖可以說是優(yōu)化器的基礎,對于數據分布不均衡的場景下制定出合理的執(zhí)行計劃至關重要。那么國產數據庫這方面又如何呢?這里針對幾種常見的國產數據庫的直方圖能力看看能力如何。
1. 直方圖的前世今生
在開始說明國產數據庫直方圖能力之前,先來回顧下直方圖的概念,并以經典數據庫Oracle為代表進行說明下。
1)直方圖概念
直方圖是數據庫用來判斷列中數據分布情況的一種統(tǒng)計信息,屬于列的統(tǒng)計信息。如果數據分布不均勻,查詢優(yōu)化器需要額外的信息才能做出正確的估算。直方圖正是數據庫為查詢優(yōu)化器提供更精確的成本估計而設計的一種直方圖數據。其原理是假定存在n個桶(buckets),每個桶代表一個取值或者一個取值范圍,將列中不同的值放入與之對應的桶中,通過這些桶的統(tǒng)計來得到列上數據分布的情況。
2)直方圖分類
基于頻率的直方圖(frequency histogram)
當列的唯一值數量小于或等于桶允許的最大值(254)時,數據庫會使用基于頻率的直方圖。每個值將會占據一個桶。每個桶的高低代表每個值出現(xiàn)的次數。
1.png
基于高度的直方圖(height-balanced histogram)
當列的唯一值數量大于桶數時,數據庫會采用基于高度的直方圖反映數據分布,每個bucket容納相同數量的值。
2.png
其他變體
處理上述直方圖類型外,還有為了反饋更“大眾”數據的TopN直方圖,滿足更準確數據的混合直方圖等等。
3)Oracle 直方圖發(fā)展
Oracle 最早在7.3版本引入直方圖,但直到 Oracle 8i 版本后才逐漸成熟并廣泛使用。下表以作為常見的11g版本為分界,對比總結了之前與之后直方圖的功能演進。從下面這一表格中可見直方圖的發(fā)展策略,一方面是支持更為多樣的直方圖類型,一方面是增加桶數,滿足更為精準的數據描述,還有就是在文本處理、生成策略等方面的改進。這些也指導了國產數據庫對直方圖能力的支持。
3.png
2. 國產數據庫直方圖能力總結
下面列舉了幾種常見的國產數據庫直方圖的能力,并與Oracle、MySQL加以比較。初步感覺,各國產數據庫都支持了直方圖能力,但支持范圍不同,有些支持更全面些。此外,很多國產數據庫都將直方圖能力作為缺省的統(tǒng)計信息來收集,這點與Oracle 11g不同。
1)各數據庫直方圖直方圖能力
MySQL
MySQL 從8.0.19版本開始引入了直方圖功能,主要用于優(yōu)化查詢性能,特別是在無索引列或數據分布不均勻的場景下。MySQL支持兩種直方圖類型,由系統(tǒng)自動選擇:一是等寬直方圖, 每個桶存儲單個值及其頻率,適用于離散值較少的列(如枚舉類型);一是等高直方圖,每個桶存儲值的范圍、頻率和累積分布,適用于連續(xù)值或分布范圍較大的列。當桶數量(WITH N BUCKETS)不小于列的唯一值數量時,生成等寬直方圖;否則生成等高直方圖。
DM
5.png
KingBase
6.png
YashanDB
7.png
OceanBase
8.png
2)測試:是否采集直方圖對基數評估影響
下面針對部分國產數據庫做了直方圖的測試。這里構造了一張表,包含10000條記錄,兩個字段FNUM、HNUM分別對應100個和1000個不同值。為了構造傾斜,還將500條數據修改為9999來表示大基數的數值。在收集直方圖時,統(tǒng)一使用200個桶來進行測試。下面表格標題欄[]里為實際記錄數,單元格內為執(zhí)行計劃中反饋預估行數。從各家執(zhí)行情況來看,收集直方圖后的評估還是很準確的。
9.png