SQL Server 2011中基于列的存儲方式
和大多數(shù)主流數(shù)據(jù)庫一樣,如果表擁有聚集索引,那么SQL Server就會以B-樹的方式存儲,否則就會使用堆的方式存儲。這兩種方法本質(zhì)上都是基于行的,其中每頁中行的條數(shù)會根據(jù)總體上行的大小不同而不同。從SQL Server 2011開始,微軟為我們提供了第三種選擇。SQL Server會提供一種“列存儲索引”,從而以列而不是行的方式來存儲數(shù)據(jù)。
當(dāng)使用數(shù)據(jù)規(guī)模為1TB、記錄條數(shù)為十四億四千萬的表時(shí),微軟聲稱基于列的查詢在CPU時(shí)間上會有16倍的提升,而在使用時(shí)間上會有455倍的提高。在真實(shí)情況下,這意味著本來要耗費(fèi)501秒的查詢,現(xiàn)在只需要1.1秒就可以完成了。這項(xiàng)測試是在擁有32個邏輯處理器和256GB內(nèi)存的計(jì)算機(jī)上執(zhí)行的。
微軟把每個列都隔離在自身的一組頁中,從而達(dá)到了這種驚人的改善。當(dāng)執(zhí)行查詢的時(shí)候,只會從磁盤載入位于結(jié)果集中的列。而包含其它列的頁會被忽略。
這種方法相當(dāng)于為每種我們所能想象到的列組合創(chuàng)建替代索引。然而,這種方式不會消耗大量的磁盤空間,它實(shí)際上會比傳統(tǒng)的表占用更小的空間。由于SQL Server的壓縮會發(fā)生在頁級別上,并且和行相比,列中的數(shù)據(jù)更容易重復(fù),所以使用列存儲索引的表將會擁有更高的壓縮等級。
但暫時(shí)我們還不能輕易決定使用列存儲索引。首先也是最重要的,它們是不可更新的。一旦創(chuàng)建了列存儲的索引,那么就不允許在表上執(zhí)行插入、更新或者刪除等操作了。微軟期望更多商店每天對數(shù)據(jù)進(jìn)行刷新,否則就需要把數(shù)據(jù)做只讀處理。在刷新周期中,我們會刪除索引,更新數(shù)據(jù),然后再重新建立索引。由于這肯定是代價(jià)昂貴的操作,所以我們可以使用垂直分區(qū)來把操作限制到邏輯表的子集范圍內(nèi)。
使用列存儲的索引也會導(dǎo)致性能的降低。如果你使用大多數(shù)列,那么重新組合行會耗費(fèi)大量的資源。這意味著OLTP樣式的查詢應(yīng)該避免這種方式,而對于OLAP形式的查詢,這種方式會比較有利?;蛘邠Q句話說,如果你在編寫“SELECT *”或者每次抓取一行數(shù)據(jù),那么列存儲索引就不適合你。
【編輯推薦】
- 淺淺析SQL Server 2008中的代碼安全之三:通過PassPhrase加密
- 淺析SQL Server 2008中的代碼安全之四:主密鑰
- 淺析SQL Server 2008中的代碼安全之五:非對稱密鑰加密
- 淺析SQL Server 2008中的代碼安全之六:對稱密鑰加密
- 淺析SQL Server 2008中的代碼安全之七:證書加密