用戶(hù)超過(guò)10人就玩完:Gartner稱(chēng),數(shù)據(jù)湖搞不定SQL并發(fā)機(jī)制!
Spark的支持者Databricks宣稱(chēng),我們正在努力解決這個(gè)問(wèn)題。
據(jù)Gartner聲稱(chēng),數(shù)據(jù)湖在試圖執(zhí)行SQL查詢(xún)時(shí),很難支持10個(gè)以上的用戶(hù),而SQL查詢(xún)?cè)?jīng)被視為完全適合數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。
處理數(shù)據(jù)湖時(shí),Apache Spark是使用最廣泛的處理引擎,原因在于它是一種單一的框架,既可以處理機(jī)器學(xué)習(xí)和圖形處理,還可以執(zhí)行批處理(能夠支持實(shí)時(shí)處理)。這家知名調(diào)研公司表示,然而,Spark不適合同時(shí)試圖使用SQL查詢(xún)數(shù)據(jù)的許多企業(yè)用戶(hù)。
Gartner的分析師兼高級(jí)總監(jiān)Sumit Pal表示:“使用來(lái)自數(shù)據(jù)湖的數(shù)據(jù)面臨的一些挑戰(zhàn)在于并發(fā)機(jī)制方面。并發(fā)活動(dòng)密集、甚至并發(fā)用戶(hù)數(shù)量達(dá)到兩位數(shù),常常會(huì)降低數(shù)據(jù)湖的速度,這表現(xiàn)在延遲時(shí)間變長(zhǎng)。”
數(shù)據(jù)湖技術(shù)一直在努力通過(guò)支持SQL,使企業(yè)用戶(hù)更容易訪問(wèn)所存儲(chǔ)的續(xù)流數(shù)據(jù)。比如說(shuō),去年11月,數(shù)據(jù)管理和機(jī)器學(xué)習(xí)框架廠商Databricks預(yù)覽了就為了這個(gè)用途的SQL Analytics。Databricks的這個(gè)開(kāi)放格式數(shù)據(jù)引擎基于Delta Lake,旨在為現(xiàn)有的數(shù)據(jù)湖確保規(guī)范和高性能。
與此同時(shí),AWS的數(shù)據(jù)湖:Elastic Map Reduce可以通過(guò)SQL Workbench或Presto SQL來(lái)處理SQL查詢(xún)。Azure在其數(shù)據(jù)湖(HD Insight或Azure Databricks)中支持SQL查詢(xún),而谷歌云平臺(tái)(GCP)使用了Bigtable、Dataflow和Bigquery的組合。
但是巨頭們實(shí)現(xiàn)的這些系統(tǒng)無(wú)法處理“傳統(tǒng)”數(shù)據(jù)倉(cāng)庫(kù)支持的SQL查詢(xún)數(shù)量,其中一些可能擴(kuò)展到成千上萬(wàn)個(gè)并發(fā)用戶(hù)。
延遲和并發(fā)是大問(wèn)題
Pal告訴參加Gartner數(shù)據(jù)暨分析峰會(huì)的與會(huì)人士:“如今數(shù)據(jù)湖實(shí)際上并沒(méi)有用于商業(yè)智能(BI)工作負(fù)載,尤其是并沒(méi)有用于需要高并發(fā)性和低延遲的大型組織。過(guò)去在數(shù)據(jù)湖上開(kāi)發(fā)出來(lái)的SQL引擎其實(shí)從未真正滿(mǎn)足過(guò)并發(fā)性和延遲這兩方面的要求。”
Databricks CEO Ali Ghodsi表示,這家公司已經(jīng)意識(shí)到了并發(fā)問(wèn)題,正在努力改進(jìn)。“并發(fā)是Spark之類(lèi)的技術(shù)未能做好的方面。這一直是我們關(guān)注的重點(diǎn)。”
他說(shuō):“我們已經(jīng)在超大數(shù)據(jù)倉(cāng)庫(kù)方面處于世界一流水平:我們可以處理數(shù)量眾多的數(shù)據(jù),而且可以比其他任何公司更快速、更出色地處理,但是當(dāng)數(shù)據(jù)倉(cāng)庫(kù)很小,同一個(gè)倉(cāng)庫(kù)上又有許多不同的并發(fā)用戶(hù)(比如32個(gè)用戶(hù)),這未必是我們最擅長(zhǎng)處理的。”
Ghodsi表示,最初于去年7月構(gòu)建的SQL Analytics起初無(wú)力支持32個(gè)并發(fā)用戶(hù),但是2月份的版本表明,它能夠?yàn)橐粋€(gè)SQL端點(diǎn)每小時(shí)處理來(lái)自32個(gè)用戶(hù)的19000個(gè)查詢(xún)。他表示,為了支持更多的用戶(hù),客戶(hù)可能需要在云端啟動(dòng)更多的端點(diǎn)。


























