BigQuery谷歌企業(yè)級(jí)大數(shù)據(jù)分析平臺(tái)初體驗(yàn)
作者將在本文中介紹一些BigQuery的基本情況,并結(jié)合Paras Doshi最近撰寫(xiě)的關(guān)于BigQuery的一些使用體會(huì),對(duì)BigQuery來(lái)一個(gè)深入了解。
什么是BigQuery ?
BigQuery是真正為大數(shù)據(jù)而生的企業(yè)級(jí)云計(jì)算產(chǎn)品,其核心是云平臺(tái)的一項(xiàng)基礎(chǔ)服務(wù)(PaaS),用于對(duì)TB級(jí)別的大數(shù)據(jù)進(jìn)行實(shí)時(shí)的分析處理。
單純從技術(shù)上來(lái)看,BigQuery就是一個(gè)在云端的SQL服務(wù)(類(lèi)SQL),提供對(duì)海量數(shù)據(jù)的實(shí)時(shí)分析;據(jù)Google工程師所說(shuō),其處理5個(gè)TB數(shù)據(jù),15秒即可返回結(jié)果。
另外,BigQuery是一項(xiàng)付費(fèi)服務(wù),旨在企業(yè)需要大規(guī)模數(shù)據(jù)分析,又無(wú)需承擔(dān)硬件設(shè)備的投資的情況下開(kāi)展大數(shù)據(jù)業(yè)務(wù)。每月每1GB數(shù)據(jù)的存儲(chǔ)費(fèi)用是12美分;實(shí)時(shí)分析服務(wù)每月每處理1GB數(shù)據(jù)收費(fèi)3.5美分,每月前100GB的實(shí)時(shí)數(shù)據(jù)分析免費(fèi)。
Google BigQuery價(jià)格表
詳細(xì)價(jià)格表請(qǐng)參考:https://developers.google.com/bigquery/docs/pricing
BigQuery初體驗(yàn)——快!
Paras Doshi在博客中寫(xiě)到他對(duì)BigQuery做了一個(gè)簡(jiǎn)單的測(cè)試,在一個(gè)具有115000000行數(shù)據(jù)的實(shí)例中分別使用max、mean、avg等進(jìn)行查詢(xún)(或計(jì)算),BigQuery都會(huì)在幾秒內(nèi)返回結(jié)果;并且其中一些包含相對(duì)比較復(fù)雜的查詢(xún),比如where、joins或group by。
事實(shí)上,查詢(xún)所返回結(jié)果的效率還取決于查詢(xún)的類(lèi)型和SQL語(yǔ)句的效率,但無(wú)論如何,結(jié)果總是以超乎想象的速度返回。
關(guān)于數(shù)據(jù)源支持——悲催!
BigQuery很快,但還有一個(gè)問(wèn)題,如何將TB級(jí)的大數(shù)據(jù)上傳到Google云存儲(chǔ)上面。當(dāng)然,不只是Google,這也是每個(gè)基于大數(shù)據(jù)的云存儲(chǔ)服務(wù)所面臨的問(wèn)題。
更現(xiàn)實(shí)的問(wèn)題是,如果已經(jīng)有數(shù)據(jù)在Amazon S3或微軟的云存儲(chǔ)上,這些數(shù)據(jù)是否可以供BigQuery調(diào)用來(lái)進(jìn)行分析?
答案是,呃,還不行(這點(diǎn)Google做的沒(méi)微軟好,微軟Azure上的Hadoop允許Amazon S3上的數(shù)據(jù)作為數(shù)據(jù)源)。甚至,如果你有數(shù)據(jù)在GAE上,你也需要單獨(dú)的將數(shù)據(jù)上傳到BigQuery,至少目前是這樣。
另外一個(gè)悲催的地方在于,BigQuery也無(wú)法支持Hadoop高級(jí)安裝(比如Hadoop on Azure或Amazon elastic MapReduce)。
還有就是,BigQuery只支持CSV格式。當(dāng)我們談?wù)摯髷?shù)據(jù)時(shí),我們總是把Variability(數(shù)據(jù)多樣化)當(dāng)成最重要的一點(diǎn)來(lái)討論,很顯然,BigQuery所支持的數(shù)據(jù)類(lèi)型還不夠多樣,或者說(shuō),非常單一。
總結(jié)
從篇幅上看,貌似BigQuery的缺點(diǎn)多于優(yōu)點(diǎn)。但從大數(shù)據(jù)的處理能力上來(lái)看,其TB級(jí)數(shù)據(jù)查詢(xún)結(jié)果秒出的效率還是讓人驚嘆的。
另外,更重要的一點(diǎn)是,低門(mén)檻和低成本。使用類(lèi)SQL語(yǔ)言進(jìn)行數(shù)據(jù)分析,花上幾美元就得到Google服務(wù)器集群的性能,這些都大大降低了大數(shù)據(jù)業(yè)務(wù)的成本。至少你有一種廉價(jià)的方案來(lái)回答《關(guān)于大數(shù)據(jù) CEO們需要了解的五個(gè)問(wèn)題》一文中老板們關(guān)于大數(shù)據(jù)成本的擔(dān)憂。
還有一點(diǎn)是關(guān)于數(shù)據(jù)上傳這個(gè)老大難問(wèn)題。Paras Doshi在測(cè)試中使用了350GB的CSV數(shù)據(jù)文件(分成10GB每個(gè))上傳到BigQuery,用時(shí)幾個(gè)小時(shí)(感嘆米國(guó)的大水管),這說(shuō)明從本地集群到Google云進(jìn)行數(shù)據(jù)的遷移也不需要多少耐心,我們已經(jīng)習(xí)慣在下班時(shí)間上傳大數(shù)據(jù),不是嘛?
原文鏈接:http://inbigdata.com/google-bigquery-first-look-and-try/
















 
 
 





 
 
 
 