大數(shù)據(jù)當(dāng)?shù)?PaaS市場現(xiàn)狀如何?
譯文【51CTO 4月19日外電頭條】 今年已經(jīng)被認(rèn)為是云計(jì)算時(shí)代的“大數(shù)據(jù)”元年,各大平臺即服務(wù)(PaaS)提供商備受媒體的關(guān)注,比如亞馬遜、谷歌、Heroku、IBM和微軟。但是哪些提供商在公共云領(lǐng)域真正提供最全面的Apache Hadoop實(shí)現(xiàn)方案?
這一點(diǎn)很顯然:由于許多企業(yè)日益采用平臺即服務(wù)(PaaS)云模式用于企業(yè)數(shù)據(jù)倉庫,Apache Hadoop以及Hadoop分布式文件系統(tǒng)(HDFS)、MapReduce、Hive、Pig及其他子組件日益受到追捧,用于大數(shù)據(jù)分析環(huán)境。Apache基金會將Hadoop升級到了版本1.0,這表明Hadoop已日趨成熟,準(zhǔn)備好用于生產(chǎn)型分析云環(huán)境。
能夠借助托管型的MapReduce處理技術(shù),在提供商的數(shù)據(jù)中心為批處理任務(wù)建立高可擴(kuò)展性的、按需支付的Hadoop集群,這讓企業(yè)的IT部門得以避免為零星使用的預(yù)置型(on-premise)服務(wù)器投入資本開支。因而,Hadoop對亞馬遜、谷歌、IBM和微軟等財(cái)力雄厚的PaaS提供商來說已成為標(biāo)準(zhǔn),以便將Hadoop、MapReduce或兩者封裝成預(yù)制服務(wù)。
AWS彈性MapReduce
亞馬遜網(wǎng)絡(luò)服務(wù)公司(AWS)在2009年4月第一個(gè)推出了彈性MapReduce(EMR)。EMR可處理Hadoop集群配置,運(yùn)行和終止任務(wù),并且在亞馬遜彈性計(jì)算云(EC2)和亞馬遜簡單存儲服務(wù)(S3)之間傳送數(shù)據(jù)。EMR還提供Apache Hive,它基于Hadoop,面向數(shù)據(jù)倉庫服務(wù)。

圖1:面向亞馬遜網(wǎng)絡(luò)服務(wù)公司彈性MapReduce特性的CloudWatch任務(wù)工作流度量標(biāo)準(zhǔn)示例。
EMR提供了容錯(cuò)機(jī)制,防止從屬系統(tǒng)出現(xiàn)故障;亞馬遜建議在現(xiàn)貨實(shí)例(spot instance)上只運(yùn)行任務(wù)實(shí)例組(Task Instance Group),以便充分利用較低的成本,同時(shí)仍維持可用性。不過,AWS直到2011年8月才添加了支持現(xiàn)貨實(shí)例的功能。
亞馬遜就EMR向小集群到超大集群的EC2實(shí)例收取每小時(shí)0.015美元到每小時(shí)0.50美元的額外費(fèi)。據(jù)AWS聲稱,一旦你開啟了作業(yè)流程,亞馬遜彈性MapReduce就處理亞馬遜EC2實(shí)例配置、安全設(shè)置、Hadoop配置和設(shè)置、日志收集、運(yùn)行狀況監(jiān)控及其他與硬件有關(guān)的復(fù)雜任務(wù),比如自動從運(yùn)行中的作業(yè)流程中移除有故障的實(shí)例。AWS最近宣布了為EMR實(shí)例提供免費(fèi)的CloudWatch度量標(biāo)準(zhǔn)(見圖1)。
谷歌應(yīng)用引擎-MapReduce
據(jù)谷歌的開發(fā)人員Mike Aizatskyi聲稱,谷歌的所有團(tuán)隊(duì)都使用MapReduce,谷歌早在2004年就引入了MapReduce。谷歌發(fā)布了一套應(yīng)用引擎-MapReduce 應(yīng)用編程接口(API),這是“MapReduce API的早期試驗(yàn)版”,旨在支持在谷歌應(yīng)用引擎上運(yùn)行的Hadoop 0.20程序。谷歌團(tuán)隊(duì)后來在2011年3月發(fā)布了低級文件API v1.4.3,為采用Blobs存儲的中間結(jié)果提供了一種類似文件的系統(tǒng),還提供了經(jīng)過改進(jìn)的開源用戶空間Shuffler功能(見圖2)。

圖2:在I/O 2012大會上演示的谷歌應(yīng)用引擎-MapReduce的Shuffle過程。
谷歌應(yīng)用引擎-MapReduce API通過谷歌Pipeline API來協(xié)調(diào)Map、Shuffle和Reduce等操作。該公司在2012年I/O大會上的視頻演講中描述了應(yīng)用引擎-MapReduce的現(xiàn)狀。不過直到2012年春天,谷歌都沒有改變其“早期試驗(yàn)版”這一描述。應(yīng)用引擎-MapReduce面向Java和Python編程人員,而不是面向大數(shù)據(jù)科學(xué)家和分析專業(yè)人員。Shuffler只能處理最大約100MB的數(shù)據(jù)集,這樣的數(shù)據(jù)稱不上是大數(shù)據(jù)。你可以請求使用谷歌的BigShuffler,以處理更龐大的數(shù)據(jù)集。
Heroku Treasure Data Hadoop附件
Heroku的Treasure Data Hadoop附件讓開發(fā)和運(yùn)營(DevOps)員工能夠使用Hadoop和Hive,分析托管型應(yīng)用日志和事件,這是這項(xiàng)技術(shù)的主要功能之一。其他Heroku大數(shù)據(jù)附件包括:實(shí)現(xiàn)了Apache CouchBase的Cloudant系統(tǒng)、來自MongoLab的MongoDB、MongoHQ、Redis To Go、Neo4j(面向Java的圖形數(shù)據(jù)庫的公共測試版)以及RESTful Metrics。AppHarbor被一些人稱為是“面向.NET的Heroku”,它提供了一系列類似的附件,使用了Cloudant、MongoLab、MongoHQ和Redis To Go,外加RavenHQ NoSQL數(shù)據(jù)庫附件。Heroku和AppHarbor都不托管通用的Hadoop實(shí)現(xiàn)系統(tǒng)。
智慧云中的IBM Apache Hadoop
IBM在2011年10月就開始提供基于Hadoop的數(shù)據(jù)分析產(chǎn)品,具體表現(xiàn)為基于IBM企業(yè)智慧云(IBM SmartCloud Enterprise)的InfoSphere BigInsights Basic。BigInsights Basic最多可以管理10TB的數(shù)據(jù),它還提供面向Linux系統(tǒng)的免費(fèi)下載版;BigInsights Enterprise是一款收費(fèi)的下載版。這兩個(gè)可以下載的版本都提供了Apache Hadoop、HDFS和MapReduce框架,另外提供了一整套Hadoop子項(xiàng)目??上螺d的企業(yè)版包括基于Eclipse的插件,該插件用于編寫基于文本的分析工具、類似電子表格的數(shù)據(jù)發(fā)現(xiàn)和探究工具,還可用于編寫JDBC與Netezza和DB2實(shí)現(xiàn)連接的代碼。這兩個(gè)版本都提供了集成的安裝和管理工具(見圖3)。

圖3:IBM的大數(shù)據(jù)平臺和愿景。
我之前通過分為上下兩部分的教程,試用了IBM的企業(yè)智慧云基礎(chǔ)架構(gòu)即服務(wù),里面描述了2011年春天提供的一款免費(fèi)的企業(yè)智慧云試用版具有的管理功能。IBM的技術(shù)資料沒有明確地表明可下載的BigInsight版本在公共云中提供什么樣的功能特性。面向IT專業(yè)人員的云計(jì)算:社區(qū)服務(wù)頁面(http://www.ibm.com/developerworks/cloud/devtest.html)只列出了一個(gè)BigInsights Basic 1.1:Hadoop主節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)(http://www.ibm.com/developerworks/downloads/im/biginsights/)軟件鏡像;一位IBM代表證實(shí)了智慧云版本不包括MapReduce或其他Hadoop子項(xiàng)目。智慧云版Hadoop方面的現(xiàn)有教程解釋了如何配置和測試企業(yè)智慧云上由3個(gè)節(jié)點(diǎn)組成的集群。IBM現(xiàn)有的BigInsights云版本似乎缺少數(shù)據(jù)分析方面的一些關(guān)鍵組件。
基于Windows Azure的微軟Apache Hadoop
微軟請來從雅虎分立出來的、專門提供Hadoop咨詢服務(wù)的Hortonworks公司,幫助自己在Windows Azure上實(shí)現(xiàn)Apache Hadoop,即Hadoop on Azure(HoA)。自2011年12月14日以來,HoA就處于憑邀請才能試用的社區(qū)技術(shù)預(yù)覽版(CTP或邀請測試版)階段。
微軟在搭上Hadoop這股潮流之前,依賴由微軟研究中心開發(fā)的圖形數(shù)據(jù)庫Dryad以及高性能計(jì)算附件(LINQ to HPC)來處理大數(shù)據(jù)分析任務(wù)。Hadoop on Azure CTP讓用戶可以選擇預(yù)先定義的Hadoop集群,這些集群從小集群(4個(gè)計(jì)算節(jié)點(diǎn),存儲容量為4TB)到超大集群(32個(gè)節(jié)點(diǎn),存儲容量為16TB)不等,從而簡化了MapReduce操作??梢悦赓M(fèi)加入CTP,獲取預(yù)覽版計(jì)算節(jié)點(diǎn)或存儲容量。

圖4:微軟提供了四個(gè)示例的Hadoop/MapReduce項(xiàng)目:計(jì)算圓周率、執(zhí)行Terasort和WordCount基準(zhǔn)測試,以及演示如何使用C#來編寫一款用于流傳送數(shù)據(jù)的MapReduce程序。
微軟還提供了新的JavaScript庫,借助Hadoop,讓JavaScript成為一門一流的編程語言。這意味著,JavaScript編程人員可以用JavaScript來編寫MapReduce程序,并且從Web瀏覽器中運(yùn)行這些任務(wù),這降低了Hadoop/MapReduce的準(zhǔn)入門檻。CTP還包含一個(gè)面向Excel的Hive附件,讓用戶可以用Hadoop來處理數(shù)據(jù)。用戶可以通過附件發(fā)布Hive查詢,在Excel用戶熟悉的界面中分析來自Hadoop的非結(jié)構(gòu)化數(shù)據(jù)。預(yù)覽版還包括一個(gè)Hive ODBC驅(qū)動程序,將Hadoop與微軟的其他商業(yè)智能工具集成起來。最近我在Apache Hadoop Services for Windows Azure(http://oakleafblog.blogspot.com/2012/01/introducing-apache-hadoop-services-for.html)上寫了一篇博文,里面解釋了如何運(yùn)行Terasort基準(zhǔn)測試,這是四項(xiàng)示例的MapReduce任務(wù)之一(見圖4)。
定于2012年年中面向Windows Azure推出新的、經(jīng)過改良的功能特性,到時(shí)HoA會有相應(yīng)的升級。該升級將讓HoA團(tuán)隊(duì)能夠準(zhǔn)許更多的測試人員試用CTP,可能還包括一個(gè)原先承諾的Apache Hadoop on Windows Server 2008 R2,面向?qū)嵤╊A(yù)置型云或私有云和混合云。微軟還在2011年年底2012年年初積極下調(diào)了Windows Azure計(jì)算實(shí)例和存儲服務(wù)的費(fèi)用。Hadoop on Azure發(fā)行版的價(jià)格與亞馬遜彈性MapReduce相比將頗有競爭力。
說到大數(shù)據(jù),不是只有Hadoop和MapReduce
我同意弗雷斯特調(diào)研公司分析師James Kobielus的觀點(diǎn),他寫過一篇博文,主題思想是“在大數(shù)據(jù)領(lǐng)域里面,Hadoop/MapReduce將是一種關(guān)鍵的開發(fā)框架,但不是唯一的開發(fā)框架。”微軟還為.NET框架提供了代號為“Cloud Numerics”的CTP,這讓開發(fā)和運(yùn)營團(tuán)隊(duì)得以在Windows Azure中,針對大型分布式數(shù)據(jù)集執(zhí)行數(shù)字密集型的計(jì)算。
微軟研究中心發(fā)布了源代碼,用于使用Daytona項(xiàng)目的MapReduce迭代實(shí)現(xiàn)機(jī)制,在Windows Azure中實(shí)施Excel云數(shù)據(jù)分析技術(shù)。不過,開源Apache Hadoop及相關(guān)子項(xiàng)目似乎會在可預(yù)測的將來主導(dǎo)云托管領(lǐng)域。
提供自動化化程度最高的Hadoop、MapReduce和Hive實(shí)現(xiàn)機(jī)制的PaaS提供商會最受大數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析從業(yè)人員的支持和追捧。微軟為商業(yè)智能應(yīng)用軟件提供了Excel前端,這讓該公司的大數(shù)據(jù)解決方案在越來越多的自助服務(wù)式商業(yè)智能用戶當(dāng)中占有先機(jī)。亞馬遜和微軟目前提供最全面、自動化程度最高的基于云的Hadoop大數(shù)據(jù)分析服務(wù)。
原文鏈接:http://searchcloudcomputing.techtarget.com/tip/Examining-the-state-of-PaaS-in-the-year-of-big-data






















