VMware王蔚東:Hadoop虛擬化大有可為
近日,IT168記者有幸采訪到了VMware高級經(jīng)理王蔚東先生,其2012年加入VMware公司,負責虛擬化和云計算領域中數(shù)據(jù)存儲、管理及利用的咨詢和解決方案。在數(shù)據(jù)倉庫、大數(shù)據(jù)及數(shù)據(jù)分析有多年的經(jīng)驗。
▲VMware高級經(jīng)理王蔚東
Hadoop在國內(nèi)發(fā)展進入快速增長期
Hadoop是一項開源技術,目前網(wǎng)絡上大概有上千個論壇、社區(qū),技術門檻也比較低。據(jù)王蔚東介紹,從2008年開始,很多國外的互聯(lián)網(wǎng)企業(yè)就開始采用Hadoop,目前,也有很多傳統(tǒng)企業(yè)開始部署Hadoop, 比如AT&T、沃爾瑪?shù)取?/p>
“目前在國內(nèi),我們知道像淘寶、京東等很多企業(yè)已經(jīng)開始使用Hadoop,而更多的企業(yè)也已經(jīng)開始嘗試使用。由于企業(yè)對數(shù)據(jù)的重視度不斷提高,市場競爭的加劇,也由于Hadoop及相關大數(shù)據(jù)技術有了很大的完善,Hadoop服務提供商越來越多,國內(nèi)的電信、電銷、物流等行業(yè)的需求非常強烈,Hadoop在國內(nèi)的的應用會進入到一個快速增長期。”
VMware助力Hadoop與虛擬化結(jié)合
傳統(tǒng)虛擬化給企業(yè)帶來好處已經(jīng)眾所周知,無論是叢IT系統(tǒng)構建,還是從運行維護,乃至運營管理,我們都實實在在地感受到它的好處。“Hadoop被用來解決企業(yè)大數(shù)據(jù)的問題,我過去看到,大多數(shù)的應用場景是單獨建立一個x86服務器的集群來跑map/reduce任務,隨著數(shù)據(jù)量和數(shù)據(jù)查詢分析任務的增加,服務器的數(shù)量也要不斷增加。這時,就帶來了一系列新的問題,首先這個Hadoop集群需要有IT人員來專門維護和管理,其次,我們知道日常Hadoop任務是會有波峰波谷的分布,往往是某一時段,任務會比較密集,機器的CPU、IO和存儲會非常繁忙,而其它時間,機器就比較空閑,存在資源浪費的情況。”王蔚東表示。
由此,很多使用和嘗試Hadoop的企業(yè),就希望能夠把這樣一個越來越大的Hadoop集群放到自己的云平臺里,能夠統(tǒng)一管理和使用。除此之外,我們知道,Hadoop本身是一項開源的技術,雖然入門容易,但是要大規(guī)模企業(yè)級應用,還存在非常多的困難。比如安裝部署、Fix Bug、升級等等,即使目前有一些Hadoop的商用版,可以提供部分的現(xiàn)場服務,但是也會導致使用者的整體擁有成本大大增加。
據(jù)王蔚東介紹,目前VMware就是要解決這個問題。據(jù)了解,從2012年初, VMware就與Apache Hadoop社區(qū)展開合作,開始推廣一個開源項目—Serengeti,通過把Apache Hadoop節(jié)點從底層物理基礎架構剝離,VMware可以將云基礎架構的優(yōu)勢帶給Hadoop,包括快速部署、高可用性、最佳資源利用率、靈活和安全多租戶。
“事實上,很多Hadoop發(fā)行版的廠家,都曾提出來Hadoop不適合在虛擬化平臺上運行,理由是Hadoop的特點是在本地磁盤上運行,而虛擬化都是在共享磁盤上;而且虛擬機增加了額外開銷,在虛擬機上運行Hadoop性能會變慢。”但Serengeti推出后,徹底改變了這些看法。多數(shù)人知道Vsphere的工作模式是將數(shù)據(jù)存儲到共享磁盤,其實Vsphere也支持本地磁盤,這完全取決于用戶的應用場景。
目前,Serengeti被大量下載和試用,并獲得了廣泛的認可。 “VMware決定把它嵌入到Vsphere里,也就是說任何購買Vsphere5.5的用戶, 都可以免費獲得一個組件,它可以用來部署和管理Hadoop.這個組件叫作 Vsphere Big Data Extension,簡稱BDE。BDE作為商用軟件,在可靠性,性能方面,要遠遠高于Serengeti。同時,它還支持多數(shù)市場上主流的Hadoop發(fā)行版, 如MP/R,Cloudera,Pivotal HD,Intel等等。”王蔚東介紹說。
事實上,盡管Hadoop被證明可以與虛擬化進行結(jié)合,但人們不得不擔心性能問題。王蔚東表示,由于安裝了虛擬機,會占用服務器的一部分內(nèi)存和CPU,會導致系統(tǒng)整理性能有所下降,把Hadoop裝到虛擬機上,肯定會帶來部分性能的下降,關鍵是下降幅度有多大。“比如,我們正在為國內(nèi)一家比較大的企業(yè)做POC,他們是VMware的老用戶,對虛擬化的了解程度很深,我們在向他們推薦我們的解決方案時,開門見山地提出對性能的擔憂,提出了十多項性能測試指標,包括Terasort、K-means性能等。與物理環(huán)境的Hadoop比,整體測試結(jié)果表明,性能損失基本保持在15%的范圍內(nèi),一些指標如NoSQL并發(fā)、訪問、數(shù)據(jù)的吞吐能力、HIVE處理能力等,都與物理環(huán)境的Hadoop十分接近。”
致力于降低Hadoop使用門檻
據(jù)王蔚東介紹說,其工作大部分都與云計算相關,BDE是其工作中比較重要的一部分。“我們的CEO Pat Gelsinger提出了三個戰(zhàn)略即軟件定義的數(shù)據(jù)中心、混合云和終端用戶計算,在這三個方面,都與大數(shù)據(jù)有直接的關系。比如軟件定義的數(shù)據(jù)中心,針對于不同的應用場景,我的團隊就要提供方案,快速部署和全面管理Hadoop集群。同時我們也在嘗試把Hadoop作為一項服務,部署到PAAS層,以降低它的使用門檻,為企業(yè)中各類使用者提供靈活可控的大數(shù)據(jù)服務。”
Hadoop作為一項技術,目前確實非常流行。王蔚東老師介紹說,國內(nèi)的開發(fā)者和試用的企業(yè)已經(jīng)有了很多了解,搞的比較好的發(fā)行版有MP/R, Cloudera;Horntworks;常去他們的網(wǎng)站會得到比較新的知識,另外大家也都別忘了Apache Hadoop社區(qū),上面有最新的進展。目前,國內(nèi)的開發(fā)者和企業(yè), 早已不滿足Hadoop的知識學習和研究,更關注Hadoop的具體應用。
“我們的團隊,也在最近推出了自己的博客(http://vbigdata.blog.51cto.com/),里面有我們提出Hadoop虛擬化的概念,技術架構和細節(jié),圍繞著Hadoop虛擬化會出現(xiàn)的各種問題,也會有Hadoop虛擬化的應用實踐。這里,我歡迎大家到我們的博客上進行交流,在大數(shù)據(jù)領域和我們共同成長。”
關于Hadoop中國技術峰會,王蔚東老師表示幾乎每屆都會參加,“前幾年主要是Hadoop技術的介紹和推廣,更偏重純技術,但是這個峰會對國內(nèi)普及Hadoop為主的大數(shù)據(jù)相關技術產(chǎn)生了巨大的推動作用。近一、兩年,會議的重心產(chǎn)生了些變化,即由純技術+學術轉(zhuǎn)變到技術+應用,我認為這是一個可喜的變化,證明Hadoop終于開始在國內(nèi)廣泛應用了,同時也催生了一些新的角色,如Data Scientist,Data Governor。”
這些變化,也直接證明了國內(nèi),大家真正開始重視數(shù)據(jù),逐漸把數(shù)據(jù)作為一種潛在的資源進行保護和利用。Hadoop是一項開源技術,隨著這項技術逐漸成熟,勢必會有更廣泛的應用,但是應用的深度和廣度,需要眾多的解決方案提供商,Hadoop專家,數(shù)據(jù)管理專家,成熟的企業(yè)應用需求,類似一套完整的生態(tài)系統(tǒng)保證,同時,我們也希望這次峰會能提供契機, 幫助國內(nèi)Hadoop領域開始建立這樣的一套生態(tài)系統(tǒng)。
據(jù)悉,在本次大會上,王蔚東老師將會為大家介紹VMware在虛擬Hadoop技術方面的最新進展,如對YARN 的支持,如何做到對Hadoop集群的靈活控制。在應用方面,會介紹如何解決傳統(tǒng)物理Hadoop集群數(shù)據(jù)安全性的問題。“同時我也非常樂意把我們在國內(nèi)外的一些最新的成功案例介紹給大家,還包括我們從著手開始一個項目到方案落地的一整套實施模式。另外, 也會和大家一起探討未來Hadoop的發(fā)展方向,聽聽大家對Hadoop在虛擬平臺上的看法;把Hadoop技術引入BI系統(tǒng),是否可以取代現(xiàn)在的一體機等等。”















 
 
 




 
 
 
 