聽Cloudera首席架構(gòu)師Doug Cutting談Hadoop與人工智能
原創(chuàng)【51CTO.com原創(chuàng)稿件】Doug Cutting是開源界的技術(shù)大神,無論是2000年的Lucene,還是后來基于Lucene衍生的企業(yè)級搜索項目Solr以及ElasticSearch,當(dāng)然還包括后來風(fēng)靡全球的Hadoop,他經(jīng)手的每一個開源項目都影響甚廣并在其中表現(xiàn)出色,盡管筆者不是長期奮戰(zhàn)在技術(shù)一線的程序員,但也久聞大名,這次采訪讓筆者期待已久。
關(guān)于Hadoop
談及Hadoop的誕生,Doug Cutting在大家面前露出了驚喜的神色。他表示,當(dāng)初僅僅是為了完成手上的項目,確實沒有想到一旦創(chuàng)建出這個技術(shù)后,會有如此之廣的用途。例如當(dāng)時沒有預(yù)見能夠在制造、銀行、電信這么多的行業(yè)廣泛應(yīng)用,最初僅僅認(rèn)為也就是主要用于搜索引擎和網(wǎng)站創(chuàng)建上,算是意外之喜了。“最讓我驚喜的是,圍繞Hadoop以及基于Hadoop的所有項目以及技術(shù)并不是單獨存在的,而是以多種技術(shù)為基礎(chǔ)所組成的系列家族,并且整個技術(shù)體系還在不斷發(fā)展和演進中,換句話說圍繞著Hadoop現(xiàn)在已經(jīng)形成了非常強大的生態(tài)系統(tǒng),這種生態(tài)系統(tǒng)的演進和發(fā)展并不受制于其中任何一種技術(shù)。”Doug Cutting補充道。
談到Hadoop在我國的發(fā)展壯大,確實可以看到我國市場和Hadoop之間有一個非常自然的契合和匹配。從數(shù)據(jù)的角度來說,我國可能是世界上最大的單一市場,擁有數(shù)據(jù)的數(shù)量和規(guī)模超過了世界上大部分其他國家,這也是Hadoop在我國有著非常成功的發(fā)展的原因之一,這種特殊的發(fā)展環(huán)境或許催生了我國Hadoop生態(tài)圈與其他國家的一些差別。
Doug Cutting說:“在中國,很多Hadoop用戶習(xí)慣使用Hadoop的開源版本,而不需要去得到哪一家具體公司的支持和幫助。中國市場和美國相比,需要花更多時間對市場進行教育和培育,也就是說從更加長遠的角度出發(fā),需要讓人們了解在使用這些軟件的過程中如果能夠得到有關(guān)方面的支持和幫助會有更佳的使用體驗。這樣的市場教育在中國可能要花很長時間,但對于Hadoop在中國的發(fā)展前景我滿懷信心。”
任何技術(shù)的完善都要在不斷的發(fā)展中萌生創(chuàng)新的活力,Hadoop也是如此。今年又是云計算市場風(fēng)起云涌的一年,探討云計算對Hadoop的影響,Doug Cutting有自己的想法。“我認(rèn)為云計算或云模式使客戶在使用Hadoop的方式上具有了更大的靈活性,例如可以在云環(huán)境中使用Hadoop。如果用本地安裝運行的形式使用Hadoop,往往要創(chuàng)建一個單一的大集群來支持各種不同的應(yīng)用,并且需要擁有一個統(tǒng)一的數(shù)據(jù)拷貝;如果在云環(huán)境中運行Hadoop,數(shù)據(jù)會在亞馬遜存儲之類的系統(tǒng)中,云環(huán)境供應(yīng)商已經(jīng)幫助管理了數(shù)據(jù)拷貝。此外,在云環(huán)境中使用Hadoop,客戶可以針對不同的應(yīng)用創(chuàng)建不同的集群,這樣的集群開關(guān)或者規(guī)模伸縮等都可以按需進行,對于客戶來說,應(yīng)用更好被控制,同時也增加了靈活性。
如果從整個IT長遠的發(fā)展趨勢看,過去一個企業(yè)中的IT往往是集中在一個部門,但現(xiàn)在很多企業(yè)的數(shù)據(jù)和數(shù)字技術(shù)是在整個企業(yè)中擴散并被使用,各個非IT部門具有越來越大的能力在IT方面進行自我管理、自我服務(wù),越來越多的工具能夠幫助做到這一點,不得不說云計算促進和推動了這一趨勢的發(fā)展。
由于云計算的出現(xiàn)使一個公司中非IT部門,例如運營、制造、市場營銷部門能夠自行采購一些服務(wù)并且加以運行,控制能力和靈活性都比以往大大增強,所以云計算本身也是促進了IT和數(shù)據(jù)的分散化、自助化,一改過去那種集中化的模式。采訪中,筆者也針對數(shù)據(jù)倉庫架構(gòu)以及Hadoop針對小數(shù)據(jù)量應(yīng)用的問題請教了Doug Cutting。
51CTO記者:如今,有的數(shù)據(jù)專家趨向于將Hadoop作為數(shù)據(jù)倉庫架構(gòu)的補充,這個問題您怎么看待?
Doug Cutting:就數(shù)據(jù)倉庫的架構(gòu)而言,實際上我們可以把整個數(shù)據(jù)倉庫都建立在Hadoop上。五年前,我們與Ralph Kimball博士,他是數(shù)據(jù)倉庫架構(gòu)主要的創(chuàng)建人,一起弄明白也證實了可以完全基于Hadoop來建立數(shù)據(jù)倉庫,而且也有很多用戶確實是把自己的數(shù)據(jù)倉庫完全建立在Hadoop基礎(chǔ)上。
當(dāng)然,就建立數(shù)據(jù)倉庫的技術(shù)而言,有其他的一些技術(shù)或者工具與Hadoop相比,存在的時間更長,事實上對于這些時間更加長久的技術(shù),Hadoop并沒有能完全具備其中所有的功能與性能。但即便如此,很多用戶還是選擇將他們的數(shù)據(jù)倉庫構(gòu)建在Hadoop架構(gòu)上,為了能夠?qū)崿F(xiàn)更加優(yōu)越的可擴展性、更高的性價比以及更好的靈活性。
對于一些初創(chuàng)企業(yè)來說,他們會用Cloudera Hadoop來構(gòu)建整個數(shù)據(jù)倉庫;對于一些其他類型的公司,如果他們已經(jīng)具備傳統(tǒng)技術(shù)架構(gòu)的數(shù)據(jù)倉庫,他們也會采用Cloudera Hadoop,也就是將他們傳統(tǒng)數(shù)據(jù)倉庫中的一部分工作負載遷移到Cloudera Hadoop的平臺上。對于這樣的公司來說,實際上他們擁有了一個更大的數(shù)據(jù)倉庫,擁有了更好的伸縮擴展性并且能夠降低成本。當(dāng)然,對于已有基于傳統(tǒng)技術(shù)的數(shù)據(jù)倉庫的公司來說,如果要把所有的工作負載都遷移到Cloudera上是有困難的,因為合適性與兼容性的問題,部分遷移還是可以完成的。
51CTO記者:對于一些數(shù)據(jù)量極小的應(yīng)用,有的人認(rèn)為用Hadoop是“殺雞用牛刀”,您對此如何理解?
Doug Cutting:是不是“殺雞用牛刀”,主要看用戶完成任務(wù)的過程中需要使用怎樣的工具,有時候也許在規(guī)模上、擴展性上超出了需求,但仍然能夠帶來靈活性的優(yōu)勢。例如使用基于Spark的機器學(xué)習(xí)工具,有些時候用戶仍然發(fā)現(xiàn)Hadoop平臺對于他們完成任務(wù)非常有用,雖然規(guī)??赡苓^大;實際應(yīng)用中也發(fā)現(xiàn)在很多應(yīng)用當(dāng)中即使是規(guī)模很小的集群,比方說5個節(jié)點的集群,客戶也發(fā)現(xiàn)使用Hadoop與其他技術(shù)選項相比能夠產(chǎn)生更好的產(chǎn)出,帶來更多的價值與競爭,當(dāng)然我們并不認(rèn)為Hadoop是一種通用的工具,能夠解決所有問題。
除了Hadoop和spark之外,在開源領(lǐng)域Doug Cutting還比較關(guān)注Kudu。Kudu是表現(xiàn)強大的存儲引擎,既具備了像Hbase隨機訪問的很強的知識能力,同時又具備HDFS的快速查詢能力,兼而有之;另外就是Kafka,Kafka有很強的實時應(yīng)用支持能力和流處理能力,據(jù)了解,Cloudera已經(jīng)把這兩大技術(shù)采納到平臺中更好地滿足我們客戶的需求。“我們也在構(gòu)建一些更多的Spark機器學(xué)習(xí)的工具,與之相關(guān)的一個項目是Apache Spot,它表現(xiàn)了網(wǎng)絡(luò)安全的能力,幫助我們的客戶免遭黑客的攻擊,這是我們在Hadoop和Spark基礎(chǔ)上進一步的推進。”Doug Cutting說。
關(guān)于人工智能
如今人工智能的火熱程度已經(jīng)很難用語言來形容了,對于人工智能、大數(shù)據(jù)以及Hadoop,Doug Cutting強調(diào):“我覺得Hadoop和AI之間是非常適合、非常匹配的一項技術(shù),因為AI本身就是一種大數(shù)據(jù)的應(yīng)用,特別是在對于AI系統(tǒng)進行訓(xùn)練的時候,使用的數(shù)據(jù)越多,AI系統(tǒng)就越先進。上周Google發(fā)表了一篇文章,主要講的是AI的圖象識別,也就是說在用數(shù)以十億計的圖象識別的深度智能系統(tǒng)進行培訓(xùn)的基礎(chǔ)上,仍然是使用的數(shù)據(jù)越多、圖片越多,這種深度學(xué)習(xí)圖象識別的能力就越強,也就是說對于人工智能系統(tǒng)進行訓(xùn)練使用的數(shù)據(jù)量越大,人工智能系統(tǒng)的質(zhì)量就越高,從這個意義上來說AI本身也是一種大數(shù)據(jù)應(yīng)用。”筆者最近接觸了很多有關(guān)AI的言論以及產(chǎn)品,就知識圖譜以及深度學(xué)習(xí)請Doug Cutting談了談自己的看法。
51CTO記者:因為2012年谷歌推出了知識圖譜,現(xiàn)在越來越得到行業(yè)的認(rèn)可。以知識圖譜為代表的知識工程也越來越得到關(guān)注,請問這種以知識圖譜作為推動人工智能發(fā)展和落地的重要工具、技術(shù)手段的看法,您是怎么理解?
Doug Cutting:首先就知識圖譜、知識工程而言,在推動人工智能的過程中,在我看來這種知識圖譜、知識工程的方法沒有統(tǒng)計學(xué)方法那么成功。早在八十年代,知識工程就已經(jīng)非常流行了,那時我還是學(xué)生。如今深度學(xué)習(xí)取得的成功主要依靠的是統(tǒng)計學(xué)的方法,也就是基于巨量數(shù)據(jù)的各種模型的訓(xùn)練,而不是通過知識工程的方式,在圖像識別、語音識別以及分類任務(wù)的完成上取得了很大進展。當(dāng)然我也不是說像知識圖譜、知識工程的方式在人工智能發(fā)展過程中永遠不會成功,只是目前的現(xiàn)狀不如統(tǒng)計學(xué)的方法更加有效。
51CTO記者:您認(rèn)為深度學(xué)習(xí)還存在什么樣的缺陷?
Doug Cutting:對于深度學(xué)習(xí)進一步發(fā)展的挑戰(zhàn),我認(rèn)為最大的一個挑戰(zhàn)就是深度學(xué)習(xí)的有用性、適用性、廣度到底有多大。目前在一些認(rèn)識、識別任務(wù)的完成中,深度學(xué)習(xí)非常有效,例如在大量的噪音或者是干擾的因素中進行清晰的識別、分類、標(biāo)簽,深度學(xué)習(xí)做得非常好;但有很多其他類型的任務(wù),對形勢進行分析并做出決策,并不是完全依靠這種能力。雖然目前人們對于深度學(xué)習(xí)能夠完成很多其他任務(wù)這個定位是非常樂觀的,但我希望這樣的樂觀不會是一種過度的樂觀。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】