開源社區(qū)不反哺很危險
大數(shù)據(jù)時代,英特爾同樣“Inside”,而且,意味著更多X86架構產(chǎn)品的使用。
不止于此,英特爾在2013年初也推出了自己的Hadoop發(fā)行版。今年3月,英特爾又以7.4億美元入股Hadoop生態(tài)系統(tǒng)中大名鼎鼎的Cloudera公司,占股18%。
“目前,英特爾和Cloudera各自的Hadoop發(fā)行版已經(jīng)實現(xiàn)了結(jié)合。”8月27日,英特爾行業(yè)合作與解決方案部中國區(qū)總經(jīng)理凌琦在接受21世紀經(jīng)濟報道記者專訪時表示。
凌琦說,目前大數(shù)據(jù)還處在比較初級的階段,還有很長的路要走,但他毫不懷疑未來大數(shù)據(jù)是一座金礦,“很興奮,就像上世紀90年代剛接觸PC時那種感覺”。
同時,凌琦強調(diào),Hadoop開源社區(qū)有公認的反哺機制,一些廠商如果將其封閉起來,不僅違背了這個開源社區(qū)的機制,未來可能脫離主流面臨落伍的風險,“而這將帶來客戶遷移風險”。
大數(shù)據(jù)需要靜下來
《21世紀》:你怎么理解大數(shù)據(jù),現(xiàn)在會不會炒得太熱?
凌琦:數(shù)據(jù)一直存在,不過數(shù)據(jù)類型、規(guī)模的不同,以及從中挖掘出價值的可能性,帶來了大數(shù)據(jù)的概念。今天的很多數(shù)據(jù)獲取是先不結(jié)構化,因為結(jié)構化的過程中,很多價值丟失了。當然這并不意味著排斥結(jié)構化數(shù)據(jù)。
現(xiàn)階段,大數(shù)據(jù)蘊含的價值和潛力還沒有完全發(fā)揮出來,這類似于互聯(lián)網(wǎng),剛誕生時上面的應用也很少,但未來充滿無限想象。從這一點來看,熱一點無可厚非。
從概念的角度來看,現(xiàn)在大家都接受了大數(shù)據(jù)是個重要事情的判斷,再炒還有多大意義呢?無非就是讓大家對它重視起來,僅此而已。
當然,很多人在講大數(shù)據(jù),但沒有講到大數(shù)據(jù)具體能夠做些什么東西,還沒有做到對大數(shù)據(jù)的應用場景、應用模式的深度挖掘和使用。比如說,大數(shù)據(jù)對于金融行業(yè)的反欺詐、電信行業(yè)的詳單分析、內(nèi)部經(jīng)營分析、精準營銷等都是很典型的應用,但其實還沒有被充分利用。
所以概念吹得再大也沒多大意思,最重要的事情是,從應用的角度來說,有需要靜下來做深入細致工作。
《21世紀》:應用存在瓶頸嗎?或者說應該如何突破?
凌琦:這實際上是生態(tài)環(huán)境的問題,需要應用開發(fā)廠商和用戶共同坐下來商討,了解應用的需求,和它應用的模式、未來的應用方向以及希望能夠解決的事情。
這個過程中并沒有統(tǒng)一的做法。石油公司哪些應用能夠適應你,保險公司是怎么樣的,交通運輸業(yè)是怎么樣的,零售業(yè)是怎么樣的,都不一樣。
從企業(yè)內(nèi)部來說,各個環(huán)節(jié)也要開放自己的思想,業(yè)務的人要看到應用的可能性,應用的人要了解業(yè)務。
作為從業(yè)人員,則要做更多的市場教育和培訓的工作。否則你光炒一個概念,炒完了又怎么樣呢。要做扎實的工作,要做培訓、教育,以及一些好的應用推廣。
需要指出的是,大數(shù)據(jù)的發(fā)展也需要一個過程,從我個人的感受來看,其實發(fā)展速度非???。兩年前參加行業(yè)交流的時候,大家還是在談概念和憧憬,現(xiàn)在大家已經(jīng)聚焦到怎么從中挖掘價值,談具體的應用方式了。
“說IOE不行了,有失偏頗”
《21世紀》:大數(shù)據(jù)對企業(yè)的IT采購和預算支出會帶來什么影響?我們知道,今年有個非常熱的詞叫“去IOE”。
凌琦:與分布式的大數(shù)據(jù)技術相比,集中式的存儲、計算和關系型數(shù)據(jù)庫,適應了當時有限數(shù)據(jù)的應用場景,他們之間的協(xié)作也是有效的,到今天來說也還是有效的。
說IOE不行了,有失偏頗,大家還是認可它在解決當時問題上的價值。但計算不能停留在此,它是適應過去以內(nèi)部數(shù)據(jù)為主導的IT架構,現(xiàn)在很多數(shù)據(jù)獲取已經(jīng)超越了企業(yè)內(nèi)部的范疇,原來的體系和架構并不足夠。
這是技術架構層面。如果把這個熱詞與具體的企業(yè)聯(lián)系起來,又是另外一回事。外部市場環(huán)境會推動企業(yè)內(nèi)部的變化,雖然革自己的命很難,但大公司難免都 要經(jīng)過這樣的跨越。拿英特爾來說,我們早期是做Memory(內(nèi)存),當后來日本廠商進來,在工藝、成本、效率上沒有了優(yōu)勢,這塊業(yè)務的利潤受到影響很 大,后來轉(zhuǎn)型到做微處理器。
我認為,對于大數(shù)據(jù)下的新架構來說,***,成本比以前相對更低;第二,未來的可能性更高。
《21世紀》:企業(yè)應該如何選擇大數(shù)據(jù)平臺的商業(yè)版本?
凌琦:這個跟企業(yè)的業(yè)務有關。對于一般的傳統(tǒng)企業(yè)來說,他們希望有一個比較標準化的平臺,能夠利用平臺的商業(yè)版本,快速地實施、***化他們在IT的投入產(chǎn)出,實現(xiàn)它的商業(yè)目標。
互聯(lián)網(wǎng)公司會針對整個系統(tǒng)的優(yōu)化做很多的工作。所以很少看到互聯(lián)網(wǎng)公司用一個純粹的商業(yè)版本,大多數(shù)是用開源的東西自己加以二次開發(fā);而傳統(tǒng)企業(yè)更多是希望用已經(jīng)成熟的版本。
《21世紀》:為什么有這種區(qū)別?
凌琦:所有的商業(yè)客戶其實都有一個特點:他們更多地是考慮成本和收益之比。成本高但收益更高,那就是可以做的事情;成本低收益更低,那就是不能干的事情。
互聯(lián)網(wǎng)企業(yè)用分布式的存儲和Hadoop類似的開源解決方案,加上二次開發(fā)之后,所能夠解決的問題,能給它的業(yè)務模式帶來基本的支撐。以前一般的互 聯(lián)網(wǎng)公司可能就幾百臺、幾千臺服務器,但現(xiàn)在已經(jīng)是幾十萬臺上百萬臺服務器的規(guī)模了,如果用以前的架構的話,那成本可能會很高。而現(xiàn)在用類似Hadoop的分布式存儲、數(shù)據(jù)平臺,可以降低成本。
當然,從解決問題的層面來說,成本不能說是絕對低的,而是相對比較低。除了使用成本,還有二次開發(fā)和維護的成本。
對于傳統(tǒng)企業(yè)來說,則是一個循序漸進的過程。比如互聯(lián)網(wǎng)金融,互聯(lián)網(wǎng)企業(yè)了解用戶的行為比銀行所了解的行為可能更多,銀行搜集的更多是交易信息。如 果銀行希望能夠擴展客戶并且接觸到更多的客戶,甚至能夠和互聯(lián)網(wǎng)企業(yè)結(jié)合起來,對于客戶的行為信息搜集,進而針對用戶進行營銷。在這個時候,銀行想到擴展 了,那它就需要有這一類的大數(shù)據(jù)分析的體系架構來支撐它。
《21世紀》:你把企業(yè)分為互聯(lián)網(wǎng)企業(yè)和傳統(tǒng)企業(yè),那您覺得比如說電信、金融這些都是大公司,他們是適合自己開發(fā)還是選一個標準的版本?
凌琦:我不認為傳統(tǒng)企業(yè)自己開發(fā)是一條合理的道路,畢竟這些企業(yè)有其自身的主營業(yè)務,比如石油企業(yè)是做石油開采、精煉,IT是支撐這些企業(yè)的工具, 因此,使用商業(yè)化版本的東西更加合適。對于互聯(lián)網(wǎng)公司來說,整個IT架構幾乎就是它的生命線和生產(chǎn)機器了,所以說還是會有點不一樣。
對于傳統(tǒng)企業(yè)來說,Hadoop是個標準的基礎設施,從基礎的架構上來說是開放的,能夠使它在不同的技術之間,在不同的廠商之間,未來能夠有靈活的選擇余地。不是說我用了以后就被鎖住了,我就只能用你這一家的。
當然,在基礎架構上面的應用層,應該是每一家都有自己的優(yōu)勢,或者說可以通過自己的開發(fā)來達到,比如說,有些銀行可能更加注重于個人的存貸業(yè)務,有 些銀行可能更注重于企業(yè)的信貸業(yè)務,還有銀行可能更注重國際貿(mào)易,這個可能就跟它上面的應用有關了。在這種情況下,需要有一個穩(wěn)定的技術架構,在此基礎上 的應用是可以自己操作的部分。
開源社區(qū)需要反哺機制
《21世紀》:從供應側(cè)來看,大數(shù)據(jù)的解決方案足夠理想嗎?企業(yè)是不是還要在基礎的層面進行定制化的開發(fā)?
凌琦:現(xiàn)在的狀態(tài)是像Hadoop這類的基礎平臺,基本上是通過開源的社區(qū),某一些廠商通過開源社區(qū)所做的東西進行優(yōu)化之后,形成一個穩(wěn)定的版本。
開源社區(qū)通常是誰都可以貢獻的,貢獻了之后形成一個主流,也有許多分支。***的做法是什么?是跟著主流走,因為可以保證你以后的系統(tǒng),在不同的廠商 當中可以互相之間挑選、切換而不會被鎖定,同時也為未來的技術做準備。比如說一些分支可能未來變成主流當中的一個部分,你就有機會了。
所以你要看哪些廠商在Hadoop的開源社區(qū)里面貢獻更多,這意味著其整個技術能力和對未來主流的影響力會更大。隨著時間的推移,有一些技術沒有辦 法成為主流,那么以后技術的升級可能會使非主流技術不兼容的狀況發(fā)生,可能形成孤島,從而使得企業(yè)的技術選擇對于未來升級造成了很大的障礙和升級成本。
因此,主要是往主流的方向走。哪些是主流的廠商?你主要看這些廠商里面有多少對于開源社區(qū)的貢獻,這種貢獻是不是***會變成它開源社區(qū)主干的東西,如果是,這些廠商是會有更大的前途。
《21世紀》:現(xiàn)在誰的貢獻***?
凌琦:開源社區(qū)誰都可以貢獻,但是***開源社區(qū)仍然是有一條主線,這條主線是由誰來做的呢?是由主要貢獻者。
比如Cloudera,這家公司大概只有700人,里面大概有100多個人是開源社區(qū)主要代碼的貢獻者,這個是一股很大的力量,意味著它所做的東西很大程度上會被開源社區(qū)所吸收,成為主流。
《21世紀》:會不會也有一些企業(yè)沒有進行反哺,逐漸形成自己一套專有的版本?
凌琦:從開放社區(qū)的精神來說,大家從開放社區(qū)里面拿東西進行改進,那也有責任把改進的東西回饋給開放社區(qū)。這里面有一定的規(guī)則,有責任要反哺給這個社區(qū)。
對于大公司來說,本身這么做或許問題還不大,因為公司體量大,可以自己開發(fā)自己走。但是對于一些商業(yè)版本的開發(fā)者來說,這么做其實是件很危險的事 情,因為很有可能你的客戶因此而脫離主流,比如帶來無法遷移數(shù)據(jù)等風險。這個層面上就不僅僅是道義的問題。所以大多數(shù)傳統(tǒng)開發(fā)廠商通常不會這么干。