框架、平臺(tái)和智能應(yīng)用-大數(shù)據(jù)創(chuàng)新在中國的重點(diǎn)和未來
首次Strata+Hadoop World(SHW)北京大會(huì)在2016年8月初成功召開,好評(píng)如潮。我們的愿景是:通過一個(gè)大會(huì)來展現(xiàn)大數(shù)據(jù)和數(shù)據(jù)科學(xué)領(lǐng)域在中國以及全球的趨勢(shì)與方向。非常多有意思的創(chuàng)新點(diǎn)在大會(huì)的60多個(gè)議題演講和主題演講中涌現(xiàn)。
在過去的幾年中,我見證了中國很多公司已經(jīng)成為早期的和重要的Apache Spark的貢獻(xiàn)者。而Spark作為一個(gè)分布式的數(shù)據(jù)處理框架,已經(jīng)成為最活躍的大數(shù)據(jù)開源項(xiàng)目。那些持續(xù)跟蹤數(shù)據(jù)科學(xué)和大數(shù)據(jù)的人士,應(yīng)該能敏銳地認(rèn)識(shí)到來自中國的公司正在持續(xù)地把類似Spark這樣的技術(shù)的極限推進(jìn)到更大的規(guī)模,而這樣的規(guī)模在其他國家是無法見到的。我非常高興終于能與中國本土的數(shù)據(jù)社區(qū)見面,并能夠創(chuàng)造機(jī)會(huì)讓中國的技術(shù)專家和來自世界各地的專家交流思想。
應(yīng)用
SHW不僅僅是一個(gè)學(xué)習(xí)框架、平臺(tái)和技術(shù)的場(chǎng)合,我們也希望能集中展示多個(gè)領(lǐng)域的多種應(yīng)用。我們提供了數(shù)據(jù)在金融、安全、電子商務(wù)和社交媒體、交通運(yùn)輸和物流、通信和移動(dòng)計(jì)算、制造業(yè)、教育和公共服務(wù)等領(lǐng)域的應(yīng)用案例。
數(shù)據(jù)科學(xué)和人工智能
在本次大會(huì)的眾多議題中最熱的話題就是大規(guī)模的機(jī)器學(xué)習(xí)和人工智能(AI)應(yīng)用與技術(shù)。實(shí)際動(dòng)手的培訓(xùn)課程涵蓋了很多與之相關(guān)的主題,包括TensorFlow、MLlib;Petuum和DL4J這樣的框架;多個(gè)領(lǐng)域內(nèi)的創(chuàng)新,如金融領(lǐng)域(螞蟻金服和宜人貸);無人駕駛汽車(百度)、對(duì)話機(jī)器人和對(duì)話接口(微軟);知識(shí)數(shù)據(jù)庫和知識(shí)圖譜。講師們介紹了很多具體的方法(如深度學(xué)習(xí))和框架,并帶領(lǐng)大家探討了如何采用分布式機(jī)器學(xué)習(xí)和人工智能技術(shù)并進(jìn)行產(chǎn)品化。Datavisor的CEO(謝映蓮)介紹了一個(gè)新穎的基于Apache Spark的平臺(tái),可以利用大規(guī)模無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)來進(jìn)行欺詐檢測(cè)。
框架和平臺(tái)
對(duì)現(xiàn)在的數(shù)據(jù)工程師而言能熟練使用多種技術(shù)是一個(gè)基本的工作技能。參加實(shí)踐課程的學(xué)員都能夠與一些重要的開源技術(shù)的創(chuàng)始人交流。這些技術(shù)包括Hadoop、Spark、TensoFlow、Kylin、Druid、Alluxio、Heron、DistributedLog和DL4J。
而SHW的另外一部分,各種活動(dòng)和議題演講則涵蓋了解決方案架構(gòu)的最佳實(shí)踐。那些把獨(dú)立的部分組合成一個(gè)有序的應(yīng)用平臺(tái)的架構(gòu)設(shè)計(jì)分享則成為大會(huì)的另外一大熱點(diǎn)。包括小米、滴滴出行、推特、優(yōu)步、百度、阿里巴巴、京東和華為在內(nèi)的多家公司都概略性地介紹了他們的數(shù)據(jù)平臺(tái)的不同方面,以及一些具體的應(yīng)用案例。
大會(huì)的議題部分也較好地涵蓋了基于云的平臺(tái)、技術(shù)和解決方案。
智能、實(shí)時(shí)的應(yīng)用
來自小米和海爾的演講人介紹了關(guān)于物聯(lián)網(wǎng)、實(shí)時(shí)計(jì)算技術(shù)、工業(yè)制造和智能家居的應(yīng)用。其他的演講人則對(duì)與金融、安全、電子商務(wù)和社交媒體相關(guān)的應(yīng)用進(jìn)行了介紹。除了行業(yè)應(yīng)用以外,其他的議題演講也涵蓋了構(gòu)建流計(jì)算應(yīng)用的多個(gè)技術(shù)方面,比如使用諸如Spark、Apache Beam、Durid、Alluxio、Heron和DistribuedLog等技術(shù)來構(gòu)建流計(jì)算應(yīng)用。
創(chuàng)造全球思想碰撞的平臺(tái)
我想特別強(qiáng)調(diào)的是,本次大會(huì)實(shí)現(xiàn)了與中國的本土開發(fā)社區(qū)的積極合作,創(chuàng)造了一個(gè)讓中國的技術(shù)專家和來自全球的專業(yè)人士之間進(jìn)行思想碰撞的平臺(tái)。這也反映了主辦SHW的一個(gè)核心愿景,即構(gòu)建一個(gè)讓大數(shù)據(jù)、數(shù)據(jù)科學(xué)和人工智能技術(shù)領(lǐng)域的實(shí)踐者、用戶和企業(yè)進(jìn)行廣泛交流的社區(qū)。
一些分布式計(jì)算技術(shù)的最大規(guī)模的生產(chǎn)級(jí)部署是在中國發(fā)生的。本次大會(huì)的與會(huì)者表達(dá)出了對(duì)于來自這些中國公司的演講的極大興趣。同時(shí)一些中國的與會(huì)者也告訴我,他們非常高興能有機(jī)會(huì)傾聽國外技術(shù)專家的分享。隨著SHW北京的成功舉辦,我們期待著一個(gè)跨越中國國界的數(shù)據(jù)社區(qū)的自然形成。
本·羅瑞卡(Ben Lorica)
本· 羅瑞卡是O'Reilly的首席數(shù)據(jù)科學(xué)家和關(guān)于數(shù)據(jù)方面的內(nèi)容策略主管。在多個(gè)領(lǐng)域里(包括直銷市場(chǎng)、消費(fèi)者和市場(chǎng)研究、精準(zhǔn)廣告、文本挖掘和金融工程),他曾經(jīng)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他層效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。