“后大數(shù)據(jù)時代”,看TalkingData如何定義
原創(chuàng)經(jīng)歷了從上個世紀(jì)70年代開始“辦公自動化”到今天“移動互聯(lián)時代”,現(xiàn)在人類科技演進(jìn)再次來到了十字路口。虛擬現(xiàn)實(shí)、人工智能、現(xiàn)實(shí)增強(qiáng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)……網(wǎng)絡(luò)、科技正在逐漸改變我們生活中習(xí)以為常的方方面面,可以預(yù)見在不遠(yuǎn)的將來,人類將迎來一輪新的科技爆發(fā)。而數(shù)據(jù)必將是下一次科技爆發(fā)的基石!
作為一家專注于大數(shù)據(jù)領(lǐng)域的公司,TalkingData不斷嘗試將移動大數(shù)據(jù)應(yīng)用于不同領(lǐng)域,更好的發(fā)揮數(shù)據(jù)應(yīng)有的價值,為不同的行業(yè)提供數(shù)據(jù)應(yīng)用的新思路、新模式。由TalkingData主辦的——“T11 2016暨TalkingData智能數(shù)據(jù)峰會”在北京中國大飯店隆重召開。國內(nèi)外各領(lǐng)域的數(shù)十位數(shù)據(jù)專家、行業(yè)精英、知名學(xué)者齊聚一堂,深入探討了業(yè)界建設(shè)性議題,引導(dǎo)行業(yè)方向,創(chuàng)造海量商機(jī),堪稱數(shù)據(jù)領(lǐng)域一年一度的行業(yè)盛會。
主會場
大會期間,TalkingData CTO肖文峰接受了51CTO記者的采訪,對“后大數(shù)據(jù)”時代,人工智能、海量非結(jié)構(gòu)化數(shù)據(jù)、智能數(shù)據(jù)平臺(SmartDP),及TalkingData團(tuán)隊(duì)情況作了詳細(xì)介紹。
肖文峰首先介紹說,目前TalkingData在線上的部分覆蓋了超過40億的智能設(shè)備,服務(wù)12萬款應(yīng)用,擁有10萬人次的開發(fā)者。線下數(shù)據(jù)的采集,主要是覆蓋80個城市,大概有3000多家商場,有400萬個POI指紋信息。線上線下數(shù)據(jù)的打通,為不同行業(yè)提供了精準(zhǔn)的基礎(chǔ)數(shù)據(jù)源。
TalkingData CTO肖文峰
TalkingData全球算法大賽
在今年的7月至9月,TalkingData舉辦了全球算法大賽。大賽中,TalkingData為數(shù)據(jù)科學(xué)愛好者們開放了獨(dú)一無二的中國移動互聯(lián)網(wǎng)數(shù)據(jù)和真實(shí)的商業(yè)場景,并提供兩萬五千美元高額獎金,讓本次大賽成為全球大數(shù)據(jù)人才真正實(shí)現(xiàn)用數(shù)據(jù)創(chuàng)造價值的平臺。
據(jù)肖文峰介紹,全球大概有2000個團(tuán)隊(duì)或數(shù)據(jù)科學(xué)家參與了此次算法大賽。大賽中,國外的數(shù)據(jù)分析師和科學(xué)家對中國和中國的數(shù)據(jù)非常感興趣。“我們發(fā)布脫敏的數(shù)據(jù),他們在上面跑各種各樣的算法,通過各種可視化的方式去探究人的行為,人口屬性,比如男女,發(fā)現(xiàn)了很多有意思的算法和場景。這場比賽對我們來說也是了解這些科學(xué)家的過程,我們知道這些科學(xué)家在哪,他們喜歡什么,如何交流等等。”
肖文峰表示,TalkingData希望逐步把一些數(shù)據(jù)開放出去,從國外引入更多的數(shù)據(jù)科學(xué)能力,這也算是此次大賽一個亮點(diǎn)。
開放的態(tài)度
在TalkingData看來,數(shù)據(jù)一定要開放,社會才能發(fā)展。TalkingData從一開始就站在客觀中立的角度,盡可能把數(shù)據(jù)共享出來,以產(chǎn)生更大的價值。比如“數(shù)據(jù)觀象臺”,把一些比較普遍的數(shù)據(jù),例如應(yīng)用排名公示出來,讓對這些數(shù)據(jù)感興趣的人直接應(yīng)用。
TalkingData是一個深度的開源社區(qū)的擁抱者、參與者、推動者。其大數(shù)據(jù)監(jiān)控系統(tǒng)OWL(貓頭鷹),就是開源的。
在“T11 2016暨TalkingData智能數(shù)據(jù)峰會”主會場上,TalkingData CEO崔曉波也公開了兩個開源項(xiàng)目:Fregata和Myna。Fregata是超大規(guī)模算法引擎,這個算法引擎的優(yōu)勢是在10億樣本、1000萬維度的情況下,比Spark MLlib原生算法庫的計(jì)算效率高兩個數(shù)量級,大概分鐘級可以得到訓(xùn)練結(jié)果,它里面做了很多參數(shù)的自動調(diào)整,還有數(shù)據(jù)計(jì)算引擎的優(yōu)化等,來提高計(jì)算效率,能夠達(dá)到一次數(shù)據(jù)掃描就能夠收斂。這是市面上別的開源算法庫實(shí)現(xiàn)不了的。
Myna項(xiàng)目是一個情景感知引擎,能夠幫助應(yīng)用開發(fā)者判斷手機(jī)用戶的姿態(tài),是走是跑還是開車等等。Myna有自己的專利技術(shù),與國外的同類技術(shù)相比,主要有兩大優(yōu)勢。第一是姿態(tài)識別速度。它的反應(yīng)速度比同類技術(shù)提高了3倍。同樣識別精度的情況下,它的識別時間只有國外同類產(chǎn)品的1/3,同時它的耗電量只有國外產(chǎn)品的1/2,因?yàn)樗昧艘恍?shù)據(jù)窗口重疊的方法來加速計(jì)算,因此耗電量也低很多。第二,不同于同類產(chǎn)品用C++方式來實(shí)現(xiàn),Myna是基于JAVA實(shí)現(xiàn)的,集成一些SO的庫非常簡單。
智能數(shù)據(jù)平臺(SmartDP)
智能數(shù)據(jù)平臺(SmartDP)是TalkingData新創(chuàng)建的詞。它是基于智能數(shù)據(jù)應(yīng)用,探索商業(yè)價值的平臺,具有數(shù)據(jù)管理、數(shù)據(jù)工程和數(shù)據(jù)科學(xué)的能力。旨在發(fā)揮自身優(yōu)勢,利用5年來在數(shù)據(jù)科學(xué)、數(shù)據(jù)管理、數(shù)據(jù)工程方面的各項(xiàng)積累,在橫跨互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、傳統(tǒng)行業(yè)等領(lǐng)域積累的經(jīng)驗(yàn),有機(jī)整合并產(chǎn)品化,促進(jìn)行業(yè)發(fā)展,并為各行各業(yè)提供更完善的數(shù)據(jù)產(chǎn)品及服務(wù)。
肖文峰透露,今后,TalkingData所有的產(chǎn)品體系,都會圍繞以SmartDP為核心的數(shù)據(jù)生態(tài),構(gòu)建數(shù)據(jù)工程能力、數(shù)據(jù)的科學(xué)能力以及數(shù)據(jù)的管理能力,增加更多的數(shù)據(jù)源和數(shù)據(jù)應(yīng)用,讓更多的合作伙伴基于這個平臺產(chǎn)生價值。
團(tuán)隊(duì)的力量
據(jù)肖文峰介紹,TalkingData的技術(shù)團(tuán)隊(duì)分四種角色,一是數(shù)據(jù)管理員,關(guān)注于如何匯聚數(shù)據(jù),如何高效地清洗數(shù)據(jù),是這個團(tuán)隊(duì)的任務(wù)也是難點(diǎn)。第二種是數(shù)據(jù)科學(xué)家團(tuán)隊(duì),不管是前端客戶的需求,還是后端自己的數(shù)據(jù)分析師,或者數(shù)據(jù)管理員、數(shù)據(jù)工程團(tuán)隊(duì),只要有算法的需求,都需要依賴于數(shù)據(jù)科學(xué)家建模,優(yōu)化算法,提高算法的計(jì)算效率。第三種是數(shù)據(jù)工程團(tuán)隊(duì),接近于傳統(tǒng)的產(chǎn)品研發(fā)團(tuán)隊(duì),偏工具平臺,關(guān)注于數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、云計(jì)算框架搭建、虛擬化等。數(shù)據(jù)工程團(tuán)隊(duì)需要提供工具平臺,讓數(shù)據(jù)科學(xué)家、數(shù)據(jù)管理員、數(shù)據(jù)分析師更好地利用數(shù)據(jù),管理數(shù)據(jù)。第四種是領(lǐng)域工程團(tuán)隊(duì),是全能型的技術(shù)團(tuán)隊(duì),更加偏項(xiàng)目。領(lǐng)域工程團(tuán)隊(duì)負(fù)責(zé)解決客戶的問題,無論是用TalkingData的數(shù)據(jù)還是第三方數(shù)據(jù),無論是用TalkingData的技術(shù)還是第三方的技術(shù),最終目的都是為了解決客戶遇到的現(xiàn)實(shí)問題,完成交付。
此外,社區(qū)的貢獻(xiàn)也不可小覷,在解決客戶問題過程中,技術(shù)生態(tài)的每個部分,從基礎(chǔ)存儲計(jì)算架構(gòu)到數(shù)據(jù)科學(xué),從數(shù)據(jù)采集、獲取、準(zhǔn)備、分析到發(fā)布,幾乎都有涉及,有的靠合作伙伴做,有的需要自己去開發(fā),因此積累了不少技術(shù)能力。肖文峰強(qiáng)調(diào),只有保持一種開放的心態(tài),外延才會更大,才能看到更多,只有更多的貢獻(xiàn)才有更多的收獲!