干貨分享:企業(yè)大數(shù)據(jù)的實時分析之路
近日,“2016易觀A10大數(shù)據(jù)應(yīng)用峰會”主論壇“大數(shù)據(jù)基礎(chǔ)框架設(shè)計-實時分析技術(shù)平臺洞察與實踐”上,易觀CTO郭煒發(fā)表了“企業(yè)大數(shù)據(jù)的實時分析之路”的主題演講,從技術(shù)角度給大家講述如何用實時分析幫助企業(yè)進(jìn)行數(shù)據(jù)運營。
以下為演講實錄及PPT:
郭煒:各位嘉賓,各位領(lǐng)導(dǎo),各位技術(shù)的小伙伴們,早上好!
非常榮幸今天站在這里和大家分享一下我們易觀對于實時分析技術(shù)的一些理解。其實昨天于老師也曾經(jīng)講過,我們的實時分析會助力我們的用戶資產(chǎn)增長,究竟什么是實時分析,實時分析究竟怎么樣幫助企業(yè)能夠做到他的用戶資產(chǎn)增長。今天上午主要有幾個技術(shù)大咖,后面我相信王老師會一一介紹,從技術(shù)角度來給大家講講怎么讓一個企業(yè)做到實時分析之路。下午是相關(guān)移動互聯(lián)網(wǎng)一些實際用戶講講怎么樣他們是怎么樣做實時分析和應(yīng)用分析,這是今天的安排。
今天我作為***個主講者,給大家講講我們怎么樣用實時分析幫助企業(yè),讓他自己的企業(yè)數(shù)據(jù)運營做起來,從技術(shù)上面怎么做。
其實大家知道,在現(xiàn)在數(shù)據(jù)越來越多,而且越來越快,就在我剛才講話的1分鐘里面,有2100萬的微信會發(fā)出去,可能有900多萬分鐘的視頻就會被播放,大家會發(fā)現(xiàn)一個事情,在過去我們總是說現(xiàn)在的數(shù)據(jù)非常大,其實現(xiàn)在的數(shù)據(jù)也變得非???,從我們觀察的觀點能看到,過去整個數(shù)據(jù)讓大數(shù)據(jù)平臺建起來之后,只是讓我們的企業(yè)數(shù)據(jù)連通起來,其實現(xiàn)在的實時分析和實時數(shù)據(jù)計算讓整個企業(yè)的效率增長起來。
很久以前大數(shù)據(jù)有三個概念,三個V,***個V是非常大的,海量。第二個V是速度,很快。第三個V是多樣化,很難。其實過去我們做大數(shù)據(jù)的時候大家一般都會強調(diào)一個企業(yè)有多少多少數(shù)據(jù)量,每天要加載多少數(shù)據(jù),多少萬條用戶,每天月活是多少,在過去的時段里,特別是現(xiàn)在國內(nèi)的創(chuàng)新企業(yè),我們的數(shù)據(jù)真的越來越多,每一個企業(yè)都是數(shù)據(jù)資產(chǎn)企業(yè)。但其實到現(xiàn)在為止,每一個企業(yè)真的都有了很多的數(shù)據(jù),下一步模式要面臨的是我們怎么能讓這些數(shù)據(jù)高效的運轉(zhuǎn)起來,而不僅僅是只拿到很多數(shù)據(jù)存儲起來,并沒有把它變成真正的實用價值,中間也遇到了很多的問題。
我記得我剛剛開始做數(shù)據(jù)的時候大家都說我們現(xiàn)在有幾個GB的數(shù)據(jù),后來發(fā)現(xiàn)我們自己的倉庫有TB級數(shù)據(jù)倉庫,現(xiàn)在大家提到大數(shù)據(jù)平臺的時候都會提到PB級的數(shù)據(jù)平臺。大家會發(fā)現(xiàn),隨著我們的數(shù)據(jù)增長,這些并不能夠很好衡量我們自己的數(shù)據(jù)量級,PB級其中一部分,再往上大家能看到EB級數(shù)據(jù),ZB級數(shù)據(jù)?,F(xiàn)在整個宇宙統(tǒng)計信息量來講,其實它是有250萬億數(shù)據(jù)在里面,將來所有數(shù)據(jù)加在一起不能用YottaByte衡量,其實我們的潮流速度并沒有幾何速度提升。我下面會講到每個企業(yè)怎么樣通過這么大數(shù)據(jù)量級幫助我們做相關(guān)的分析和相關(guān)的處理。
這里有一個觀點,過去大家經(jīng)常說我們的數(shù)據(jù)非常大,第二天我們會看到頭一天很多相關(guān)的分析報表,我們的運營情況,其實我們會看到,我提一個概念,數(shù)據(jù)永遠(yuǎn)是臨時的,分析永遠(yuǎn)是有時效性的。無論你是在網(wǎng)絡(luò)也好,還是其他電商處理也好,你會發(fā)現(xiàn)一個現(xiàn)象,你購買一個東西,比如你購買了一個手機,購買以后你會發(fā)現(xiàn),這些電商廣告還非常少的一直推薦你,在周圍所有推薦位都是手機,即使你完成了購買動作。為什么呢?為什么他的推薦沒有這么有效了呢?不在于他沒有捕捉到你的數(shù)據(jù)和信息,其實他已經(jīng)完全采集到我們的信息,但為什么沒有很快的根據(jù)你現(xiàn)在的場景來去反饋你相關(guān)的推薦方法呢?其實是因為他的實時分析和他的實時計算沒有做到。所以***點,我們在做很多的日常處理和我們真正在做大數(shù)據(jù)分析的時候,我們?nèi)绻麤]有做到很好的實時分析就會產(chǎn)生一些不適時的產(chǎn)品推薦,包括很多在做APP分析也好,或者是做互聯(lián)網(wǎng)數(shù)據(jù)分析也好,經(jīng)常會發(fā)現(xiàn)一些我們自己互聯(lián)網(wǎng)產(chǎn)品的一些問題,經(jīng)常能看到,如果一個問題經(jīng)常是通過我們的質(zhì)控部門或者客服部門反饋回來說,比如我的一個購買,或者我的一個瀏覽出現(xiàn)了一些問題,這個時候再反饋到客戶那里,從你的客戶再看到你的研發(fā)部門,或者再到你的產(chǎn)品部門,說到這樣的問題的時候其實它也是過時的產(chǎn)品質(zhì)量控制。我們做實時分析是希望在你用戶發(fā)現(xiàn)這個問題之前你就能發(fā)現(xiàn)你自己的產(chǎn)品問題,從而控制相關(guān)的產(chǎn)品質(zhì)量。
第三個,現(xiàn)在互聯(lián)網(wǎng)金融非?;鸨蠹易鲑J款的時候,每一個互聯(lián)網(wǎng)金融公司都在說我1分鐘發(fā)貸款,3分鐘發(fā)貸款,拼速度的同時,一旦這筆貸款發(fā)出去,沒有將這個人當(dāng)時的相關(guān)狀況和信息做一個很好的模型分析,你拿到的是過時的數(shù)據(jù),頭一天的數(shù)據(jù),對你的風(fēng)險是非常大的。我們現(xiàn)在說大數(shù)據(jù),每一個數(shù)據(jù)都是臨時的,只有最接近你這段時間的數(shù)據(jù)它的價值越高,離你時間越遠(yuǎn)的數(shù)據(jù)價值越低。所以做實時分析的目標(biāo)是將眼前最零塊的數(shù)據(jù)分析能夠達(dá)到它***的價值,分析基于所有數(shù)據(jù)采集到處理完還不夠,我們將它做一個分析模型,將我們的分析模型也做到實時化,從而達(dá)到我們的實時分析,助力相關(guān)用戶資產(chǎn)的增長。
說到這里,現(xiàn)在AI都非?;?,很多公司也要成立自己的AI部門,很多AI算法也在不斷的迭代,其實真正做AI之前一定要做的一件事情就是實時分析,為什么這么說?大家能看到,整個數(shù)據(jù)從過去2000年到現(xiàn)在,國內(nèi)所有這些做數(shù)據(jù)的相關(guān)企業(yè),從數(shù)據(jù)倉庫到大數(shù)據(jù)分析平臺到AI,都是有一個過程的,可能最開始是非常不實時的,企業(yè)內(nèi)部的統(tǒng)計,可能每個月出一個月報,到后來出現(xiàn)數(shù)據(jù)倉庫,開始我們做了相關(guān)的OLAP分析,報表分析,BI的KPI,這都是在最開始的那段時間,它一般來講是以月以天來計的。再往后大數(shù)據(jù)出現(xiàn)了,過去企業(yè)內(nèi)的這些數(shù)據(jù)開始現(xiàn)在能看到用戶的一些點擊,我們能看到一些日志分析,我們開始基于這些日志做用戶畫像,包括有一些推薦引擎,廣告位,這些是我們的企業(yè)大數(shù)據(jù)分析。再往后一步是我們現(xiàn)在正處的時代,它應(yīng)該是企業(yè)實時大數(shù)據(jù)分析。
為什么這么講?它有幾部分:***個,我們的數(shù)據(jù)源在過去還只是鼠標(biāo)點擊流,通過網(wǎng)頁,或者是APP,再往下,在現(xiàn)在的時代,都是可穿戴設(shè)備,智能的wifi,我們每一次人走在哪里他能夠知道你現(xiàn)在所處的環(huán)境和狀態(tài),從而在你現(xiàn)在此時此刻此地給你做相關(guān)的推薦,最近很多廣告推薦算法已經(jīng)融合了場景推薦的方式,它會要求我要知道你現(xiàn)在此時此刻在哪里,根據(jù)你此時此刻的一些狀態(tài)和你的行為來給你限時的反饋,這個反饋不僅僅是在過去只是把過去的一些數(shù)據(jù)做一些點擊的采集,做一些模型,做一些過去的實時畫像,而是知道你現(xiàn)在此時此刻的需求。比如實時的渠道分析,我現(xiàn)在做一個活動,究竟我這個活動它的每一個渠道究竟哪里比較好,我究竟在哪里加大投入,比如實時場景推薦,此時此刻你在哪里,實時風(fēng)險評估,你放貸款的時候應(yīng)該什么時間給什么樣的人,做到這些才能說我拿到這個數(shù)據(jù)將來才能實現(xiàn)AI分析。很多自動駕駛的汽車,你是在開車的時候前面的情況經(jīng)常發(fā)生變化,如果你只是一個小數(shù)據(jù)量級去訓(xùn)練你的模型,你會發(fā)現(xiàn)我們可能會出現(xiàn)異常駕駛事故,最近也出現(xiàn)很多類似的事故,不是因為AI不夠智能,而是因為他給AI提供的數(shù)據(jù)量級不夠大不夠快,造成我們在AI學(xué)習(xí)過程當(dāng)中中間有一些盲點,從而造成一些安全事故。
所以所有的AI,如果企業(yè)想做AI的時候,***步先要實現(xiàn)整個實時計算整個采集分析加工的這套流程。企業(yè)如何做有效實時分析呢?無外乎分幾步,***步是定方向,為什么先把它放在里面講呢,因為對于每一個企業(yè)來講,講實時分析是非常容易的,但實時分析的投入非常大,因為它和過去大數(shù)據(jù)平臺又不同,它對實時計算集群能力、架構(gòu)、人員都有更高的要求,所以企業(yè)做實時分析的時候首先要評估企業(yè)自己的ROI,選擇一個適合的場景,究竟什么樣的場景對于每個企業(yè)比較合適,究竟你要做場景推薦還是要做實時分析的風(fēng)險評估,這是***個。第二步是夯實基礎(chǔ),現(xiàn)在有各種各樣的開源的閉源的大數(shù)據(jù)實時分析框架,我會給大家詳講,大家要選擇一種或者幾種適合自己企業(yè)當(dāng)時狀態(tài)的實時計算框架,今天也來了非常多的這方面的專家,后面會給大家詳細(xì)講解。第三步是打造能力,這里提一個說法,提到實時分析的時候我聽到很多技術(shù)小伙伴會跟我講,實時分析,這邊做批量,這邊做實時,或者現(xiàn)在提出的Lambda架構(gòu),把實時和批量計算放在一起,不就這些嗎。其實完全不是,因為實時的分析并不等于實時的計算,實時計算只是實時分析當(dāng)中的一步,在我們的分析過程當(dāng)中除了數(shù)據(jù)計算之外還有數(shù)據(jù)挖掘能力,實時采集的能力,這都是企業(yè)打造實時分析時候的重要節(jié)點。第四步是實現(xiàn)突破,找到產(chǎn)品出口,找到最合適的一個點,哪怕一兩點,找出來,讓企業(yè)自己的實時分析流暢的流轉(zhuǎn)起來。
剛才講了四點,我稍微展開講一講實時分析的要素。
***個要素,選擇合適的業(yè)務(wù)方向,數(shù)據(jù)時間軸離現(xiàn)在越近它的價值越高,真正反饋到我們產(chǎn)品的企業(yè)生命周期當(dāng)中,無外乎有這么六點,每一個企業(yè)看自己究竟做實時分析的時候應(yīng)該選擇哪一點做突破。
***是產(chǎn)品選擇,中間會提到相關(guān)適合場景的推薦,我們相關(guān)的競品反饋,馬上雙十一就到了,在座如果有電商小伙伴,一定是實時跟蹤競爭對手的價格變化,然后做決策?,F(xiàn)在主要靠人,未來加上算法,應(yīng)該是系統(tǒng)能夠自動去調(diào)的,否則你的價格和模型永遠(yuǎn)趕不上競爭對手,永遠(yuǎn)被動在做。
第二個,購買,購買有幾個,一個是價格要合適,不同的人可能他的價格和他的優(yōu)惠幅度是不同的,在他購買的剎那你究竟給他打五折還是給優(yōu)惠券激勵他完成閉環(huán),還有白條,我們這個白條什么時候給什么樣的人做相關(guān)推薦,也是購買流程。
第三個,業(yè)務(wù)創(chuàng)新,現(xiàn)在有很多這種洞察,我們很多新的業(yè)務(wù),包括現(xiàn)在的智能硬件都需要實時分析引擎才能轉(zhuǎn)起來。
第四個,品牌感知,如果一個問題出現(xiàn)的時候往往通過互聯(lián)網(wǎng)的傳播,它是指數(shù)級的增長,一旦你沒有控制住相關(guān)問題的爆發(fā),比如最近某款手機,開始的時候只是一兩個點,突然爆發(fā)到全球航空公司都不能用,禁止這款手機登上飛機,你的品牌控制和質(zhì)量控制怎么在***時間控制好,這是非常重要的。包括產(chǎn)品使用,用戶在使用你產(chǎn)品的時候能夠?qū)崟r看到用戶究竟怎么用你這款產(chǎn)品的,怎么樣提高你的這款產(chǎn)品,包括后面數(shù)據(jù)相關(guān)的服務(wù),比如說用戶的反饋機制也好,產(chǎn)品的質(zhì)量控制也好,這個其實是找到企業(yè)自己***個找到我們相關(guān)分析的方向。
第二個是要構(gòu)建實時數(shù)據(jù)源生態(tài),實時數(shù)據(jù)采集和過去的采集有很大的不同,因為在一開始的時候我們覺得每一個企業(yè)比如拿到他的網(wǎng)絡(luò)行為日志,或者拿到他的APP行為日志,或者拿到企業(yè)相關(guān)交易信息,我們覺得就夠了。但現(xiàn)在整體實時分析的時候發(fā)現(xiàn)這不夠,因為你要了解一個用戶所處狀態(tài)做到完整實時分析,你要知道這個人現(xiàn)在所處場景是怎么樣的,場景這個詞會延展到不僅僅是他在場景里面點擊的狀態(tài),而是他現(xiàn)在所處的周圍場景。比如在座各位在這個會場里面,可能對于某一些不同的場景來講,還有一些人在不同的商場里面,究竟他在電影院里面還是剛出來,還是在商場里面吃飯,這個場景如果只是單一一家企業(yè)很難拿到相關(guān)數(shù)據(jù)和信息,他需要融合到新的比如智能硬件,智能wifi,或者是智能視頻識別,知道你所處的場景。這些可能不僅僅是一個企業(yè)就可以完成的,它需要多個企業(yè)聯(lián)合,形成數(shù)據(jù)的實時融合,才能將你自己的數(shù)據(jù),對于用戶的數(shù)據(jù)采集完整,才能讓你的數(shù)據(jù)達(dá)到實時化。過去我們的采集還是很容易的,比如你去采集我們的行為日志就可以了,現(xiàn)金采集方法完全不同了,我們在做視頻識別或者照片識別的時候,并不是每個企業(yè)都有這樣的能力。你在實時分析實時處理的時候也需要生態(tài),需要你的合作伙伴幫助你把過去批量的分析變成現(xiàn)在的實時分析。所以在企業(yè)做實時分析的時候需要打造一個比較好的數(shù)據(jù)源生態(tài),才能夠讓你獲得這些實時的數(shù)據(jù)源。
第三個,我們要實現(xiàn)實時的計算架構(gòu)與算法。這里分幾層:***個是實時采集,你現(xiàn)在有相關(guān)的合作伙伴也好、生態(tài)也好,自己的SDK也好,采集也好,通過智能設(shè)備也好,把你的數(shù)據(jù)采集上來。再往上是實時計算,這只是其中的一部分,我把數(shù)據(jù)實時計算出來,因為你把它計算出來如果你不能給它做很好的查詢,其實這件事情還沒有達(dá)到分析報表層面。所以再往上一層最基本的,實時查詢,目前也是越來越多的開源和相關(guān)的技術(shù)小伙伴投入到里面,比如像麒麟,他主要做實時OLAP查詢,百億級的數(shù)據(jù)怎么能夠在秒級別甚至毫秒級別能夠把數(shù)據(jù)查詢出來,這是像麒麟這樣的。像Greenplum,他怎么能夠在那么大數(shù)據(jù)量里面秒級相關(guān)數(shù)據(jù)查詢,當(dāng)然,現(xiàn)在也有一個新出的Druid,很多用戶在用,也是實時OLAP引擎查詢。包括Impala、Spark SQL,我們計算到某一個結(jié)果以后,要給你的業(yè)務(wù)部門,要給你的分析師,要給你的相關(guān)風(fēng)險控制部門能查到這些用戶實時動態(tài),不僅僅是當(dāng)前此時此刻的數(shù)據(jù),還包括了這個用戶以往一年兩年、三年,甚至很長的數(shù)據(jù),能夠?qū)崟r把數(shù)據(jù)相關(guān)分析做起來。
后面這個稍微多講一點,實時分析算法,大家比較熟悉的是R,MLlib ,Kamanja,MOA,SAMOA,后面三個是大家不太熟悉的,開源也有一段時間了,他們做流式數(shù)據(jù)挖掘的,我給大家多講兩句SAMOA,我們做了采集,做了計算,做了查詢,其實并沒有做完,需要將你現(xiàn)在的狀況把它實時分析出來,變成一個模型。舉一個例子,昨天Google的郭老師舉了一個例子,Google做防風(fēng)險欺詐的時候,能看到手機屏幕點擊的位置,從而看到你這個人是機器在點還是人在點,這個過程完全就是通過我們流式的聚類就能做出來,每次點擊的時候能夠看到每個設(shè)備究竟是聚在一起點擊還是隨機點屏幕任何東西,從而看到防欺詐相關(guān)的算法。再往上相關(guān)的并發(fā)服務(wù)很多小伙伴比較熟悉了,比如現(xiàn)在常用挖掘的實時Python,我就不做分析了。
第四個,精準(zhǔn)的產(chǎn)品出口。實時的分析,實時的展示,實時的反饋,你可以做一些股票的購買,風(fēng)險的控制,人機交互。這都是要素四里面說到的。
實時分析是大數(shù)據(jù)分析的必經(jīng)之路,一開始我們企業(yè)做的是內(nèi)部數(shù)據(jù)BI,之后是企業(yè)大數(shù)據(jù)分析,經(jīng)過企業(yè)實時大數(shù)據(jù)分析,才能做到企業(yè)AI應(yīng)用。這些是和大家溝通交流的。
今天時間也差不多了,后面有非常多的技術(shù)專家會和我們?nèi)プ鲆恍┫嚓P(guān)的溝通,就像我剛才提到的,麒麟,包括Greenplum,他會把我們剛才提到的每一層都給大家做比較詳細(xì)的講解,各位都是專家,我就不講太多了,把時間留給我們的技術(shù)專家做相關(guān)介紹。
總體來講,我相信實時分析是每個企業(yè)在大數(shù)據(jù)上面的必經(jīng)之路,我相信每個企業(yè)在現(xiàn)在的階段一定建立自己的實時分析平臺,從而助力自己實時分析的進(jìn)展。
非常感謝各位早上聆聽我的演講,謝謝。