初創(chuàng)公司大數(shù)據(jù)藥方|WOT技術(shù)門診第二期診斷書
10月11日,WOT技術(shù)門診第二期會診結(jié)束,本期特邀門診專家當當廣告及推薦部高級架構(gòu)師 董四輩,針對很多初創(chuàng)公司遇到的大數(shù)據(jù)典型問題開出了那些藥方?
董四輩:當當廣告及推薦部高級架構(gòu)師、吉林大學本科碩士畢業(yè)、曾任搜狗地圖開發(fā)經(jīng)理、現(xiàn)任當當推薦部高級架構(gòu)師
從事:架構(gòu)設(shè)計 、數(shù)據(jù)分析、網(wǎng)站安全等相關(guān)工作。并關(guān)注:互聯(lián)網(wǎng)安全、反欺詐、機器學習等新技術(shù)的應(yīng)用
問題一:很多移動APP創(chuàng)業(yè)公司,目前還只是用傳統(tǒng)的方式存貯數(shù)據(jù),或者分析數(shù)據(jù),那么大數(shù)據(jù)對我們而言還停留在概念階段,畢竟我們不是BAT,所以能否讓達人以一到兩個案例實際講解一下,從需求到技術(shù)架構(gòu)的舉例來講,從而讓創(chuàng)業(yè)公司更快收益?
董四輩:我想這個問題,提問者最關(guān)心的是如何“收益更快”。所謂收益快,一般來說指的的是:時間成本少;人力投入少;運維成本低。實際就是數(shù)據(jù)分析平臺,主要分析的問題如數(shù)據(jù)有哪些?成本如何?收益如何?什么結(jié)果?
- APP應(yīng)用分析 , 市場數(shù)據(jù)分析;
- 業(yè)務(wù)數(shù)據(jù)與行為數(shù)據(jù);
- 成本:人力成本,時間成本,運維成本;
- 不斷變化的需求;
咱們主要是針對APP應(yīng)用來說,這里需要用到數(shù)據(jù)收集與數(shù)據(jù)分析。如果是要降低成本最簡單的辦法就是直接使用第三方平臺來收集數(shù)據(jù)。比如:使用友盟這樣的第三方平臺。對于收集數(shù)據(jù)存儲,當然你也不必自己從頭開始,可以租用公有云,按需付費。比如:阿里云,七牛云存儲等。
但是,使用第三方平臺服務(wù)之后自然也會帶來負面作用:如友盟,簡單好用,免費;不足之處,數(shù)據(jù)無法取回做深度與交叉分析無絕對安全性可言 。主要還是要看這個APP創(chuàng)業(yè)公司早期的決策是什么,使用第三方數(shù)據(jù)統(tǒng)計服務(wù)只是一個過渡方案。當當網(wǎng)現(xiàn)在使用的就是友盟服務(wù),這些數(shù)據(jù)我們也是同樣沒辦法進行深度分析的,不過我們會做自己的數(shù)據(jù)收集與分析,讓兩者并存相互驗證從而產(chǎn)生附加效應(yīng)。最后,這些數(shù)據(jù)如果想要出效率還是要再次挖掘,這個時候不同數(shù)據(jù)是要不同對待的,把業(yè)務(wù)數(shù)據(jù)和行為數(shù)據(jù)分開。最后,數(shù)據(jù)必須,展現(xiàn)出曲線餅圖,柱狀圖,用于決策,才能說明系統(tǒng)是否成功。
以下是大家需要注意的技術(shù)點:
數(shù)據(jù)報表與儀表盤
業(yè)務(wù)數(shù)據(jù)寫SQL:靈活定制數(shù)據(jù)準確、實時,可進行復(fù)雜業(yè)務(wù)分析;不足之處:歷史狀態(tài)被覆蓋,自多擴展復(fù)雜,計算力有限 。
數(shù)據(jù)模型:Event:eventid+pageid+properties+userid;User:userid+ properties
行為數(shù)據(jù)寫日志:http傳輸 》kafka》 hdfs ,可以從kafka訂閱消息
數(shù)據(jù)挖掘與分析:python hadoop spark ,與業(yè)務(wù)數(shù)據(jù)庫解耦,計算力強大;維度,指標,漏洞分析,如(注冊,訪問,點擊...)
數(shù)據(jù)展現(xiàn):曲線,餅圖,柱狀圖;工具HighCharts,OpenCharts
數(shù)據(jù)反饋:產(chǎn)品分析,迭代運算
最后,總結(jié)第一個問題的解決方式就是:
- 使用第三方服務(wù);
- 選擇2-3人小團隊;
- 選好數(shù)據(jù)模型;
- 工具就選常用的Python Hodoop Spark;5.業(yè)務(wù)數(shù)據(jù)最好使用Mysql(像訂單,物流,支付)這些都是結(jié)構(gòu)化數(shù)據(jù);
- 行為數(shù)據(jù)(搜索,瀏覽,點擊,收藏),每天都會大量產(chǎn)生直接存HDFS 就可以了。
問題二:以前我們做過兩個大數(shù)據(jù)平臺項目,一個是IoT,一個是CityNext,一個是數(shù)據(jù)格式較少但數(shù)據(jù)量大,一個是數(shù)據(jù)格式復(fù)雜,基于Hadoop在做,幾十人的團隊才完成了存儲和簡單實時分析,如果是小型公司或者創(chuàng)業(yè)團隊又何去何從呢?
董四輩:一個大數(shù)據(jù)項目前期投入了大量人力和時間成本,后期感到做出來的東西和一開始預(yù)估的差距較大,就產(chǎn)生了上面問題的出現(xiàn),那么這個時候到底應(yīng)該是何去何從呢?我個人認為:做大數(shù)據(jù)平臺這樣的項目遇到成本問題是很常見的,尤其是初創(chuàng)這個問題尤為明顯,成本問題分為三部分:人力成本;時間成本;運維成本,如果是創(chuàng)業(yè)團隊,就應(yīng)該更加謹慎,況且市場與需求變化的特別快,如果你長時間耗在一個地方,就是一種浪費。建議:
- 團隊應(yīng)當盡量小:最好3-5人的技術(shù)骨干團隊,便于溝通,執(zhí)行力高,幾十人溝通過于繁瑣,溝通不暢時很容易導(dǎo)致執(zhí)行效率降低。
- 創(chuàng)業(yè)初期需求與市場變化速度快,應(yīng)該及時調(diào)整策略,不能再某一地方消耗太多時間。
- 在創(chuàng)業(yè)團隊早期,最好能夠使用第三方基礎(chǔ)設(shè)施來降低運維成本。比如租用公有云。
問題三:我現(xiàn)在工作中遇到的問題,我覺得就是一堆垃圾數(shù)據(jù),業(yè)務(wù)方希望我們能挖掘出價值,我們試了各種算法,結(jié)果都不理想,現(xiàn)在我想給出一個理論界限,苦于不知道如何下手,有沒有什么辦法,從統(tǒng)計特性給出各種算法效果的理論邊界?
董四輩:這個問題我也遇到過,并且困惑過。比如,我現(xiàn)在是在做推薦系統(tǒng),就是針對某些商品做推薦,我可以無限優(yōu)化我的算法來提高KPI么(點擊率,訂單占比.....)?如果進行數(shù)據(jù)價值挖掘能夠無限制挖掘嗎?如果,我不能無限制的分析和挖掘,我想知道這個峰值到底在什么地方?理論上來說,肯定不能無限優(yōu)化和無線挖掘的。
先給大家講一個小故事:第一年,算法團隊從無到有,直接提升30%KPI。公司很高興。第二年。公司加大投入,發(fā)現(xiàn)第二年KPI僅提升了10%。第三年,公司決策層投入更多人力,發(fā)現(xiàn)KPI才提升了3%。大家發(fā)現(xiàn)了什么?雖然投入在不斷增加,但是KPI指標增長卻是越來越低。其實,第三年就是一個瓶頸。對于第二個問題的提問者,我想說,你既然已經(jīng)把所有的方法都試了一遍,還是沒有找到結(jié)果,說明,你已經(jīng)遇到了瓶頸。接著剛才的故事講,故事里的主人公也到了類似的問題,第四年,公司里來了一個產(chǎn)品經(jīng)理,說:“你們把產(chǎn)品的顏色改變下:紅色的叫”文藝紅“,藍色的叫”屌絲藍“,把商品給打上文藝和屌絲的標志。”接下來,你們猜結(jié)果怎么樣?KPI瞬間提高了30%。所以,有些時候數(shù)據(jù)分析瓶頸實際上反映了產(chǎn)品模式瓶頸。如果,你真的非常誠實的驗證了你的數(shù)據(jù),那么可以非??隙óa(chǎn)品形態(tài)或者產(chǎn)品模式遇到了瓶勁。一般來說,,如果你的優(yōu)化或者挖掘已經(jīng)大幅度下降了,這個時候就應(yīng)當減小投入,并不是說不分析了。然后,你就應(yīng)該過渡到產(chǎn)品方向上究其原因。
問題四:對于傳統(tǒng)企業(yè)來說,決定搭建自己的人大數(shù)據(jù)平臺時有什么需要注意的呢?技術(shù)的選取?相關(guān)人員的定位?像成聯(lián)電商我們是做耐材(耐火材料)為主的傳統(tǒng)企業(yè),如果我們開始自己搭建大數(shù)據(jù)平臺有什么比較通用化的模式嗎?
董四輩:先說說背景吧,商場變成了試衣間,大家都去網(wǎng)上買,同理建材市場變成了建材展示中心怎么辦?這里其實包含兩個問題1.真正的傳統(tǒng)行業(yè)的大數(shù)據(jù)分析平臺;2.傳統(tǒng)行業(yè)怎么搞電商;這里就針對第一個問題說說吧,在互聯(lián)網(wǎng)的沖擊下,“建材市場淪為材料展示中心”,在這種情況下傳統(tǒng)企業(yè)也需要借助大數(shù)據(jù)來進行變革。相對于技術(shù)選型來說,更重要的是數(shù)據(jù)規(guī)劃與計劃,傳統(tǒng)行業(yè)的數(shù)據(jù)分析不能脫離行業(yè)背景,否則數(shù)據(jù)無法實現(xiàn)準確落地。比如:客戶的訂貨時間,客戶量,客戶的特點,年齡范圍,客戶地域分布;(這些確實需要具提的行業(yè)背景)從以上這些數(shù)據(jù)中挖掘分析,那些用戶喜歡什么耐材?在哪個時間段某種耐材最受歡迎?喜歡某種耐材的究竟是什么人?以及行業(yè)內(nèi)部運作過程中會產(chǎn)生哪些數(shù)據(jù)?帶著這些問題,再去看有哪些合適的技術(shù)平臺。
人員定位:不僅需要大數(shù)據(jù)技術(shù)人才,還需要有深厚行業(yè)背景且熱衷于大數(shù)據(jù)的專業(yè)人才
數(shù)據(jù)分析:大致可以分為,業(yè)務(wù)數(shù)據(jù)和行為數(shù)據(jù);業(yè)務(wù)數(shù)據(jù)(用戶,訂單,支付,物流...)這類數(shù)據(jù)一般都比較精確與規(guī)則,這些結(jié)構(gòu)化數(shù)據(jù)可以直接使用傳統(tǒng)的數(shù)據(jù)庫存儲分析。
行為數(shù)據(jù)(瀏覽、搜索記錄、點擊記錄...)這類數(shù)據(jù)一般量比較大,最好使用NoSQL(MongoDB),或存儲在hdfs上指定維度與指標:成本,銷量,決策,價格
數(shù)據(jù)挖掘:根據(jù)已定的目標或指標,預(yù)測用戶的需求量提前預(yù)判,分析用戶人群(有興趣的,愿意購買的,由于不覺的),地域定向等。
總結(jié)(重點是行業(yè)數(shù)據(jù)規(guī)劃,規(guī)劃不好數(shù)據(jù),系統(tǒng)就是個擺設(shè)很難落地,尤其是目標與指標制定):
人員構(gòu)成:大數(shù)據(jù)技術(shù)人才(3-5人),有深厚行業(yè)背景的人才(1-2人);
數(shù)據(jù)存儲:結(jié)構(gòu)性業(yè)務(wù)數(shù)據(jù)mysql,復(fù)雜的行為數(shù)據(jù)NoSQL或hdfs;
分析與工具:python 、hadoop、spark;
行業(yè)數(shù)據(jù)規(guī)劃:客戶的訂貨時間,客戶量,客戶的特點,年齡范圍,客戶地域分布;
分析目標與指標:銷量、成本、區(qū)域、產(chǎn)品類型;
數(shù)據(jù)展現(xiàn):曲線圖、柱狀圖,工具HighCharts;
問題五:針對不同的類型的公司的數(shù)據(jù)從業(yè)者來說,每天處理的問題和要肩負的責任可能是不一樣的,大公司里邊可能每個員工的任務(wù)更加的明確些,而中小型企業(yè)的數(shù)據(jù)從業(yè)者可能要會的更多一些。能不能麻煩老師舉例說明下,針對不同類型的企業(yè)中數(shù)據(jù)工作者的相關(guān)技能是什么?
董四輩:針對這個問題首先首先我想說的是:作為數(shù)據(jù)工作者,在工作中除了有技術(shù)在身,還需要一點點”機智“。如果單單說技術(shù)的話有很多教科書還有論文,其實僅僅掌握這些并不能使你和其他數(shù)據(jù)工作者區(qū)分開來,你還需要具有數(shù)據(jù)的敏感性以及懂得進行深層次的思考(換位思考)。我先給大家講一個真實的案例:大約是在2014年年末的時候,有個做PC數(shù)據(jù)分析的小伙, 突然想分析一下移動端的數(shù)據(jù)。然后,他發(fā)現(xiàn)移動端的數(shù)據(jù)每個月都在增長,而他所在的團隊卻是做PC數(shù)據(jù)業(yè)務(wù)分析。這個時候,他并沒有吧分析之后的結(jié)果放而制止,日有所思夜有所想,不久他做了一個夢,夢見PC消失了,大家都在使用移動端設(shè)備設(shè)備,PC端已經(jīng)沒有數(shù)據(jù)可分析了......驚醒之后,他把自己的擔憂告訴了leader,leader讓他把所有的數(shù)據(jù)分析了一遍,按他在夢中的思路做了一個預(yù)測,之后開始大規(guī)模對移動端數(shù)據(jù)業(yè)務(wù)擴展,這個小伙理所應(yīng)當?shù)木统蔀橐苿佣藰I(yè)務(wù)的相關(guān)人員了。最后,整個團隊在他的帶領(lǐng)下成立了移動端數(shù)據(jù)分析小組。其實工作中,很多數(shù)據(jù)工程師,就是分析完數(shù)據(jù)后就結(jié)束了,并未作深入分析。如果你無法優(yōu)化你的數(shù)據(jù),你就沒有數(shù)據(jù)可分析了。你是不是就會失業(yè)?縱使你熟知所有的數(shù)據(jù)分析方法又如何?數(shù)據(jù)工作者的下一個臺階如何走?其實,掌握一些數(shù)據(jù)分析方法只是基礎(chǔ),還需要你的機智。