資深粉絲眼中的WOT2015大數(shù)據(jù)技術(shù)峰會(huì):干貨應(yīng)接不暇
原創(chuàng)引言
11月28、29日,WOT 2015大數(shù)據(jù)技術(shù)峰會(huì)的主辦方51CTO按照行業(yè)領(lǐng)域設(shè)置分享專場(chǎng),我感覺這個(gè)做法的體驗(yàn)很好。在這次大會(huì)上我個(gè)人對(duì)廣告、互聯(lián)網(wǎng)金融、創(chuàng)新、創(chuàng)業(yè)幾個(gè)主題最為感興趣,完整的專場(chǎng)聽下來,感覺很過癮。
講師們的演講水平真心不錯(cuò)。我印象里前幾年參加各種大會(huì)時(shí),若能在1天中聽到2場(chǎng)有干貨的分享,就算是很有收獲的了;這次,我感覺聽到的分享至少一半以上內(nèi)容還是很豐富的,而且講師的素質(zhì)也很高,讓我很有收獲。我想達(dá)到這種效果的原因無非三種可能:猜測(cè)1,大會(huì)的高質(zhì)量與51CTO的團(tuán)隊(duì)精細(xì)化運(yùn)營(yíng)分不開,呵呵!有廣告嫌疑;猜測(cè)2,最近幾年各種大會(huì)越來越多,講師群體整體分享經(jīng)驗(yàn)自然也越來越豐富,整體水平不斷提高;猜測(cè)3,我當(dāng)年太弱了,圖樣圖森破,大師們的演講我聽不懂罷了!
從這次大會(huì)上各路英雄的分享內(nèi)容來看,廣告領(lǐng)域的分享仍然是應(yīng)用大數(shù)據(jù)技術(shù)的若干領(lǐng)域中深度和廣度最突出的。這并不意外,畢竟廣告/搜索領(lǐng)域在很多年前使用大數(shù)據(jù)的能力就已經(jīng)很成熟了,更是在近些年“大數(shù)據(jù)”這個(gè)字眼被發(fā)明之前,Google的三駕馬車技術(shù)就已經(jīng)被應(yīng)用在生產(chǎn)環(huán)境,進(jìn)而才有的 Hadoop這樣劃時(shí)代開源產(chǎn)品的誕生。
本來是整理我參加大會(huì)的筆記,后來收到51CTO組織者嵐宇、楊總的盛情邀請(qǐng),我將這份筆記也分享給大家。筆記內(nèi)容主要是基于我本人已有的知識(shí)體系的信息增量部分,所以很多同學(xué)們非常關(guān)注的架構(gòu)圖、業(yè)務(wù)圖,如果我已經(jīng)比較清楚的,我這里沒有放出來(PPT下載地址);我分享的信息要么是大神們現(xiàn)場(chǎng)講到,但沒有寫到PPT中的關(guān)鍵信息,要么是我認(rèn)為非常精彩、信息量大的PPT截圖。
現(xiàn)在進(jìn)入正題。前一天趕上飛機(jī)晚點(diǎn),又趕上預(yù)訂的酒店沒有訂上,凌晨4點(diǎn)才睡下,早上楊文飛總編開場(chǎng)和李大學(xué)先生的分享沒有趕上。我聽的第一場(chǎng)分享來自國(guó)內(nèi)廣告領(lǐng)域的大師級(jí)人物劉鵬。
1.《數(shù)據(jù)變現(xiàn)與交易的歷史與未來》劉鵬,360商業(yè)產(chǎn)品首席架構(gòu)師
不愧是“負(fù)能量”自媒體劉老師,開篇第一頁就很“負(fù)能量”:)
劉鵬大神總結(jié)的大數(shù)據(jù)與“非大數(shù)據(jù)”的區(qū)別很到位:
交易核心數(shù)據(jù):行為數(shù)據(jù)
數(shù)據(jù)采用:全量加工(個(gè)人征信、廣告、推薦)
洞察:自動(dòng)化應(yīng)用(定向廣告、客戶關(guān)系維護(hù))
面向領(lǐng)導(dǎo)與運(yùn)營(yíng):面向微觀業(yè)務(wù),機(jī)器與銷售
我個(gè)人非常認(rèn)同上面3個(gè)維度的對(duì)比,非常清晰地說明了大數(shù)據(jù)應(yīng)用與非大數(shù)據(jù)應(yīng)用的區(qū)別,比常見的大數(shù)據(jù)幾個(gè)“V”要清楚地多。
關(guān)于數(shù)據(jù)價(jià)值,下面這張圖講的很清楚,收益的增量部分則是數(shù)據(jù)帶來的價(jià)值。
數(shù)據(jù)價(jià)值:6000+6000-10000 = 2000
男性定向廣告+女性定向廣告 VS 一成不變的展示
BAT大都是后向變現(xiàn)模式
現(xiàn)在趨勢(shì)是程序化交易/原生廣告
#p#
原生廣告的場(chǎng)景化,在移動(dòng)上會(huì)有更好的效果
廣告的格局:廣告交易+數(shù)據(jù)加工與交易(如用戶標(biāo)簽層面,規(guī)模化生產(chǎn))
資本的合作,才有數(shù)據(jù)交易。數(shù)據(jù)一旦共享出來,就是錢。微信當(dāng)然不會(huì)把數(shù)據(jù)拿出來嘍!
關(guān)于第二定律、第三定律,請(qǐng)見全文PPT。
目前,數(shù)據(jù)價(jià)值還是被低估的,雖然數(shù)據(jù)可以賣給2個(gè)人,也可以賣給10個(gè)人,但競(jìng)價(jià)會(huì)更激烈,某種意義上更多的數(shù)據(jù)共享是數(shù)據(jù)價(jià)值的貶值。此處有數(shù)據(jù)定價(jià)不合理。如何定價(jià)?這是個(gè)新的問題。
數(shù)據(jù)隱私:PRI是嚴(yán)格不能使用的。如手機(jī)、家庭住址。
用戶可以自己屏蔽,但誰都知道真正手動(dòng)去設(shè)置屏蔽的少之又少。
不能長(zhǎng)期保留,2年以上要銷毀。數(shù)據(jù)管理上已經(jīng)是風(fēng)險(xiǎn)。
隱私不是怕生人知道,最大的顧慮是被熟人知道。如果惡意的熟人,受到的傷害將會(huì)更大。
劉鵬大師很有行業(yè)大師的范兒,還略帶些學(xué)者的感覺。分享角度高屋建瓴,放在第一天主會(huì)場(chǎng)再合適不過了。只是行程有些倉(cāng)促,剛剛分享完畢就趕去機(jī)場(chǎng)了,聽眾們沒能跟大神有充分的線下交流,實(shí)在有些可惜。最近他的大作《計(jì)算廣告》在業(yè)內(nèi)很熱,劉鵬大師受到各處的邀請(qǐng),恐怕會(huì)占用大量個(gè)人時(shí)間吧!
看到如今,我們互聯(lián)網(wǎng)的技術(shù)大神們可以像明星一樣被追捧,這真是件好事。用51CTO熊總的話講,“這是有史以來,技術(shù)人才最好的時(shí)代”。
2.《數(shù)據(jù)化運(yùn)營(yíng)如何創(chuàng)造商業(yè)價(jià)值》張溪夢(mèng),GrowingIO創(chuàng)始人、前LinkedIn分析部高級(jí)總監(jiān)
張溪夢(mèng)大神在領(lǐng)英5年時(shí)間,經(jīng)歷了領(lǐng)英的年收入從1億美金提升至50億美金。
病毒式的用戶注冊(cè),以及新客成本是該領(lǐng)域平均新客成本的50%。這些都是數(shù)據(jù)分析的價(jià)值。
最早期的數(shù)據(jù)分析支持100位銷售,提升對(duì)銷售工作效率。
從每位銷售人均閱讀300個(gè)銷售線索,用數(shù)據(jù)分析利器,迅速發(fā)現(xiàn)最有價(jià)值的Top10給到銷售,大幅地提升銷售簽單的效率。
從用戶屬性-用戶行為-用戶社交信息數(shù)據(jù),一步步找到更精準(zhǔn)的信息。
近實(shí)時(shí)地同時(shí)追蹤600個(gè)KPI,這樣大幅地提升網(wǎng)站功能測(cè)試的效率。
#p#
上圖的展示方式,是很容易地發(fā)現(xiàn)用戶信息的變化,推薦!
全員數(shù)據(jù)驅(qū)動(dòng):用戶分群后給出分群轉(zhuǎn)化的建議。
從上面的分享,我們也能感受到以領(lǐng)英為代表的國(guó)外公司是非常重視數(shù)據(jù)指導(dǎo)決策的,更是很依賴充分地使用技術(shù)工具提升工作效率。據(jù)我的了解,國(guó)內(nèi)以互聯(lián)網(wǎng)企業(yè)為代表,也都不同程度地、越來越深入地使用數(shù)據(jù)指導(dǎo)運(yùn)營(yíng),企業(yè)服務(wù)類的工具、SaaS服務(wù)也越來越受到資本追捧。
3.《大數(shù)據(jù)時(shí)代:精益應(yīng)用性能管理》廖雄杰,聽云技術(shù)副總裁
廖總的分享是第一天上午開場(chǎng)各個(gè)分享中保留技術(shù)氣質(zhì)最多的。
監(jiān)控需要跟上產(chǎn)品迭代速度。
監(jiān)控應(yīng)用是比較復(fù)雜的事情,基礎(chǔ)監(jiān)控都很通用,很容易。
上圖很好地說清楚了所謂精益化性能管理的思路。
舉個(gè)栗子,假如我們需要檢驗(yàn)xxoo這個(gè)函數(shù)的運(yùn)行效率。
從插入代碼的方式。我們都知道如果需要每個(gè)函數(shù)都寫這樣的代碼來監(jiān)控性能,是會(huì)被開發(fā)人員吐槽吐死的。于是考慮用自動(dòng)注入監(jiān)測(cè)代碼的辦法:
到-javaagent:apm,從main函數(shù)/premain函數(shù)里加監(jiān)控代碼。
用agent方式運(yùn)行,就自動(dòng)加入了監(jiān)控代碼,更帥的辦法是寫在JVM內(nèi)部。
我的問題是:監(jiān)控XXOO函數(shù)的性能,我們到底是希望執(zhí)行時(shí)間越短越好,還是越長(zhǎng)越好呢?哈哈!
4.《大數(shù)據(jù)與行為預(yù)測(cè)模型》劉志軍,馬上消費(fèi)金融CDO 原Capital One總監(jiān)
馬上消費(fèi)金融嘗試3類算法:聚類、預(yù)測(cè)、分類。其中聚類的主觀性太強(qiáng),實(shí)際應(yīng)用中大多數(shù)精力都放在預(yù)測(cè)方面。
#p#
窗口時(shí)間多少,取決于金融產(chǎn)品的周期,短期還是循環(huán)額度、信用卡。長(zhǎng)期的產(chǎn)品,就要關(guān)注一年內(nèi)把所有高峰期都算一遍。
據(jù)劉志軍大神講到,美國(guó)是提供真實(shí)納稅人的信息查詢的,每次2元(大概是美元吧!現(xiàn)場(chǎng)沒特地說明),這個(gè)信息是很真實(shí)的,就是太貴了。劉志軍大神又講:我們國(guó)內(nèi)也能查…不過更貴:)
算法部分,這張圖說的很清楚:統(tǒng)計(jì)Dtree/NN/SVM/boost/ensemble建模。
判斷模型的標(biāo)準(zhǔn):相關(guān)性、模型穩(wěn)定性。此處不用多講了,大神已經(jīng)把心得都放出來了!
判斷排序相關(guān)性的經(jīng)典算法:見圖
完美模型 vs 不好的模型 見圖
常見問題:樣本覆蓋、質(zhì)量不一、缺失值、樣本偏差
劉志軍大神的這場(chǎng)分享是這次互聯(lián)網(wǎng)金融專場(chǎng)中唯一涉及算法的。雖然沒有展開,但我們從大神提煉的方法論、推薦的算法模型能夠感覺到大神在該領(lǐng)域的功力。如果有哪位同學(xué)想進(jìn)入互聯(lián)網(wǎng)金融領(lǐng)域做算法相關(guān)、模型相關(guān)的工作,我強(qiáng)烈推薦這篇分享。如果將其中各個(gè)要點(diǎn)了解一二,你就能夠很容易忽悠你周圍的小伙伴了;如果將各個(gè)要點(diǎn)深度吃透,找一份互聯(lián)網(wǎng)金融的模型研究相關(guān)的高薪工作,絕不是難事。
5.《互聯(lián)網(wǎng)金融的敏捷數(shù)據(jù)運(yùn)營(yíng)最佳實(shí)踐》王桐,北京永洪商智科技有限公司副總裁
敏捷化:當(dāng)天的需求,當(dāng)天數(shù)據(jù)出來
高性能、自服務(wù)
平臺(tái)發(fā)展早期的數(shù)據(jù)分析需求:考慮用戶全生命周期的數(shù)據(jù)分析,幫客戶把流量/用戶量拉上去。
從渠道引流、到注冊(cè)、充值、投標(biāo)、復(fù)投。在漏斗中發(fā)現(xiàn)問題。
中期的分析需求:偏運(yùn)營(yíng),財(cái)務(wù)分析、主題分析。
#p#
探索式BI是大勢(shì)所趨,互聯(lián)網(wǎng)金融的痛點(diǎn)是IT門口高,業(yè)務(wù)人多,技術(shù)人少,數(shù)據(jù)需求支持不過來。
痛點(diǎn)切得很準(zhǔn)!
6.《京東金融宙斯Zeus安全防御平臺(tái)》劉明浩,京東金融高級(jí)安全專家
技術(shù)安全 vs 業(yè)務(wù)安全
業(yè)務(wù)安全包括:垃圾賬戶、撞庫掃描、平行權(quán)限、活動(dòng)作弊、釣魚欺詐。這個(gè)分類還是很有意義的。
阿波羅業(yè)務(wù)風(fēng)險(xiǎn)地圖:容忍->預(yù)警->干預(yù)。
比如不同IP不同地區(qū),在同一賬號(hào)登陸。
統(tǒng)計(jì)下平時(shí)用戶常在哪個(gè)IP下登陸。
其他系統(tǒng)XSS漏洞
某個(gè)IP從普通用戶變成了root用戶
以漏洞為中心,威脅為中心
京東分享的防御系統(tǒng)業(yè)務(wù)太敏感畢竟不能深入。講師能分享到業(yè)務(wù)架構(gòu)層面,幫助非該領(lǐng)域的同學(xué)們拓展下視野還是不錯(cuò)的。
7.《麻袋理財(cái)大數(shù)據(jù)平臺(tái)及金融風(fēng)險(xiǎn)控制實(shí)踐案例分析》王天青,麻袋理財(cái)首席架構(gòu)師
科普一下,互聯(lián)網(wǎng)金融的風(fēng)險(xiǎn)分類:信用、信息、運(yùn)營(yíng)、欺詐。
問題是核心數(shù)據(jù)開發(fā)少,關(guān)聯(lián)度低,價(jià)值密度低,需要多個(gè)維度。
平臺(tái)的數(shù)據(jù)流架構(gòu)。大家有沒有似曾相識(shí)的感覺?這套數(shù)據(jù)處理流程實(shí)在已經(jīng)成為如今中國(guó)互聯(lián)網(wǎng)的標(biāo)配了。
#p#
判斷活動(dòng)是否具有突發(fā)性
信用信息可以來自社交數(shù)據(jù),比如認(rèn)為一類人的信用度基本一致。
現(xiàn)場(chǎng)還有一種業(yè)務(wù)結(jié)合算法的圖,但在公開的PPT中沒有放出來。其中提到計(jì)算信用的部分,用到了社交數(shù)據(jù)中的言論信息,還提到使用 topicmodel,計(jì)算信用。我對(duì)此有個(gè)小問題:公開能抓到的數(shù)據(jù)應(yīng)該指的是微博微信上的用戶言論數(shù)據(jù)吧!但那上面的每位用戶表達(dá)的語句大都很短,一方面短語料對(duì)計(jì)算topic model挑戰(zhàn)很大;另一方面短語料中的信息,包括情感信息,就能與人的信用搭上關(guān)系么?即使有關(guān)聯(lián),這種關(guān)系又有多強(qiáng)呢?
8.《大數(shù)據(jù)金融云的實(shí)踐分享》鄭赟,宜信大數(shù)據(jù)創(chuàng)新中心研發(fā)總監(jiān)
宜信每分鐘有一個(gè)新客戶,2000萬借貸款每小時(shí)。我們貌似可以推測(cè)出宜信每年的新客總數(shù)了:)
鄭赟(這個(gè)字念yun)講到姨搜-名稱的來歷:“讓阿姨證明你媽是你媽”。
自有的用戶行為收集系統(tǒng)
獲取來自互聯(lián)網(wǎng)上的數(shù)據(jù),建立知識(shí)圖譜
數(shù)據(jù)維度很重要,依靠社交一度關(guān)系判斷
智能理財(cái):宜信也有用戶推薦
小插曲:鄭赟講了商通貸的故事,談到這個(gè)產(chǎn)品剛剛上線的時(shí)候做算法的同學(xué)們都很緊張,因?yàn)檫@支算法團(tuán)隊(duì)的同學(xué)們之前大都是做推薦系統(tǒng)的,而這款產(chǎn)品高度依賴信用評(píng)估,他們?cè)谶@塊經(jīng)驗(yàn)不算多。呵呵,這時(shí)候有哪位同學(xué)能猜測(cè)出這支算法團(tuán)隊(duì)的帶頭人了么?猜到的同學(xué)請(qǐng)舉手,要么你是算法領(lǐng)域資深人士,要么你是獵頭。
PS:因?yàn)楦韶浱啵覀兎譃閮蓚€(gè)部分進(jìn)行推薦。
下半部分文章推薦:某CTO眼中的WOT2015大數(shù)據(jù)技術(shù)峰會(huì):干貨應(yīng)接不暇
作者簡(jiǎn)介:
傅強(qiáng),2015年年中作為技術(shù)合伙人加入九枝蘭,為企業(yè)提供在線營(yíng)銷的整合投放Saas服務(wù)。2006年-2015年任職當(dāng)當(dāng),從工程師、架構(gòu)師、高級(jí)總監(jiān)到技術(shù)副總裁,從技術(shù)的維度,見證了中國(guó)電商時(shí)代的風(fēng)起云涌。
































































 
 
 














 
 
 
 