某CTO眼中的WOT2015大數(shù)據(jù)技術(shù)峰會(huì):干貨應(yīng)接不暇
原創(chuàng)上半部分文章推薦:資深粉絲眼中的WOT2015大數(shù)據(jù)技術(shù)峰會(huì):干貨應(yīng)接不暇
9.《京東搜索和618實(shí)戰(zhàn)》劉尚堃,京東商城推薦搜索部總監(jiān)
強(qiáng)烈推薦這場(chǎng)分享!現(xiàn)場(chǎng)的反饋非常好,分享結(jié)束后分享人劉尚堃被眾多同學(xué)團(tuán)團(tuán)圍住,被問各種問題。直到最后大會(huì)組織方需要分享人去拍采訪視頻,熱情的同學(xué)們才離開。
詳細(xì)內(nèi)容,大家自行下載PPT。
10.《AB測(cè)試高效實(shí)現(xiàn)全數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品優(yōu)化》王曄,北京吆喝科技有限公司CEO
這場(chǎng)分享屬于典型的技術(shù)科普,將AB測(cè)試娓娓道來。也順便聊了一下他們的產(chǎn)品,集成了灰度上線、小流量、一鍵回滾、一鍵發(fā)布,支持定向試驗(yàn)。我個(gè)人感覺這是一款很不錯(cuò)的產(chǎn)品,一群專注的人,一起做一件專注的事。
不過我也有一個(gè)問題:這款產(chǎn)品是否有能力發(fā)現(xiàn)流量中的高仿真爬蟲流量。我之前在電商的經(jīng)驗(yàn),以及前一天京東劉尚堃也提到他們遇到的問題,總會(huì)有一些高仿真用戶行為的爬蟲出現(xiàn)在AB測(cè)試的結(jié)果中;如果不能排除,則會(huì)直接影響試驗(yàn)的結(jié)論。
11.《云計(jì)算企業(yè)服務(wù)創(chuàng)業(yè)感悟》王璞,數(shù)人科技創(chuàng)始人兼CEO
做技術(shù)出身的王璞,現(xiàn)在創(chuàng)業(yè)做CEO,我這個(gè)同是技術(shù)出身,現(xiàn)初入創(chuàng)業(yè)大門的后來者真心佩服。幾個(gè)關(guān)鍵點(diǎn)記下了:
CEO要有很強(qiáng)的融資能力
toB方向有幾百位投資人,每位投資人各有各的秉性,各有各自的投資風(fēng)格和手法。像拜訪客戶一樣拜訪投資人。
A輪到B輪不用超過1年
前期發(fā)展越快越好
12.《投資人眼中的技術(shù)創(chuàng)業(yè)者》王金山,IDG資本投資經(jīng)理
印象很深的幾個(gè)點(diǎn):
常見減分項(xiàng)1:炫技術(shù)。技術(shù)是手段,而非目的。
配圖太形象了。
殺個(gè)人有那么麻煩么?像這張圖一樣,把所有見過的武器都堆在一起。
還是上圖一樣,來直接的!
常見減分項(xiàng)2:完美主義:在正確的時(shí)間推出80分的產(chǎn)品。
軟技能:生動(dòng)的“叻”字:能做也能說。
銷售能力:
#p#
13.《大數(shù)據(jù)挖掘下的在線教育創(chuàng)新價(jià)值》李明小,51CTO學(xué)院技術(shù)部總監(jiān)
這場(chǎng)分享我沒有全程聽到,后半程才到場(chǎng)。
據(jù)我所知51CTO學(xué)院的業(yè)務(wù)做得非常好,無論學(xué)員規(guī)模還是講師數(shù)量,都在高速增長(zhǎng)。今年在51學(xué)院的平臺(tái)上已經(jīng)有年收入過百萬的講師了,不是講師自己的年薪,而是講師在學(xué)院平臺(tái)上的收入哦!是不是有小伙伴磨拳霍霍了:)
當(dāng)有學(xué)員沒有按時(shí)間參加活動(dòng)的話,系統(tǒng)會(huì)自動(dòng)感知到,相應(yīng)信息會(huì)通知到輔導(dǎo)員,輔導(dǎo)員會(huì)跟上去交流溝通,了解到原因,再輔導(dǎo)學(xué)員學(xué)習(xí),反饋給講師改進(jìn)教學(xué)質(zhì)量。
之前都是耳聞,這次聽了李明小的分享,才不得不佩服51學(xué)院超強(qiáng)的運(yùn)營(yíng)能力。
14.《大數(shù)據(jù)時(shí)代的數(shù)據(jù)資產(chǎn)管理》程永新,新炬網(wǎng)絡(luò)執(zhí)行副總裁
目前大客戶都是國(guó)企
有一張圖,數(shù)據(jù)規(guī)劃、開發(fā)、集成、運(yùn)營(yíng)、存檔
企業(yè)中,數(shù)據(jù)要有專人管起來。這一點(diǎn),高度同意!
數(shù)據(jù)資產(chǎn)-管理平臺(tái)架構(gòu)圖
增值:對(duì)內(nèi)強(qiáng)化能力
變現(xiàn):對(duì)外呈現(xiàn)價(jià)值
關(guān)于大數(shù)據(jù)應(yīng)用的跨界場(chǎng)景
數(shù)據(jù)價(jià)值:與傳統(tǒng)行業(yè)的跨界合作。
案例:航空、電信、保險(xiǎn)、銀行幾家數(shù)據(jù)互通、脫敏,為主營(yíng)業(yè)務(wù)合作。
干貨心得:區(qū)域化的數(shù)據(jù)跨界交換,找到三五個(gè)partner,比理想主義的全球化有用的多。
#p#
15.《大數(shù)據(jù)點(diǎn)燃營(yíng)銷---百分點(diǎn)精準(zhǔn)營(yíng)銷實(shí)踐》蘇海波,百分點(diǎn)數(shù)據(jù)挖掘部研發(fā)總監(jiān)
目前,業(yè)內(nèi)真正應(yīng)用大數(shù)據(jù)比較充分的應(yīng)用是:推薦/營(yíng)銷/征信。
百分點(diǎn)推出了營(yíng)銷管家,此處見營(yíng)銷管家的業(yè)務(wù)流程圖。
多用戶觸點(diǎn)打通,跨屏投放,整理企業(yè)一方的數(shù)據(jù)沉淀為用戶群體,豐富的營(yíng)銷模型,應(yīng)用微觀層面的用戶畫像,形成用戶建模后的數(shù)據(jù)閉環(huán)。
目前百分點(diǎn)5000-6000千萬的日活躍UV,3.5億用戶畫像,1億商品記錄,分類體系比較準(zhǔn)確,準(zhǔn)確度達(dá)到95%。
舉了一個(gè)用戶年齡的例子:
通過填寫真實(shí)年齡的用戶數(shù)據(jù),預(yù)測(cè)準(zhǔn)確度達(dá)到85%后,再將所有用戶均打上年齡標(biāo)簽。
消費(fèi)層級(jí)分為9層。之前嘗試過3層,但發(fā)現(xiàn)聚類后,某一層如低價(jià)格區(qū)間的快消品會(huì)聚到很厚的一層。分為9層后,類間的差別比較明顯。
因?yàn)槭忻嫔系拿總€(gè)DSP能力各不相同,百分點(diǎn)搭建了一個(gè)自動(dòng)對(duì)接所有DSP媒體的DSP,并在分鐘級(jí)將數(shù)據(jù)報(bào)表拉回來。因?yàn)榘俜贮c(diǎn)之前在用戶畫像方面的積累,所以轉(zhuǎn)作營(yíng)銷時(shí),幾個(gè)實(shí)際案例中都大幅地提升了投放效果。
目前百分點(diǎn)正在與各大公司互相“聚合”數(shù)據(jù),也算某種意義上的數(shù)據(jù)流通、數(shù)據(jù)互換。比如最近合作的公司就有華為這樣的大體量公司。
為傳統(tǒng)公司收集第一份數(shù)據(jù)時(shí),打磨出了一套數(shù)據(jù)整合工具。
百分點(diǎn)不愧是行業(yè)內(nèi)在大數(shù)據(jù)領(lǐng)域的先行者之一,從2011年拿到A輪融資,到2014年拿到D輪融資,并發(fā)布BDOS-大數(shù)據(jù)操作系統(tǒng),發(fā)展很快。尤其在2014年趁著政企大推大數(shù)據(jù)的趨勢(shì),發(fā)展勢(shì)頭迅猛。
#p#
16.《廣告大數(shù)據(jù)核心技術(shù)剖析》盧億雷,AdMaster副總裁
廣告系統(tǒng)的幾個(gè)大數(shù)據(jù)運(yùn)營(yíng)難點(diǎn):可靠性、可用性、擴(kuò)展性、高性能、安全、性價(jià)比、監(jiān)控維護(hù)。
推薦關(guān)注Flink
目前Spark的失敗率高,如果是小時(shí)級(jí)的報(bào)表,推薦MR即可。
ElasticSearch/Druid(pinot)
也曾嘗試過100臺(tái)MongoDB,但最后去掉了。最終用SSD來解決復(fù)雜查詢的問題。
解決多值列問題,推薦Pinot/ES,用于區(qū)別用戶畫像在多個(gè)“行業(yè)”的場(chǎng)景數(shù)據(jù)。
可以看看ADMaster的數(shù)據(jù)處理流程,應(yīng)該是很有參考意義的。有一些近年來的改進(jìn),好在今年來改動(dòng)不多。
廣告投放作弊金額,今年達(dá)到63億美金!作弊流量中75%流量是機(jī)器人。
目前ADMaster與在國(guó)內(nèi)有業(yè)務(wù)的世界500強(qiáng)中的70%有合作,廣告展示的監(jiān)測(cè)。
盧億雷這位技術(shù)大神恐怕是在中國(guó)互聯(lián)網(wǎng)圈內(nèi)大數(shù)據(jù)技術(shù)分享頻率最高的人之一,幾乎所有大數(shù)據(jù)相關(guān)論壇都少不了他的身影,也是業(yè)內(nèi)著名的交際花之一。
我本人曾有一次與盧兄兩個(gè)人在北京5號(hào)線地鐵里聊技術(shù)、聊行業(yè),聊了2個(gè)多小時(shí),站的腿都酸了,都不忍離開。
17.《大數(shù)據(jù)質(zhì)量保障》錢承君,百度測(cè)試經(jīng)理
個(gè)人簡(jiǎn)介:500人的大搜團(tuán)隊(duì)中,100人是做質(zhì)量保障。
目前的各種開源技術(shù),很難解決百度遇到的問題,比如幾萬-十幾萬機(jī)器在同一個(gè)機(jī)房,大數(shù)據(jù)量下的集群,很可能會(huì)跨機(jī)房。開源技術(shù)幾乎不考慮跨機(jī)房的問題。
幾百臺(tái)服務(wù)器有閑置資源,不算大事;但幾十萬臺(tái)服務(wù)器,如果有閑置資源,就太可惜了。
#p#
5分鐘級(jí)別的反作弊體系。
復(fù)雜系統(tǒng)的50%以上的代碼是容錯(cuò)代碼。
比如有磁盤缺油了,在某個(gè)地方的磁道訪問會(huì)變慢,這時(shí)會(huì)引起上層應(yīng)用代碼的問題。還需要在線下環(huán)境中,比如30分鐘內(nèi)復(fù)現(xiàn)問題,定位問題根源,解決問題,再上線。
能定量地回放、可復(fù)現(xiàn)問題,在百度的大規(guī)模數(shù)據(jù)集群,各種低頻事件一定會(huì)發(fā)生。
Google的做法則是線上線下完全一樣,物理上也完全一致。比如100臺(tái)線上機(jī)器,100臺(tái)線下機(jī)器。這樣,大幅降低測(cè)試/線上環(huán)境不同帶來的異常。
Facebook也會(huì)遇到有狀態(tài)回滾和無狀態(tài)回滾。對(duì)于有狀態(tài)的回滾,仍然是頭疼的問題。曾經(jīng)問過Facebook的技術(shù)大神,遇到這種問題怎么解決,大神思索了片刻的回答更加神:you need very very be careful !
百度的做法是用多個(gè)面的測(cè)試代替一個(gè)體的測(cè)試。
程序走岔路后,一定是唯一的log標(biāo)識(shí)來表達(dá)路徑的選擇。
數(shù)據(jù)質(zhì)量保障:
數(shù)據(jù)log規(guī)則細(xì)化:按比例,當(dāng)有一天某個(gè)規(guī)則下的流量發(fā)生異常,監(jiān)控報(bào)警。以及報(bào)警系統(tǒng)自動(dòng)逐級(jí)升級(jí),從負(fù)責(zé)的工程師,到經(jīng)理。
錢承君分享的精彩結(jié)尾:“我是做測(cè)試的,今天給各位開發(fā)的同學(xué)做技術(shù)分享,大家還都聽的這么hi,我特別開心”。
錢承君分享時(shí)語速很快、風(fēng)格特別風(fēng)趣,是整個(gè)周末我聽到的所有分享中最有意思的。這場(chǎng)聽下來,大漲眼界的同時(shí),人也精神抖擻了很多。沒想到聽錢承君的分享,還有這個(gè)功效:)可惜的是他用他最快的語速,也只講了PPT中的一半內(nèi)容;更可惜的是他現(xiàn)場(chǎng)講的東西,80%都不在PPT上,沒聽現(xiàn)場(chǎng)的同學(xué)很難從PPT倒推出他的分享干貨了。
18.《實(shí)時(shí)競(jìng)價(jià)(RTB)廣告中的數(shù)據(jù)和算法》林招,品友互動(dòng)數(shù)據(jù)部總監(jiān)
品友林招的本次分享是典型的RTB科普性分享,很多高技術(shù)含量的細(xì)節(jié)顯然沒法在45分鐘之內(nèi)展開,這場(chǎng)分享中我主要記錄一些很有啟發(fā)性的數(shù)據(jù)。
QPS:30萬次請(qǐng)求/每秒,2015年9月。每次請(qǐng)求處理時(shí)間100ms之內(nèi)。
200億請(qǐng)求/每日 10億網(wǎng)頁 20萬網(wǎng)站 60萬主流APP
Redis集群30T
PC人群400億,APP200億
至此,我們看到品友DSP的數(shù)據(jù)是不是有點(diǎn)“大”的味道了。這樣的數(shù)據(jù)訪問規(guī)模,每秒30萬次訪問、每日200億次請(qǐng)求,顯然已經(jīng)遠(yuǎn)遠(yuǎn)超出了非廣告領(lǐng)域的絕大多數(shù)企業(yè)接觸到的數(shù)據(jù)量。而國(guó)內(nèi)DSP的領(lǐng)先者再比較國(guó)內(nèi)的廣告領(lǐng)域領(lǐng)頭羊百度大搜、百度網(wǎng)盟、360、騰訊廣點(diǎn)通的數(shù)據(jù)量,恐怕又有較大的數(shù)據(jù)量和數(shù)據(jù)訪問量上的差距。
廣告時(shí)間:基于品友DMP的CTR/CPA的效果大幅提升,本質(zhì)依賴了品友獲取了更多跨站的用戶行為。
#p#
算法包括:LR、logitboost、BPR(Bayesian Probit Regression) FTRL DL。
算法這塊基本沒有展開,可惜了。畢竟CTR與用戶標(biāo)簽是DSP最核心的技術(shù)。
全局最優(yōu)規(guī)則,DSP的流量不是自己的,所以跟百度情況不一樣。
遇到挑戰(zhàn):冷啟動(dòng)、臟數(shù)據(jù)
后記
在深圳的短暫周末很愉快,深圳天氣也很好,痛苦的是周日晚上我回到了霧都北京,趕上了霧霾爆表,整個(gè)人都不好了。現(xiàn)在的天氣還不錯(cuò),12月1日晚的大風(fēng)吹走北京的大霧,讓幾乎整個(gè)11月都沒見到晴天的北京又見到了太陽。
另外一個(gè)收獲是我在本次WOT大會(huì)上與3位曾經(jīng)的“黃金一代”成員再聚到了一起,微博推薦廣告技術(shù)總監(jiān)王傳鵬、百分點(diǎn)技術(shù)總監(jiān)蘇海波、京東推薦搜索總監(jiān)劉尚堃。你能想象到2010年左右這幾位技術(shù)大咖在一支團(tuán)隊(duì)中寫代碼么?你能想象出那支曾經(jīng)的“黃金一代”的團(tuán)隊(duì)?wèi)?zhàn)斗力么:)
最后一張,娛樂一下:
作者簡(jiǎn)介:
傅強(qiáng),2015年年中作為技術(shù)合伙人加入九枝蘭,為企業(yè)提供在線營(yíng)銷的整合投放Saas服務(wù)。2006年-2015年任職當(dāng)當(dāng),從工程師、架構(gòu)師、高級(jí)總監(jiān)到技術(shù)副總裁,從技術(shù)的維度,見證了中國(guó)電商時(shí)代的風(fēng)起云涌。