51CTO 網+第八期線下公開課干貨分享:移動時代的數(shù)據(jù)挖掘和行為分析
原創(chuàng)12月26日,逼走了圣誕老人的霧霾依然猖狂。然而,它卻阻擋不了百位移動開發(fā)者參加51CTO 網+第八期線下公開課的熱情。
2015年,得移動者得天下的態(tài)勢愈加明顯。對海量用戶數(shù)據(jù)實現(xiàn)有效的挖掘和行為分析,對實現(xiàn)移動端業(yè)務的迅速增長至關重要。作為今年的收官之作,本次51CTO 網+線下公開課邀請到TalkingData、微軟、友盟等專注于移動領域數(shù)據(jù)挖掘和行為分析的三位一線專家,為大家全面解讀移動方向的自定義模塊化功能的設計思路、數(shù)據(jù)挖掘清洗、用戶行為分析的關鍵。
首先進行分享的是來自友盟的高級數(shù)據(jù)挖掘工程師王琪,與大家分享友盟在移動端進行多維度用戶數(shù)據(jù)分析的實踐經驗和思考。
友盟高級數(shù)據(jù)挖掘工程師 王琪
王琪講到,數(shù)據(jù)分析通過抽樣統(tǒng)計的方式實現(xiàn)。只有當數(shù)據(jù)量足夠大時,我們對用戶的刻畫才能更準確,更全面。那我們應該依靠哪些維度建立模型,才能從數(shù)據(jù)沙漠中找到綠洲呢?
用戶分析的幾個維度
用戶的唯一標識
在許多現(xiàn)實問題下,移動互聯(lián)網用戶唯一標示的工作非常困難:
- 安卓山寨多,多種ROM,各種安卓系統(tǒng)的設備泛濫,同寨機共用IMEI,刷機ROM導致MAC一樣
- 蘋果系統(tǒng)封閉,可用的設備標識一直在變
對此,王琪提出了改進設備標識的兩個思路:
性別預測
性別預測是最為常見的問題。用戶會在移動端安裝各種和各樣的APP,我們如何識別使用安裝了這些應用的設備的用戶,是妹子還是猛男?
性別預測思考:
- 數(shù)據(jù)>算法,數(shù)據(jù)假設;
- 數(shù)據(jù)預處理70%+模型,算法,評估30%;
- 生產工具的發(fā)展 =》生產力的提高
興趣識別
興趣的識別直接關系著廣告的精準推送問題。王琪分享了友盟的興趣標簽架構、興趣標簽場景,為大家提供借鑒和參考。
圖:用戶分析----興趣標簽架構
在建立興趣標簽時,王琪建議大家在這些層面上思考:
- 長期興趣和短期興趣
- 標簽體系的可擴展性
- 標簽效果的評估
低質量用戶的識別(刷量分析)
快速且低成本實現(xiàn)用戶增長的利益驅動下,業(yè)界不斷有通過刷新增、刷活躍、刷留存來騙投資人、騙老板、騙廣告的黑色產業(yè)鏈存在。確實,只要有利益,就會有作弊;但只要有作弊,就會有反作弊。
對于識別低質量的用戶,友盟設計出設備評級的方案,對APP的渠道質量進行評估,對用戶設備進行評級。
圖:低質量用戶的識別----設備評級
第二位出場的是微軟(中國)有限公司開發(fā)者體驗和平臺合作事業(yè)部 高級技術平臺顧問梁健與大家分享在萬眾創(chuàng)新、萬物互聯(lián)的時代,微軟如何創(chuàng)新技術助力IoT發(fā)展。
微軟(中國)有限公司開發(fā)者體驗和平臺合作事業(yè)部 高級技術平臺顧問 梁健
如今,智能硬件、穿戴設備對于我們來說不再陌生。隨著物聯(lián)網技術的發(fā)展,生活中更多的不可能變成可能。梁健認為,在未來5至10年,物聯(lián)網將會實現(xiàn)更加快速的發(fā)展。究竟什么是IoT?只是簡單的終端設備聯(lián)網嗎?
為了讓大家更全面、清晰地認識物聯(lián)網,梁健分享了一張最普遍的參考架構圖。
參考架構
為了順應移動互聯(lián)網時代新的發(fā)展趨勢,微軟以“移動優(yōu)先,云優(yōu)先”作為戰(zhàn)略方向,打造業(yè)界***的平臺和生產力服務,為企業(yè)提供從設備到云端的多種解決方案。
除了面向大眾消費者的Win10家庭版和專業(yè)版以及面向企業(yè)的Windows10企業(yè)版之外,微軟還發(fā)布了面向物聯(lián)網領域的Win10 IoT正式版本.Windows 10 為具有到設備和云的企業(yè)級和本地連接的設備提供了一個通用的平臺來啟用物聯(lián)網。這樣一來,開發(fā)一個物聯(lián)網應用就可以適配所有的設備,打破物聯(lián)網應用開發(fā)的界限。
具體來說,Win10對物聯(lián)網應用開發(fā)提供更好的支持體現(xiàn)在以下幾個方面:
***出場的是TalkingData***數(shù)據(jù)科學家張夏天,他為大家?guī)砹艘环N實現(xiàn)用戶增長的新思想:Lookalike over Mobile.
TalkingData***數(shù)據(jù)科學家 張夏天
目前,用戶在使用移動應用時表現(xiàn)出非常重的頭部效應。排名靠前的應用覆蓋非常集中。這帶來的后果是,對同一類型的兩組用戶進行行為差異分析和行為趨勢預測時非常困難,無法有效發(fā)現(xiàn)潛在用戶。
Lookalike是什么?張夏天解釋說,這是一種通過種子用戶尋找類似人群的技術。它通過提高人群定向的效率,尋找到潛在用戶,達到實現(xiàn)用戶增長的目標。它通過建立主樣本進行機器學習,建立預測性模型,建立對應用的重新排序的過程,與目標APP進行用戶相似人群的匹配分析?;谠O備和應用的Lookalike訓練過程分別是:
目前,Lookalike面臨的主要挑戰(zhàn)包括
- Billion級別的訓練數(shù)據(jù):
- Million級別的應用
- 數(shù)據(jù)稀疏
- 樣本平衡
對此,TalkingData進行了有針對性的優(yōu)化實踐:
通過TalkingData優(yōu)化過的Lookalike***特點是:只需要一次迭代。在并讀很大集群之上,做到十分鐘內完成一次十億級別數(shù)據(jù)的機器學習訓練,而且對樣本平衡的要求不敏感。
通過實例,張夏天向我們直觀地展示出通過Lookalike得出的人群特征APP對比,對同一類型的兩種應用得出的應用組合結果看出在一定程度上細分出某一人群類型的區(qū)域、性別、用戶黏度等特征。
在每位老師的演講結束后,在場同學都踴躍地與專家就演講內容中的問題交流互動。
活動結束前,各位專家從現(xiàn)場抽出了多位幸運同學,獲得由51CTO提供的精美紀念品。
2015年,51CTO 網+線下公開課得到用戶大力的支持。未來一年,網+將繼續(xù)堅持每月推出一期圍繞移動開發(fā)者切實需求為主題的線下公開課,為廣大移動開發(fā)者提供交流和學習的平臺。