偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

用戶畫像系統(tǒng)的技術(shù)架構(gòu)和整體實現(xiàn)

作者：楊思義 2016-04-11 14:24:08

大數(shù)據(jù) 架構(gòu)

本文主要從數(shù)據(jù)整理、數(shù)據(jù)平臺、面向應(yīng)用三個方面，一一探討用戶畫像的技術(shù)架構(gòu)和整體實現(xiàn)。

作者簡介：楊思義，男，26歲，2015年6月畢業(yè)于山東大學齊魯軟件學院，工程碩士學位。

2014年6月至今工作于北京亞信智慧數(shù)據(jù)科技有限公司 BDX大數(shù)據(jù)事業(yè)部，從2014年9月開始從事項目spark相關(guān)應(yīng)用開發(fā)。

這里講解下用戶畫像的技術(shù)架構(gòu)和整體實現(xiàn)，那么就從數(shù)據(jù)整理、數(shù)據(jù)平臺、面向應(yīng)用三個方面來討論一個架構(gòu)的實現(xiàn)(個人見解)。

數(shù)據(jù)整理：

1、數(shù)據(jù)指標的的梳理來源于各個系統(tǒng)日常積累的日志記錄系統(tǒng)，通過sqoop導入hdfs,也可以用代碼來實現(xiàn)，比如spark的jdbc連接傳統(tǒng)數(shù)據(jù)庫進行數(shù)據(jù)的cache。還有一種方式，可以通過將數(shù)據(jù)寫入本地文件，然后通過sparksql的load或者hive的export等方式導入 HDFS。

2、通過hive編寫UDF 或者hiveql 根據(jù)業(yè)務(wù)邏輯拼接ETL，使用戶對應(yīng)上不同的用戶標簽數(shù)據(jù)(這里的指標可以理解為為每個用戶打上了相應(yīng)的標簽)，生成相應(yīng)的源表數(shù)據(jù),以便于后續(xù)用戶畫像系統(tǒng)，通過不同的規(guī)則進行標簽寬表的生成。

數(shù)據(jù)平臺

1、數(shù)據(jù)平臺應(yīng)用的分布式文件系統(tǒng)為Hadoop的HDFS，因為Hadoop2.0以后,任何的大數(shù)據(jù)應(yīng)用都可以通過 ResoureManager申請資源，注冊服務(wù)。比如(sparksubmit、hive)等等。而基于內(nèi)存的計算框架的出現(xiàn)，就并不選用hadoop 的MapReduce了。當然很多離線處理的業(yè)務(wù)，很多人還是傾向于使用Hadoop,但是hadoop的封裝的函數(shù)只有map和Reduce太過單一，而不像spark一類的計算框架有更多封裝的函數(shù)(可參考博客spark專欄)?？梢源蟠筇嵘_發(fā)效率。

2、計算的框架選用Spark以及RHadoop,這里Spark的主要用途有兩種，一種是對于數(shù)據(jù)處理與上層應(yīng)用所指定的規(guī)則的數(shù)據(jù)篩選過濾， (通過Scala編寫spark代碼提交至sparksubmit)。一種是服務(wù)于上層應(yīng)用的SparkSQL(通過啟動spark thriftserver與前臺應(yīng)用進行連接)。 RHadoop的應(yīng)用主要在于對于標簽數(shù)據(jù)的打分，比如利用協(xié)同過濾算法等各種推薦算法對數(shù)據(jù)進行各方面評分。

3、MongoDB內(nèi)存數(shù)據(jù)的應(yīng)用主要在于對于單個用戶的實時的查詢，也是通過對spark數(shù)據(jù)梳理后的標簽寬表進行數(shù)據(jù)格式轉(zhuǎn)換(json格式)導入mongodb,前臺應(yīng)用可通過連接mongodb進行數(shù)據(jù)轉(zhuǎn)換，從而進行單個標簽的展現(xiàn)。(當然也可將數(shù)據(jù)轉(zhuǎn)換為Redis中的key value形式，導入Redis集群)

4、mysql的作用在于針對上層應(yīng)用標簽規(guī)則的存儲，以及頁面信息的展現(xiàn)。后臺的數(shù)據(jù)寬表是與spark相關(guān)聯(lián)，通過連接mysql隨后 cache元數(shù)據(jù)進行filter,select,map,reduce等對元數(shù)據(jù)信息的整理,再與真實存在于Hdfs的數(shù)據(jù)進行處理。

面向應(yīng)用

從剛才的數(shù)據(jù)整理、數(shù)據(jù)平臺的計算，都已經(jīng)將服務(wù)于上層應(yīng)用的標簽大寬表生成。(用戶所對應(yīng)的各類標簽信息)。那么前臺根據(jù)業(yè)務(wù)邏輯，勾選不同的標簽進行求和、剔除等操作，比如本月流量大于200M用戶(標簽)+本月消費超過100元用戶(標簽)進行和的操作，通過前臺代碼實現(xiàn)sql的拼接，進行客戶數(shù)目的探索。這里就是通過jdbc的方式連接spark的thriftserver，通過集群進行HDFS上的大寬表的運算求count。(這里要注意一點，很多sql聚合函數(shù)以及多表關(guān)聯(lián)join 相當于hadoop的mapreduce的shuffle,很容易造成內(nèi)存溢出，相關(guān)參數(shù)調(diào)整可參考本博客spark欄目中的配置信息) 這樣便可以定位相應(yīng)的客戶數(shù)量，從而進行客戶群、標簽的分析，產(chǎn)品的策略匹配從而精準營銷。

責任編輯：Ophira 來源：數(shù)盟

用戶畫像技術(shù)架構(gòu)數(shù)據(jù)分析

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="ihonb"></blockquote><dfn id="ihonb"></dfn>