偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="86i6y"><strong id="86i6y"><dl id="86i6y"></dl></strong></dfn>

<table id="86i6y"></table>

<tt id="86i6y"></tt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

干貨：基于用戶畫像的聚類分析

作者：佚名 2018-06-06 14:17:44

大數(shù)據(jù) 數(shù)據(jù)分析

聚類(Clustering)，顧名思義就是“物以類聚，人以群分”，其主要思想是按照特定標(biāo)準(zhǔn)把數(shù)據(jù)集聚合成不同的簇，使同一簇內(nèi)的數(shù)據(jù)對象的相似性盡可能大，同時，使不在同一簇內(nèi)的數(shù)據(jù)對象的差異性盡可能大。通俗地說，就是把相似的對象分到同一組。

聚類(Clustering)，顧名思義就是“物以類聚，人以群分”，其主要思想是按照特定標(biāo)準(zhǔn)把數(shù)據(jù)集聚合成不同的簇，使同一簇內(nèi)的數(shù)據(jù)對象的相似性盡可能大，同時，使不在同一簇內(nèi)的數(shù)據(jù)對象的差異性盡可能大。通俗地說，就是把相似的對象分到同一組。

聚類算法通常不使用訓(xùn)練數(shù)據(jù)，只要計算對象間的相似度即可應(yīng)用算法。這在機(jī)器學(xué)習(xí)領(lǐng)域中被稱為無監(jiān)督學(xué)習(xí)。

某大型保險企業(yè)擁有海量投?？蛻魯?shù)據(jù)，由于大數(shù)據(jù)技術(shù)與相關(guān)人才的緊缺，企業(yè)尚未建立統(tǒng)一的數(shù)據(jù)倉庫與運營平臺，積累多年的數(shù)據(jù)無法發(fā)揮應(yīng)有的價值。企業(yè)期望搭建用戶畫像，對客戶進(jìn)行群體分析與個性化運營，以此激活老客戶，挖掘百億續(xù)費市場。眾安科技數(shù)據(jù)團(tuán)隊對該企業(yè)數(shù)據(jù)進(jìn)行建模，輸出用戶畫像并搭建智能營銷平臺。再基于用戶畫像數(shù)據(jù)進(jìn)行客戶分群研究，制訂個性化運營策略。

本文重點介紹聚類算法的實踐。

Step 1 數(shù)據(jù)預(yù)處理

任何大數(shù)據(jù)項目中，前期數(shù)據(jù)準(zhǔn)備都是一項繁瑣無趣卻又十分重要的工作。

首先，對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，處理異常值，補(bǔ)全缺失值，為了順利應(yīng)用聚類算法，還需要使用戶畫像中的所有標(biāo)簽以數(shù)值形式體現(xiàn)。

其次要對數(shù)值指標(biāo)進(jìn)行量綱縮放，使各指標(biāo)具有相同的數(shù)量級，否則會使聚類結(jié)果產(chǎn)生偏差。

接下來要提取特征，即把最初的特征集降維，從中選擇有效特征放進(jìn)聚類算法里跑。眾安科技為該保險公司定制的用戶畫像中，存在超過200個標(biāo)簽，為不同的運營場景提供了豐富的多維度數(shù)據(jù)支持。但這么多標(biāo)簽存在相關(guān)特征，假如存在兩個高度相關(guān)的特征，相當(dāng)于將同一個特征的權(quán)重放大兩倍，會影響聚類結(jié)果。

我們可以通過關(guān)聯(lián)規(guī)則分析(Association Rules)發(fā)現(xiàn)并排除高度相關(guān)的特征，也可以通過主成分分析(Principal Components Analysis，簡稱PCA)進(jìn)行降維。這里不詳細(xì)展開，有興趣的讀者可以自行了解。

Step 2 確定聚類個數(shù)

層次聚類是十分常用的聚類算法，是根據(jù)每兩個對象之間的距離，將距離最近的對象兩兩合并，合并后產(chǎn)生的新對象再進(jìn)行兩兩合并，以此類推，直到所有對象合為一類。

Ward方法在實際應(yīng)用中分類效果較好，應(yīng)用較廣。它主要基于方差分析思想，理想情況下，同類對象之間的離差平方和盡可能小，不同類對象之間的離差平方和應(yīng)該盡可能大。該方法要求樣品間的距離必須是歐氏距離。

值得注意的是，在R中，調(diào)用ward方法的名稱已經(jīng)從“ward”更新為“ward.D”。

library(proxy) 
Dist <- dist(data,method='euclidean') #歐式距離 
clusteModel <- hclust(Dist, method='ward.D') 
plot(clusteModel)

根據(jù)R繪制的層次聚類圖像，我們對該企業(yè)的客戶相似性有一個直觀了解，然而單憑肉眼，仍然難以判斷具體的聚類個數(shù)。這時我們通過輪廓系數(shù)法進(jìn)一步確定聚類個數(shù)。

輪廓系數(shù)旨在對某個對象與同類對象的相似度和與不同類對象的相似度做對比。輪廓系數(shù)取值在-1到1之間，輪廓系數(shù)越大時，表示對應(yīng)簇的數(shù)量下，聚類效果越好。

library(fpc) 
K <- 3:8 
round <- 30 # 避免局部*** 
rst <- sapply(K,function(i){ 
print(paste("K=",i)) 
mean(sapply(1:round,function(r){ 
print(paste("Round",r)) 
result<- kmeans(data, i) 
stats<- cluster.stats(dist(data), result$cluster) 
stats$avg.silwidth 
})) 
}) 
plot(K,rst,type='l',main='輪廓系數(shù)與K的關(guān)系',ylab='輪廓系數(shù)')

在輪廓系數(shù)的實際應(yīng)用中，不能單純?nèi)≥喞禂?shù)***的K值，還需要考慮聚類結(jié)果的分布情況(避免出現(xiàn)超大群體)，以及從商業(yè)角度是否易于理解與執(zhí)行，據(jù)此綜合分析，探索合理的K值。

綜上，根據(jù)分析研究，確定K的取值為7。

Step 3 聚類

K-means是基于距離的聚類算法，十分經(jīng)典，簡單而高效。其主要思想是選擇K個點作為初始聚類中心，將每個對象分配到最近的中心形成K個簇，重新計算每個簇的中心，重復(fù)以上迭代步驟，直到簇不再變化或達(dá)到指定迭代次數(shù)為止。K-means算法缺省使用歐氏距離來計算。

library(proxy)  
library(cluster)  
clusteModel <- kmeans(data, centers = 7, nstart =10)  
clusteModel$size  
result_df <- data.frame(data,clusteModel$cluster) 
 
write.csv(result_df, file ="clusteModel.csv", row.names = T, quote = T)

Step 4 聚類結(jié)果分析

對聚類結(jié)果(clusteModel.csv)進(jìn)行數(shù)據(jù)分析，總結(jié)群體特征：

cluster=1：當(dāng)前價值低，未來價值高。(5.6%)
cluster=2：當(dāng)前價值中，未來價值高。(5.4%)
cluster=3：當(dāng)前價值高，未來價值高。(18%)
cluster=4：當(dāng)前價值高，未來價值中低。(13.6%)
cluster=5：高價值，穩(wěn)定群。(14%)
cluster=6：當(dāng)前價值低，未來價值未知(可能信息不全導(dǎo)致)。(2.1%)
cluster=7：某一特征的客戶群體(該特征為業(yè)務(wù)重點發(fā)展方向)。(41.3%)

根據(jù)分析師與業(yè)務(wù)團(tuán)隊的討論結(jié)果，將cluster=1與cluster=6進(jìn)行合并，最終得到6個客戶群體，并針對客戶群體制訂運營策略。

客戶分群與運營策略

(業(yè)務(wù)敏感信息打碼)

責(zé)任編輯：未麗燕來源：網(wǎng)絡(luò)大數(shù)據(jù)

聚類分析算法大數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="wdn0m"><strong id="wdn0m"></strong></nobr>

<nobr id="wdn0m"></nobr>