數(shù)據(jù)挖掘之聚類分析總結(jié)(建議收藏)
聚類分析
一、概念
聚類分析是按照個體的特征將他們分類,讓同一個類別內(nèi)的個體之間具有較高的相似度,不同類別之間具有較大的差異性
- 聚類分析屬于無監(jiān)督學(xué)習(xí)
- 聚類對象可以分為Q型聚類和R型聚類
Q型聚類:樣本/記錄聚類 以距離為相似性指標(biāo) (歐氏距離、歐氏平方距離、馬氏距離、明式距離等)
R型聚類:指標(biāo)/變量聚類 以相似系數(shù)為相似性指標(biāo) (皮爾遜相關(guān)系數(shù)、夾角余弦、指數(shù)相關(guān)系數(shù)等)
二、常用的聚類算法
- K-Means劃分法
- 層次聚類法
- DBSCAN密度法
1、K-Means劃分法
K表示聚類算法中類的個數(shù),Means表示均值算法,K-Means即是用均值算法把數(shù)據(jù)分成K個類的算法。
K-Means算法的目標(biāo),是把n個樣本點劃分到k個類中,使得每個點都屬于離它最近的質(zhì)心(一個類內(nèi)部所有樣本點的均值)對應(yīng)的類,以之作為聚類的標(biāo)準(zhǔn)。
K-Means算法的計算步驟
- 取得k個初始質(zhì)心:從數(shù)據(jù)中隨機抽取k個點作為初始聚類的中心,來代表各個類
- 把每個點劃分進相應(yīng)的類:根據(jù)歐式距離最小原則,把每個點劃分進距離最近的類中
- 重新計算質(zhì)心:根據(jù)均值等方法,重新計算每個類的質(zhì)心
- 迭代計算質(zhì)心:重復(fù)第二步和第三步,迭代計算
- 聚類完成:聚類中心不再發(fā)生移動
基于sklearn包的實現(xiàn)
導(dǎo)入一份如下數(shù)據(jù),經(jīng)過各變量間的散點圖和相關(guān)系數(shù),發(fā)現(xiàn)工作日上班電話時長與總電話時長存在強正相關(guān)關(guān)系。

選擇可建模的變量并降維。
- cloumns_fix1 = ['工作日上班時電話時長', '工作日下半時電話時長',
- '周末電話時長', '國際電話時長', '平均每次通話時長']
- #數(shù)據(jù)降維
- pca_2 = PCA(n_components=2)
- data_pca_2 = pd.DataFrame(pca_2.fit_transform(data[cloumns_fix1]))
通過sklearn包中的K-Means方法構(gòu)建模型。
- #繪制散點圖查看數(shù)據(jù)點大致情況
- plt.scatter(data_pca_2[0],data_pca_2[1])
- #預(yù)計將數(shù)據(jù)點分類為3類
- kmmodel = KMeans(n_clusters=3) #創(chuàng)建模型
- kmmodel = kmmodel.fit(data[cloumns_fix1]) #訓(xùn)練模型
- ptarget = kmmodel.predict(data[cloumns_fix1]) #對原始數(shù)據(jù)進行標(biāo)注
- pd.crosstab(ptarget,ptarget) #交叉表查看各個類別數(shù)據(jù)的數(shù)量
plt.scatter(data_pca_2[0],data_pca_2[1],c=ptarget)#查看聚類的分布情況。

最后,可以通過直方圖查看各聚類間的差異。
- #查看各類之間的差異
- dMean = pd.DataFrame(columns=cloumns_fix1+['分類']) #得到每個類別的均值
- data_gb = data[cloumns_fix1].groupby(ptarget) #按標(biāo)注進行分組
- i = 0
- for g in data_gb.groups:
- rMean = data_gb.get_group(g).mean()
- rMean['分類'] = g;
- dMean = dMean.append(rMean, ignore_index=True)
- subData = data_gb.get_group(g)
- for column in cloumns_fix1:
- i = i+1;
- p = plt.subplot(3, 5, i)
- p.set_title(column)
- p.set_ylabel(str(g) + "分類")
- plt.hist(subData[column], bins=20)

2、 層次聚類法
層次聚類算法又稱為樹聚類算法,它根據(jù)數(shù)據(jù)之間的距離,透過一種層次架構(gòu)方式,反復(fù)將數(shù)據(jù)進行聚合,創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。層次聚類算法常用于一維數(shù)據(jù)的自動分組。
層次聚類算法是一種很直觀的聚類算法,基本思想是通過數(shù)據(jù)間的相似性,按相似性由高到低排序后重新連接各個節(jié)點,整個過程就是建立一個樹結(jié)構(gòu),如下圖:

層次聚類算法的步驟:
- 每個數(shù)據(jù)點單獨作為一個類
- 計算各點之間的距離(相似度)
- 按照距離從小到大(相似度從強到弱)連接成對(連接后按兩點的均值作為新類繼續(xù)計算),得到樹結(jié)構(gòu)
基于sklearn包的實現(xiàn)
使用K-Means聚類案例中的數(shù)據(jù)。
- cloumns_fix1 = ['工作日上班時電話時長', '工作日下半時電話時長',
- '周末電話時長',
- '國際電話時長', '平均每次通話時長']
- linkage = hcluster.linkage(data[cloumns_fix1], method='centroid') #中心點距離計算,得到矩陣
- linkage = scipy.cluster.hierarchy.linkage(data, method='single')
method 類距離計算公式有三種參數(shù):
- single 兩個類之間最短距離的點的距離
- complete 兩個類之間最長距離的點的距離
- centroid 兩個類所有點的中點的距離
- #層次聚類繪圖
- hcluster.dendrogram(linkage) #不設(shè)置參數(shù)時會將所有點做為一個基礎(chǔ)的類進行樹結(jié)構(gòu)的繪制
- #由于數(shù)據(jù)量大,限制類的個數(shù),保留12個節(jié)點,有括號表示副節(jié)點,括號內(nèi)的數(shù)字為該節(jié)點內(nèi)部包含的子節(jié)點
- hcluster.dendrogram(linkage, truncate_mode='lastp', p=12, leaf_font_size=12.)

- #對聚類得到的類進行標(biāo)注 層次聚類的結(jié)果,要聚類的個數(shù),劃分方法
- (maxclust,最大劃分法)ptarget = hcluster.fcluster(linkage, 3,
- criterion='maxclust')#查看各類別中樣本含量
- pd.crosstab(ptarget,ptarget)

繪制圖形
- #使用主成分分析進行數(shù)據(jù)降維
- pca_2 = PCA(n_components=2)
- data_pca_2 = pd.DataFrame(pca_2.fit_transform(data[cloumns_fix1]))
- plt.scatter(data_pca_2[0], data_pca_2[1], c=ptarget) #繪制圖形
3、 DBSCAN密度法
概念:
- 中文全稱:基于密度的帶噪聲的空間聚類應(yīng)用算法,它是將簇定義為密度相聯(lián)的點的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)集中發(fā)現(xiàn)任意形狀的聚類。
- 密度:空間中任意一點的密度是以該點為圓心,以Eps為半徑的園區(qū)域內(nèi)包含的點數(shù)目。
- 鄰域:空間中任意一點的鄰域是以該店為圓心,以Eps為半徑的園區(qū)域內(nèi)包含的點集合。
- 核心點:空間中某一點的密度,如果大于某一給定閾值MinPts,則稱該點為核心點。(小于MinPts則稱邊界點)
- 噪聲點:既不是核心點,也不是邊界點的任意點
DBSCAN算法的步驟:
- 通過檢查數(shù)據(jù)集中每點的Eps鄰域來搜索簇,如果點p的Eps鄰域內(nèi)包含的點多于MinPts個,則創(chuàng)建一個以p為核心的簇
- 通過迭代聚集這些核心點p距離Eps內(nèi)的點,然后合并成為新的簇(可能)
- 當(dāng)沒有新點添加到新的簇時,聚類完成
DBSCAN算法優(yōu)點:
- 聚類速度快且能夠有效處理噪聲點發(fā)現(xiàn)任意形狀的空間聚類
- 不需要輸入要劃分的聚類個數(shù)
- 聚類簇的形狀沒有偏倚
- 可以在需要是過濾噪聲
DBSCAN算法缺點:
- 數(shù)據(jù)量大時,需要較大的內(nèi)存和計算時間
- 當(dāng)空間聚類的密度不均勻、聚類間距差較大時,得到的聚類質(zhì)量較差(MinPts與Eps選取困難)
- 算法效果依賴距離公式選擇,實際應(yīng)用中常使用歐式距離,對于高緯度數(shù)據(jù),存在“維度災(zāi)難” https://baike.baidu.com/item/維數(shù)災(zāi)難/6788619?fr=aladdin
python中的實現(xiàn)
1)數(shù)學(xué)原理實現(xiàn)
導(dǎo)入一份如下分布的數(shù)據(jù)點的集合。

- #計算得到各點間距離的矩陣
- from sklearn.metrics.pairwise import euclidean_distances
- dist = euclidean_distances(data)
將所有點進行分類,得到核心點、邊界點和噪聲點。
- #設(shè)置Eps和MinPts
- eps = 0.2
- MinPts = 5
- ptses = []
- for row in dist: #密度 density = np.sum(row<eps)
- pts = 0
- if density>MinPts: #核心點,密度大于5
- pts = 1
- elif density>1 : #邊界點,密度大于1小于5
- pts = 2
- else: #噪聲點,密度為1
- pts = 0
- ptses.append(pts)
- #得到每個點的分類
以防萬一,將噪聲點進行過濾,并計算新的距離矩陣。
- #把噪聲點過濾掉,因為噪聲點無法聚類,它們獨自一類
- corePoints = data[pandas.Series(ptses)!=0]
- coreDist = euclidean_distances(corePoints)
以每個點為核心,得到該點的鄰域。
- cluster = dict()
- i = 0
- for row in coreDist:
- cluster[i] = numpy.where(row<eps)[0]
- i = i + 1
然后,將有交集的鄰域,都合并為新的領(lǐng)域。
- for i in range(len(cluster)):
- for j in range(len(cluster)):
- if len(set(cluster[j]) & set(cluster[i]))>0 and i!=j:
- cluster[i] = list(set(cluster[i]) | set(cluster[j]))
- cluster[j] = list()
最后,找出獨立(也就是沒有交集)的鄰域,就是我們最后的聚類的結(jié)果了。
- result = dict()
- j = 0
- for i in range(len(cluster)):
- if len(cluster[i])>0:
- result[j] = cluster[i]
- j = j + 1
- #找出每個點所在領(lǐng)域的序號,作為他們最后聚類的結(jié)果標(biāo)記
- for i in range(len(result)):
- for j in result[i]:
- data.at[j, 'type'] = i
- plt.scatter(data['x'], data['y'], c=data['type'])

2)基于sklearn包的實現(xiàn)
- eps = 0.2
- MinPts = 5
- model = DBSCAN(eps, MinPts)
- data['type'] = model.fit_predict(data)
- plt.scatter(data['x'], data['y'], c=data['type'])