SQL Server數(shù)據(jù)挖掘之如何實(shí)現(xiàn)Web路徑流挖掘
最近與一個(gè)客戶(hù)的開(kāi)發(fā)團(tuán)隊(duì)探討和學(xué)習(xí)SQL Server的數(shù)據(jù)挖掘及其應(yīng)用。有幾個(gè)比較有意思的問(wèn)題,整理出來(lái)
關(guān)于數(shù)據(jù)挖掘的基本知識(shí)和學(xué)習(xí)資料,可以參考http://msdn.microsoft.com/zh-cn/library/bb510517.aspx
上一篇:SQL Server數(shù)據(jù)挖掘之理解聚類(lèi)算法和順序聚類(lèi)算法
上一篇解釋了聚類(lèi)算法和順序聚類(lèi)算法,這一篇講解一個(gè)實(shí)例,就是我們常說(shuō)的Web 路徑流挖掘分析。Web路徑流是讓我們發(fā)現(xiàn)用戶(hù)使用網(wǎng)站的習(xí)慣的一種表示方式,例如我們想知道用戶(hù)是先到什么頁(yè)面,然后再到什么頁(yè)面,由此我們可以給用戶(hù)分組,并且根據(jù)他們的習(xí)慣定制更好的頁(yè)面導(dǎo)航設(shè)計(jì)。
按照數(shù)據(jù)挖掘的基本流程,我們一步一步來(lái)做
1.定義問(wèn)題:通過(guò)分析得到不同用戶(hù)群使用網(wǎng)站的路徑及其規(guī)律
2.準(zhǔn)備數(shù)據(jù):
為此,我們準(zhǔn)備兩個(gè)表格,分別保存客戶(hù)信息(如下)
以及客戶(hù)點(diǎn)擊頁(yè)面的記錄表(這里作為演示,我只填寫(xiě)了一些范例數(shù)據(jù))
#p#
3.建立模型:
準(zhǔn)備數(shù)據(jù)源和數(shù)據(jù)源視圖
創(chuàng)建挖掘模型。這個(gè)業(yè)務(wù)場(chǎng)景,我們適合用“順序分析和聚類(lèi)分析”
#p#
#p#
#p#
#p#
點(diǎn)擊“Finish”之后,檢查模型的設(shè)計(jì)
#p#
4.部署和處理
【備注】因?yàn)閿?shù)據(jù)不多,所以看到的結(jié)果比較簡(jiǎn)單。有興趣的朋友可以實(shí)際準(zhǔn)備一些數(shù)據(jù)進(jìn)行分析
【編輯推薦】
- 代號(hào):Denali,SQL Server再出擊
- 說(shuō)說(shuō)SQL Server編年史
- 簡(jiǎn)單說(shuō)說(shuō)SQL Server上的加密術(shù)
- 擦亮自己的眼睛去看SQL Server