我們一起聊聊軸承故障特征—SHAP 模型 3D 可視化

前言
本文基于凱斯西儲(chǔ)大學(xué)(CWRU)軸承數(shù)據(jù),使用特征提取和機(jī)器學(xué)習(xí)方法進(jìn)行故障識(shí),然后基于XGBoos模型介紹一種參數(shù)搜索策略,并通過(guò)SHAP模型可視化技術(shù)對(duì)結(jié)果進(jìn)行分析。
1.數(shù)據(jù)集和特征提取
1.1 數(shù)據(jù)集導(dǎo)入
參考之前的文章,進(jìn)行故障10分類的預(yù)處理,凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)10分類數(shù)據(jù)集:

數(shù)據(jù)的讀取形式以及預(yù)處理思路。

1.2 故障信號(hào)特征提取

選擇峭度、熵值、分形值、波形指標(biāo)、頻譜指標(biāo)、頻域指標(biāo)、 統(tǒng)計(jì)特征、振動(dòng)特征等13種指標(biāo)來(lái)捕捉軸承信號(hào)的多尺度特征,作為機(jī)器學(xué)習(xí)模型的訓(xùn)練與識(shí)別。
2.基于參數(shù)搜索策略的XGBoost故障診斷模型
2.1 參數(shù)搜索策略:大步粗略搜索,小步細(xì)致搜索
對(duì)于XGBoost模型的重要參數(shù):樹的棵樹、樹的深度、學(xué)習(xí)率,采取大范圍粗略搜索,先鎖定大概的參數(shù)范圍值,然后再采用小步細(xì)致搜索來(lái)準(zhǔn)確定位參數(shù)值。

2.2 大步粗略搜索
采用網(wǎng)格搜索,確認(rèn)大概的參數(shù)范圍值。

2.3 小步細(xì)致搜索
第一步,搜索樹的棵樹。

第二步,搜索樹的深度。

第三步,搜索學(xué)習(xí)率。

3.XGBoost模型評(píng)估和可視化
3.1 模型分?jǐn)?shù)、準(zhǔn)確率、精確率、召回率、F1 Score

3.2 故障十分類混淆矩陣

3.3 預(yù)測(cè)標(biāo)簽對(duì)比可視化

3.4 SHAP 模型可視化
SHAP(SHapley Additive exPlanations)是一種用于解釋機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果的方法。用于衡量每個(gè)特征對(duì)于模型輸出的貢獻(xiàn)程度。通過(guò)計(jì)算SHAP值,我們可以了解每個(gè)特征對(duì)于模型預(yù)測(cè)的影響,從而更好地理解模型的分類預(yù)測(cè)過(guò)程。這種可解釋性對(duì)于提高模型的可信度和可解釋性非常有幫助。能夠進(jìn)一步分析故障信號(hào)所提取特征對(duì)軸承故障診斷的貢獻(xiàn)。

平均值(SHAP值)(對(duì)模型輸出大小的平均影響),可以明顯的看出來(lái)13個(gè)特征對(duì)每個(gè)類別的分類貢獻(xiàn)度!

使用 3D 可視化來(lái)展示 SHAP 值,可以更直觀地理解哪些特征在不同類別中對(duì)模型輸出有顯著影響,并且這些影響是如何分布的。特別是在故障特征分析中,能夠幫助用戶更好地理解數(shù)據(jù)之間的復(fù)雜關(guān)系,提高故障檢測(cè)和特征重要性分析的效率和準(zhǔn)確性。
本文轉(zhuǎn)載自 ??建模先鋒??,作者: 小蝸愛(ài)建模


















