偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

何為多標(biāo)簽分類?這里有幾種實用的經(jīng)典方法

新聞 人工智能
眾所周知,二分類任務(wù)旨在將給定的輸入分為 0 和 1 兩類。而多標(biāo)簽分類(又稱多目標(biāo)分類)一次性地根據(jù)給定輸入預(yù)測多個二分類目標(biāo)。例如,模型可以預(yù)測給定的圖片是一條狗還是一只貓,同時預(yù)測其毛皮是長還是短。

這可能是最實用的多標(biāo)簽分類小貼士。

眾所周知,二分類任務(wù)旨在將給定的輸入分為 0 和 1 兩類。而多標(biāo)簽分類(又稱多目標(biāo)分類)一次性地根據(jù)給定輸入預(yù)測多個二分類目標(biāo)。例如,模型可以預(yù)測給定的圖片是一條狗還是一只貓,同時預(yù)測其毛皮是長還是短。

在多分類任務(wù)中,預(yù)測目標(biāo)是互斥的,這意味著一個輸入可以對應(yīng)于多個分類。本文將介紹一些可能提升多標(biāo)簽分類模型性能的小技巧。

模型評估函數(shù)

通過在「每一列」(分類標(biāo)簽)上計算模型評估函數(shù)并取得分均值,我們可以將大多數(shù)二分類評估函數(shù)用于多標(biāo)簽分類任務(wù)。對數(shù)損失或二分類交叉熵就是其中一種評估函數(shù)。為了更好地考慮到類別不均衡現(xiàn)象,我們可以使用 ROC-AUC 作為評估函數(shù)。

圖 1:ROC-AUC 曲線

建模技巧

在介紹構(gòu)建特征的技巧之前,本文將介紹一些設(shè)計適用于多標(biāo)簽分類場景的模型的小技巧。

對于大多數(shù)非神經(jīng)網(wǎng)絡(luò)模型而言,我們唯一的選擇是為每個目標(biāo)訓(xùn)練一個分類器,然后將預(yù)測結(jié)果融合起來。為此,「scikit-learn」程序庫提供了一個簡單的封裝類「OneVsRestClassifier」。盡管這個封裝類可以使分類器能夠執(zhí)行多標(biāo)簽任務(wù),但我們不應(yīng)采用這種方法,其弊端如下:(1)我們會為每個目標(biāo)訓(xùn)練一個新模型,因此訓(xùn)練時間相對較長。(2)模型無法學(xué)習(xí)不同標(biāo)簽之間的關(guān)系或標(biāo)簽的相關(guān)性。

第二個問題可以通過執(zhí)行一個兩階段訓(xùn)練過程來解決。其中,我們將目標(biāo)的預(yù)測結(jié)果和原始特征相結(jié)合,作為第二階段訓(xùn)練的輸入。這樣做的缺點是,由于需要訓(xùn)練的模型數(shù)量是之前的兩倍,訓(xùn)練時間將大幅度提升。神經(jīng)網(wǎng)絡(luò)(NN)則適用于這種場景,其中標(biāo)簽的數(shù)量即為網(wǎng)絡(luò)中輸出神經(jīng)元的數(shù)量。我們可以直接將任意的二分類損失應(yīng)用于神經(jīng)網(wǎng)絡(luò)模型,同時該模型會輸出所有的目標(biāo)。此時,我們只需要訓(xùn)練一個模型,且網(wǎng)絡(luò)可以通過輸出神經(jīng)元學(xué)習(xí)不同標(biāo)簽的相關(guān)性,從而解決上文中提出的非神經(jīng)網(wǎng)絡(luò)模型的兩個問題。

何為多標(biāo)簽分類?這里有幾種實用的經(jīng)典方法

圖 2:神經(jīng)網(wǎng)絡(luò)

有監(jiān)督的特征選擇方法

在開始特征工程或特征選擇之前,需要對特征進(jìn)行歸一化和標(biāo)準(zhǔn)化處理。使用「scikit-learn」庫中的「Quantile Transformer」將減小數(shù)據(jù)的偏度,使特征服從正態(tài)分布。此外,還可以通過對數(shù)據(jù)采取「減去均值,除以標(biāo)準(zhǔn)差」的操作,對特征進(jìn)行標(biāo)準(zhǔn)化處理。該過程與「Quantile Transformer」完成了類似的工作,其目的都是對數(shù)據(jù)進(jìn)行變換,使數(shù)據(jù)變得更加魯棒。然而,「Quantile Transformer」的計算開銷較高。

大多數(shù)算法都是為單一目標(biāo)設(shè)計的,因此使用有監(jiān)督特征選擇方法稍微有些困難。為了解決這個問題,我們可以將多標(biāo)簽分類任務(wù)轉(zhuǎn)化為多類分類問題。「Label Powerset」就是其中一種流行的解決方案,它將訓(xùn)練數(shù)據(jù)中的每一個獨特的標(biāo)簽組合轉(zhuǎn)化為一個類?!竤cikit-multilearn」程序庫中包含實現(xiàn)該方案的工具。

何為多標(biāo)簽分類?這里有幾種實用的經(jīng)典方法

圖 3:Label Powerset 方法

在完成轉(zhuǎn)換后,我們可以使用「信息增益」和「卡方」等方法來挑選特征。盡管這種方法是可行的,但是卻很難處理上百甚至上千對不同的獨特標(biāo)簽組合。此時,使用無監(jiān)督特征選擇方法可能更合適。

無監(jiān)督特征選擇方法

在無監(jiān)督方法中,我們不需要考慮多標(biāo)簽任務(wù)的特性,這是因為無標(biāo)簽方法并不依賴于標(biāo)簽。典型的無監(jiān)督特征選擇方法包括:

  • 主成分分析(PCA)或其它的因子分析方法。此類方法會去除掉特征中的冗余信息,并為模型抽取出有用的特征。請確保在使用 PCA 之前對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,從而使每個特征對分析的貢獻(xiàn)相等。另一個使用 PCA 的技巧是,我們可以將該算法簡化后的數(shù)據(jù)作為模型可選擇使用的額外信息與原始數(shù)據(jù)連接起來,而不是直接使用簡化后的數(shù)據(jù)。
  • 方差閾值。這是一種簡單有效的降低特征維度的方法。我們丟棄具有低方差或離散型的特征??梢酝ㄟ^找到一個更好的選擇閾值對此進(jìn)行優(yōu)化,0.5 是一個不錯的初始閾值。
  • 聚類。通過根據(jù)輸入數(shù)據(jù)創(chuàng)建聚類簇來構(gòu)建新特征,然后將相應(yīng)的聚類分配給每一行輸入數(shù)據(jù),作為一列新的特征。
何為多標(biāo)簽分類?這里有幾種實用的經(jīng)典方法

圖 4:K - 均值聚類

上采樣方法

當(dāng)分類數(shù)據(jù)高度不均衡時,可以使用上采樣方法為稀有類生成人造樣本,從而讓模型關(guān)注稀有類。為了在多標(biāo)簽場景下創(chuàng)建新樣本,我們可以使用多標(biāo)簽合成少數(shù)類過采樣技術(shù)(MLSMOTE)。

代碼鏈接:https://github.com/niteshsukhwani/MLSMOTE

該方法由原始的 SMOTE 方法修改而來。在生成少數(shù)類的數(shù)據(jù)并分配少數(shù)標(biāo)簽后,我們還通過統(tǒng)計每個標(biāo)簽在相鄰數(shù)據(jù)點中出現(xiàn)的次數(shù)來生成其它相關(guān)的標(biāo)簽,并保留出現(xiàn)頻次高于一半統(tǒng)計的數(shù)據(jù)點的標(biāo)簽。

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2023-08-17 08:41:43

Vue 3多布局系統(tǒng)

2023-11-21 08:45:10

JSON性能程序

2021-06-11 13:30:28

神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)

2019-01-23 09:48:06

數(shù)據(jù)清洗數(shù)據(jù)分析代碼

2018-03-25 09:11:31

大數(shù)據(jù)機器學(xué)習(xí)分析軟件

2020-06-12 07:36:33

Redis

2015-09-20 15:50:46

2018-04-02 11:22:31

大數(shù)據(jù)Hadoop數(shù)據(jù)處理

2019-09-22 18:53:27

Jupyter Not代碼開發(fā)

2019-11-08 09:46:34

技術(shù)功能開發(fā)

2016-08-23 00:39:25

2020-11-30 10:58:52

Linux操作系統(tǒng)Windows

2020-03-17 10:35:40

大數(shù)據(jù)IT人工智能

2020-11-02 15:49:35

機器學(xué)習(xí)技術(shù)云計算

2018-01-02 16:42:42

iPhone電池Apple

2015-08-04 10:34:13

Windows 10升級

2018-07-30 09:33:21

2020-05-22 13:32:24

可視化詞云圖數(shù)據(jù)

2023-11-27 17:24:43

2025-02-28 09:58:07

點贊
收藏

51CTO技術(shù)棧公眾號