偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="0v0bk"><strong id="0v0bk"></strong></dfn>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

在表格數(shù)據(jù)上，為什么基于樹的模型仍然優(yōu)于深度學(xué)習(xí)？

作者：機器之心 2022-08-01 10:36:37

人工智能新聞

為什么基于樹的機器學(xué)習(xí)方法，如 XGBoost 和隨機森林在表格數(shù)據(jù)上優(yōu)于深度學(xué)習(xí)？本文給出了這種現(xiàn)象背后的原因，他們選取了 45 個開放數(shù)據(jù)集，并定義了一個新基準(zhǔn)，對基于樹的模型和深度模型進行比較，總結(jié)出三點原因來解釋這種現(xiàn)象。

深度學(xué)習(xí)在圖像、語言甚至音頻等領(lǐng)域取得了巨大的進步。然而，在處理表格數(shù)據(jù)上，深度學(xué)習(xí)卻表現(xiàn)一般。由于表格數(shù)據(jù)具有特征不均勻、樣本量小、極值較大等特點，因此很難找到相應(yīng)的不變量。

基于樹的模型不可微，不能與深度學(xué)習(xí)模塊聯(lián)合訓(xùn)練，因此創(chuàng)建特定于表格的深度學(xué)習(xí)架構(gòu)是一個非常活躍的研究領(lǐng)域。許多研究都聲稱可以擊敗或媲美基于樹的模型，但他們的研究遭到很多質(zhì)疑。

事實上，對表格數(shù)據(jù)的學(xué)習(xí)缺乏既定基準(zhǔn)，這樣一來研究人員在評估他們的方法時就有很多自由度。此外，與其他機器學(xué)習(xí)子域中的基準(zhǔn)相比，大多數(shù)在線可用的表格數(shù)據(jù)集都很小，這使得評估更加困難。

為了緩解這些擔(dān)憂，來自法國國家信息與自動化研究所、索邦大學(xué)等機構(gòu)的研究者提出了一個表格數(shù)據(jù)基準(zhǔn)，其能夠評估最新的深度學(xué)習(xí)模型，并表明基于樹的模型在中型表格數(shù)據(jù)集上仍然是 SOTA。

對于這一結(jié)論，文中給出了確鑿的證據(jù)，在表格數(shù)據(jù)上，使用基于樹的方法比深度學(xué)習(xí)（甚至是現(xiàn)代架構(gòu)）更容易實現(xiàn)良好的預(yù)測，研究者并探明了其中的原因。

論文地址：https://hal.archives-ouvertes.fr/hal-03723551/document值得一提的是，論文作者之一是 Ga?l Varoquaux ，他是 Scikit-learn 計劃的領(lǐng)導(dǎo)者之一。目前該項目在 GitHub 上已成為最流行的機器學(xué)習(xí)庫之一。而由 Ga?l Varoquaux 參與的文章《Scikit-learn: Machine learning in Python》，引用量達 58949。?

本文貢獻可總結(jié)為：

該研究為表格數(shù)據(jù)創(chuàng)建了一個新的基準(zhǔn)（選取了 45 個開放數(shù)據(jù)集），并通過 OpenML 共享這些數(shù)據(jù)集，這使得它們易于使用。

該研究在表格數(shù)據(jù)的多種設(shè)置下比較了深度學(xué)習(xí)模型和基于樹的模型，并考慮了選擇超參數(shù)的成本。該研究還分享了隨機搜索的原始結(jié)果，這將使研究人員能夠廉價地測試新算法以獲得固定的超參數(shù)優(yōu)化預(yù)算。

在表格數(shù)據(jù)上，基于樹的模型仍然優(yōu)于深度學(xué)習(xí)方法

?新基準(zhǔn)參考 45 個表格數(shù)據(jù)集，選擇基準(zhǔn)如下：

異構(gòu)列，列應(yīng)該對應(yīng)不同性質(zhì)的特征，從而排除圖像或信號數(shù)據(jù)集。
維度低，數(shù)據(jù)集 d/n 比率低于 1/10。
無效數(shù)據(jù)集，刪除可用信息很少的數(shù)據(jù)集。
I.I.D.（獨立同分布）數(shù)據(jù)，移除類似流的數(shù)據(jù)集或時間序列。
真實世界數(shù)據(jù)，刪除人工數(shù)據(jù)集，但保留一些模擬數(shù)據(jù)集。
數(shù)據(jù)集不能太小，刪除特征太少（< 4）和樣本太少（< 3 000）的數(shù)據(jù)集。
刪除過于簡單的數(shù)據(jù)集。
刪除撲克和國際象棋等游戲的數(shù)據(jù)集，因為這些數(shù)據(jù)集目標(biāo)都是確定性的。

在基于樹的模型中，研究者選擇了 3 種 SOTA 模型：Scikit Learn 的 RandomForest，GradientBoostingTrees (GBTs) ， XGBoost 。該研究對深度模型進行了以下基準(zhǔn)測試：MLP、Resnet 、FT Transformer、SAINT 。圖 1 和圖 2 給出了不同類型數(shù)據(jù)集的基準(zhǔn)測試結(jié)果

?

實證調(diào)查：為什么基于樹的模型在表格數(shù)據(jù)上仍然優(yōu)于深度學(xué)習(xí)

歸納偏差?；跇涞哪Ｐ驮诟鞣N超參數(shù)選擇中擊敗了神經(jīng)網(wǎng)絡(luò)。事實上，處理表格數(shù)據(jù)的最佳方法有兩個共有屬性：它們是集成方法、bagging（隨機森林）或 boosting（XGBoost、GBT），而這些方法中使用的弱學(xué)習(xí)器是決策樹。

?發(fā)現(xiàn) 1：神經(jīng)網(wǎng)絡(luò)（NN）傾向于過度平滑的解決方案

如圖 3 所示，對于較小的尺度，平滑訓(xùn)練集上的目標(biāo)函數(shù)會顯著降低基于樹的模型的準(zhǔn)確率，但幾乎不會影響 NN。這些結(jié)果表明，數(shù)據(jù)集中的目標(biāo)函數(shù)并不平滑，與基于樹的模型相比，NN 難以適應(yīng)這些不規(guī)則函數(shù)。這與 Rahaman 等人的發(fā)現(xiàn)一致，他們發(fā)現(xiàn) NN 偏向于低頻函數(shù)?；跊Q策樹的模型學(xué)習(xí)分段（piece-wise）常函數(shù)，沒有這樣的偏置。

發(fā)現(xiàn) 2：非信息特征更能影響類似 MLP 的 NN

表格數(shù)據(jù)集包含許多非信息（ uninformative）特征，對于每個數(shù)據(jù)集，該研究根據(jù)特征的重要性會選擇丟棄一定比例的特征（通常按隨機森林排序）。從圖 4 可以看出，去除一半以上的特征對 GBT 的分類準(zhǔn)確率影響不大。

圖 5 可以看到移除非信息特征 (5a) 減少了 MLP (Resnet) 與其他模型（FT Transformers 和基于樹的模型）之間的性能差距，而添加非信息特征會擴大差距，這表明 MLP 對非信息特征的魯棒性較差。在圖 5a 中，當(dāng)研究者移除更大比例的特征時，相應(yīng)的也會刪除有用信息特征。圖 5b 表明，去除這些特征所帶來的準(zhǔn)確率下降可以通過去除非信息特征來補償，與其他模型相比，這對 MLP 更有幫助（同時，該研究還刪除了冗余特性，也不會影響模型性能）。

發(fā)現(xiàn) 3：通過旋轉(zhuǎn)，數(shù)據(jù)是非不變的

與其他模型相比，為什么 MLP 更容易受到無信息特征的影響？其中一個答案是，MLP 是旋轉(zhuǎn)不變的：當(dāng)對訓(xùn)練集和測試集特征應(yīng)用旋轉(zhuǎn)時，在訓(xùn)練集上學(xué)習(xí) MLP 并在測試集上進行評估，這一過程是不變的。事實上，任何旋轉(zhuǎn)不變的學(xué)習(xí)過程都具有最壞情況下的樣本復(fù)雜度，該復(fù)雜度至少在不相關(guān)特征的數(shù)量上呈線性增長。直觀地說，為了去除無用特征，旋轉(zhuǎn)不變算法必須首先找到特征的原始方向，然后選擇信息最少的特征。

圖 6a 顯示了當(dāng)對數(shù)據(jù)集進行隨機旋轉(zhuǎn)時的測試準(zhǔn)確率變化，證實只有 Resnets 是旋轉(zhuǎn)不變的。值得注意的是，隨機旋轉(zhuǎn)顛倒了性能順序：結(jié)果是 NN 在基于樹的模型之上，Resnets 在 FT Transformer 之上，這表明旋轉(zhuǎn)不變性是不可取的。事實上，表格數(shù)據(jù)通常具有單獨含義，例如年齡、體重等。圖 6b 中顯示：刪除每個數(shù)據(jù)集中最不重要的一半特征（在旋轉(zhuǎn)之前），會降低除 Resnets 之外的所有模型的性能，但與沒有刪除特征使用所有特征時相比，相比較而言，下降的幅度較小。

責(zé)任編輯：張燕妮來源：機器之心

機器學(xué)習(xí)數(shù)據(jù)模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="f5wme"></abbr>