偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

打破“維度的詛咒”,機器學(xué)習(xí)降維方法好

新聞 機器學(xué)習(xí)
機器學(xué)習(xí)算法因為能夠從具有許多特征的數(shù)據(jù)集中找出相關(guān)信息而大火,這些數(shù)據(jù)集往往包括了幾十行的表格或者數(shù)百萬像素的圖像。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

使用機器學(xué)習(xí)時,你是不是經(jīng)常因為有太多無關(guān)特征而導(dǎo)致模型效果不佳而煩惱?

[[402586]]

而其實,降維就是機器學(xué)習(xí)中能夠解決這種問題的一種好方法。

知名科技博主Ben Dickson 對此進行了探討,并在TechTalks上發(fā)表了博客《機器學(xué)習(xí):什么是降維》,本文的編譯整理已受到Ben Dickson 本人授權(quán)。

他指出,機器學(xué)習(xí)算法因為能夠從具有許多特征的數(shù)據(jù)集中找出相關(guān)信息而大火,這些數(shù)據(jù)集往往包括了幾十行的表格或者數(shù)百萬像素的圖像。

云計算的突破可以幫助使用者運行大型的機器學(xué)習(xí)模型,而不用管后臺的計算能力。

但是,每增加一個新特征都會增加復(fù)雜性,增大使用機器學(xué)習(xí)算法的困難。

數(shù)據(jù)科學(xué)家通常使用降維,這是一套從機器學(xué)習(xí)模型中去除過多或者無關(guān)特征的技術(shù)。

降維可以降低機器學(xué)習(xí)的成本,有時還可以幫助用更簡單的模型來解決復(fù)雜的問題。

以下讓我們來看看是他的文章。

維度的詛咒

[[402587]]

機器學(xué)習(xí)模型可以將特征映射到結(jié)果。

比如,假設(shè)你想創(chuàng)建一個模型,來預(yù)測一個月內(nèi)的降雨量:

你有一個在不同月份從不同城市收集的各類信息的數(shù)據(jù)集,包括溫度、濕度、城市人口、交通、在城市舉辦的音樂會數(shù)量、風(fēng)速、風(fēng)向、氣壓、購買的汽車票數(shù)量和降雨量。

顯然,這些信息并不是都和降雨預(yù)測有關(guān)。

有些特征可能和目標(biāo)變量毫無關(guān)系。

比如,人口和購買的汽車票數(shù)量并不影響降雨量。

其他特征可能與目標(biāo)變量相關(guān),但與它沒有因果關(guān)系。

比如,戶外音樂會的數(shù)量可能與降雨量相關(guān),但它不是一個很好的降雨預(yù)測器。

在其他情況下,比如碳排放,特征和目標(biāo)變量之間可能有聯(lián)系,但效果可以忽略不計。

在這個例子中,哪些特征是有價值的,哪些是無用的,是顯而易見的。

在其他問題中,過度的特征可能不明顯,這就需要進一步的數(shù)據(jù)分析。

但是,為什么要費力地去除多余的維度呢?

因為當(dāng)你有太多的特征時,你也會需要一個更復(fù)雜的模型,這就意味著你需要更多的訓(xùn)練數(shù)據(jù)和更多的計算能力,才能把模型訓(xùn)練到一個可接受的水平。

由于機器學(xué)習(xí)不了解因果關(guān)系,即使沒有因果關(guān)系,模型也會試圖將數(shù)據(jù)集中的任何特征映射到目標(biāo)變量,這可能會導(dǎo)致模型錯誤。

另一方面,減少特征的數(shù)量會使機器學(xué)習(xí)模型更簡單,更有效,對數(shù)據(jù)的要求也更低。

很多特征造成的問題通常被稱為 “維度的詛咒”,而且它們并不限于表格數(shù)據(jù)。

考慮一個對圖像進行分類的機器學(xué)習(xí)模型。如果你的數(shù)據(jù)集由100×100像素的圖像組成,那么每個像素一個,這樣的問題空間有10,000個特征。然而,即使在圖像分類問題中,一些特征也是過度的,可以被刪除。

降維可以識別并刪除那些損害機器學(xué)習(xí)模型性能或?qū)ζ錅?zhǔn)確性沒有貢獻的特征。

目前有幾種降維技術(shù),每一種都有有用的適用范圍。

特征選擇

打破“維度的詛咒”,機器學(xué)習(xí)降維大法好

一個基本且有效的降維方法是“特征選擇”,就是識別和選擇與目標(biāo)變量最相關(guān)的特征子集。

當(dāng)處理表格數(shù)據(jù)時,特征選擇非常有效,因為其中的每一列都代表了一種特定的信息。

打破“維度的詛咒”,機器學(xué)習(xí)降維大法好

在進行特征選擇時,數(shù)據(jù)科學(xué)家要做兩件事:

保留與目標(biāo)變量高度相關(guān)的特征,和對數(shù)據(jù)集的方差貢獻最大的特征。

Python的Scikit-learn庫開發(fā)了很多功能,能夠分析、可視化和選擇正確的特征,來實現(xiàn)機器學(xué)習(xí)模型。

比如,數(shù)據(jù)科學(xué)家可以使用散點圖和熱圖來可視化不同特征的協(xié)方差。

如果兩個特征高度相關(guān),那么它們將對目標(biāo)變量產(chǎn)生類似的影響,因此,可以刪除其中一個,而不會對模型造成負面影響。

打破“維度的詛咒”,機器學(xué)習(xí)降維大法好

這些工具還可以幫助可視化特征和分析目標(biāo)變量之間的關(guān)聯(lián)性,從而幫助去除不影響目標(biāo)變量的變量。

比如,你可能會發(fā)現(xiàn),在你的數(shù)據(jù)集的25個特征中,有7個對目標(biāo)變量的影響占到了95%。

所以能夠刪除18個特征,使機器學(xué)習(xí)模型變得更簡單,而不會對模型的準(zhǔn)確性產(chǎn)生太大影響。

投影技術(shù)

有時,你沒辦法刪除個別特征,但這并不意味著不能簡化機器學(xué)習(xí)模型。

投影技術(shù) 就是一個好辦法,也被稱為 “特征提取” ,可以通過將幾個特征壓縮到一個低維空間來簡化模型。

用于表示投影技術(shù)的一個常見示例是 “瑞士卷”。

這是一組圍繞三維焦點旋轉(zhuǎn)的數(shù)據(jù)點,這個數(shù)據(jù)集有三個特征。每個點(目標(biāo)變量)的值是根據(jù)它沿卷曲路徑到瑞士卷中心的距離來測量的。在下面的圖片中,紅點更靠近中心,黃點沿著滾動方向更遠。

打破“維度的詛咒”,機器學(xué)習(xí)降維大法好

創(chuàng)建一個機器學(xué)習(xí)模型,將瑞士卷點的特征映射到它們的值非常難,需要一個具有許多參數(shù)的復(fù)雜模型。但是,引入降維技術(shù),這些點可以被投射到一個較低維度的空間,可以用一個簡單的機器學(xué)習(xí)模型來學(xué)習(xí)。

有各種投影技術(shù)。在上面的例子中,我們使用了 “局部線性嵌入(LLE)”的方法,這種算法可以降低問題空間的維度,同時保留了分離數(shù)據(jù)點數(shù)值的關(guān)鍵元素。當(dāng)我們的數(shù)據(jù)用LLE處理時,結(jié)果看起來就像下面的圖片,這就像一個展開的瑞士卷。

你可以看到,每種顏色的點都保持在一起。因此,這個問題仍然可以簡化為一個單一的特征,并用最簡單的機器學(xué)習(xí)算法(線性回歸)建模。

打破“維度的詛咒”,機器學(xué)習(xí)降維大法好

雖然這個例子是假設(shè)性的,但如果你把特征投射到一個較低維度的空間,經(jīng)常會面臨一些可以簡化的問題。

比如, “主成分分析”(PCA) 是一種流行的降維算法,在簡化機器學(xué)習(xí)問題方面有許多有用的應(yīng)用。

打破“維度的詛咒”,機器學(xué)習(xí)降維大法好

在優(yōu)秀的《用Python進行機器學(xué)習(xí)(Hands-on Machine Learning with Python)》一書中,數(shù)據(jù)科學(xué)家Aurelien Geron展示了如何使用PCA將MNIST數(shù)據(jù)集從784個特征(28×28像素)減少到150個特征,同時保留了95%的方差。

這種降維水平對人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和運行成本的影響特別大。

打破“維度的詛咒”,機器學(xué)習(xí)降維大法好

關(guān)于投影技術(shù),有幾個注意事項需要考慮:

一旦你開發(fā)了投影技術(shù),就必須先將新數(shù)據(jù)點轉(zhuǎn)換到低維空間,然后再通過機器學(xué)習(xí)模型運行它們。但如果這個預(yù)處理步驟的成本太大,最后模型的收益太小的話,可能不太值。

第二個問題是,轉(zhuǎn)換后的數(shù)據(jù)點可能不能直接代表其原始特征,如果將它們再轉(zhuǎn)換回原始空間可能很麻煩,某些情況下也不太可行,因此這可能會很難解釋模型的推論。

機器學(xué)習(xí)工具箱中的降維

簡單總結(jié)一下。

過多的特征會降低機器學(xué)習(xí)模型的效率,但刪除過多的特征也不太好。

數(shù)據(jù)科學(xué)家可以用降維作為一個工具箱,生成好的機器學(xué)習(xí)模型,但和其他工具一樣,使用降維的時候也有許多問題,有許多地方都需要小心。

作者簡介

[[402591]]

知名科技博主、軟件工程師Ben Dickson,TechTalks的創(chuàng)始人。

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-06-19 09:13:29

機器學(xué)習(xí)中數(shù)據(jù)集深度學(xué)習(xí)

2021-05-24 08:00:00

機器學(xué)習(xí)數(shù)據(jù)云計算

2023-11-28 12:12:46

機器學(xué)習(xí)算法

2024-02-19 15:28:33

機器學(xué)習(xí)線性降維

2024-02-19 14:37:14

機器學(xué)習(xí)非線性降維

2015-09-21 15:00:38

機器學(xué)習(xí)

2020-11-02 18:38:17

Batch Norma深度學(xué)習(xí)

2021-03-30 11:29:02

人工智能深度學(xué)習(xí)

2021-08-02 18:04:25

機器學(xué)習(xí)數(shù)據(jù)集工具

2023-01-03 15:56:34

機器學(xué)習(xí)降維技術(shù)

2017-10-13 13:14:35

互聯(lián)網(wǎng)

2022-09-15 23:58:51

機器學(xué)習(xí)集成數(shù)據(jù)

2021-04-01 22:19:54

機器學(xué)習(xí)模型數(shù)據(jù)

2022-09-06 15:00:09

機器學(xué)習(xí)集成數(shù)據(jù)集

2022-08-27 13:35:39

L4級自動駕駛輔助駕駛自動駕駛

2022-04-26 06:15:34

降維算法Python

2021-10-04 14:56:09

機器學(xué)習(xí)函數(shù)參數(shù)

2022-08-05 08:00:00

機器學(xué)習(xí)數(shù)據(jù)API

2017-09-11 09:20:14

機器學(xué)習(xí)無監(jiān)督學(xué)習(xí)聚類

2021-05-24 14:13:44

人工智能機器學(xué)習(xí)數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號