偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<del id="w9vv4"><abbr id="w9vv4"></abbr></del>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

從概念到案例：初學(xué)者須知的十大機(jī)器學(xué)習(xí)算法

作者：佚名 2017-10-30 14:56:04

人工智能機(jī)器學(xué)習(xí) 算法

本文先為初學(xué)者介紹了必知的十大機(jī)器學(xué)習(xí)(ML)算法，并且我們通過(guò)一些圖解和實(shí)例生動(dòng)地解釋這些基本機(jī)器學(xué)習(xí)的概念。我們希望本文能為理解機(jī)器學(xué)習(xí)(ML)基本算法提供簡(jiǎn)單易讀的入門(mén)概念。

本文先為初學(xué)者介紹了必知的十大機(jī)器學(xué)習(xí)(ML)算法，并且我們通過(guò)一些圖解和實(shí)例生動(dòng)地解釋這些基本機(jī)器學(xué)習(xí)的概念。我們希望本文能為理解機(jī)器學(xué)習(xí)(ML)基本算法提供簡(jiǎn)單易讀的入門(mén)概念。

一、機(jī)器學(xué)習(xí)模型

在《哈佛商業(yè)評(píng)論》發(fā)表「數(shù)據(jù)科學(xué)家是 21 世紀(jì)最性感的職業(yè)」之后，機(jī)器學(xué)習(xí)的研究廣受關(guān)注。所以，對(duì)于初入機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)習(xí)者，我們放出來(lái)一篇頗受歡迎的博文——《初學(xué)者必知的十大機(jī)器學(xué)習(xí)算法》，盡管這只是針對(duì)初學(xué)者的。

機(jī)器學(xué)習(xí)算法就是在沒(méi)有人類(lèi)干預(yù)的情況下，從數(shù)據(jù)中學(xué)習(xí)，并在經(jīng)驗(yàn)中改善的一種方法，學(xué)習(xí)任務(wù)可能包括學(xué)習(xí)從輸入映射到輸出的函數(shù)，學(xué)習(xí)無(wú)標(biāo)簽數(shù)據(jù)的隱含結(jié)構(gòu);或者是「基于實(shí)例的學(xué)習(xí)」，通過(guò)與存儲(chǔ)在記憶中的訓(xùn)練數(shù)據(jù)做比較，給一個(gè)新實(shí)例生成一個(gè)類(lèi)別標(biāo)簽?；趯?shí)例的學(xué)習(xí)(instance-based learning)不會(huì)從具體實(shí)例中生成抽象結(jié)果。

二、機(jī)器學(xué)習(xí)算法的類(lèi)型

有三類(lèi)機(jī)器學(xué)習(xí)算法：

1. 監(jiān)督學(xué)習(xí)

可以這樣來(lái)描述監(jiān)督學(xué)習(xí)：使用有標(biāo)簽的訓(xùn)練數(shù)據(jù)去學(xué)習(xí)從輸入變量(X)到輸出變量(Y)的映射函數(shù)。

Y = f (X)

它分為兩種類(lèi)型：

分類(lèi)：通過(guò)一個(gè)給定的輸入預(yù)測(cè)一個(gè)輸出，這里的輸出變量以類(lèi)別的形式展示。例如男女性別、疾病和健康。
回歸：也是通過(guò)一個(gè)給定的輸入預(yù)測(cè)一個(gè)輸出，這里的輸出變量以實(shí)數(shù)的形式展示。例如預(yù)測(cè)降雨量、人的身高等實(shí)數(shù)值。

本文介紹的前 5 個(gè)算法就屬于監(jiān)督學(xué)習(xí)：線(xiàn)性回歸、Logistic 回歸、CART、樸素貝葉斯和 KNN。

集成學(xué)習(xí)也是一種監(jiān)督學(xué)習(xí)方法。它意味著結(jié)合多種不同的弱學(xué)習(xí)模型來(lái)預(yù)測(cè)一個(gè)新樣本。本文介紹的第 9、10 兩種算法--隨機(jī)森林 Bagging 和 AdaBoost 提升算法就是集成學(xué)習(xí)技術(shù)。

2. 非監(jiān)督學(xué)習(xí)

非監(jiān)督學(xué)習(xí)問(wèn)提僅僅處理輸入變量(X)，但不會(huì)處理對(duì)應(yīng)的輸出(也就是說(shuō)，沒(méi)有標(biāo)簽)。它使用無(wú)標(biāo)簽的訓(xùn)練數(shù)據(jù)建模數(shù)據(jù)的潛在結(jié)構(gòu)。

非監(jiān)督學(xué)習(xí)可以分為3種類(lèi)型：

關(guān)聯(lián)：就是去發(fā)覺(jué)在同一個(gè)數(shù)據(jù)集合中不同條目同時(shí)發(fā)生的概率。廣泛地用于市場(chǎng)籃子分析。例如：如果一位顧客買(mǎi)了面包，那么他有 80% 的可能性購(gòu)買(mǎi)雞蛋。
聚類(lèi)：把更加相似的對(duì)象歸為一類(lèi)，而不是其他類(lèi)別對(duì)象。
降維：顧名思義，降維就是減少數(shù)據(jù)集變量，同時(shí)要保證重要信息不丟失。降維可以通過(guò)使用特征提取和特征選擇方法來(lái)完成。特征選擇方法會(huì)選擇原始變量的一個(gè)子集。特征提取完成了從高維空間到低維空間的數(shù)據(jù)變換。例如，主成分分析(PCA)就是一個(gè)特征提取方法。

本文介紹的算法 6-8 都是非監(jiān)督學(xué)習(xí)的例子：包括 Apriori 算法、K-均值聚類(lèi)、主成分分析(PCA)。

3. 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是這樣一種學(xué)習(xí)方法，它允許智能體通過(guò)學(xué)習(xí)最大化獎(jiǎng)勵(lì)的行為，并基于當(dāng)前狀態(tài)決定下一步要采取的最佳行動(dòng)。

強(qiáng)化學(xué)習(xí)一般通過(guò)試錯(cuò)學(xué)習(xí)到最佳行動(dòng)。強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人，機(jī)器人在碰到障礙物質(zhì)之后會(huì)收到消極反饋，它通過(guò)這些消極反饋來(lái)學(xué)會(huì)避免碰撞;也用在視頻游戲中，通過(guò)試錯(cuò)發(fā)現(xiàn)能夠極大增長(zhǎng)玩家回報(bào)的一系列動(dòng)作。智能體可以使用這些回報(bào)來(lái)理解游戲中的最佳狀態(tài)，并選擇下一步的行動(dòng)。

三、監(jiān)督學(xué)習(xí)

1. 線(xiàn)性回歸

在機(jī)器學(xué)習(xí)中，我們用輸入變量 x 來(lái)決定輸出變量 y。輸入變量和輸出變量之間存在一個(gè)關(guān)系。機(jī)器學(xué)習(xí)的目標(biāo)就是去定量地描述這種關(guān)系。

圖 1：以一條直線(xiàn)的形式展示出來(lái)的線(xiàn)性回歸：y = ax +b

在線(xiàn)性回歸中，輸入變量 x 和輸出變量 y 的關(guān)系可以用一個(gè)方程的形式表達(dá)出來(lái)：y=ax+b。所以，線(xiàn)性回歸的目標(biāo)就是尋找參數(shù) a 和 b 的值。這里，a 是直線(xiàn)的斜率，b 是直線(xiàn)的截距。

圖 1 將一個(gè)數(shù)據(jù)集中的 x 和 y 用圖像表示出來(lái)了。如圖所示，這里的目標(biāo)就是去尋找一條離大多數(shù)點(diǎn)最近的一條直線(xiàn)。這就是去減小一個(gè)數(shù)據(jù)點(diǎn)的 y 值和直線(xiàn)之間的距離。

2. Logistic 回歸

線(xiàn)性回歸預(yù)測(cè)是連續(xù)值(如厘米級(jí)的降雨量)，logistic 回歸預(yù)測(cè)是使用了一種變換函數(shù)之后得到的離散值(如一位學(xué)生是否通過(guò)了考試)。

Logistic 回歸最適合于二元分類(lèi)問(wèn)題(在一個(gè)數(shù)據(jù)集中，y=0 或者 1，1 代表默認(rèn)類(lèi)。例如：在預(yù)測(cè)某個(gè)事件是否會(huì)發(fā)生的時(shí)候，發(fā)生就是 1。在預(yù)測(cè)某個(gè)人是否患病時(shí)，患病就是 1)。這個(gè)算法是拿它所使用的變換函數(shù)命名的，這個(gè)函數(shù)稱(chēng)為 logistics 函數(shù)(logistics function，h(x)= 1/ (1 + e^x))，它的圖像是一個(gè) S 形曲線(xiàn)。

在 logistic 回歸中，輸出是默認(rèn)類(lèi)別的概率(不像線(xiàn)性回歸一樣，輸出是直接生成的)。因?yàn)槭歉怕剩暂敵龅闹涤蚴?[0,1]。輸出值 y 是通過(guò)輸入值 x 的對(duì)數(shù)變換 h(x)= 1/ (1 + e^ -x) 得到的。然后使用一個(gè)閾值強(qiáng)制地讓輸出結(jié)果變成一個(gè)二元分類(lèi)問(wèn)題。

圖 2：確定一個(gè)腫瘤是惡性的還是良性的回歸。如果概率 h(x)>0.5，則是惡性的

在圖 2 中，為了判斷一個(gè)腫瘤是不是惡性，默認(rèn)變量被設(shè)置為 y=1(腫瘤是惡性的);變量 x 可能是對(duì)一個(gè)腫瘤的檢測(cè)結(jié)果，例如腫瘤的尺寸。如圖中所示，logistics 函數(shù)將變量 x 的值變換到了 0 到 1 之間。如果概率超過(guò)了 0.5(圖中的水平線(xiàn)為界)，腫瘤就被歸類(lèi)為惡性。

logistic 回歸的方程 P(x) = e ^ (b0 +b1*x) / (1 + e^(b0 + b1*x))可以被轉(zhuǎn)換為對(duì)數(shù)形式： ln(p(x) / 1-p(x)) = b0 + b1*x。

logistic 回歸的目標(biāo)就是使用訓(xùn)練數(shù)據(jù)來(lái)尋找參數(shù) b0 和 b1 的值，最小化預(yù)測(cè)結(jié)果和實(shí)際值的誤差。這些參數(shù)的評(píng)估使用的是最大似然估計(jì)的方法。

3. 分類(lèi)和回歸樹(shù)

分類(lèi)和回歸樹(shù)(CART)是決策樹(shù)的一種補(bǔ)充。

非終端節(jié)點(diǎn)(non-terminal node)包含根節(jié)點(diǎn) (root node) 和中間節(jié)點(diǎn) (internal node)。每一個(gè)非終端節(jié)點(diǎn)代表一個(gè)單獨(dú)的輸入變量 x 和這個(gè)變量的分支節(jié)點(diǎn);葉節(jié)點(diǎn)代表的是輸出變量 y。這個(gè)模型按照以下的規(guī)則來(lái)作出預(yù)測(cè)：

圖 3：決策樹(shù)的一些部分

4. 樸素貝葉斯法

在給定一個(gè)早已發(fā)生的事件的概率時(shí)，我們用貝葉斯定理去計(jì)算某個(gè)事件將會(huì)發(fā)生的概率。在給定一些變量的值時(shí)，我們也用貝葉斯定理去計(jì)算某個(gè)結(jié)果的概率，也就是說(shuō)，基于我們的先驗(yàn)知識(shí)(d)去計(jì)算某個(gè)假設(shè)(h)為真的概率。計(jì)算方法如下：

P(h|d)= (P(d|h) * P(h)) / P(d)

其中，

P(h|d) = 后驗(yàn)概率。就是假設(shè) h 為真概率，給定的數(shù)據(jù)相當(dāng)于先驗(yàn)知識(shí) d。其中 P(h|d)= P(d1| h)* P(d2| h)*....*P(dn| h)* P(d)。
P(d|h) = 似然度。假設(shè) h 正確時(shí)，數(shù)據(jù) d 的概率。
P(h) = 類(lèi)先驗(yàn)概率。假設(shè) h 正確的額概率。(無(wú)關(guān)數(shù)據(jù))
P(d) = 預(yù)測(cè)器先驗(yàn)概率。數(shù)據(jù)的概率(無(wú)關(guān)假設(shè))

這個(gè)算法被稱(chēng)為「樸素」的原因是：它假設(shè)所有的變量是相互獨(dú)立的，這也是現(xiàn)實(shí)世界中做出的一個(gè)樸素的假設(shè)。

圖 4：使用樸素貝葉斯法來(lái)預(yù)測(cè)變量「天氣」變化狀態(tài)

以圖 4 為例，如果天氣=晴天，那么輸出是什么呢?

在給定變量天氣=晴天時(shí)，為了判斷結(jié)果是或者否，就要計(jì)算 P(yes|sunny) 和 P(no|sunny)，然后選擇概率較大的結(jié)果。

計(jì)算過(guò)程如下：

->P(yes|sunny)= (P(sunny|yes) * P(yes)) / P(sunny) 
= (3/9 * 9/14 ) / (5/14) 
= 0.60 
-> P(no|sunny)= (P(sunny|no) * P(no)) / P(sunny) 
= (2/5 * 5/14 ) / (5/14) 
= 0.40

所以，天氣=晴天時(shí)，結(jié)果為是。

5. KNN

KNN 使用了整個(gè)數(shù)據(jù)集作為訓(xùn)練集，而不是將它分為訓(xùn)練集和測(cè)試集。

當(dāng)給定的一個(gè)數(shù)據(jù)實(shí)例時(shí)，KNN 算法會(huì)在整個(gè)數(shù)據(jù)集中尋找 k 個(gè)與其新樣本距離最近的，或者 k 個(gè)與新樣本最相似的，然后，對(duì)于回歸問(wèn)題，輸出結(jié)果的平均值，或者對(duì)于分類(lèi)問(wèn)題，輸出頻率最高的類(lèi)。k 的值是用戶(hù)自定義的。

樣本之間的相似性是用歐氏距離或者漢明(Hamming)距離來(lái)計(jì)算的。

四、非監(jiān)督學(xué)習(xí)算法

6. Apriori 算法

Apriori 算法被用來(lái)在交易數(shù)據(jù)庫(kù)中進(jìn)行挖掘頻繁的子集，然后生成關(guān)聯(lián)規(guī)則。常用于市場(chǎng)籃子分析，分析數(shù)據(jù)庫(kù)中最常同時(shí)出現(xiàn)的交易。通常，如果一個(gè)顧客購(gòu)買(mǎi)了商品 X 之后又購(gòu)買(mǎi)了商品 Y，那么這個(gè)關(guān)聯(lián)規(guī)則就可以寫(xiě)為：X -> Y。

例如：如果一位顧客購(gòu)買(mǎi)了牛奶和甜糖，那他很有可能還會(huì)購(gòu)買(mǎi)咖啡粉。這個(gè)可以寫(xiě)成這樣的關(guān)聯(lián)規(guī)則： {牛奶，甜糖} -> 咖啡粉。關(guān)聯(lián)規(guī)則是交叉了支持度(support)和置信度(confidence)的閾值之后產(chǎn)生的。

圖 5：關(guān)聯(lián)規(guī)則 X→Y 支持度、置信度和提升度的公式表示。

支持度的程度幫助修改在頻繁的項(xiàng)目集中用來(lái)作為候選項(xiàng)目集的數(shù)量。這種支持度的衡量是由 Apriori 原則來(lái)指導(dǎo)的。Apriori 原則說(shuō)明：如果一個(gè)項(xiàng)目集是頻繁的，那么它的所有子集都是頻繁的。

7. K-均值聚類(lèi)算法

K-均值是一個(gè)對(duì)相似的數(shù)據(jù)進(jìn)行聚類(lèi)的迭代算法。它計(jì)算出 k 個(gè)聚類(lèi)的中心點(diǎn)，并給某個(gè)類(lèi)的聚類(lèi)分配一個(gè)與其中心點(diǎn)距離最近的數(shù)據(jù)點(diǎn)。

圖 6：K-均值算法的步驟

步驟 1：K-均值初始化

選擇一個(gè) k 值。這里我們令 k=3。
將數(shù)據(jù)點(diǎn)隨機(jī)地分配給三個(gè)聚類(lèi)。
計(jì)算出每個(gè)聚類(lèi)的中心點(diǎn)。圖中的紅色、藍(lán)色和綠色的星分別代表三個(gè)聚類(lèi)的中心點(diǎn)。

步驟 2：將每一個(gè)觀測(cè)值與一個(gè)聚類(lèi)關(guān)聯(lián)起來(lái)

將每一個(gè)數(shù)據(jù)點(diǎn)重新分配給離它最近的一個(gè)聚類(lèi)中心點(diǎn)。如圖所示，上邊的五個(gè)數(shù)據(jù)點(diǎn)被分配給了藍(lán)星代表的聚類(lèi)。按照相同的步驟將數(shù)據(jù)點(diǎn)分配給紅色和綠色星代表的聚類(lèi)中心點(diǎn)。

步驟 3：重新計(jì)算中心點(diǎn)

計(jì)算新聚類(lèi)的中心點(diǎn)。如圖所示，舊中心點(diǎn)是灰色的，新中心點(diǎn)是紅色、藍(lán)色和綠色的。

步驟 4：迭代，然后在數(shù)據(jù)點(diǎn)所屬的聚類(lèi)不變的時(shí)候退出整個(gè)過(guò)程

重復(fù)步驟 2-3，直至每一個(gè)聚類(lèi)中的點(diǎn)不會(huì)被重新分配到另一個(gè)聚類(lèi)中。如果在兩個(gè)連續(xù)的步驟中不再發(fā)生變化，那么就退出 K-均值算法。

8. 主成分分析(PCA)

主成分分析(PCA)通過(guò)減少變量的數(shù)目來(lái)使數(shù)據(jù)變得更加易于探索和可視化。這通過(guò)將數(shù)據(jù)中擁有最大方差的數(shù)據(jù)抽取到一個(gè)被稱(chēng)為「主成分」的新坐標(biāo)系中。每一個(gè)成分都是原始變量的一個(gè)新的線(xiàn)性組合，且是兩兩統(tǒng)計(jì)獨(dú)立的。統(tǒng)計(jì)獨(dú)立意味著這些成分的相關(guān)系數(shù)是 0。

第一主成分捕獲的是數(shù)據(jù)中最大方差的數(shù)據(jù)。第二主成分捕獲的是剩下的數(shù)據(jù)中方差最大但是與第一主成分相互獨(dú)立的數(shù)據(jù)。相似地，后續(xù)的主成分(例如 PC3、PC4)都是剩下的數(shù)據(jù)中方差最大的但是與之前的主成分保持獨(dú)立的數(shù)據(jù)。

圖 7：使用主成分分析方法(PCA)，三種初始變量(基因)被降為兩種新變量

五、集成學(xué)習(xí)技術(shù)

集成意味著通過(guò)投票或者取平均值的方式，將多個(gè)學(xué)習(xí)器(分類(lèi)器)結(jié)合起來(lái)以改善結(jié)果。在分類(lèi)的時(shí)候進(jìn)行投票，在回歸的時(shí)候求平均值。核心思想就是集成多個(gè)學(xué)習(xí)器以使性能優(yōu)于單個(gè)學(xué)習(xí)器。有三種集成學(xué)習(xí)的方法：裝袋(Bagging)、提升(Boosting)和堆疊(Stacking)。本文不涉及堆疊。

9. 隨機(jī)森林 Bagging

隨機(jī)森林(多個(gè)學(xué)習(xí)器)是在裝袋決策樹(shù)(單個(gè)學(xué)習(xí)器)上做的改進(jìn)。

Bagging：Bagging 的第一步就是在使用 Bootstrap 采樣方法得到的數(shù)據(jù)庫(kù)中創(chuàng)建多個(gè)模型，每個(gè)生成的訓(xùn)練集都是原始數(shù)據(jù)集的子集。每個(gè)訓(xùn)練集都有相同的大小，但是有些樣本重復(fù)出現(xiàn)了很多次，有些樣本一次未出現(xiàn)。然后，整個(gè)原始數(shù)據(jù)集被用為測(cè)試集。那么，如果原始數(shù)據(jù)集的大小為 N，則每個(gè)生成的訓(xùn)練集的大小也是 N，唯一(沒(méi)有重復(fù))樣本的大小大約是 2*N/3;測(cè)試集的大小也是 N。

Bagging 的第二步就是使用同一個(gè)算法在不同的數(shù)據(jù)集上生成多個(gè)模型。然后，我們討論一下隨機(jī)森林。在決策樹(shù)中，每個(gè)節(jié)點(diǎn)都在最好的、能夠最小化誤差的最佳特征上進(jìn)行分支，而隨機(jī)森林與之不同，我們選擇隨機(jī)分支的特征來(lái)構(gòu)建最佳的分支。進(jìn)行隨機(jī)處理的原因在于：即便使用了 Bagging，當(dāng)決策樹(shù)選擇最佳特征來(lái)分支的時(shí)候，它們最終會(huì)有相似的模型和相關(guān)聯(lián)的預(yù)測(cè)結(jié)果。但是用隨機(jī)子集上的特征進(jìn)行分支意味著子樹(shù)做的預(yù)測(cè)是沒(méi)有多少相關(guān)性的。

10. AdaBoost 提升算法

a)Bagging 是并行集成，因?yàn)槊總€(gè)模型都是獨(dú)立建立的。然而，提升是一個(gè)順序性集成，每個(gè)模型都要糾正前面模型的錯(cuò)誤分類(lèi)。

b)Bagging 主要涉及到「簡(jiǎn)單投票」，每個(gè)分類(lèi)器都投票得到一個(gè)最終結(jié)果，這個(gè)分類(lèi)結(jié)果是由并行模型中的大多數(shù)模型做出的;提升則使用「權(quán)重投票」。每個(gè)分類(lèi)器都會(huì)投票得到一個(gè)由大多數(shù)模型做出的結(jié)果—但是建立這些順序性模型的時(shí)候，給之前誤分類(lèi)樣本的模型賦予了較大的權(quán)重。

Adaboost 指的是適應(yīng)性提升。

圖 9：一個(gè)決策樹(shù)的 Adaboost

在圖 9 中，步驟 1、2、3 指的是被稱(chēng)為決策樁(decision stump)的弱學(xué)習(xí)器(是一個(gè)僅依靠一個(gè)輸入作出決策的 1 級(jí)決策樹(shù);是一種根節(jié)點(diǎn)直接連接到葉節(jié)點(diǎn)的決策樹(shù))。構(gòu)造決策樹(shù)的過(guò)程會(huì)一直持續(xù)，直到用戶(hù)定義了一個(gè)弱學(xué)習(xí)器的數(shù)目，或者訓(xùn)練的時(shí)候再也沒(méi)有任何提升的時(shí)候。步驟 4 結(jié)合了之前模型中的 3 個(gè)決策樁(所以在這個(gè)決策樹(shù)中就有 3 種分支規(guī)則)。

步驟 1：開(kāi)始用 1 個(gè)決策樁來(lái)根據(jù) 1 個(gè)輸入變量做決策

數(shù)據(jù)點(diǎn)的大小說(shuō)明我們應(yīng)用了等權(quán)重來(lái)將它們分為圓形或者三角形。決策樁在圖的上半部分用一條水平線(xiàn)來(lái)對(duì)這些點(diǎn)進(jìn)行分類(lèi)。我們可以看到，有兩個(gè)圓被誤分為三角形。所以，我們會(huì)賦予這兩個(gè)圓更大的權(quán)重，然后使用另一個(gè)決策樁(decision stump)。

步驟 2：轉(zhuǎn)向下一個(gè)決策樁，對(duì)另一個(gè)輸入變量進(jìn)行決策

我們可以看到，之前的步驟中誤分類(lèi)的兩個(gè)圓要比其余數(shù)據(jù)點(diǎn)大?，F(xiàn)在，第二個(gè)決策樁要嘗試正確地預(yù)測(cè)這兩個(gè)圓。
賦予更大權(quán)重的結(jié)果就是，這兩個(gè)圓被左邊的豎線(xiàn)正確地分類(lèi)了。但是這又導(dǎo)致了對(duì)上面 3 個(gè)小圓的誤分類(lèi)。因此，我們要在另一個(gè)決策樁對(duì)這三個(gè)圓賦予更大的權(quán)重。

步驟 3：訓(xùn)練另一個(gè)決策樁對(duì)下一個(gè)輸入變量進(jìn)行決策。

上一步誤分類(lèi)的 3 個(gè)圓要比其他的數(shù)據(jù)點(diǎn)大。現(xiàn)在，在右邊生成了一條豎線(xiàn)，對(duì)三角形和圓進(jìn)行分類(lèi)。

步驟 4：結(jié)合決策樁

我們結(jié)合了之前 3 步的決策樁，然后發(fā)現(xiàn)一個(gè)復(fù)雜的規(guī)則將數(shù)據(jù)點(diǎn)正確地分類(lèi)了，性能要優(yōu)于任何一個(gè)弱學(xué)習(xí)器。

六、結(jié)語(yǔ)

回顧一下，本文主要學(xué)到的內(nèi)容：

5 種監(jiān)督學(xué)習(xí)技術(shù)：線(xiàn)性回歸、Logistic 回歸、CART(分類(lèi)和決策樹(shù))、樸素貝葉斯法和 KNN。
3 種非監(jiān)督學(xué)習(xí)技術(shù)：Apriori 算法、K-均值聚類(lèi)、主成分分析(PCA)。
兩種集成學(xué)習(xí)方法：Bagging 隨機(jī)森林、AdaBoost 提升。

綜上所述，機(jī)器學(xué)習(xí)的基本屬性可以總結(jié)為以下：

機(jī)器學(xué)習(xí)是(使用樣本獲取近似函數(shù)的)統(tǒng)計(jì)學(xué)的一個(gè)分支。我們有一個(gè)確實(shí)存在的理論函數(shù)或分布用以生成數(shù)據(jù)，但我們目前不知道它是什么。我們可以對(duì)這個(gè)函數(shù)進(jìn)行抽樣，這些樣本選自我們的訓(xùn)練集。
以圖片描述任務(wù)為例：函數(shù)：f⋆(圖片)→圖片描述，樣本：data∈(image，description)。注意：由于一個(gè)物體有許多有效的描述，所以描述是文本空間中的一個(gè)分布：圖片描述〜文本。
機(jī)器的目標(biāo)是找到模型：有足夠的表現(xiàn)力來(lái)逼近真正的函數(shù)，找到一個(gè)高效的算法，它使用訓(xùn)練數(shù)據(jù)找到函數(shù)最優(yōu)解。而且此最優(yōu)解必須對(duì)未知輸入有良好的泛化能力。

責(zé)任編輯：趙寧寧來(lái)源：網(wǎng)絡(luò)大數(shù)據(jù)

機(jī)器學(xué)習(xí)算法非監(jiān)督學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tt id="9ez44"><tbody id="9ez44"></tbody></tt>

<bdo id="9ez44"></bdo>