什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)是人工智能(AI)的子集。它專注于訓(xùn)練計(jì)算機(jī),以從數(shù)據(jù)中學(xué)習(xí)并根據(jù)經(jīng)驗(yàn)進(jìn)行改進(jìn),而不是為此進(jìn)行顯式編程。在機(jī)器學(xué)習(xí)中,對算法進(jìn)行訓(xùn)練,以查找大型數(shù)據(jù)集中的模式和相關(guān)性,并根據(jù)該分析做出最佳決策和預(yù)測。機(jī)器學(xué)習(xí)應(yīng)用程序會(huì)隨著使用而改進(jìn),并且隨著它們能夠訪問的數(shù)據(jù)越來越多而變得更加準(zhǔn)確。機(jī)器學(xué)習(xí)的應(yīng)用無處不在-在我們的家中,我們的購物車,我們的娛樂媒體和我們的醫(yī)療保健中。
人工智能和機(jī)器學(xué)習(xí)之間的關(guān)系圖
什么是神經(jīng)網(wǎng)絡(luò)?
在生物大腦中的神經(jīng)元上建立了一個(gè)人工神經(jīng)網(wǎng)絡(luò)(ANN)。人工神經(jīng)元稱為節(jié)點(diǎn),并以多層形式聚集在一起,并并行運(yùn)行。當(dāng)人工神經(jīng)元接收到數(shù)字信號時(shí),它將對其進(jìn)行處理并向與之連接的其他神經(jīng)元發(fā)出信號。就像在人腦中一樣,神經(jīng)強(qiáng)化可以改善模式識別,專業(yè)知識和整體學(xué)習(xí)能力。
什么是深度學(xué)習(xí)?
這種機(jī)器學(xué)習(xí)被稱為“深度學(xué)習(xí)”,因?yàn)樗ㄉ窠?jīng)網(wǎng)絡(luò)的許多層以及大量復(fù)雜而分散的數(shù)據(jù)。為了實(shí)現(xiàn)深度學(xué)習(xí),該系統(tǒng)與網(wǎng)絡(luò)中的多個(gè)層配合使用,提取出越來越高級的輸出。例如,用于處理自然圖像并尋找Gloriosa雛菊的深度學(xué)習(xí)系統(tǒng)將在第一層識別植物。當(dāng)它在神經(jīng)層中移動(dòng)時(shí),它將識別出花朵,然后是雛菊,最后是Gloriosa雛菊。深度學(xué)習(xí)應(yīng)用的示例包括語音識別,圖像分類和藥物分析。
機(jī)器學(xué)習(xí)如何工作?
機(jī)器學(xué)習(xí)由使用各種算法技術(shù)的不同類型的機(jī)器學(xué)習(xí)模型組成。根據(jù)數(shù)據(jù)的性質(zhì)和期望的結(jié)果,可以使用以下四種學(xué)習(xí)模型之一:有監(jiān)督,無監(jiān)督,半監(jiān)督或增強(qiáng)。在每個(gè)模型中,相對于使用中的數(shù)據(jù)集和預(yù)期結(jié)果,可以應(yīng)用一種或多種算法技術(shù)。機(jī)器學(xué)習(xí)算法的基本目的是對事物進(jìn)行分類,查找模式,預(yù)測結(jié)果并做出明智的決策。當(dāng)涉及復(fù)雜且更不可預(yù)測的數(shù)據(jù)時(shí),可以一次使用一種算法,也可以組合使用這些算法以達(dá)到最佳的準(zhǔn)確性。
機(jī)器學(xué)習(xí)過程如何工作
什么是監(jiān)督學(xué)習(xí)?
監(jiān)督學(xué)習(xí)是四個(gè)機(jī)器學(xué)習(xí)模型中的第一個(gè)。在監(jiān)督學(xué)習(xí)算法中,機(jī)器是通過示例進(jìn)行教學(xué)的。監(jiān)督學(xué)習(xí)模型由“輸入”和“輸出”數(shù)據(jù)對組成,其中輸出標(biāo)記有所需的值。例如,假設(shè)目標(biāo)是讓機(jī)器分辨雛菊和三色堇之間的區(qū)別。一個(gè)二進(jìn)制輸入數(shù)據(jù)對包括一個(gè)雛菊圖像和一個(gè)三色堇圖像。該特定對的理想結(jié)果是選擇雛菊,因此它將被預(yù)先標(biāo)識為正確的結(jié)果。
通過一種算法,系統(tǒng)會(huì)隨著時(shí)間的推移編譯所有這些訓(xùn)練數(shù)據(jù),并開始確定相關(guān)的相似性,差異和其他邏輯點(diǎn)-直到它可以完全自己預(yù)測雛菊或三色堇問題的答案為止。這相當(dāng)于給孩子一個(gè)答案鍵來解決一系列問題,然后要求他們展示他們的工作并解釋他們的邏輯。我們每天與之交互的許多應(yīng)用程序中都使用了監(jiān)督學(xué)習(xí)模型,例如產(chǎn)品的推薦引擎和流量分析應(yīng)用程序(例如Waze),它們預(yù)測了一天中不同時(shí)間的最快路線。
什么是無監(jiān)督學(xué)習(xí)?
無監(jiān)督學(xué)習(xí)是四種機(jī)器學(xué)習(xí)模型中的第二種。在無監(jiān)督學(xué)習(xí)模型中,沒有答案鍵。機(jī)器研究輸入的數(shù)據(jù)(其中許多是未標(biāo)記和非結(jié)構(gòu)化的),并開始使用所有相關(guān)的可訪問數(shù)據(jù)來識別模式和相關(guān)性。在許多方面,無監(jiān)督學(xué)習(xí)都以人類如何觀察世界為模型。我們使用直覺和經(jīng)驗(yàn)將事物組合在一起。隨著我們遇到越來越多的事物示例,我們對事物進(jìn)行分類和識別的能力變得越來越準(zhǔn)確。對于機(jī)器,“經(jīng)驗(yàn)”是由輸入的數(shù)據(jù)量和可用的數(shù)據(jù)量定義的。無監(jiān)督學(xué)習(xí)應(yīng)用的常見示例包括面部識別,基因序列分析,市場研究和網(wǎng)絡(luò)安全。
什么是半監(jiān)督學(xué)習(xí)?
半監(jiān)督學(xué)習(xí)是四種機(jī)器學(xué)習(xí)模型中的第三種。在理想情況下,所有數(shù)據(jù)在輸入到系統(tǒng)之前都將進(jìn)行結(jié)構(gòu)化和標(biāo)記。但這顯然不可行,因此,當(dāng)存在大量原始的,非結(jié)構(gòu)化的數(shù)據(jù)時(shí),半監(jiān)督學(xué)習(xí)成為可行的解決方案。該模型包括輸入少量標(biāo)記數(shù)據(jù)以擴(kuò)充未標(biāo)記數(shù)據(jù)集。從本質(zhì)上講,標(biāo)記的數(shù)據(jù)起著使系統(tǒng)運(yùn)行的作用,并且可以大大提高學(xué)習(xí)速度和準(zhǔn)確性。半監(jiān)督學(xué)習(xí)算法指示機(jī)器分析標(biāo)記數(shù)據(jù)的相關(guān)屬性,以將其應(yīng)用于未標(biāo)記數(shù)據(jù)。
正如本MIT Press研究論文中深入探討的那樣但是,存在與該模型相關(guān)的風(fēng)險(xiǎn),其中標(biāo)記的數(shù)據(jù)中的缺陷會(huì)被系統(tǒng)獲悉并復(fù)制。最成功地使用半監(jiān)督學(xué)習(xí)的公司,請確保已制定最佳實(shí)踐協(xié)議。半監(jiān)督學(xué)習(xí)用于語音和語言分析,復(fù)雜醫(yī)學(xué)研究(例如蛋白質(zhì)分類)和高級欺詐檢測。
什么是強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)是第四種機(jī)器學(xué)習(xí)模型。在監(jiān)督學(xué)習(xí)中,機(jī)器會(huì)獲得答案鍵并通過查找所有正確結(jié)果之間的相關(guān)性來學(xué)習(xí)。強(qiáng)化學(xué)習(xí)模型不包括答案鍵,而是輸入一組允許的動(dòng)作,規(guī)則和潛在的最終狀態(tài)。當(dāng)算法的期望目標(biāo)是固定的或二進(jìn)制的時(shí),機(jī)器可以通過示例學(xué)習(xí)。但是,在期望的結(jié)果是可變的情況下,系統(tǒng)必須通過經(jīng)驗(yàn)和獎(jiǎng)勵(lì)來學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)模型中,“獎(jiǎng)勵(lì)”是數(shù)字,并作為系統(tǒng)尋求收集的內(nèi)容編程到算法中。
在許多方面,該模型類似于教別人如何下棋。當(dāng)然,不可能試圖向他們展示所有可能的舉動(dòng)。取而代之的是,您解釋規(guī)則,然后它們通過實(shí)踐來增強(qiáng)技能。獎(jiǎng)勵(lì)的形式不僅是贏得比賽,還包括獲得對手的棋子。強(qiáng)化學(xué)習(xí)的應(yīng)用包括針對在線廣告,計(jì)算機(jī)游戲開發(fā)和高風(fēng)險(xiǎn)股票市場交易的買方的自動(dòng)價(jià)格競標(biāo)。
機(jī)器學(xué)習(xí)挑戰(zhàn)
數(shù)據(jù)科學(xué)家和哈佛大學(xué)畢業(yè)生泰勒·維甘(Tyler Vigan)在他的《虛假關(guān)聯(lián)》一書中指出:“并非所有的關(guān)聯(lián)都表明潛在的因果關(guān)系。” 為了說明這一點(diǎn),他提供了一張圖表,顯示了人造黃油消費(fèi)量與緬因州的離婚率之間很明顯的相關(guān)性。當(dāng)然,此圖表旨在說明一個(gè)幽默點(diǎn)。但是,更重要的是,機(jī)器學(xué)習(xí)應(yīng)用程序容易受到人為和算法偏見和錯(cuò)誤的影響。而且由于其學(xué)習(xí)和適應(yīng)的傾向,錯(cuò)誤和虛假相關(guān)性可以在整個(gè)神經(jīng)網(wǎng)絡(luò)中快速傳播和污染結(jié)果。