掌握這十大機(jī)器學(xué)習(xí)方法,你就是圈子里最靚的崽
不論是在科研中還是在工業(yè)領(lǐng)域,機(jī)器學(xué)習(xí)都是個(gè)熱門話題,新的機(jī)器學(xué)習(xí)方法也層出不窮。機(jī)器學(xué)習(xí)發(fā)展迅速又很復(fù)雜。對(duì)初學(xué)者而言,緊跟其發(fā)展無(wú)疑十分困難,即便是對(duì)專家們來說也非易事。
圖片來自Unsplash網(wǎng)站,chuttersnap攝
為揭開機(jī)器學(xué)習(xí)的神秘面紗,幫助新手學(xué)習(xí)該領(lǐng)域的核心概念,本文會(huì)介紹十種不同的機(jī)器學(xué)習(xí)方法,包括簡(jiǎn)單描述和可視化等,并一一舉例說明。
機(jī)器學(xué)習(xí)算法(模型)是個(gè)表示某一問題(常為商業(yè)問題)所包含數(shù)據(jù)信息的數(shù)學(xué)表達(dá)式。設(shè)計(jì)算法是為了分析數(shù)據(jù)從而獲取有用信息。比如,在線零售商想要預(yù)測(cè)下一季度的銷售額時(shí),就可能會(huì)用到機(jī)器學(xué)習(xí)算法,根據(jù)之前的銷售額和其他相關(guān)數(shù)據(jù)來進(jìn)行預(yù)測(cè)。同樣,風(fēng)車制造商可以監(jiān)管重要的設(shè)備,他們給算法提供視頻數(shù)據(jù)使其在訓(xùn)練之后能夠識(shí)別設(shè)備上的裂縫。
本文介紹的十種機(jī)器學(xué)習(xí)方法可以讓你對(duì)機(jī)器學(xué)習(xí)有一個(gè)整體的了解,幫助你打下相關(guān)的知識(shí)和技能基礎(chǔ):
- 回歸
 - 分類
 - 聚類
 - 降維
 - 集成方法
 - 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
 - 遷移學(xué)習(xí)
 - 強(qiáng)化學(xué)習(xí)
 - 自然語(yǔ)言處理
 - 詞嵌入
 
最后,在介紹這些方法之前,還是先來區(qū)分一下監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)這兩種機(jī)器學(xué)習(xí)類別吧。
監(jiān)督學(xué)習(xí)用于在已有數(shù)據(jù)的情況下進(jìn)行預(yù)測(cè)或解釋,即通過先前輸入和輸出的數(shù)據(jù)來預(yù)測(cè)基于新數(shù)據(jù)的輸出。比如,監(jiān)督機(jī)器學(xué)習(xí)技術(shù)可用來幫助某服務(wù)企業(yè)預(yù)測(cè)未來一個(gè)月訂購(gòu)該服務(wù)的新用戶量。
相比之下,無(wú)監(jiān)督機(jī)器學(xué)習(xí)是在不使用目標(biāo)變量進(jìn)行預(yù)測(cè)的情況下,對(duì)數(shù)據(jù)點(diǎn)進(jìn)行關(guān)聯(lián)和分組。換言之,它根據(jù)特征評(píng)估數(shù)據(jù),并根據(jù)這些特征,將相似的數(shù)據(jù)聚集在一起。例如,無(wú)監(jiān)督學(xué)習(xí)技術(shù)可用來幫助零售商對(duì)具有相似特征的產(chǎn)品進(jìn)行分類,而且無(wú)需事先指定具體特征是什么。
1. 回歸
回歸是一種監(jiān)督機(jī)器學(xué)習(xí)方法,在先前數(shù)據(jù)的基礎(chǔ)上預(yù)測(cè)或解釋特定數(shù)值。例如要想知道某房產(chǎn)的價(jià)值,可根據(jù)與之相似房產(chǎn)的定價(jià)來預(yù)測(cè)。
線性回歸是最簡(jiǎn)單的回歸方法,用直線方程(y = m * x + b)來模擬數(shù)據(jù)集。通過計(jì)算直線的位置和斜率得到具有許多數(shù)據(jù)對(duì)(x,y)的線性回歸模型,在該直線上,所有數(shù)據(jù)點(diǎn)到它的距離之和最小。換言之,計(jì)算的是最接近數(shù)據(jù)中觀測(cè)值的那條線的斜率(m)和y截距(b)。
接著再來看一些具體的線性回歸例子。將建筑物的年齡、樓層數(shù)、面積(平方英尺)和墻上插入式設(shè)備的數(shù)量這些數(shù)據(jù)匯總在一起,用線性回歸方法來預(yù)測(cè)該建筑物的耗能情況(以千瓦時(shí)為單位)。由于有多種輸入值(年齡,面積等),可以選擇多變量線性回歸方法,原理和簡(jiǎn)單的一元線性回歸一樣,但在這種情況下,由于有多個(gè)變量,最終創(chuàng)建出來的“線”是多維的。
下圖顯示了線性回歸模型與建筑物實(shí)際能耗的吻合程度。如果已知某建筑物的各項(xiàng)特征(年齡、面積等),但耗能情況未知,就可以用擬合線來對(duì)其進(jìn)行估算。
注意,線性回歸還可以用來估計(jì)各個(gè)因素對(duì)于最終耗能情況的影響程度。例如,有了公式,就可以確定建筑物的年齡、面積或高度是否為最重要的影響因素。
用來估算建筑物能耗(以千瓦時(shí)為單位)的線性回歸模型
回歸技術(shù)有簡(jiǎn)單的(線性回歸),也有復(fù)雜的(正則化線性回歸、多項(xiàng)式回歸、決策樹和隨機(jī)森林回歸、神經(jīng)網(wǎng)絡(luò)等),你大可不必感到迷惑,可以先從簡(jiǎn)單的線性回歸著手,掌握其中的技術(shù),然后繼續(xù)學(xué)習(xí)較復(fù)雜的類型。
2. 分類
分類是另一種監(jiān)督機(jī)器學(xué)習(xí)方法,這一方法對(duì)某個(gè)類別值進(jìn)行預(yù)測(cè)或解釋。比如可以用分類的方法來預(yù)測(cè)線上顧客是否會(huì)購(gòu)買某一產(chǎn)品。輸出可分為是或否,即購(gòu)買者或非購(gòu)買者。但分類并不限于兩個(gè)選擇。例如,可通過分類來看某一圖像中是否有汽車或卡車。在這種情況下,輸出就有3個(gè)不同值,分別為1)圖像包含汽車、2)圖像包含卡車或3)圖像既不包含汽車也不包含卡車。
邏輯回歸是分類算法中最簡(jiǎn)單的一類,這聽起來很像一個(gè)回歸方法,其實(shí)不然。邏輯回歸是基于一個(gè)或多個(gè)輸入來估計(jì)某一事件發(fā)生概率的一種算法。
例如,邏輯回歸可基于學(xué)生的兩次考試分?jǐn)?shù)來估計(jì)該生被某一大學(xué)錄取的概率。由于估計(jì)值是概率,輸出只能是介于0和1之間的數(shù)字,其中1表示完全確定。對(duì)該生而言,如果估計(jì)概率大于0.5,預(yù)測(cè)結(jié)果就是:他(她)能被錄取,如果估計(jì)概率小于0.5,預(yù)測(cè)結(jié)果則為:他(她)不會(huì)被錄取。
下圖顯示了先前學(xué)生的分?jǐn)?shù)以及他們最終的錄取結(jié)果。用邏輯回歸可繪制出一條代表決策邊界的線。
邏輯回歸決策邊界線:他們能否被大學(xué)錄取?
邏輯回歸是一個(gè)線性模型,因此是新手學(xué)習(xí)分類方法入門的不錯(cuò)選擇。隨著不斷的進(jìn)步,就可以深入研究像決策樹、隨機(jī)森林、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)這些非線性分類了。
3. 聚類
聚類方法的目標(biāo)是對(duì)具有相似特征的觀察值進(jìn)行分組或聚類,是一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法。聚類方法不借助輸出信息進(jìn)行訓(xùn)練,而是讓算法定義輸出。在這一方法中,只能使用可視化來檢驗(yàn)解決方案的質(zhì)量。
最流行的聚類方法是K均值聚類,其中“K”表示用戶選擇創(chuàng)建的簇的數(shù)量。(注意,選取K值時(shí)有多種技術(shù)可供選擇,比如肘部法則。)
大體上,K均值聚類法對(duì)數(shù)據(jù)點(diǎn)的處理步驟包括:
- 隨機(jī)選擇數(shù)據(jù)中的K個(gè)中心。
 - 將每個(gè)數(shù)據(jù)點(diǎn)分配給最接近的隨機(jī)創(chuàng)建的中心。
 - 重新計(jì)算每個(gè)簇的中心。
 - 如果中心沒有變化(或變化很小),就結(jié)束此過程。否則,返回至第2步。(如果中心持續(xù)更改,為防止最終形成無(wú)限循環(huán),要提前設(shè)置最大迭代次數(shù)。)
 
下圖將K均值聚類法應(yīng)用于建筑物的數(shù)據(jù)集。圖中的每一列都表明了每棟建筑的效率。這四項(xiàng)測(cè)量的量涉及空調(diào)、插入式設(shè)備(微波爐,冰箱等)、家用燃?xì)夂涂扇細(xì)怏w。選擇K值為2進(jìn)行聚類,這樣就很容易地將其中一個(gè)聚類解釋為高效建筑群,另一個(gè)則為低效建筑群。左圖中可以看到建筑物的位置,右圖可以看到兩個(gè)輸入值:插入式設(shè)備和可燃?xì)怏w。
將建筑聚類成高效建筑群(綠色)和低效建筑群(紅色)
聚類方法中會(huì)涉及到一些非常有用的算法,比如具有噪聲的基于密度的聚類方法(DBSCAN)、均值漂移聚類、聚合層次聚類、基于高斯混合模型的期望最大化聚類等。
4. 降維
顧名思義,降維可用來刪除數(shù)據(jù)集中最不重要的數(shù)據(jù)。實(shí)踐中常會(huì)遇到包含數(shù)百甚至數(shù)千列(也稱為特征)的數(shù)據(jù)集,因此減少總量至關(guān)重要。例如,圖像中數(shù)千個(gè)像素中并不是所有的都要分析;或是在制造過程中要測(cè)試微芯片時(shí),如果對(duì)每個(gè)芯片都進(jìn)行測(cè)試也許需要數(shù)千次測(cè)試,但其實(shí)其中很多芯片提供的信息是多余的。在這些情況下,就需要運(yùn)用降維算法以便對(duì)數(shù)據(jù)集進(jìn)行管理。
主成分分析(PCA)是最常用的降維方法,通過找出最大化數(shù)據(jù)線性變化的新向量來減小特征空間的維數(shù)。在數(shù)據(jù)的線性相關(guān)性很強(qiáng)時(shí),主成分分析法可以顯著減小數(shù)據(jù)的維度,且不會(huì)丟失太多信息。(其實(shí),還可以衡量信息丟失的實(shí)際程度并進(jìn)行相應(yīng)調(diào)整。)
t-分布鄰域嵌入(t-SNE)是另一種常用的方法,可用來減少非線性維數(shù)。t-分布鄰域嵌入通常用于數(shù)據(jù)可視化,但也可以用于減少特征空間和聚類等機(jī)器學(xué)習(xí)任務(wù)。
下圖顯示了手寫數(shù)字的MNIST數(shù)據(jù)庫(kù)分析。MNIST包含數(shù)千個(gè)從0到9的數(shù)字圖像,研究人員以此來測(cè)試聚類和分類算法。數(shù)據(jù)集的每一行是原始圖像的矢量化版本(大小為28×28 = 784)和每個(gè)圖像的標(biāo)簽(0,1,2,3,......,9)。注意,因此將維度從784(像素)減至2(可視化維度)。投影到二維使得能夠?qū)Ω呔S原始數(shù)據(jù)集進(jìn)行可視化。
手寫數(shù)字MNIST數(shù)據(jù)庫(kù)的t-分布鄰域嵌入迭代
5. 集成方法
假設(shè)你對(duì)市面上的自行車都不滿意,打算自己制作一輛,也許會(huì)從尋找各個(gè)最好的零件開始,然后最終會(huì)組裝出一輛最好的自行車。
集成方法也是利用這一原理,將幾個(gè)預(yù)測(cè)模型(監(jiān)督式機(jī)器學(xué)習(xí)方法)組合起來從而得到比單個(gè)模型能提供的更高質(zhì)量的預(yù)測(cè)結(jié)果。隨機(jī)森林算法就是一種集合方法,結(jié)合了許多用不同數(shù)據(jù)集樣本訓(xùn)練的決策樹。因此,隨機(jī)森林的預(yù)測(cè)質(zhì)量會(huì)高于單個(gè)決策樹的預(yù)測(cè)質(zhì)量。
集成方法可理解為一種減小單個(gè)機(jī)器學(xué)習(xí)模型的方差和偏差的方法。任何給定的模型在某些條件下可能是準(zhǔn)確的,但在其他條件下有可能不準(zhǔn)確,因此這種方法十分重要。如果換用另一個(gè)模型,相對(duì)精度可能會(huì)更低。而組合這兩個(gè)模型,就可以平衡預(yù)測(cè)的質(zhì)量。
絕大多數(shù)Kaggle競(jìng)賽的獲勝者都會(huì)使用集成方法。最為流行的集成算法有隨機(jī)森林、XGBoost和LightGBM。
6. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
與線性模型的線性回歸和邏輯回歸相比,神經(jīng)網(wǎng)絡(luò)的目標(biāo)是通過向模型添加參數(shù)層來捕獲數(shù)據(jù)中的非線性模式。下圖中,簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)有四個(gè)輸入,一個(gè)帶有五個(gè)參數(shù)的隱藏層和一個(gè)輸出層。
具有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)
其實(shí),神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)十分靈活,可以構(gòu)建出我們所熟知的的線性回歸和邏輯回歸。深度學(xué)習(xí)一詞來自具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)(見下圖),是對(duì)各種體系結(jié)構(gòu)的一個(gè)概括。
跟上深度學(xué)習(xí)發(fā)展的步伐尤為困難,部分原因在于研究和工業(yè)方面投入了大量精力來研究深度學(xué)習(xí),使得不斷有新方法涌現(xiàn)出來。
深度學(xué)習(xí):具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)
為達(dá)到最佳效果,深度學(xué)習(xí)技術(shù)需要大量的數(shù)據(jù),同時(shí)也需要強(qiáng)大的計(jì)算能力作為支撐,因?yàn)樵摲椒ㄊ窃诖笮腕w系架構(gòu)中對(duì)許多參數(shù)進(jìn)行自我調(diào)整。鑒于此,就不難理解為什么深度學(xué)習(xí)從業(yè)者要用配備強(qiáng)大圖形處理單元(GPU)功能的計(jì)算機(jī)了。
深度學(xué)習(xí)技術(shù)在視覺(圖像分類)、文本、音頻和視頻領(lǐng)域的應(yīng)用最為成功。最常見的深度學(xué)習(xí)軟件包有Tensorflow和PyTorch。
7. 遷移學(xué)習(xí)
假設(shè)你是個(gè)零售業(yè)的數(shù)據(jù)科學(xué)家,已經(jīng)花了幾個(gè)月的時(shí)間訓(xùn)練高質(zhì)量模型,用來將圖像分為襯衫、T恤和Polo衫這三類。新任務(wù)是建一個(gè)類似的模型,把服裝圖像分為牛仔褲、工裝褲、休閑褲和正裝褲這幾類。那么能不能把第一個(gè)模型中已建立的知識(shí)轉(zhuǎn)移到第二個(gè)模型中呢?當(dāng)然可以,遷移學(xué)習(xí)可以做到。
遷移學(xué)習(xí)是指重復(fù)使用先前訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的一部分,并使其適應(yīng)類似的新任務(wù)。具體來說就是,使用先前任務(wù)中訓(xùn)練過的神經(jīng)網(wǎng)絡(luò),可以傳輸一小部分訓(xùn)練過的圖層,并將它們與用于新任務(wù)數(shù)據(jù)訓(xùn)練的幾個(gè)圖層組合在一起。通過添加圖層,新的神經(jīng)網(wǎng)絡(luò)就能快速學(xué)習(xí)并適應(yīng)新的任務(wù)。
遷移學(xué)習(xí)的主要優(yōu)點(diǎn)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的數(shù)據(jù)較少,這點(diǎn)尤為重要,因?yàn)樯疃葘W(xué)習(xí)算法的訓(xùn)練既耗時(shí),(計(jì)算資源上)花費(fèi)又高。而且,通常也很難找到足夠的標(biāo)記數(shù)據(jù)來供培訓(xùn)使用。
還是回到上文的例子,假設(shè)襯衫模型中,你用了一個(gè)有20個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),幾次嘗試后,發(fā)現(xiàn)可以遷移其中的18個(gè)襯衫模型層,并能把它們與用來訓(xùn)練褲子圖像的某個(gè)新的參數(shù)層相結(jié)合。此時(shí),褲子模型將有19個(gè)隱藏層。這兩個(gè)任務(wù)的輸入和輸出不同,但一些概括與兩者都有關(guān)的信息如布料、衣服上扣件和形狀等方面的參數(shù)層可重復(fù)使用。
遷移學(xué)習(xí)正變得越來越流行,現(xiàn)在已經(jīng)有很多固定的預(yù)訓(xùn)練的模型,可以用來完成一些常見的像圖像和文本分類的深度學(xué)習(xí)任務(wù)。
8. 強(qiáng)化學(xué)習(xí)
試想,迷宮中有只老鼠,在試圖尋找藏在某處的奶酪。老鼠進(jìn)迷宮的次數(shù)越多,它就越有可能找到奶酪。一開始,老鼠可能會(huì)隨機(jī)走動(dòng),但一段時(shí)間后,它就能意識(shí)到怎樣走可以找到奶酪。
老鼠找奶酪的過程反映了使用強(qiáng)化學(xué)習(xí)來訓(xùn)練系統(tǒng)或游戲的方法。一般來說,強(qiáng)化學(xué)習(xí)是一種幫助代理從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。通過在設(shè)定環(huán)境中記錄操作并使用試錯(cuò)法,強(qiáng)化學(xué)習(xí)可以最大化累積獎(jiǎng)勵(lì)。在上述示例中,代理是老鼠,環(huán)境是迷宮。老鼠的可能操作是:前移、后移、左移或右移,奶酪則是獎(jiǎng)勵(lì)。
如果一個(gè)問題幾乎沒有任何歷史數(shù)據(jù),就可以選擇強(qiáng)化學(xué)習(xí)方法,因?yàn)樗恍枰孪忍峁┬畔?這一點(diǎn)不同于傳統(tǒng)的機(jī)器學(xué)習(xí)方法)。在強(qiáng)化學(xué)習(xí)框架中,你可以隨時(shí)了解數(shù)據(jù)。因此強(qiáng)化學(xué)習(xí)的應(yīng)用在游戲方面的成功也就不足為奇了,特別是在國(guó)際象棋和圍棋這類“完美信息”型游戲上的應(yīng)用。在游戲中,可以迅速根據(jù)代理和環(huán)境的反饋?zhàn)龀稣{(diào)整,從而使模型能夠快速學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的缺點(diǎn)則是如果問題很復(fù)雜,訓(xùn)練時(shí)間也許會(huì)很長(zhǎng)。
IBM的Deep Blue曾在1997年擊敗了人類最佳國(guó)際象棋選手,同樣,基于深度學(xué)習(xí)的算法AlphaGo也于2016年擊敗了人類最佳圍棋選手。目前英國(guó)的DeepMind科技公司是深度學(xué)習(xí)研究的翹楚。
2019年4月,OpenAI Five團(tuán)隊(duì)擊敗了電子競(jìng)技Dota 2世界冠軍隊(duì)伍,成為了首個(gè)取得此項(xiàng)成就的人工智能團(tuán)隊(duì)。Dota 2是一個(gè)非常復(fù)雜的視頻游戲,OpenAI Five團(tuán)隊(duì)之所以選擇它,是因?yàn)楫?dāng)時(shí)沒有一種強(qiáng)化學(xué)習(xí)算法能夠在游戲中獲勝。 這個(gè)擊敗Dota 2人類冠軍隊(duì)伍的AI團(tuán)隊(duì)還開發(fā)出了一個(gè)可重新定位一個(gè)塊(可以抓東西)的機(jī)器手。
強(qiáng)化學(xué)習(xí)可以說是一非常強(qiáng)大的人工智能,今后一定會(huì)取得更多更大的進(jìn)步,但同時(shí)也應(yīng)記住這些方法也有局限性。
9. 自然語(yǔ)言處理
世界上很大一部分?jǐn)?shù)據(jù)和知識(shí)都以人類語(yǔ)言的形式存在著。你能想象在幾秒內(nèi)閱讀、理解成千上萬(wàn)的書、文章和博客嗎?顯然,計(jì)算機(jī)還不能完全理解人類語(yǔ)言,但經(jīng)訓(xùn)練可以完成某些任務(wù)。比如可以訓(xùn)練手機(jī)自動(dòng)回復(fù)短信或糾正拼寫錯(cuò)的單詞,甚至可以教一臺(tái)機(jī)器與人進(jìn)行簡(jiǎn)單交談。
自然語(yǔ)言處理(NLP)本身不是一種機(jī)器學(xué)習(xí)方法,而是一種用于為機(jī)器學(xué)習(xí)準(zhǔn)備文本的技術(shù),其應(yīng)用十分廣泛。想像一下:有大量各種格式的文本文檔(詞語(yǔ)、在線博客…等),充滿了拼寫錯(cuò)誤、缺少字符和字詞多余的問題。目前,由斯坦福大學(xué)的研究人員創(chuàng)建的NLTK(自然語(yǔ)言工具包)是使用最為廣泛的一種文本處理包。
將文本映射到數(shù)字表示,最簡(jiǎn)單的方法是計(jì)算每個(gè)文本文檔中各個(gè)單詞的頻率。在一個(gè)整數(shù)矩陣中,每行代表一個(gè)文本文檔,每列代表一個(gè)單詞。這種單詞頻率矩陣通常稱為術(shù)語(yǔ)頻率矩陣(TFM)。在這個(gè)基礎(chǔ)上,可以用矩陣上的每個(gè)條目除以每個(gè)詞在整個(gè)文檔集中重要程度的權(quán)重,從而得到文本文檔的另一種流行矩陣表示。這種方法稱為術(shù)語(yǔ)頻率反向文檔頻率(TFIDF),通常更適用于機(jī)器學(xué)習(xí)任務(wù)。
10. 詞嵌入
TFM和TFIDF是文本文檔的數(shù)字表示,只根據(jù)頻率和加權(quán)頻率來表示文本文檔。相比之下,詞嵌入可以捕獲文檔中某個(gè)詞的上下文。根據(jù)語(yǔ)境,嵌入可以量化單詞之間的相似性,反過來這又方便了對(duì)詞的算術(shù)運(yùn)算。
Word2Vec是一種基于神經(jīng)網(wǎng)絡(luò)的方法,將語(yǔ)料庫(kù)中的單詞映射到了數(shù)字向量。然后,這些向量可用來查找同義詞、使用單詞執(zhí)行算術(shù)運(yùn)算,或用來表示文本文檔(通過獲取文檔中所有詞向量的均值)。比如,假設(shè)用一個(gè)很大的文本文檔來估計(jì)單詞嵌入,并且“king”、“queen”、“man”和“woman”這四個(gè)詞也是語(yǔ)料庫(kù)的一部分,向量(‘word’)是表示單詞“word”的數(shù)字向量。為了估計(jì)向量(‘woman’),可以用向量執(zhí)行算術(shù)運(yùn)算:
向量(‘king’)+向量(‘woman’)-向量(‘man’)~向量(‘queen’)
詞(向量)嵌入的數(shù)字運(yùn)算
有了單詞表示,可以計(jì)算兩個(gè)單詞的向量表示之間的余弦相似性,以此發(fā)現(xiàn)單詞之間的相似性。余弦相似性測(cè)量的是兩個(gè)矢量的夾角。
機(jī)器學(xué)習(xí)方法可用來計(jì)算單詞嵌入,但這往往是在頂部應(yīng)用機(jī)器學(xué)習(xí)算法的前提步驟。例如,假設(shè)我們能訪問數(shù)千名推特用戶的推文,并知道這些用戶中哪些人買了房子。為預(yù)測(cè)新用戶買房的概率,可以將Word2Vec與邏輯回歸結(jié)合起來。
你可以訓(xùn)練單詞嵌入或使用預(yù)訓(xùn)練(遷移學(xué)習(xí))單詞向量集。若需下載157種不同語(yǔ)言的預(yù)訓(xùn)練單詞向量,可查看FastText。






















 
 
 











 
 
 
 