偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為什么數(shù)據(jù)科學家需要掌握「遷移學習」?

大數(shù)據(jù)
這篇文章中,你將了解到什么是遷移學習?它的應用有哪些?以及為什么它應該是數(shù)據(jù)科學家所需擁有的關鍵技能?實際上,遷移學習并不是機器學習模型,也不是機器學習領域內(nèi)的相關技術,它是機器學習中的一種“設計方法論”。而另一種類型的“設計方法論”就是像主動學習(active learning)這樣的。

這篇文章中,你將了解到什么是遷移學習?它的應用有哪些?以及為什么它應該是數(shù)據(jù)科學家所需擁有的關鍵技能?

實際上,遷移學習并不是機器學習模型,也不是機器學習領域內(nèi)的相關技術,它是機器學習中的一種“設計方法論”。而另一種類型的“設計方法論”就是像主動學習(active learning)這樣的。

在后續(xù)的文章中,我將解釋該如何將主動學習與遷移學習相結合使用,從而較佳地利用現(xiàn)有(和新的)數(shù)據(jù)。從廣義上說,機器學習應用往往在利用外部信息以提高性能或泛化能力時會使用遷移學習。

遷移學習的定義

遷移學習的總體思路是使用從任務中所學到的知識,在那些只有少量已標注數(shù)據(jù)可用的環(huán)境中,獲得大量可用的已標注數(shù)據(jù)。通常來說,創(chuàng)建已標注數(shù)據(jù)的成本很大,所以充分利用現(xiàn)有數(shù)據(jù)集是關鍵所在。

在傳統(tǒng)的機器學習模型中,主要目標將從訓練數(shù)據(jù)中學習到的模式泛化到不可見數(shù)據(jù)中。通過遷移學習,你可以嘗試從已經(jīng)學習到不同任務的模式開始,啟動這個泛化過程。從本質上說,我們應該從一個已經(jīng)學習能夠解決不同任務的模式開始,而不是從頭開始(通常是隨機初始化的)進行該學習過程。

 

\

相較于必須從原始像素值著手,能夠從圖像中區(qū)分線條和形狀(左)使得更容易確定某物是否是“汽車”。遷移學習使得你能夠利用來自其他計算機視覺模型的學習模式。

 

\

在NLP中,存在多種不同的方法用以表示單詞(像左側所表示的詞嵌入,右側表示所表示的)。通過遷移學習,機器學習模型可以充分利用不同單詞之間存在的關系。

在多種領域中,知識和模式的遷移都是有可能的。而本文將通過查看幾個不同領域的若干個示例對遷移學習加以說明。最終目標是激勵數(shù)據(jù)科學家在他們的機器學習項目中使用遷移學習,并讓他們意識到其優(yōu)缺點。

我之所以認為對遷移學習的理解是數(shù)據(jù)科學家應該具備的關鍵技能,原因有三,如下所示:

遷移學習在任何一種學習中都是至關重要的??梢赃@樣說,對于人生中每一個任務或是難題,我們沒有被授以解決方法以獲得該事件的成功。每個人都會遇到從未遇到過的情況,我們?nèi)匀辉O法以特殊的方式解決問題。從大量的經(jīng)驗中學習,并將“知識”導入到新的環(huán)境中,這正是遷移學習的全部意義所在。從這個角度來看,遷移學習和泛化在概念層面上是非常相似的,兩者的主要區(qū)別在于遷移學習經(jīng)常被用于“跨任務遷移知識,而不是在一個特定的任務中進行泛化”。因此,遷移學習與所有機器學習模型所必需的泛化概念,兩者之間有著內(nèi)在的聯(lián)系。

遷移學習是確保在存含有大量小數(shù)據(jù)環(huán)境下實現(xiàn)深度學習技術突破的關鍵所在。在研究中,深度學習幾乎是無處不在,但是在很多實際生活場景,我們通常沒有數(shù)百萬個標記數(shù)據(jù)點用以對模型進行訓練。深度學習技術需要大量的數(shù)據(jù)以調整神經(jīng)網(wǎng)絡中的數(shù)百萬個參數(shù)。特別是在監(jiān)督學習的情況下,這意味著你需要大量(非常昂貴的)已標記數(shù)據(jù)。標記圖像聽起來微不足道,但是對于自然語言處理(NLP)中的樣本來說,需要專家知識才能創(chuàng)建大型標記數(shù)據(jù)集。例如,賓州樹庫(Penn treebank)是一個詞性標記語料庫,已經(jīng)有7年的歷史了,需要許多具備專業(yè)知識的語言學家密切合作對其加以改進和完善。遷移學習是減少數(shù)據(jù)集所需大小的一種方法,以使神經(jīng)網(wǎng)絡成為可行的選擇。其他可行的選擇正朝著具有更多概率性啟發(fā)的模型發(fā)展,這些模型通常更適合于處理有限的數(shù)據(jù)集。

遷移學習有著顯著的優(yōu)點,同時缺點也是顯而易見的。了解這些缺點對于成功的機器學習應用來說具有至關重要的作用。知識遷移只有在“適當”的情況下才有可能實現(xiàn)。在這個上下文下,對“適當”進行確切的定義并不是一件容易的事情,并且通常需要進行實驗。你不應該相信一個開著玩具車孩子能夠駕馭一輛法拉利。對遷移學習來說道理是一樣的:雖然很難對其進行量化,但遷移學習是有上限的,它并不是一個適合于解決所有問題的“萬金油”。

遷移學習的通用概念

遷移學習的要求

顧名思義,遷移學習需要具備將知識從一個領域遷移到另一個領域的能力。我們可以在一個較高層次上對遷移學習進行解釋。一個例子就是,NLP中的體系結構可以在序列預測問題中得以重用,因為很多NLP問題本質上可以歸結為序列預測問題。當然,遷移學習也可以在較低層次上進行解釋,實際上,你可以在不同的模型中重用來自一個模型的參數(shù)(skip-gram、連續(xù)詞袋(continuous bag-of-words)等)。遷移學習的要求一方面是特定的問題,另一方面是特定的模型。接下來的兩節(jié)將分別討論遷移學習所使用的高層次和低層次方法。盡管你會發(fā)現(xiàn)在不同的文獻中這些概念的名稱各有不同,但是遷移學習的總體概念是仍然存在的。

多任務學習

在多任務學習中,你可以同時在不同的任務上對一個模型進行訓練。我們通常使用深度學習模型,因為它們可以靈活地進行調整。

 

\

網(wǎng)絡體系結構是以這樣一種方式進行調整的,即在不同的任務使用第一層,隨后對于不同的任務,使用特定于不同任務的層和輸出??偟乃悸肥?,通過在不同任務上對網(wǎng)絡進行訓練,網(wǎng)絡將會得到更好的泛化,因為模型應該能夠在需要類似“知識”或“處理”的任務上表現(xiàn)良好。

自然語言處理中的示例是一個模型,其最終目標是執(zhí)行實體識別。除了在實體識別任務中對模型進行純粹的訓練,你還可以用它進行語音分類,下一個單詞預測……因此,模型將從這些任務和不同數(shù)據(jù)集的結構中獲益。

Featuriser

深度學習模型的一大優(yōu)點是特征提取是“自動化”的?;跇擞洈?shù)據(jù)和反向傳播,網(wǎng)絡能夠確定用于任務的有用特征。例如,為了對圖像進行分類,網(wǎng)絡能夠“計算出”輸入的哪一部分是重要的。這意味著特征定義的手動工作被抽象出來了。深度學習網(wǎng)絡可以在其他問題中得以重復使用,因為所提取的特征類型通常對于對其他問題來說也是有用的。本質上,在一個featuriser中,你可以使用網(wǎng)絡的第一層來確定有用的特征,但是你不使用網(wǎng)絡的輸出,因為它是特定于任務的。

 

\

鑒于深度學習系統(tǒng)擅長特征提取,我們該如何重用現(xiàn)有網(wǎng)絡以執(zhí)行其他任務的特征提取呢?我們可以將數(shù)據(jù)樣本饋送到網(wǎng)絡中,并將網(wǎng)絡中的一個中間層作為輸出。這個中間層可以被闡述為一個固定的長度,原始數(shù)據(jù)的處理表示。典型地,featuriser的概念也往往用于計算機視覺任務中。然后將圖像饋送到預訓練網(wǎng)絡中(例如,VGG或AlexNet),并且在新的數(shù)據(jù)表示上使用不同的機器學習方法。提取中間層作為圖像的表示顯著地減少了原始數(shù)據(jù)大小,使得它們更適合于傳統(tǒng)的機器學習技術。例如,相較于具有一個類似128x128 = 16384維度的圖像表征來說,具有一個較小的圖像表征,如128維度的邏輯回歸或支持向量機能夠運行得更好。

責任編輯:未麗燕 來源: 網(wǎng)絡大數(shù)據(jù)
相關推薦

2019-08-26 09:47:56

數(shù)據(jù)科學家數(shù)據(jù)分析

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學家

2017-11-21 14:42:30

數(shù)據(jù)科學統(tǒng)計學習機器學習

2016-04-11 14:15:06

數(shù)據(jù)科學數(shù)據(jù)挖掘工具

2020-08-10 15:08:25

數(shù)據(jù)科學Kaggle數(shù)據(jù)集

2019-07-05 15:52:03

數(shù)據(jù)科學家大數(shù)據(jù)機器學習

2018-12-06 08:56:38

數(shù)據(jù)科學家數(shù)據(jù)科學數(shù)據(jù)

2020-03-20 14:40:48

數(shù)據(jù)科學Python學習

2019-07-05 10:29:17

大數(shù)據(jù)數(shù)據(jù)科學家

2013-11-12 09:27:01

大數(shù)據(jù)科學家大數(shù)據(jù)

2022-07-15 09:00:00

SQL數(shù)據(jù)庫據(jù)科學家

2012-12-06 15:36:55

CIO

2012-12-26 10:51:20

數(shù)據(jù)科學家

2018-12-24 08:37:44

數(shù)據(jù)科學家數(shù)據(jù)模型

2020-08-03 12:47:58

DevOps數(shù)據(jù)科學家代碼

2018-11-05 10:10:38

Jupyter數(shù)據(jù)科學家web

2018-02-28 15:03:03

數(shù)據(jù)科學家數(shù)據(jù)分析職業(yè)

2012-06-12 09:33:59

2018-10-16 14:37:34

數(shù)據(jù)科學家數(shù)據(jù)分析數(shù)據(jù)科學

2019-08-28 08:08:47

數(shù)據(jù)科學家數(shù)據(jù)工程師數(shù)據(jù)科學
點贊
收藏

51CTO技術棧公眾號