偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌:引領(lǐng)ML發(fā)展的遷移學(xué)習,究竟在遷移什么?丨NeurIPS 2020

新聞 人工智能
近幾年來,已經(jīng)有越來越多的研究者投入到遷移學(xué)習中。每年機器學(xué)習和數(shù)據(jù)挖掘的頂級會議中都有關(guān)于遷移學(xué)習的文章發(fā)表。

 在機器學(xué)習領(lǐng)域大熱的分類學(xué)習任務(wù)中,為了保證訓(xùn)練得到的分類模型具有準確性和高可靠性,一般會作出兩個基本假設(shè):

  用于學(xué)習的訓(xùn)練樣本與新的測試樣本滿足獨立同分布;

  必須有足夠可用的訓(xùn)練樣本才能學(xué)習得到一個好的分類模型。

  但實際情況很難滿足這兩個條件。

[[359244]]

  很多 ML 技術(shù)只有在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)處于相同的特征空間中或具有相同分布的假設(shè)下才能很好地發(fā)揮作用,一旦隨著時間推移,標簽可用性變差或標注樣本數(shù)據(jù)缺乏,效果便不盡如人意。

  因此,這就引起 ML 中另一個需要關(guān)注的重要問題,如何利用源領(lǐng)域(Source domian)中少量的可用標簽訓(xùn)練樣本 / 數(shù)據(jù)訓(xùn)練出魯棒性好的模型,對具有不同數(shù)據(jù)分布的無標簽 / 少可用標簽的目標領(lǐng)域(Target domain)進行預(yù)測。

  由此,遷移學(xué)習(Transfer Learning)應(yīng)運而生,并引起了廣泛的關(guān)注和研究。

[[359245]]

  近幾年來,已經(jīng)有越來越多的研究者投入到遷移學(xué)習中。每年機器學(xué)習和數(shù)據(jù)挖掘的頂級會議中都有關(guān)于遷移學(xué)習的文章發(fā)表。

  顧名思義,遷移學(xué)習就是把一個領(lǐng)域已訓(xùn)練好的模型參數(shù)遷移到另一個領(lǐng)域,使得目標領(lǐng)域能夠取得更好的學(xué)習效果。鑒于大部分的數(shù)據(jù)具有存在相關(guān)性,遷移學(xué)習可以比較輕松地將模型已學(xué)到的知識分享給新模型,從而避免了從頭學(xué)習,這加快效率,也大大提高樣本不充足任務(wù)的分類識別結(jié)果。

  今年的 NeurIPS 上,谷歌的一支研究團隊發(fā)表了一篇名為 What is being transferred in transfer learning? 的論文,揭示了關(guān)于遷移學(xué)習的最新研究進展。

  在這篇論文中,作者便向我們提供了新的工具和分析方法,從不同的角度剖析了不同模塊的作用及影響成功遷移的因素,得到了一些有趣的結(jié)論,例如,相比高層的特征,預(yù)訓(xùn)練模型適合遷移的主要是低層的統(tǒng)計信息。

  具體而言,通過對遷移到塊混洗圖像(block-shuffled images)的一系列分析,他們從學(xué)習低層數(shù)據(jù)統(tǒng)計中分離出了特征復(fù)用(feature reuse)的效果,并表明當從預(yù)訓(xùn)練權(quán)重進行初始化訓(xùn)練時,該模型位于損失函數(shù) “地圖” 的同一 “盆地”(basin)中,不同實例在特征空間中相似,并且在參數(shù)空間中接近(注:basin 一詞在該領(lǐng)域文獻中經(jīng)常使用,指代參數(shù)空間中損失函數(shù)相對較低值的區(qū)域)。

  遷移學(xué)習應(yīng)用現(xiàn)狀

  前百度首席科學(xué)家吳恩達(Andrew Ng)曾經(jīng)說過:遷移學(xué)習將會是繼監(jiān)督學(xué)習之后,下一個機器學(xué)習商業(yè)成功的驅(qū)動力。

  在 2016 年的 NIPS 會議上,吳恩達曾給出了一個未來 AI 方向的技術(shù)發(fā)展判斷:毋庸置疑,目前成熟度最高、成功商用的是監(jiān)督學(xué)習,緊隨其后,下一個近 5 年內(nèi)最可能走向商用的 AI 技術(shù)將會是遷移學(xué)習。

[[359247]]

  DeepMind 首席執(zhí)行官 Demis Hassabis 也曾表示,遷移學(xué)習也是最有前途的技術(shù)之一,有朝一日可能會觸發(fā)通用人工智能的誕生(AGI)。在當下深度學(xué)習的發(fā)展大潮中看來,遷移學(xué)習確實如此。

  如今距離這兩位 AI 學(xué)者的 “預(yù)測” 已經(jīng)過去了近 5 年。那么,目前遷移學(xué)習應(yīng)用正呈現(xiàn)怎樣的局面?

  在計算機視覺領(lǐng)域,遷移學(xué)習已經(jīng)有了很多成功的應(yīng)用,甚至在一些任務(wù)中,機器能以超越人類精確度的水平完成某項任務(wù)。

  而在 NLP 領(lǐng)域,遷移學(xué)習也是一系列研究突破中的關(guān)鍵組成部分,尤其在跨域情感分析上展現(xiàn)了其潛力。

[[359248]]

  與此同時,遷移學(xué)習所存在的問題也隨之暴露。研究人員發(fā)現(xiàn),某些案例中,源域和目標域之間在視覺形式上仍存在不小的差異。對于研究人員而言,已經(jīng)很難理解什么能夠成功進行遷移,以及網(wǎng)絡(luò)的哪些部分對此負責。在這篇論文中,研究團隊專注于研究視覺領(lǐng)域的遷移學(xué)習。

  文中涉及的兩大數(shù)據(jù)集分別是:

  CheXpert 數(shù)據(jù)集,這是在 2019 年 AAAI 上,吳恩達的斯坦福團隊發(fā)布的大型 X 射線數(shù)據(jù)集,此數(shù)據(jù)集考慮到了不同疾病的胸部 X 射線醫(yī)學(xué)影像,它包含 65,240 位病人的 224,316 張標注好的胸部 X 光片以及放射科醫(yī)師為每張胸片寫的病理報告;

  DomainNet 數(shù)據(jù)集,該數(shù)據(jù)集發(fā)布在 2019 年 ICCV 上,此論文作者收集并注釋了迄今為止最大的 UDA 數(shù)據(jù)集,專門用于探究不同領(lǐng)域中的遷移學(xué)習。其中存在顯著的領(lǐng)域差異和大量的類別劃分,包含 6 個域和分布在 345 個類別中的近 60 萬幅圖像,范圍從真實圖像到草圖,剪貼畫和繪畫樣本,解決了多源 UDA 研究在數(shù)據(jù)可用性方面的差距。

  4 種網(wǎng)絡(luò)的遷移學(xué)習

  他們分析了四種不同情況下的網(wǎng)絡(luò):

  1. 預(yù)訓(xùn)練網(wǎng)絡(luò)(P, pre-trained model);

  2. 隨機初始化的網(wǎng)絡(luò)(RI, random initialization);

  3. 在源域上進行預(yù)訓(xùn)練后在目標域上進行微調(diào)的網(wǎng)絡(luò)(P-T, model trained/fine-tuned on target domain starting from pre-trained weights);

  4. 隨機初始化對目標域進行普通訓(xùn)練的模型(RI-T, model trained on target domain from random initialization)。

  首先,團隊通過改組數(shù)據(jù)研究了特征復(fù)用。將下游任務(wù)的圖像劃分為相同大小的塊并隨機排序,數(shù)據(jù)中的塊混洗破壞了圖像的視覺特征。該分析表明了特征復(fù)用的重要性,并證明了不受像素混洗干擾的低級統(tǒng)計數(shù)據(jù)在成功傳輸中也起作用。

  然后,需要比較經(jīng)過訓(xùn)練的模型的詳細行為。為此,他們調(diào)查了從預(yù)訓(xùn)練和從零開始訓(xùn)練的模型兩者間的異同。實驗證明,與通過隨機初始化訓(xùn)練的模型相比,使用預(yù)訓(xùn)練的權(quán)重訓(xùn)練的模型的兩個實例在特征空間上更為相似。

  再就是調(diào)查了預(yù)訓(xùn)練權(quán)重和隨機初始化權(quán)重訓(xùn)練的模型的損失情況,并觀察到從預(yù)訓(xùn)練權(quán)重訓(xùn)練的兩個模型實例之間沒有性能降低,這表明預(yù)訓(xùn)練權(quán)重能夠?qū)?yōu)化引導(dǎo)到損失函數(shù)的 basin。

  接下來,我們結(jié)合文章中的實驗和結(jié)果來詳細的分析方法論并探討 “What is being transferred?”。

  什么被遷移了?

  人類視覺系統(tǒng)的組成具有層次化的特征,視覺皮層中的神經(jīng)元對邊緣等低級特征做出響應(yīng),而上層的神經(jīng)元對復(fù)雜的語義輸入進行響應(yīng)。一般認為,遷移學(xué)習的優(yōu)勢來自重用預(yù)先訓(xùn)練的特征層。如果下游任務(wù)因為太小或不夠多樣化而無法學(xué)習良好的特征表示時,這會變得特別有用。

  因此,很容易理解,大家認為遷移學(xué)習有用的直覺思維就是,遷移學(xué)習通過特征復(fù)用來給樣本少的數(shù)據(jù)提供一個較好的特征先驗。

  然而,這種直覺卻無法解釋為什么在遷移學(xué)習的許多成功應(yīng)用中,目標領(lǐng)域和源領(lǐng)域在視覺上差異很大的問題。

  圖 1 。圖片出處:arXiv

  為了更清楚地描述特征復(fù)用的作用,作者使用了圖 1 中包含自然圖像(ImageNet)的源域(預(yù)訓(xùn)練)和一些與自然圖像的視覺相似度低的目標域(下游任務(wù))。

  圖 2 可以看到,real domain 具有最大的性能提升,因為該域包含與 ImageNet 共享相似視覺特征的自然圖像。這能夠支撐團隊成員的假設(shè) —— 特征復(fù)用在遷移學(xué)習中起著重要作用。另一方面,在數(shù)據(jù)差別特別大的時候(CheXpert 和 quickdraw),仍然可以觀察到遷移學(xué)習帶來的明顯的性能提升。

  除最終性能外,在所有情況下,P-T 的優(yōu)化收斂速度都比 RI-T 快得多。這也暗示出預(yù)訓(xùn)練權(quán)重在遷移學(xué)習中的優(yōu)勢并非直接來自特征復(fù)用。

  為了進一步驗證該假設(shè),團隊修改了下游任務(wù),使其與正常視覺域的距離進一步拉大,尤其是將下游任務(wù)的圖像劃分為相等大小的塊并隨機排序。

  混洗擾亂了那些圖像中的高級視覺功能,模型只能抓住淺層特征,而抽象特征沒法很好地被提取。

  其中,塊大小 224*224 的極端情況意味著不進行混洗;在另一種極端情況下,圖像中的所有像素都將被混洗,從而使得在預(yù)訓(xùn)練中學(xué)到的任何視覺特征完全無用。

  在本文中,團隊成員創(chuàng)造出了一種特殊情況,每個通道的像素都可以獨立的移動,并且可以移動到其他通道中。

  圖 3 。圖片出處:arXiv

  圖 3 顯示了不同塊大小對最終性能和優(yōu)化速度的影響。我們可以觀察到以下幾點:

  隨著打亂程度的加劇,RI-T 和 P-T 的最終性能都會下降,任務(wù)越發(fā)困難;

  相對精度差異隨塊尺寸(clipart, real)的減小而減小,說明特征復(fù)用很有效果;

  quickdraw 上情況相反是由于其數(shù)據(jù)集和預(yù)訓(xùn)練的數(shù)據(jù)集相差過大,但是即便如此,在 quickdraw 上預(yù)訓(xùn)練還是有效的,說明存在除了特征復(fù)用以外的因素;

  P-T 的優(yōu)化速度相對穩(wěn)定,而 RI-T 的優(yōu)化速度隨著塊尺寸的減小時存在急劇的下降。這表明特征復(fù)用并不是影響 P-T 訓(xùn)練速度的主要因素。

  由上述實驗得出結(jié)論,特征復(fù)用在遷移學(xué)習中起著非常重要的作用,尤其是當下游任務(wù)與預(yù)訓(xùn)練域共享相似的視覺特征時。但是仍存在其他因素,例如低級別的統(tǒng)計信息,可能會帶來遷移學(xué)習的顯著優(yōu)勢,尤其是在優(yōu)化速度方面。

  失誤和特征相似性

  這部分主要通過探究不同模型有哪些 common mistakes 和 uncommon mistakes 來揭示預(yù)訓(xùn)練的作用。

  為了理解不同模型之間的差異,作者首先比較兩個 P-T,一個 P-T 加一個 RI-T 和兩個 RI-T 之間的兩類錯誤率并發(fā)現(xiàn) P-T 和 RI-T 模型之間存在許多 uncommon mistakes,而兩個 P-T 的 uncommon mistakes 則要少得多。對于 CheXpert 和 DomainNet 目標域,都是這種情況。

  在 DomainNet 上可視化每個模型的兩類錯誤并觀察得到,P-T 不正確和 RI-T 正確的數(shù)據(jù)樣本主要包括模棱兩可的例子;而 P-T 是正確的數(shù)據(jù)樣本和 RI-T 是不正確的數(shù)據(jù)樣本也包括許多簡單樣本。

  這符合假設(shè),P-T 在簡單樣本上的成功率很高,而在比較模糊難以判斷的樣本上比較難 (而此時 RI-T 往往比較好), 說明 P-T 有著很強的先驗知識,因此很難適應(yīng)目標域。

  為了加強對上述想法的驗證,團隊成員又對特征空間中兩個網(wǎng)絡(luò)的相似性進行了研究。

  通過中心核對齊 (CKA, Centered Kernel Alignment) 這一指標發(fā)現(xiàn),P-T 的兩個實例在不同層之間非常相似,在 P-T 和 P 之間也是如此。但是 P-T 和 RI-T 實例或兩個 RI-T 實例之間,相似性非常低。

  表 2 。圖片出處:arXiv

  也就是說,基于預(yù)訓(xùn)練的模型之間的特征相似度很高,而 RI-T 與其他模型相似度很低,哪怕是兩個相同初始化的 RI-T。這顯然在說明預(yù)訓(xùn)練模型之間往往是在重復(fù)利用相同的特征,也就強調(diào)了特征復(fù)用的作用。表 2 為不同模型的參數(shù)的距離,同樣能夠反映出上述結(jié)論。

  泛化性能

  更好度量泛化性能的常用標準,是研究在最終解決方案附近的損失函數(shù)里 basin 程度。

  作者用Θ和Θ̃表示兩個不同檢查點的所有權(quán)重,通過兩個權(quán)重的線性插值{Θ휆=(1-λ)Θ+λΘ̃:λϵ[0,1]} 評估一系列模型的表現(xiàn)。

  由于神經(jīng)網(wǎng)絡(luò)的非線性和組成結(jié)構(gòu),兩個性能良好的模型權(quán)重的線性組合不一定能定義效果良好的模型,因此通常會沿線性插值路徑預(yù)期到性能降低。

  但是,當兩個解屬于損失函數(shù)的同一 basin 時,線性插值仍保留在 basin 中,此時的結(jié)果是,不存在性能障礙。此外,對來自同一 basin 的兩個隨機解進行插值通??梢援a(chǎn)生更接近 basin 中心的解,這可能比端點具有更好的泛化性能。

  團隊將重點放在凸包(convex hull)和線性插值上,以避免產(chǎn)生瑣碎的連通性結(jié)果。需要強調(diào)的是,要求 basin 上的大多數(shù)點的凸組合也都在 basin 上,這種額外的約束使得通過低損耗(非線性)路徑連接或不連接多個 basin。

  此概念的具體形式化以及將凸集設(shè)置為 basin 的三點要求論文中均給出了詳細說明,在此便不再贅述。

  圖 4 中所顯示出的插值結(jié)果,左為 DomainNet real, 右為 quickdraw。圖片出處:arXiv

  一方面,兩次隨機運行的 P-T 解決方案之間沒有觀察到性能降低,這表明預(yù)訓(xùn)練的權(quán)重將優(yōu)化引導(dǎo)到了損失函數(shù)的 basin。另一方面,在兩個 RI-T 運行的解決方案之間清楚地觀察到了障礙。可見預(yù)訓(xùn)練模型之間的損失函數(shù)是很光滑的,不同于 RI-T。

  模塊重要度

  如果我們將訓(xùn)練好的模型的某一層參數(shù)替換為其初始參數(shù),然后觀察替換前后的正確率就能一定程度上判斷這個層在整個網(wǎng)絡(luò)中的重要性,那么,模塊重要度就是一個這樣的類似的指標。

  圖5。圖片出處:arXiv

  圖 5 反映了不同模塊不同層的重要度。在監(jiān)督學(xué)習案例中也有類似的模式。唯一的區(qū)別可能是,“FC” 層對于 P-T 模型的重要性是可預(yù)料的。

  接下來,作者使用擴展定義以及原始定義來研究不同模塊的重要度。很容易可以注意到,優(yōu)化和直接路徑都為模塊的重要度提供了有趣的見解?;蛟S,與最終值相比,權(quán)重的最佳值是進行此分析的更好的起點選擇。

  而圖 6 顯示了對 “ Conv1” 模塊的分析,正如圖 5 所示,這是一個關(guān)鍵模塊。

  圖6。圖片出處:arXiv

  圖7。圖片出處:arXiv

  通過初始化來自預(yù)訓(xùn)練優(yōu)化路徑上不同檢查點的預(yù)訓(xùn)練權(quán)重,比較遷移學(xué)習的好處。圖 7 顯示了從不同的預(yù)訓(xùn)練檢查點進行微調(diào)時的最終性能和優(yōu)化速度。

  總體而言,預(yù)訓(xùn)練的好處隨著檢查點指數(shù)的增加而增加,可得出以下結(jié)論:

  在預(yù)訓(xùn)練中,在學(xué)習率下降的 epoch 30 和 epoch 60 觀察到了很大的性能提升。但是,從檢查點 29、30、31(和類似的 59、60、61)初始化不會顯示出明顯不同的影響。另一方面,特別是對于 real 和 clipart 的最終性能,當從訓(xùn)練前性能一直處于平穩(wěn)狀態(tài)的檢查點(如檢查點 29 和 59)開始時,可以觀察到顯著的改進。這表明,預(yù)訓(xùn)練性能并不總是作為預(yù)訓(xùn)練權(quán)重對遷移學(xué)習有效性的忠實指標。

  quickdraw 在預(yù)訓(xùn)練中發(fā)現(xiàn)最終性能的收益要小得多,并在檢查點 10 迅速達到平穩(wěn)狀態(tài),而 real 和 clipart 直到檢查點 60 都不斷看到的性能的顯著改進。另一方面,隨著檢查點索引的增加,所有三個任務(wù)在優(yōu)化速度改進上均具有明顯的優(yōu)勢。

  優(yōu)化速度在檢查點 10 處開始達到平穩(wěn)狀態(tài),而對于 real 和 clipart,最終結(jié)果則不斷提升。在訓(xùn)練前的早期檢查點是在收斂模型的 basin 之外,在訓(xùn)練期間的某個點便進入 basin。這也解釋了在一些檢查點之后性能停滯不前的原因。

  因此,我們可以早一步地選取檢查點,這樣便不會損失微調(diào)模型的準確性。這種現(xiàn)象的起點取決于預(yù)訓(xùn)練模型何時進入其最終 basin。

  總而言之,這項研究明確闡述了遷移學(xué)習中所遷移的內(nèi)容以及網(wǎng)絡(luò)的哪些部分正在發(fā)揮作用。

  對于成功的遷移,數(shù)據(jù)的特征復(fù)用和底層統(tǒng)計都非常重要。通過對輸入塊進行混洗來研究特征重用的作用,表明當從預(yù)訓(xùn)練權(quán)重初始化進行訓(xùn)練時,網(wǎng)絡(luò)停留在解決方案的同一 basin 中,特征相似并且模型在參數(shù)空間中的距離附近。

  作者還進一步確認了,較低的層負責更一般的功能,較高層的模塊對參數(shù)的擾動更敏感。通過對損失函數(shù) basin 的發(fā)現(xiàn)可用于改進集成方法,對低級數(shù)據(jù)統(tǒng)計數(shù)據(jù)的觀察提高了訓(xùn)練速度,這可能會導(dǎo)致更好的網(wǎng)絡(luò)初始化方法。利用這些發(fā)現(xiàn)來改善遷移學(xué)習,將十分具有價值。

 

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-11-25 14:14:28

加密貨幣數(shù)字貨幣貨幣

2020-02-11 10:24:40

云遷移云計算

2021-05-31 10:46:16

自動駕駛特斯拉數(shù)據(jù)

2019-08-19 09:12:51

索尼三星華為

2010-03-19 16:08:17

2023-10-19 16:39:38

2019-06-04 14:36:04

高并發(fā)Java架構(gòu)

2022-05-17 15:14:23

人工智能高管機器

2015-07-14 11:09:26

SDN

2020-03-17 10:22:53

云計算云遷移IT

2020-12-16 15:56:26

機器學(xué)習人工智能Python

2021-08-23 10:47:25

云計算云遷移數(shù)據(jù)

2022-12-08 08:40:25

大數(shù)據(jù)Hadoop存儲

2015-02-27 10:52:17

SDN

2019-12-05 09:13:18

通信

2022-09-29 23:53:06

機器學(xué)習遷移學(xué)習神經(jīng)網(wǎng)絡(luò)

2018-03-26 20:12:42

深度學(xué)習

2020-03-02 17:03:32

深度學(xué)習人工智能機器學(xué)習

2018-01-25 14:19:32

深度學(xué)習數(shù)據(jù)科學(xué)遷移學(xué)習

2016-10-13 13:11:08

云鎖定Evernote谷歌
點贊
收藏

51CTO技術(shù)棧公眾號