自監(jiān)督學(xué)習(xí)簡介以及在三大領(lǐng)域中現(xiàn)狀
近幾年,通過監(jiān)督學(xué)習(xí)進行的深度學(xué)習(xí)也取得了巨大的成功。從圖像分類到語言翻譯,它們的性能一直在提高。然而在一些領(lǐng)域(例如罕見疾病的醫(yī)療數(shù)據(jù)集)中,收集大型標(biāo)記數(shù)據(jù)集是昂貴且不可能的。這些類型的數(shù)據(jù)集為自監(jiān)督算法提供了充足的機會,以進一步提高預(yù)測模型的性能。
自監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)信息表示。在這種情況下,標(biāo)記數(shù)據(jù)集比未標(biāo)記數(shù)據(jù)集相對小。自監(jiān)督學(xué)習(xí)使用這些未標(biāo)記的數(shù)據(jù)并執(zhí)行前置任務(wù)(pretext tasks )和對比學(xué)習(xí)。
Jeremey Howard 在一篇關(guān)于自監(jiān)督學(xué)習(xí)的優(yōu)秀文章中將監(jiān)督學(xué)習(xí)定義為兩個階段:“我們用于預(yù)訓(xùn)練的任務(wù)被稱為前置任務(wù)。我們隨后用于微調(diào)的任務(wù)稱為下游任務(wù)”。自監(jiān)督學(xué)習(xí)的例子包括未來詞預(yù)測、掩碼詞預(yù)測修復(fù)、著色和超分辨率。

計算機視覺的自監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)方法依賴于數(shù)據(jù)的空間和語義結(jié)構(gòu)。 對于圖像,空間結(jié)構(gòu)學(xué)習(xí)是極其重要的。 包括旋轉(zhuǎn)、拼接和著色在內(nèi)的不同技術(shù)被用作從圖像中學(xué)習(xí)表征的前置任務(wù)。 對于著色,將灰度照片作為輸入并生成照片的彩色版本。 zhang等人的論文[1] 解釋了產(chǎn)生生動逼真的著色的著色過程。

另一種廣泛用于計算機視覺自監(jiān)督學(xué)習(xí)的方法是放置圖像塊。 一個例子包括 Doersch 等人的論文 [2]。 在這項工作中,提供了一個大型未標(biāo)記的圖像數(shù)據(jù)集,并從中提取了隨機的圖像塊對。 在初始步驟之后,卷積神經(jīng)網(wǎng)絡(luò)預(yù)測第二個圖像塊相對于第一個圖像塊的位置。 圖 2 說明了該過程。

還有其他不同的方法用于自監(jiān)督學(xué)習(xí),包括修復(fù)和判斷分類錯誤的圖像。 如果對此主題感興趣,請查看參考文獻 [3]。 它提供了有關(guān)上述主題的文獻綜述。
自然語言處理的自監(jiān)督學(xué)習(xí)
在自然語言處理任務(wù)中,自監(jiān)督學(xué)習(xí)方法是最常見的。Word2Vec論文中的“連續(xù)詞袋”方法是自監(jiān)督學(xué)習(xí)最著名的例子。
類似地,還有其他不同的用于自監(jiān)督學(xué)習(xí)的方法,包括相鄰詞預(yù)測、相鄰句子預(yù)測、自回歸語言建模和掩碼語言建模。 掩碼語言建模公式已在 BERT、RoBERTa 和 ALBERT 論文中使用。
文本自監(jiān)督學(xué)習(xí)的最新例子包括 Zhang 等人的論文 [4]。 作者提出了一種間隔句生成機制。 該機制用于總結(jié)摘要的下游任務(wù)。

表格數(shù)據(jù)的自監(jiān)督學(xué)習(xí)
對圖像和文本的自監(jiān)督學(xué)習(xí)一直在進步。但現(xiàn)有的自監(jiān)督方法對表格數(shù)據(jù)無效。表格數(shù)據(jù)沒有空間關(guān)系或語義結(jié)構(gòu),因此現(xiàn)有的依賴空間和語義結(jié)構(gòu)的技術(shù)是沒有用的。
大多數(shù)表格數(shù)據(jù)都涉及分類特征,而這些特征不具有有意義的凸組合。即使對于連續(xù)變量,也不能保證數(shù)據(jù)流形是凸的。但是這一挑戰(zhàn)為研究人員提供了一個新的研究方向。我將簡要說明在這方面所做的一些工作。
Vincent 等人所做的工作 [5] 提出了一種去噪自動編碼器的機制。前置任務(wù)是從損壞的樣本中恢復(fù)原始樣本。在另一篇論文中,Pathak 等人 [6] 提出了一種上下文編碼器,從損壞的樣本和掩碼向量中重建原始樣本。
Tabnet [7] 和 TaBERT [8] 的研究也是朝著自監(jiān)督學(xué)習(xí)的漸進式工作。在這兩項研究中,前置任務(wù)是恢復(fù)損壞的表格數(shù)據(jù)。 TabNet 專注于注意力機制,并在每一步選擇特征進行推理,TABERT 則是學(xué)習(xí)自然語言句子和半結(jié)構(gòu)化表格的表示。

最近的一項工作 (VIME) [9] 提出了一種新的前置任務(wù),可以使用一種新的損壞樣本生成技術(shù)來恢復(fù)掩碼向量和原始樣本。 作者還提出了一種新的表格數(shù)據(jù)增強機制,可以結(jié)合對比學(xué)習(xí)來擴展表格數(shù)據(jù)的監(jiān)督學(xué)習(xí)。 這里的輸入樣本是從未標(biāo)記的數(shù)據(jù)集生成的”。

總結(jié)
自監(jiān)督學(xué)習(xí)是深度學(xué)習(xí)的新常態(tài)。 圖像和文本數(shù)據(jù)的自監(jiān)督學(xué)習(xí)技術(shù)令人驚嘆,因為它們分別依賴于空間和順序相關(guān)性。 但是,表格數(shù)據(jù)中沒有通用的相關(guān)結(jié)構(gòu)。 這使得表格數(shù)據(jù)的自監(jiān)督學(xué)習(xí)更具挑戰(zhàn)性。


























