偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="1ujp2"></button>

<blockquote id="1ujp2"><p id="1ujp2"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

半監(jiān)督學(xué)習(xí)：如何克服數(shù)據(jù)標(biāo)簽缺乏問(wèn)題原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-8-16 08:12

瀏覽

0收藏

本文將深入理解半監(jiān)督學(xué)習(xí)的概念，探索其原理、應(yīng)用以及徹底改變?nèi)藗兲幚頂?shù)據(jù)密集型機(jī)器學(xué)習(xí)任務(wù)的方式的潛力。

所有成功實(shí)施的機(jī)器學(xué)習(xí)模型都至少由兩個(gè)強(qiáng)大的組件支持：數(shù)據(jù)和模型。一些機(jī)器學(xué)習(xí)工程師表示，他們寧愿把時(shí)間花費(fèi)在模型開發(fā)上，也不愿將大量的時(shí)間用于數(shù)據(jù)準(zhǔn)備上，其中包括監(jiān)督學(xué)習(xí)中的數(shù)據(jù)標(biāo)簽。當(dāng)已解決大多數(shù)問(wèn)題時(shí)，對(duì)大量數(shù)據(jù)添加標(biāo)簽的難度遠(yuǎn)遠(yuǎn)超過(guò)最初獲取數(shù)據(jù)的難度。

無(wú)標(biāo)簽數(shù)據(jù)在訓(xùn)練過(guò)程中無(wú)法達(dá)到所需的準(zhǔn)確性，而為監(jiān)督學(xué)習(xí)的大量數(shù)據(jù)集添加標(biāo)簽既耗時(shí)又昂貴。如果數(shù)據(jù)添加標(biāo)簽的預(yù)算有限怎么辦?哪些數(shù)據(jù)應(yīng)該首先添加標(biāo)簽?這些只是那些寧愿做有成效的工作的機(jī)器學(xué)習(xí)工程師所面臨的令人望而生畏的問(wèn)題中的一部分。

事實(shí)上，在許多領(lǐng)域，標(biāo)簽缺乏是很自然的情況。以下是一些字段的例子，可以觀察到數(shù)據(jù)標(biāo)簽缺乏以及發(fā)生這種情況的原因。

研究人員和從業(yè)人員已經(jīng)制定了幾種策略來(lái)應(yīng)對(duì)數(shù)據(jù)標(biāo)簽缺乏的挑戰(zhàn)：

遷移學(xué)習(xí)和領(lǐng)域適應(yīng)
合成數(shù)據(jù)生成
半監(jiān)督學(xué)習(xí)
主動(dòng)學(xué)習(xí)

在這些方法中，半監(jiān)督學(xué)習(xí)作為一種特別有前途的解決方案脫穎而出。這種技術(shù)用戶允許同時(shí)使用少量標(biāo)簽數(shù)據(jù)和大量無(wú)標(biāo)簽數(shù)據(jù)。通過(guò)結(jié)合監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)，半監(jiān)督學(xué)習(xí)在保持模型性能的同時(shí)，為應(yīng)對(duì)數(shù)據(jù)標(biāo)簽缺乏的挑戰(zhàn)提供了一個(gè)潛在的解決方案。

本文將深入理解半監(jiān)督學(xué)習(xí)的概念，探索其原理、應(yīng)用以及徹底改變?nèi)藗兲幚頂?shù)據(jù)密集型機(jī)器學(xué)習(xí)任務(wù)的方式的潛力。

一、理解半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)是一種結(jié)合監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)方法，通過(guò)訓(xùn)練模型與少量有標(biāo)簽數(shù)據(jù)和大量無(wú)標(biāo)簽數(shù)據(jù)相結(jié)合。這種方法可以用以下的數(shù)學(xué)方法表示：

Let DS：(x, y) ~ p(x,y)是一個(gè)小型有標(biāo)簽數(shù)據(jù)集，DU：x ~ p(x)是一個(gè)大型的無(wú)標(biāo)簽數(shù)據(jù)集。像往常一樣，使用有標(biāo)簽數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)，使用無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。
在半監(jiān)督學(xué)習(xí)中，使用兩個(gè)數(shù)據(jù)集來(lái)最小化一個(gè)結(jié)合監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)成分的損失函數(shù)：L=μsLs+μuLu。
該損失函數(shù)允許模型同時(shí)從有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)。值得一提的是，該方法在有標(biāo)簽數(shù)據(jù)量較大的情況下更加成功。

當(dāng)獲取一組全面的有標(biāo)簽數(shù)據(jù)成本過(guò)于昂貴或不切實(shí)際時(shí)，半監(jiān)督學(xué)習(xí)尤其有用。然而，其有效性取決于這樣一個(gè)假設(shè)，即無(wú)標(biāo)簽數(shù)據(jù)可以為模型訓(xùn)練提供有意義的信息，但情況并非總是如此。

其難點(diǎn)在于平衡使用有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)，以及確保模型不會(huì)強(qiáng)化無(wú)標(biāo)簽數(shù)據(jù)生成的錯(cuò)誤偽標(biāo)簽。

二、半監(jiān)督學(xué)習(xí)的核心概念

業(yè)界已經(jīng)引入了一些半監(jiān)督學(xué)習(xí)的概念，以下了解最具影響力的幾個(gè)概念。

置信度和熵

熵最小化的主要思想是確保在有標(biāo)簽數(shù)據(jù)上訓(xùn)練的分類器對(duì)無(wú)標(biāo)簽數(shù)據(jù)也能做出置信度更高的預(yù)測(cè)(也就是說(shuō)以最小的熵產(chǎn)生預(yù)測(cè))。在這種情況下，熵指的是模型預(yù)測(cè)的不確定性。熵越小，置信度越高。這種方法已被證明對(duì)分類器具有正則化效果。

一個(gè)類似的概念是偽標(biāo)簽，在一些文獻(xiàn)中也被稱為自我訓(xùn)練，其中包括：

(1)要求分類器預(yù)測(cè)無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽。

(2)使用置信度最高的預(yù)測(cè)樣本作為下一次訓(xùn)練迭代的額外真實(shí)標(biāo)簽。

這是一種基本類型的半監(jiān)督學(xué)習(xí)，應(yīng)該謹(jǐn)慎應(yīng)用。如果管理不當(dāng)，對(duì)模型的強(qiáng)化效應(yīng)可能會(huì)潛在地放大初始偏差或錯(cuò)誤。

類似方法的其他例子包括：

聯(lián)合訓(xùn)練
多視圖訓(xùn)練
Noisy student

這些方法的典型過(guò)程通常遵循以下幾個(gè)階段：

(1)首先在一部分有標(biāo)簽數(shù)據(jù)上訓(xùn)練模型。

(2)該模型通過(guò)為更大規(guī)模的無(wú)標(biāo)簽數(shù)據(jù)預(yù)測(cè)標(biāo)簽來(lái)生成偽標(biāo)簽。

(3)選擇置信度最高的標(biāo)簽(具有最小熵)來(lái)豐富訓(xùn)練數(shù)據(jù)集。

(4)使用步驟3的豐富數(shù)據(jù)集對(duì)模型進(jìn)行重新訓(xùn)練。

這個(gè)迭代過(guò)程的目的是利用模型不斷增長(zhǎng)的信心來(lái)提高它在有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)上的性能。

標(biāo)簽一致性和正則化

這種方法基于這樣的想法——如果對(duì)樣本應(yīng)用簡(jiǎn)單的增強(qiáng)，預(yù)測(cè)不應(yīng)該改變類。簡(jiǎn)單的增強(qiáng)是指對(duì)輸入數(shù)據(jù)進(jìn)行微小的修改，例如對(duì)圖像進(jìn)行輕微的旋轉(zhuǎn)、裁剪或顏色更改。

然后，該模型在無(wú)標(biāo)簽的數(shù)據(jù)上進(jìn)行訓(xùn)練，以確保樣本與其增強(qiáng)版本之間的預(yù)測(cè)是一致的。這個(gè)概念類似于基于一致性約束的自監(jiān)督學(xué)習(xí)方法。

使用這種方法的技術(shù)示例包括：

Pi-Model
Temporal Ensembling(時(shí)序集成)
Mean Teacher
FixMatch算法
虛擬對(duì)抗訓(xùn)練(VAT)

這種方法的主要步驟是：

(1)獲取一個(gè)無(wú)標(biāo)簽數(shù)據(jù)的樣本。

(2)創(chuàng)建所選樣本的幾個(gè)不同視圖(增強(qiáng)視圖)。

(3)應(yīng)用分類器并確保這些視圖的預(yù)測(cè)大致相似。

該方法利用了這樣一個(gè)假設(shè)，即輸入的微小變化不會(huì)顯著地改變模型的預(yù)測(cè)，從而鼓勵(lì)模型從無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)更健壯和可推廣的特征。

與專注于最大化預(yù)測(cè)置信度的置信度和熵方法不同，標(biāo)簽一致性和正則化方法強(qiáng)調(diào)跨相似輸入的預(yù)測(cè)的穩(wěn)定性。這有助于防止對(duì)特定數(shù)據(jù)點(diǎn)的過(guò)度擬合，并鼓勵(lì)模型學(xué)習(xí)更有意義的表示。

生成模型

半監(jiān)督學(xué)習(xí)中的生成模型使用與監(jiān)督學(xué)習(xí)中的遷移學(xué)習(xí)類似的方法，其中在一個(gè)任務(wù)中學(xué)習(xí)到的特征可以轉(zhuǎn)移到其他下游任務(wù)中。

然而，有一個(gè)關(guān)鍵的區(qū)別：生成模型能夠?qū)W習(xí)數(shù)據(jù)分布p(x)，從該分布中生成樣本，并最終通過(guò)改進(jìn)具有給定目標(biāo)標(biāo)簽y的給定樣本x的p(y|x)建模來(lái)增強(qiáng)監(jiān)督學(xué)習(xí)。這種方法在半監(jiān)督學(xué)習(xí)中特別有用，因?yàn)樗梢岳么罅繜o(wú)標(biāo)簽數(shù)據(jù)來(lái)學(xué)習(xí)底層數(shù)據(jù)分布，然后為監(jiān)督學(xué)習(xí)任務(wù)提供信息。

用于增強(qiáng)半監(jiān)督學(xué)習(xí)的最流行的生成模型類型是：

GAN(生成對(duì)抗網(wǎng)絡(luò))
VAE(變分自動(dòng)編碼器)

該過(guò)程通常遵循以下步驟：

(1)構(gòu)造損失函數(shù)的生成部分和監(jiān)督部分。

(2)使用組合損失函數(shù)同時(shí)訓(xùn)練生成模型和監(jiān)督模型。

(3)對(duì)目標(biāo)任務(wù)使用訓(xùn)練好的監(jiān)督模型。

在這個(gè)過(guò)程中，生成模型從有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)，幫助捕獲數(shù)據(jù)空間的底層結(jié)構(gòu)。然后，這種學(xué)習(xí)結(jié)構(gòu)可以為監(jiān)督模型提供信息，從而可能提高其性能，特別是在有標(biāo)簽數(shù)據(jù)缺失的情況下。

基于圖形的半監(jiān)督學(xué)習(xí)

基于圖形的半監(jiān)督學(xué)習(xí)方法使用圖形數(shù)據(jù)結(jié)構(gòu)將有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)表示為節(jié)點(diǎn)。這種方法在捕獲數(shù)據(jù)點(diǎn)之間的復(fù)雜關(guān)系方面特別有效，當(dāng)數(shù)據(jù)具有固有的結(jié)構(gòu)或關(guān)系屬性時(shí)非常有用。

在這種方法中，標(biāo)簽通過(guò)圖形進(jìn)行傳播。從無(wú)標(biāo)簽節(jié)點(diǎn)到有標(biāo)簽節(jié)點(diǎn)的路徑數(shù)有助于確定其標(biāo)簽。這種方法利用了一個(gè)假設(shè)——相似的數(shù)據(jù)點(diǎn)(通過(guò)圖中的邊連接)可能具有相似的標(biāo)簽。

該過(guò)程通常遵循以下步驟：

(1)構(gòu)造一個(gè)圖形，其中的節(jié)點(diǎn)表示數(shù)據(jù)點(diǎn)(有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù))。

(2)通過(guò)邊連接節(jié)點(diǎn)，通?；跀?shù)據(jù)點(diǎn)之間的相似性度量(例如，k近鄰或高斯核)。

(3)使用圖形算法(例如標(biāo)簽傳播或圖神經(jīng)網(wǎng)絡(luò))將標(biāo)簽從有標(biāo)簽節(jié)點(diǎn)傳播到無(wú)標(biāo)簽節(jié)點(diǎn)。

(4)根據(jù)傳播的信息為無(wú)標(biāo)簽節(jié)點(diǎn)分配標(biāo)簽。

(5)可選地重復(fù)該過(guò)程以優(yōu)化無(wú)標(biāo)簽節(jié)點(diǎn)上的標(biāo)簽。

當(dāng)處理具有自然圖形結(jié)構(gòu)的數(shù)據(jù)(例如社交網(wǎng)絡(luò)和引文網(wǎng)絡(luò))或當(dāng)數(shù)據(jù)點(diǎn)之間的關(guān)系對(duì)分類至關(guān)重要時(shí)，這種方法特別有利。然而，性能對(duì)圖形的構(gòu)造方法和相似度度量的選擇很敏感。這種方法的常用算法包括標(biāo)簽傳播、標(biāo)簽擴(kuò)散以及最近的圖形神經(jīng)網(wǎng)絡(luò)。

三、研究實(shí)例

半監(jiān)督學(xué)習(xí)在許多領(lǐng)域取得了重大進(jìn)展，包括語(yǔ)音識(shí)別、網(wǎng)頁(yè)內(nèi)容分類和文本文檔分析。這些進(jìn)步不僅提高了標(biāo)簽數(shù)據(jù)有限的任務(wù)的性能，還引入了有效利用無(wú)標(biāo)簽數(shù)據(jù)的新方法。

以下推薦的一些論文代表了半監(jiān)督學(xué)習(xí)領(lǐng)域最具影響力和最有趣的貢獻(xiàn)。這些論文塑造了人們對(duì)這一主題的理解，并繼續(xù)影響著當(dāng)前的研究和應(yīng)用。

半監(jiān)督學(xué)習(xí)的時(shí)間整合(2017)：Laine和Aila

本文介紹了一致性正則化的概念，這是后來(lái)許多半監(jiān)督學(xué)習(xí)方法的基礎(chǔ)。本文作者首先提出了Pi-Model，該模型對(duì)每個(gè)無(wú)標(biāo)簽的輸入應(yīng)用兩次隨機(jī)增強(qiáng)，并鼓勵(lì)對(duì)兩個(gè)版本進(jìn)行一致的預(yù)測(cè)。這種方法利用了模型應(yīng)該為同一輸入的擾動(dòng)版本產(chǎn)生類似輸出的想法。

半監(jiān)督學(xué)習(xí)：如何克服數(shù)據(jù)標(biāo)簽缺乏問(wèn)題-AI.x社區(qū)

在Pi-Model的基礎(chǔ)上，作者引入了Temporal Ensembling(時(shí)序集成)方法。該方法通過(guò)降低一致性目標(biāo)中的噪聲，解決了Pi-Model的一個(gè)關(guān)鍵局限性。Temporal Ensembling沒(méi)有比較兩個(gè)并發(fā)過(guò)程的預(yù)測(cè)，而是為每個(gè)無(wú)標(biāo)簽的示例保持過(guò)去預(yù)測(cè)的指數(shù)移動(dòng)平均值(EMA)。EMA作為一致性損失的更穩(wěn)定的目標(biāo)，有效地整合了模型隨時(shí)間的預(yù)測(cè)。

Temporal Ensemblin方法在Pi-Model的基礎(chǔ)上得到了顯著改進(jìn)，表現(xiàn)出更好的性能和更快的收斂速度。這項(xiàng)工作對(duì)該領(lǐng)域產(chǎn)生了重大影響，為半監(jiān)督學(xué)習(xí)中許多基于一致性的方法奠定了基礎(chǔ)，并展示了如何利用模型自己的預(yù)測(cè)來(lái)改進(jìn)對(duì)無(wú)標(biāo)簽數(shù)據(jù)的學(xué)習(xí)。

虛擬對(duì)抗訓(xùn)練(2018)：Miyato等人

虛擬對(duì)抗訓(xùn)練(VAT)巧妙地將對(duì)抗性攻擊的概念應(yīng)用于半監(jiān)督學(xué)習(xí)。這個(gè)想法源于眾所周知的圖像分類中的對(duì)抗性示例現(xiàn)象，其中輸入圖像的微小、難以察覺(jué)的擾動(dòng)可能會(huì)極大地改變模型的預(yù)測(cè)。研究人員通過(guò)使用反向傳播來(lái)最大化模型輸出的變化，但相對(duì)于輸入而不是模型權(quán)重，發(fā)現(xiàn)了這些擾動(dòng)。

虛擬對(duì)抗訓(xùn)練(VAT)的關(guān)鍵創(chuàng)新是將這種對(duì)抗性擾動(dòng)概念應(yīng)用于半監(jiān)督學(xué)習(xí)設(shè)置中的無(wú)標(biāo)簽數(shù)據(jù)。虛擬對(duì)抗訓(xùn)練(VAT)不是使用反向傳播來(lái)尋找改變模型預(yù)測(cè)的擾動(dòng)，而是使用它來(lái)尋找最顯著地改變模型預(yù)測(cè)分布的擾動(dòng)。然后對(duì)模型進(jìn)行訓(xùn)練以抵抗這些擾動(dòng)，即使在輸入對(duì)抗性的小變化情況下也能鼓勵(lì)一致的預(yù)測(cè)。

該方法解決了半監(jiān)督學(xué)習(xí)中提高模型魯棒性和泛化能力的問(wèn)題。虛擬對(duì)抗訓(xùn)練(VAT)的影響是顯著的，它展示了如何在半監(jiān)督學(xué)習(xí)中有效地使用對(duì)抗性技術(shù)，并為對(duì)抗性魯棒性和半監(jiān)督學(xué)習(xí)的交叉研究開辟了新的途徑。它表明，對(duì)抗性機(jī)器學(xué)習(xí)的原理可以被重新用于從無(wú)標(biāo)簽數(shù)據(jù)中提取更多信息，從而提高半監(jiān)督學(xué)習(xí)的性能。

Mean Teacher (2017)：Tarvainen和Valpola

Mean Teacher方法引入了一種簡(jiǎn)單而有效的方法在半監(jiān)督學(xué)習(xí)中創(chuàng)建高質(zhì)量的一致性目標(biāo)。其關(guān)鍵創(chuàng)新是使用模型權(quán)重的指數(shù)移動(dòng)平均來(lái)創(chuàng)建一個(gè)“教師”(teacher)模型，該模型為“學(xué)生”(student)模型提供了目標(biāo)。這解決了穩(wěn)定訓(xùn)練和提高半監(jiān)督學(xué)習(xí)性能的問(wèn)題。

雖然Mean Teacher和Temporal Ensembling都使用EMA，但它們的應(yīng)用方式不同：

(1)Temporal Ensembling將EMA應(yīng)用于不同時(shí)代的每個(gè)數(shù)據(jù)點(diǎn)的預(yù)測(cè)。這創(chuàng)建了穩(wěn)定的目標(biāo)，但更新緩慢，特別是對(duì)于每個(gè)示例不經(jīng)常出現(xiàn)的大型數(shù)據(jù)集。

(2)另一方面，Mean Teacher將EMA應(yīng)用于模型自身權(quán)重。這創(chuàng)建了一個(gè)“教師”模型，它是最近“學(xué)生”模型的集合。然后，“教師”模型可以為任何輸入生成一致性目標(biāo)，包括不可見(jiàn)的增強(qiáng)，從而允許更頻繁的更新。

這種微妙的差異使Mean Teacher能夠更快地適應(yīng)新數(shù)據(jù)，并提供更一致的目標(biāo)，特別是在訓(xùn)練的早期和更大的數(shù)據(jù)集。它還允許對(duì)學(xué)生和教師模型使用不同的增強(qiáng)，從而可能捕獲更廣泛的不變性。

Mean Teacher演示了簡(jiǎn)單的平均技術(shù)可以顯著提高半監(jiān)督學(xué)習(xí)性能。它激發(fā)了對(duì)半監(jiān)督學(xué)習(xí)中師生模型的進(jìn)一步研究，并展示了如何擴(kuò)展和改進(jìn)Temporal Ensembling的思想。

無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)(2020)：Xie等人

無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)(UDA)利用先進(jìn)的數(shù)據(jù)增強(qiáng)技術(shù)在半監(jiān)督學(xué)習(xí)中實(shí)現(xiàn)一致性正則化。關(guān)鍵的創(chuàng)新是使用了最先進(jìn)的數(shù)據(jù)增強(qiáng)方法，特別是在NLP任務(wù)中，這些技術(shù)的探索較少。

通過(guò)“高級(jí)數(shù)據(jù)增強(qiáng)”，作者指的是超越簡(jiǎn)單擾動(dòng)的更復(fù)雜的轉(zhuǎn)換：

(1)對(duì)于圖像任務(wù)：UDA使用RandAugment，它會(huì)自動(dòng)搜索最優(yōu)的增強(qiáng)策略。這包括顏色調(diào)整、幾何變換和各種濾鏡的組合。

(2)對(duì)于文本任務(wù)：UDA引入了使用TF-IDF的回譯和單詞替換等方法?；刈g包括將一個(gè)句子翻譯成另一種語(yǔ)言，然后再翻譯回原文，創(chuàng)造一個(gè)意譯版本?；赥F-IDF.的單詞替換將單詞與同義詞交換，同時(shí)保留句子的整體含義。

這些高級(jí)增強(qiáng)功能創(chuàng)建了輸入數(shù)據(jù)的更多樣化和語(yǔ)義上有意義的變體，幫助模型學(xué)習(xí)更健壯的表示。UDA解決了在不同領(lǐng)域提高半監(jiān)督學(xué)習(xí)性能的問(wèn)題，特別關(guān)注文本分類任務(wù)。它的影響是顯著的，展示了半監(jiān)督學(xué)習(xí)中特定于任務(wù)的數(shù)據(jù)增強(qiáng)的強(qiáng)大功能，并在有標(biāo)簽數(shù)據(jù)有限的幾個(gè)基準(zhǔn)測(cè)試中獲得了最先進(jìn)的結(jié)果。

UDA的成功凸顯了在半監(jiān)督學(xué)習(xí)中精心設(shè)計(jì)數(shù)據(jù)增強(qiáng)策略的重要性，特別是在傳統(tǒng)增強(qiáng)技術(shù)有限的領(lǐng)域。

FixMatch (2020)：Sohn等人

FixMatch代表了半監(jiān)督學(xué)習(xí)技術(shù)的顯著簡(jiǎn)化，同時(shí)實(shí)現(xiàn)了最先進(jìn)的性能。關(guān)鍵的創(chuàng)新在于其巧妙地結(jié)合了兩個(gè)主要思想：

(1)一致性正則化：FixMatch對(duì)無(wú)標(biāo)簽數(shù)據(jù)使用強(qiáng)增強(qiáng)和弱增強(qiáng)。模型對(duì)弱增強(qiáng)數(shù)據(jù)的預(yù)測(cè)必須與對(duì)強(qiáng)增強(qiáng)數(shù)據(jù)的預(yù)期相匹配。

(2)偽標(biāo)簽：當(dāng)模型的預(yù)測(cè)置信度高(高于設(shè)定的閾值)時(shí)，它只保留弱增強(qiáng)的無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽。

FixMatch的獨(dú)特之處在于它對(duì)一致性正則化組件使用了極強(qiáng)的增強(qiáng)(如RandAugment)，并結(jié)合了一種簡(jiǎn)單的基于閾值的偽標(biāo)簽機(jī)制。這種方法允許模型從弱增強(qiáng)圖像中生成可靠的偽標(biāo)簽，并從強(qiáng)增強(qiáng)圖像中學(xué)習(xí)魯棒表示。

FixMatch在有標(biāo)簽數(shù)據(jù)極其有限的情況下表現(xiàn)出色，有時(shí)每個(gè)類只使用10個(gè)標(biāo)簽示例。它的成功表明，設(shè)計(jì)良好并且簡(jiǎn)單的半監(jiān)督學(xué)習(xí)算法可以超越更復(fù)雜的方法，在該領(lǐng)域樹立新的基準(zhǔn)，并影響后續(xù)在低標(biāo)簽體系下的研究。

Noisy Student (2020)：Xie等

Noisy Student為半監(jiān)督學(xué)習(xí)引入了一種帶有噪聲注入的迭代自我訓(xùn)練方法，這是該領(lǐng)域的一個(gè)重要里程碑。關(guān)鍵的創(chuàng)新是使用一個(gè)大型的EfficientNet模型作為“學(xué)生”，在“教師”模型的嘈雜預(yù)測(cè)上進(jìn)行訓(xùn)練，并迭代地重復(fù)這個(gè)過(guò)程。

Noisy Student的獨(dú)特之處在于其開創(chuàng)性的表現(xiàn)：

(1)超越監(jiān)督學(xué)習(xí)：它是第一個(gè)超越純監(jiān)督學(xué)習(xí)的半監(jiān)督學(xué)習(xí)方法，即使在有大量有標(biāo)簽數(shù)據(jù)可用的情況下也是如此。這一突破挑戰(zhàn)了半監(jiān)督學(xué)習(xí)僅在低標(biāo)簽數(shù)據(jù)體系中有用的傳統(tǒng)觀念。

(2)規(guī)模和有效性：該方法表明，通過(guò)利用大量無(wú)標(biāo)簽的數(shù)據(jù)(3億張無(wú)標(biāo)簽的圖像)，它可以改進(jìn)在所有128萬(wàn)張標(biāo)簽的ImageNet圖像上訓(xùn)練的最先進(jìn)的監(jiān)督模型。

(3)噪聲注入：“噪聲”方面涉及在訓(xùn)練期間對(duì)“學(xué)生”應(yīng)用數(shù)據(jù)增強(qiáng)、丟棄和隨機(jī)深度，這有助于學(xué)習(xí)更健壯的特征。

Noisy Student在像ImageNet這樣具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集上突破了性能的界限。它表明，即使在具有豐富的有標(biāo)簽數(shù)據(jù)的場(chǎng)景中，半監(jiān)督學(xué)習(xí)技術(shù)也是有益的，從而擴(kuò)展了半監(jiān)督學(xué)習(xí)的潛在應(yīng)用。該方法還激發(fā)了對(duì)可擴(kuò)展半監(jiān)督學(xué)習(xí)技術(shù)及其應(yīng)用的進(jìn)一步研究，以改進(jìn)各個(gè)領(lǐng)域的最新模型。

Noisy Student在使用大量有標(biāo)簽數(shù)據(jù)的情況下，成功地超越了監(jiān)督學(xué)習(xí)，標(biāo)志著研究人員和實(shí)踐者如何看待半監(jiān)督學(xué)習(xí)技術(shù)的潛力的范式轉(zhuǎn)變。

半監(jiān)督學(xué)習(xí)與深度生成模型(2014)：Kingma等人

這篇開創(chuàng)性的論文介紹了一種使用變分自編碼器(VAE)進(jìn)行半監(jiān)督學(xué)習(xí)的新方法。關(guān)鍵的創(chuàng)新在于它如何在一個(gè)框架內(nèi)結(jié)合生成學(xué)習(xí)和判別學(xué)習(xí)。

該方法的核心是組合損失函數(shù)，它有兩個(gè)主要組成部分：

(1)生成組件：這部分損失確保模型學(xué)習(xí)有效地重構(gòu)輸入數(shù)據(jù)，捕獲底層數(shù)據(jù)分布p(x)。

(2)判別組件：這部分側(cè)重于分類任務(wù)，優(yōu)化對(duì)標(biāo)記數(shù)據(jù)的準(zhǔn)確預(yù)測(cè)。

組合損失函數(shù)允許模型同時(shí)從有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)。對(duì)于有標(biāo)簽數(shù)據(jù)，這兩個(gè)組件都使用。對(duì)于無(wú)標(biāo)簽數(shù)據(jù)，只有生成組件是活躍的，但它通過(guò)學(xué)習(xí)更好的表示間接提高了判別性能。

這種方法解決了利用無(wú)標(biāo)簽數(shù)據(jù)來(lái)提高分類性能的問(wèn)題，特別是在標(biāo)簽數(shù)據(jù)缺失的情況下。它為在半監(jiān)督學(xué)習(xí)中使用深度生成模型開辟了新的方向。該方法還展示了生成模型如何改進(jìn)判別任務(wù)，彌合無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)之間的差距，并激發(fā)了生成建模和半監(jiān)督學(xué)習(xí)交叉領(lǐng)域的大量后續(xù)研究。

這項(xiàng)工作為半監(jiān)督學(xué)習(xí)的許多未來(lái)發(fā)展奠定了基礎(chǔ)，展示了如何有效地利用深度生成模型從無(wú)標(biāo)簽數(shù)據(jù)中提取有用的信息以進(jìn)行分類任務(wù)。

四、應(yīng)用實(shí)例

半監(jiān)督學(xué)習(xí)已經(jīng)在各個(gè)領(lǐng)域取得了重大進(jìn)展，證明了它在處理大量無(wú)標(biāo)簽數(shù)據(jù)方面的多功能性和有效性。以下是一些值得注意的應(yīng)用：

語(yǔ)音識(shí)別

2021年，Meta公司(其前身為Facebook)在一個(gè)基礎(chǔ)模型上使用半監(jiān)督學(xué)習(xí)進(jìn)行自我訓(xùn)練，該模型訓(xùn)練了100小時(shí)有標(biāo)簽的音頻和500小時(shí)的無(wú)標(biāo)簽數(shù)據(jù)。這種方法將單詞錯(cuò)誤率降低了33.9%，顯示了半監(jiān)督學(xué)習(xí)在改進(jìn)語(yǔ)音識(shí)別系統(tǒng)方面的潛力。

網(wǎng)頁(yè)內(nèi)容分類

像Google這樣的搜索引擎使用半監(jiān)督學(xué)習(xí)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分類并提高搜索相關(guān)性。該應(yīng)用程序?qū)τ谔幚睚嫶笄也粩嘣鲩L(zhǎng)的網(wǎng)頁(yè)量至關(guān)重要，可以實(shí)現(xiàn)更準(zhǔn)確和有效的內(nèi)容分類。

文本文檔分類

半監(jiān)督學(xué)習(xí)已經(jīng)被證明在構(gòu)建文本分類器方面是有效的。例如，韓國(guó)延世大學(xué)開發(fā)的SALnet文本分類器利用LSTM等深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析等任務(wù)。這展示了半監(jiān)督學(xué)習(xí)在自然語(yǔ)言處理任務(wù)中管理大型無(wú)標(biāo)簽數(shù)據(jù)集的能力。

醫(yī)學(xué)圖像分析

2023年，斯坦福大學(xué)的研究人員利用半監(jiān)督學(xué)習(xí)技術(shù)提高了MRI掃描中腦腫瘤分割的準(zhǔn)確性。通過(guò)利用一小部分有標(biāo)簽的圖像和大量無(wú)標(biāo)簽數(shù)據(jù)，與監(jiān)督學(xué)習(xí)相比，他們?cè)谀[瘤檢測(cè)精度方面提高了15%。這個(gè)應(yīng)用程序突出了半監(jiān)督學(xué)習(xí)在醫(yī)學(xué)成像中的潛力，在醫(yī)學(xué)成像領(lǐng)域，有標(biāo)簽數(shù)據(jù)往往稀缺且獲取成本高昂，但無(wú)標(biāo)簽數(shù)據(jù)卻很多。

結(jié)論

半監(jiān)督學(xué)習(xí)如今已經(jīng)成為一種重要的機(jī)器學(xué)習(xí)技術(shù)，有效地彌合了大量無(wú)標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)稀缺之間的差距。通過(guò)巧妙地結(jié)合監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)方法，半監(jiān)督學(xué)習(xí)為數(shù)據(jù)標(biāo)記的長(zhǎng)期挑戰(zhàn)提供了實(shí)用而有效的解決方案。本文深入研究了各種半監(jiān)督學(xué)習(xí)方法，從基本的一致正則化技術(shù)(例如Temporal Ensembling)到尖端的方法(如FixMatch和Noisy Student)。

半監(jiān)督學(xué)習(xí)的多功能性在其跨廣泛領(lǐng)域(包括語(yǔ)音識(shí)別、網(wǎng)頁(yè)內(nèi)容分類和文本文檔分析)的成功實(shí)現(xiàn)中得到了突出的體現(xiàn)。在這個(gè)數(shù)據(jù)生成遠(yuǎn)遠(yuǎn)超過(guò)標(biāo)記能力的時(shí)代，半監(jiān)督學(xué)習(xí)成為機(jī)器學(xué)習(xí)發(fā)展的關(guān)鍵技術(shù)，使研究人員和從業(yè)者能夠利用大量無(wú)標(biāo)簽數(shù)據(jù)集的潛力。

展望未來(lái)，半監(jiān)督學(xué)習(xí)將在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域扮演更重要的角色。盡管挑戰(zhàn)依然存在，例如利用極其有限的標(biāo)簽數(shù)據(jù)增強(qiáng)性能，以及將半監(jiān)督學(xué)習(xí)技術(shù)應(yīng)用于更復(fù)雜的現(xiàn)實(shí)場(chǎng)景，但該領(lǐng)域的快速發(fā)展表明將會(huì)繼續(xù)創(chuàng)新。這些發(fā)展可能會(huì)導(dǎo)致模型訓(xùn)練和數(shù)據(jù)解釋的突破性方法。

半監(jiān)督學(xué)習(xí)的核心原則可能會(huì)影響并與機(jī)器學(xué)習(xí)的其他新興領(lǐng)域交叉，包括小樣本學(xué)習(xí)和自監(jiān)督學(xué)習(xí)。這種思想的交叉融合有望進(jìn)一步擴(kuò)大半監(jiān)督學(xué)習(xí)的影響，并有可能重塑人們對(duì)從有限的標(biāo)簽數(shù)據(jù)中學(xué)習(xí)的理解。

半監(jiān)督學(xué)習(xí)不僅代表了一組技術(shù)，還代表了人們?nèi)绾翁幚韽臄?shù)據(jù)中學(xué)習(xí)這一基本問(wèn)題的范式轉(zhuǎn)變。隨著半監(jiān)督學(xué)習(xí)的不斷發(fā)展，它很可能是釋放數(shù)字時(shí)代特征的大量無(wú)標(biāo)簽數(shù)據(jù)資源的全部潛力的關(guān)鍵。

原文標(biāo)題：Semi-Supervised Learning： How To Overcome the Lack of Labels，作者：Aleksandr Timashov

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

機(jī)器學(xué)習(xí)

數(shù)據(jù)標(biāo)簽缺乏

半監(jiān)督學(xué)習(xí)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

機(jī)器學(xué)習(xí)有哪些類型？ 監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等等！

parson2000 ? 4068瀏覽 ? 0回復(fù)
RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問(wèn)題

NLP工作站 ? 3532瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)有哪些類型？ 監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等等

parson2000 ? 4753瀏覽 ? 0回復(fù)
什么監(jiān)督學(xué)習(xí)，無(wú)監(jiān)督學(xué)習(xí)與深度學(xué)習(xí)？它們之間有什么區(qū)別和聯(lián)系？

AI探索時(shí)代 ? 1.1w瀏覽 ? 0回復(fù)
如何使用聚類分析分割數(shù)據(jù)

51CTO內(nèi)容精選 ? 2753瀏覽 ? 0回復(fù)
大語(yǔ)言模型評(píng)估基準(zhǔn)數(shù)據(jù)泄露問(wèn)題分析報(bào)告

芝士AI吃魚 ? 3029瀏覽 ? 0回復(fù)
采用RAG和知識(shí)圖譜克服人工智能幻覺(jué)問(wèn)題

51CTO內(nèi)容精選 ? 2881瀏覽 ? 0回復(fù)
克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法

51CTO內(nèi)容精選 ? 2674瀏覽 ? 0回復(fù)
為什么預(yù)訓(xùn)練大模型要使用無(wú)監(jiān)督學(xué)習(xí)的方式？

AI探索時(shí)代 ? 3006瀏覽 ? 0回復(fù)
如何在組織中啟用機(jī)器學(xué)習(xí)

51CTO內(nèi)容精選 ? 2022瀏覽 ? 0回復(fù)
如何生成Function Calling微調(diào)數(shù)據(jù)？

ermulong ? 2613瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)四大范式：監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

智駐未來(lái) ? 1.5w瀏覽 ? 0回復(fù)
字節(jié)跳動(dòng)首創(chuàng)無(wú)需數(shù)據(jù)，1.58位超低量化自監(jiān)督生成

Aceryt ? 2435瀏覽 ? 0回復(fù)
小紅書 NoteLLM：用于筆記推薦和標(biāo)簽生成的 LLM

amei2000go ? 6273瀏覽 ? 0回復(fù)
多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸

51CTO內(nèi)容精選 ? 2386瀏覽 ? 0回復(fù)
怎么自定義一個(gè)數(shù)據(jù)集？自定義數(shù)據(jù)集面臨哪些問(wèn)題？

AI探索時(shí)代 ? 2181瀏覽 ? 0回復(fù)
人工智能應(yīng)用最大的問(wèn)題是數(shù)據(jù)問(wèn)題，而不是技術(shù)問(wèn)題

AI探索時(shí)代 ? 1655瀏覽 ? 0回復(fù)
基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?

51CTO內(nèi)容精選 ? 1597瀏覽 ? 0回復(fù)
英偉達(dá)數(shù)學(xué)推理新突破：監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)的"1+1>2"效應(yīng)

sbf_2000 ? 492瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

建立基于AI的知識(shí)體系：面向企業(yè)需求的LlamaIndex與Apache Tika 13h前發(fā)布
一文詳解Character AI：實(shí)用指南+ ChatGPT、Gemini對(duì)比分析 1天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇： Meta SAM 2：令人印象深刻的對(duì)象分割模型

下一篇：揭開神秘面紗：深入了解語(yǔ)音識(shí)別算法

社區(qū)精華內(nèi)容

目錄

<kbd id="3ia4u"></kbd>