ICLR 2023杰出論文獎得主分享:適配任意密集預(yù)測任務(wù)的通用小樣本學習器
國際學習表征會議 ICLR(International Conference on Learning Representations),被公認為當前最具影響力的機器學習國際學術(shù)會議之一。
在今年的 ICLR 2023 大會上,微軟亞洲研究院發(fā)表了在機器學習魯棒性、負責任的人工智能等領(lǐng)域的最新研究成果。
其中,微軟亞洲研究院與韓國科學技術(shù)院(KAIST)在雙方學術(shù)合作框架下的科研合作成果,因出色的清晰性、洞察力、創(chuàng)造力和潛在的持久影響獲評 ICLR 2023 杰出論文獎。

論文地址:https://arxiv.org/abs/2303.14969
VTM:首個適配所有密集預(yù)測任務(wù)的小樣本學習器
密集預(yù)測任務(wù)是計算機視覺領(lǐng)域的一類重要任務(wù),如語義分割、深度估計、邊緣檢測和關(guān)鍵點檢測等。對于這類任務(wù),手動標注像素級標簽面臨著難以承受的巨額成本。因此,如何從少量的標注數(shù)據(jù)中學習并作出準確預(yù)測,即小樣本學習,是該領(lǐng)域備受關(guān)注的課題。近年來,關(guān)于小樣本學習的研究不斷取得突破,尤其是一些基于元學習和對抗學習的方法,深受學術(shù)界的關(guān)注和歡迎。
然而,現(xiàn)有的計算機視覺小樣本學習方法一般針對特定的某類任務(wù),如分類任務(wù)或語義分割任務(wù)。它們通常在設(shè)計模型架構(gòu)和訓(xùn)練過程中利用特定于這些任務(wù)的先驗知識和假設(shè),因此不適合推廣到任意的密集預(yù)測任務(wù)。微軟亞洲研究院的研究員們希望探究一個核心問題:是否存在一種通用的小樣本學習器,可以從少量標記圖像中學習任意段未見過的密集預(yù)測任務(wù)。
一個密集預(yù)測任務(wù)的目標是學習從輸入圖像到以像素為單位注釋的標簽的映射,它可以被定義為:

其中 H 和 W 分別是圖像的高與寬,輸入圖像一般包含 RGB 三個通道,C_Τ 表示輸出通道的數(shù)目。不同的密集預(yù)測任務(wù)可能涉及不同的輸出通道數(shù)目和通道屬性,如語義分割任務(wù)的輸出是多通道二值的,而深度估計任務(wù)的輸出是單通道連續(xù)值的。一個通用的小樣本學習器 F,對于任何這樣的任務(wù) Τ,在給定少量標記樣本支持集 S_Τ(包含了 N 組樣本 X^i 和標注 Y^i)的情況下,可以為未見過的查詢圖像 X^q 產(chǎn)生預(yù)測,即:

如果存在適配任意密集預(yù)測任務(wù)的通用小樣本學習器,那么必須滿足以下期望:
- 首先,它必須具備 e 統(tǒng)一的體系結(jié)構(gòu)。該結(jié)構(gòu)能夠處理任意密集預(yù)測任務(wù),并共享大多數(shù)任務(wù)所需的參數(shù),以便獲取可泛化的知識,從而能以小量樣本學習任意未見過的任務(wù)。
 - 其次,學習器應(yīng)該靈活地調(diào)整其預(yù)測機制,以解決具有各種語義的未見過的任務(wù),同時足夠高效,以防止過度擬合。
 
因此,微軟亞洲研究院的研究員們設(shè)計并實現(xiàn)了小樣本學習器視覺token匹配 VTM(Visual Token Matching),其可用于任意的密集預(yù)測任務(wù)。這是首個適配所有密集預(yù)測任務(wù)的小樣本學習器,VTM 為計算機視覺中密集預(yù)測任務(wù)的處理以及小樣本學習方法打開了全新的思路。該工作獲得了 ICLR 2023 杰出論文獎。
VTM 的設(shè)計靈感源于類比人類的思維過程:給定一個新任務(wù)的少量示例,人類可以根據(jù)示例之間的相似性快速將類似的輸出分配給類似的輸入,同時也可以根據(jù)給定的上下文靈活變通輸入和輸出之間在哪些層面相似。研究員們使用基于圖像塊(patch)級別的非參數(shù)匹配實現(xiàn)了密集預(yù)測的類比過程。通過訓(xùn)練,模型被啟發(fā)出了捕捉圖像塊中相似性的能力。
給定一個新任務(wù)的少量標記示例,VTM 首先會根據(jù)給定的示例以及示例的標簽調(diào)整其對相似性的理解,從示例圖像塊中鎖定與待預(yù)測圖像塊相似的圖像塊,通過組合它們的標簽來預(yù)測未見過的圖像塊的標簽。

圖1:VTM 的整體架構(gòu)
VTM 采用分層的編碼器-解碼器架構(gòu),在多個層次上實現(xiàn)了基于圖像塊的非參數(shù)匹配。它主要由四個模塊組成,分別為圖像編碼器 f_Τ、標簽編碼器 g、匹配模塊和標簽解碼器 h。給定查詢圖像和支持集,圖像編碼器首先會獨立地提取每個查詢和支持圖像的圖像塊級表達。標簽編碼器也會類似地提取每個支持標簽的標記。在每個層次的標記給定后,匹配模塊會執(zhí)行非參數(shù)匹配,最終由標簽解碼器推斷出查詢圖像的標簽。
VTM 的本質(zhì)是一個元學習方法。其訓(xùn)練由多個 episode 組成,每個 episode 模擬一個小樣本學習問題。VTM 訓(xùn)練運用到了元訓(xùn)練數(shù)據(jù)集 D_train,其中包含多種有標簽的密集預(yù)測任務(wù)示例。每個訓(xùn)練 episode 都會模擬數(shù)據(jù)集中特定任務(wù) T_train 的小樣本學習場景,目標是在給定支持集的條件下,為查詢圖像產(chǎn)生正確的標簽。通過多個小樣本學習的經(jīng)驗,模型能夠?qū)W習到通用的知識,以便快速、靈活地適應(yīng)新的任務(wù)。在測試時,模型需要在訓(xùn)練數(shù)據(jù)集 D_train 中未包含的任意任務(wù) T_test 上進行小樣本學習。
在處理任意任務(wù)時,由于元訓(xùn)練和測試中的每個任務(wù)的輸出維度 C_Τ 不同,因此使得為所有任務(wù)設(shè)計統(tǒng)一的通用模型參數(shù)成為了巨大挑戰(zhàn)。為了提供一個簡單而普適的解決方案,研究員們將任務(wù)轉(zhuǎn)換為 C_Τ 個單通道子任務(wù),分別學習每個通道,并使用共享的模型 F 獨立地對每個子任務(wù)進行建模。
為了測試 VTM ,研究員們還特別構(gòu)建了 Taskonomy 數(shù)據(jù)集的一個變種,從而模擬未見過的密集預(yù)測任務(wù)的小樣本學習。Taskonomy 包含各種標注過的室內(nèi)圖像,研究員們從中選擇了十個具有不同語義和輸出維度的密集預(yù)測任務(wù),將其分為五部分用于交叉驗證。在每個拆分方式中,兩個任務(wù)用于小樣本評估(T_test),其余八個任務(wù)用于訓(xùn)練(T_train)。研究員們仔細構(gòu)造了分區(qū),使得訓(xùn)練和測試任務(wù)彼此有足夠的差異,例如將邊緣任務(wù)(TE,OE)分組為測試任務(wù),以便對新語義的任務(wù)進行評估。

表1:在 Taskonomy 數(shù)據(jù)集上的定量比較( Few-shot 基線在訓(xùn)練了來自其他分區(qū)的任務(wù)后,在需測試的分區(qū)任務(wù)上進行了 10-shot 學習,其中完全監(jiān)督的基線在每個 fold(DPT)或所有 fold(InvPT)上訓(xùn)練和評估了任務(wù))
表1和圖2分別定量與定性地展示了 VTM 和兩類基線模型在十個密集預(yù)測任務(wù)上的小樣本學習性能。其中,DPT 和 InvPT 是兩種最先進的監(jiān)督學習方法,DPT 可獨立地針對每個單一任務(wù)進行訓(xùn)練,而 InvPT 則可以聯(lián)合訓(xùn)練所有任務(wù)。由于在 VTM 之前還沒有針對通用密集預(yù)測任務(wù)開發(fā)的專用小樣本方法,因此研究員們將 VTM 與三種最先進的小樣本分割方法,即 DGPNet、HSNet 和 VAT,進行對比,并把它們拓展到處理密集預(yù)測任務(wù)的一般標簽空間。VTM 在訓(xùn)練期間沒有訪問測試任務(wù) T_test,并且僅在測試時使用了少量(10張)的標記圖像,但它卻在所有小樣本基線模型中表現(xiàn)得最好,并且在許多任務(wù)中的表現(xiàn)都具備與全監(jiān)督基線模型比較的競爭力。

圖2:在 Taskonomy 的十個密集預(yù)測任務(wù)中,在新任務(wù)上僅提供十張標記圖像的小樣本學習方法的定性比較。在其他方法失敗的情況下, VTM 成功地學習了所有具有不同語義和不同標簽表示的新任務(wù)。
在圖2中,虛線上方的分別是真實標簽和兩種監(jiān)督學習方法 DPT 和 InvPT。虛線下方的是小樣本學習方法。值得注意的是,其他小樣本基線在新任務(wù)上出現(xiàn)了災(zāi)難性的欠擬合,而 VTM 成功地學習了所有任務(wù)。實驗說明,VTM 可以在極少量的標記示例(<0.004%的完全監(jiān)督)上現(xiàn)表現(xiàn)出與完全監(jiān)督基線類似的競爭力,并能夠在相對較少的附加數(shù)據(jù)(0.1%的完全監(jiān)督)下縮小與監(jiān)督方法的差距,甚至實現(xiàn)反超。
總結(jié)來說,盡管 VTM 的底層思路非常簡單,但它具有統(tǒng)一的體系結(jié)構(gòu),可用于任意密集預(yù)測任務(wù),因為匹配算法本質(zhì)上包含所有任務(wù)和標簽結(jié)構(gòu)(例如,連續(xù)或離散)。此外,VTM 僅引入了少量的任務(wù)特定參數(shù),就能具備抗過擬合性與靈活性。未來研究員們希望進一步探究預(yù)訓(xùn)練過程中的任務(wù)類型、數(shù)據(jù)量、以及數(shù)據(jù)分布對模型泛化性能的影響,從而幫助我們構(gòu)建一個真正普適的小樣本學習器。















 
 
 












 
 
 
 