清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準確率提升17.3%
預(yù)訓(xùn)練模型在計算機視覺和語言上都取得了顯著成果,但這些語言模型有一個大問題就是訓(xùn)練過程和推理過程不匹配。清華大學(xué)孫茂松團隊提出了一個全新的微調(diào)框架CPT,用顏色來遮蔽、融合圖像和語言,準確率提升17.3%,標準差降低73.8%!
預(yù)先訓(xùn)練的視覺語言模型(Pre-Trained Vision-Language Models, VL-PTM)能夠同時處理語言和視覺上的信息,也是完成各種多模態(tài)任務(wù)的基礎(chǔ)模型。
但模型的預(yù)訓(xùn)練和微調(diào)之間存在著巨大的差距,在預(yù)訓(xùn)練期間,大多數(shù)VL PTM都是基于mask language modeling目標進行優(yōu)化的,主要任務(wù)就是在屏蔽的詞中從跨模態(tài)上下文中恢復(fù)。
然而,在微調(diào)過程中,下游任務(wù)通常是通過將未屏蔽token的表示分類到語義標簽來完成的,在語義標簽中通常會引入特定任務(wù)的參數(shù)。這種差別阻礙了VL PTM對下游任務(wù)的適應(yīng)性,因此需要大量的標記數(shù)據(jù)來優(yōu)化VL-PTM對下游任務(wù)的視覺基礎(chǔ)能力。

針對這個問題,清華大學(xué)的研究人員提出了一個新模型跨模態(tài)提示調(diào)節(jié)(Cross-Modal Prompt Tuning, CPT),也可以稱為Colorful Prompt Tuning。CPT是一種調(diào)整VL-PTM參數(shù)的新范式,關(guān)鍵點在于通過在圖像和文本中添加基于顏色的共同參照標記,視覺基礎(chǔ)可以重新形成填補空白的問題,最大限度地減少預(yù)訓(xùn)練和微調(diào)之間的差距。

為了在圖像數(shù)據(jù)中使用自然語言表達式,CPT由兩個組件組成:(1)一個視覺子提示(visual sub-prompt),用顏色塊唯一地標記圖像區(qū)域;(2)一個文本子提示(textual sub-prompt),將查詢文本放入基于顏色的查詢模板中。然后,通過從查詢模板中的屏蔽標記恢復(fù)相應(yīng)的彩色文本,可以實現(xiàn)目標圖像區(qū)域的顯式定位。

論文的作者是孫茂松教授,目前任清華大學(xué)人工智能研究院常務(wù)副院長、清華大學(xué)計算機學(xué)位評定分委員會主席、教育部在線教育研究中心副主任、清華大學(xué)大規(guī)模在線開放教育研究中心主任。曾任清華大學(xué)計算機系主任、黨委書記。研究方向為自然語言理解、中文信息處理、Web智能、社會計算和計算教育學(xué)等。
配備CPT后,VL-PTMs可以在沒有任何標記數(shù)據(jù)的情況下執(zhí)行zero-shot visual grouding,因為VL PTMs在訓(xùn)練前已經(jīng)很好地學(xué)習(xí)了顏色的跨模態(tài)表示及其與其他概念(例如,對象、屬性和關(guān)系)的組合。
當(dāng)有幾個或全部標記的實例可用時,CPT可以根據(jù)基于熵的目標函數(shù)對VL PTM進行進一步調(diào)整。

雖然通過基于顏色的提示將圖像和文本連接起來看著很好用,但研究人員仍然發(fā)現(xiàn)了其中兩個關(guān)鍵問題:(1)如何確定顏色集C的配置;(2)如何使用有限的預(yù)訓(xùn)練顏色處理圖像區(qū)域的數(shù)量。
解決方法有跨模式提示搜索(Cross-modal Prompt Search)。以前在文本提示調(diào)優(yōu)方面的工作表明,提示配置(例如,文本模板)對性能有重大影響。這篇文章也是對搜索跨模態(tài)提示配置(即顏色集C)進行的首次研究。
直觀地說,C應(yīng)該由VL PTM最敏感的顏色組成。為了獲得顏色,一種簡單的方法是采用預(yù)訓(xùn)練文本中最常見的顏色文本,其標準RGB作為civ。但該解決方案是次優(yōu)的,因為這種方法在確定彩色文本時不考慮其視覺外觀,并且真實圖像中顏色的視覺外觀通常與其標準RGB不同。
所以在跨模式提示搜索中,首先確定一個全彩色文本的候選集。對于RGB空間中的每個可能顏色,將純色塊與文本子提示連接到VL PTMs中:[CLS] a photo in [MASK] color. [SEP]。然后為每個候選顏色文本獲得記錄分數(shù)。

記錄得分越大,表明cv和cw之間的相關(guān)性越高,并且刪除了在任何顏色視覺外觀中都沒有排名靠前的顏色文本。最后對于每個剩余的彩色文本,其視覺外觀由最大色彩確定,并且實驗結(jié)果顯示得到的顏色配置明顯優(yōu)于原始的顏色配置。
圖像區(qū)域批處理(Image Region Batching)。在視覺基礎(chǔ)中,圖像中區(qū)域建議的數(shù)量通常超過顏色集合C的大小(∼ 10)。此外,嚴重重疊的色塊會阻礙視覺基礎(chǔ),因此需要將圖像區(qū)域分為多個批次,每個批次包含少量中度重疊的圖像區(qū)域,并分別使用視覺子提示標記每個批次。為了處理不包含目標區(qū)域的批,在解碼詞匯表中進一步引入了一個新的候選文本none,表示批中沒有目標區(qū)域。
實驗結(jié)果表明,提示微調(diào)后的 VL-PTM的性能大大優(yōu)于微調(diào)后的PTM,

1、CPT在zero-shot 和few-shot 設(shè)置下比隨機基線和強微調(diào)基線有很大的優(yōu)勢(例如,在RefCOCO評估中,one-shot 的絕對準確度平均提高17.3%)。不同的數(shù)據(jù)集和不同的訓(xùn)練次數(shù)之間的改進是一致的。這表明CPT可以有效地提高VL PTM調(diào)諧的數(shù)據(jù)效率,并刺激VL PTM的視覺接地能力。
2、值得注意的是,與微調(diào)相比,CPT實現(xiàn)的標準偏差要小得多(例如,在RefCOCO評估中,一次試驗平均降低73.8%的相對標準偏差)。這表明,來自預(yù)訓(xùn)練的連貫的調(diào)節(jié)方法可以導(dǎo)致更穩(wěn)定的few-shot 訓(xùn)練,這也是評估少鏡頭學(xué)習(xí)模型的關(guān)鍵因素。
3、可以注意到,在RefCOCO+評估中,CPT的微調(diào)性能稍遜于16 shots。原因是Ref-COCO+有更多基于顏色的表達(例如,穿著紅襯衫和藍帽子的人),這可能會干擾基于顏色的CPT。然而,在完全監(jiān)督的場景中,通過更多的調(diào)優(yōu)實例可以緩解這個問題,模型可以學(xué)習(xí)更好地區(qū)分查詢文本和提示模板中的顏色。
4、在完全監(jiān)督的設(shè)置下,CPT實現(xiàn)了與強微調(diào)VL PTM相當(dāng)?shù)男阅?。結(jié)果表明,即使在完全監(jiān)督的情況下,CPT也是VL-PTM的一種競爭性調(diào)優(yōu)方法??傊?,與普通的微調(diào)方法相比,CPT在zero-shot、few-shot和完全監(jiān)督的視覺方面實現(xiàn)了優(yōu)越/可比且更穩(wěn)定的性能。

































