偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準確率提升17.3%

新聞 人工智能
清華大學(xué)孫茂松團隊提出了一個全新的微調(diào)框架CPT,用顏色來遮蔽、融合圖像和語言,準確率提升17.3%,標準差降低73.8%!

 [[428133]]

預(yù)訓(xùn)練模型在計算機視覺和語言上都取得了顯著成果,但這些語言模型有一個大問題就是訓(xùn)練過程和推理過程不匹配。清華大學(xué)孫茂松團隊提出了一個全新的微調(diào)框架CPT,用顏色來遮蔽、融合圖像和語言,準確率提升17.3%,標準差降低73.8%!

預(yù)先訓(xùn)練的視覺語言模型(Pre-Trained Vision-Language Models, VL-PTM)能夠同時處理語言和視覺上的信息,也是完成各種多模態(tài)任務(wù)的基礎(chǔ)模型。

但模型的預(yù)訓(xùn)練和微調(diào)之間存在著巨大的差距,在預(yù)訓(xùn)練期間,大多數(shù)VL PTM都是基于mask language modeling目標進行優(yōu)化的,主要任務(wù)就是在屏蔽的詞中從跨模態(tài)上下文中恢復(fù)。

然而,在微調(diào)過程中,下游任務(wù)通常是通過將未屏蔽token的表示分類到語義標簽來完成的,在語義標簽中通常會引入特定任務(wù)的參數(shù)。這種差別阻礙了VL PTM對下游任務(wù)的適應(yīng)性,因此需要大量的標記數(shù)據(jù)來優(yōu)化VL-PTM對下游任務(wù)的視覺基礎(chǔ)能力。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準確率提升17.3%

針對這個問題,清華大學(xué)的研究人員提出了一個新模型跨模態(tài)提示調(diào)節(jié)(Cross-Modal Prompt Tuning, CPT),也可以稱為Colorful Prompt Tuning。CPT是一種調(diào)整VL-PTM參數(shù)的新范式,關(guān)鍵點在于通過在圖像和文本中添加基于顏色的共同參照標記,視覺基礎(chǔ)可以重新形成填補空白的問題,最大限度地減少預(yù)訓(xùn)練和微調(diào)之間的差距。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準確率提升17.3%

為了在圖像數(shù)據(jù)中使用自然語言表達式,CPT由兩個組件組成:(1)一個視覺子提示(visual sub-prompt),用顏色塊唯一地標記圖像區(qū)域;(2)一個文本子提示(textual sub-prompt),將查詢文本放入基于顏色的查詢模板中。然后,通過從查詢模板中的屏蔽標記恢復(fù)相應(yīng)的彩色文本,可以實現(xiàn)目標圖像區(qū)域的顯式定位。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準確率提升17.3%

論文的作者是孫茂松教授,目前任清華大學(xué)人工智能研究院常務(wù)副院長、清華大學(xué)計算機學(xué)位評定分委員會主席、教育部在線教育研究中心副主任、清華大學(xué)大規(guī)模在線開放教育研究中心主任。曾任清華大學(xué)計算機系主任、黨委書記。研究方向為自然語言理解、中文信息處理、Web智能、社會計算和計算教育學(xué)等。

[[428134]]

配備CPT后,VL-PTMs可以在沒有任何標記數(shù)據(jù)的情況下執(zhí)行zero-shot visual grouding,因為VL PTMs在訓(xùn)練前已經(jīng)很好地學(xué)習(xí)了顏色的跨模態(tài)表示及其與其他概念(例如,對象、屬性和關(guān)系)的組合。

當(dāng)有幾個或全部標記的實例可用時,CPT可以根據(jù)基于熵的目標函數(shù)對VL PTM進行進一步調(diào)整。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準確率提升17.3%

雖然通過基于顏色的提示將圖像和文本連接起來看著很好用,但研究人員仍然發(fā)現(xiàn)了其中兩個關(guān)鍵問題:(1)如何確定顏色集C的配置;(2)如何使用有限的預(yù)訓(xùn)練顏色處理圖像區(qū)域的數(shù)量。

解決方法有跨模式提示搜索(Cross-modal Prompt Search)。以前在文本提示調(diào)優(yōu)方面的工作表明,提示配置(例如,文本模板)對性能有重大影響。這篇文章也是對搜索跨模態(tài)提示配置(即顏色集C)進行的首次研究。

直觀地說,C應(yīng)該由VL PTM最敏感的顏色組成。為了獲得顏色,一種簡單的方法是采用預(yù)訓(xùn)練文本中最常見的顏色文本,其標準RGB作為civ。但該解決方案是次優(yōu)的,因為這種方法在確定彩色文本時不考慮其視覺外觀,并且真實圖像中顏色的視覺外觀通常與其標準RGB不同。

所以在跨模式提示搜索中,首先確定一個全彩色文本的候選集。對于RGB空間中的每個可能顏色,將純色塊與文本子提示連接到VL PTMs中:[CLS] a photo in [MASK] color. [SEP]。然后為每個候選顏色文本獲得記錄分數(shù)。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準確率提升17.3%

記錄得分越大,表明cv和cw之間的相關(guān)性越高,并且刪除了在任何顏色視覺外觀中都沒有排名靠前的顏色文本。最后對于每個剩余的彩色文本,其視覺外觀由最大色彩確定,并且實驗結(jié)果顯示得到的顏色配置明顯優(yōu)于原始的顏色配置。

圖像區(qū)域批處理(Image Region Batching)。在視覺基礎(chǔ)中,圖像中區(qū)域建議的數(shù)量通常超過顏色集合C的大小(∼ 10)。此外,嚴重重疊的色塊會阻礙視覺基礎(chǔ),因此需要將圖像區(qū)域分為多個批次,每個批次包含少量中度重疊的圖像區(qū)域,并分別使用視覺子提示標記每個批次。為了處理不包含目標區(qū)域的批,在解碼詞匯表中進一步引入了一個新的候選文本none,表示批中沒有目標區(qū)域。

實驗結(jié)果表明,提示微調(diào)后的 VL-PTM的性能大大優(yōu)于微調(diào)后的PTM,

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準確率提升17.3%

1、CPT在zero-shot 和few-shot 設(shè)置下比隨機基線和強微調(diào)基線有很大的優(yōu)勢(例如,在RefCOCO評估中,one-shot 的絕對準確度平均提高17.3%)。不同的數(shù)據(jù)集和不同的訓(xùn)練次數(shù)之間的改進是一致的。這表明CPT可以有效地提高VL PTM調(diào)諧的數(shù)據(jù)效率,并刺激VL PTM的視覺接地能力。

2、值得注意的是,與微調(diào)相比,CPT實現(xiàn)的標準偏差要小得多(例如,在RefCOCO評估中,一次試驗平均降低73.8%的相對標準偏差)。這表明,來自預(yù)訓(xùn)練的連貫的調(diào)節(jié)方法可以導(dǎo)致更穩(wěn)定的few-shot 訓(xùn)練,這也是評估少鏡頭學(xué)習(xí)模型的關(guān)鍵因素。

3、可以注意到,在RefCOCO+評估中,CPT的微調(diào)性能稍遜于16 shots。原因是Ref-COCO+有更多基于顏色的表達(例如,穿著紅襯衫和藍帽子的人),這可能會干擾基于顏色的CPT。然而,在完全監(jiān)督的場景中,通過更多的調(diào)優(yōu)實例可以緩解這個問題,模型可以學(xué)習(xí)更好地區(qū)分查詢文本和提示模板中的顏色。

4、在完全監(jiān)督的設(shè)置下,CPT實現(xiàn)了與強微調(diào)VL PTM相當(dāng)?shù)男阅?。結(jié)果表明,即使在完全監(jiān)督的情況下,CPT也是VL-PTM的一種競爭性調(diào)優(yōu)方法??傊?,與普通的微調(diào)方法相比,CPT在zero-shot、few-shot和完全監(jiān)督的視覺方面實現(xiàn)了優(yōu)越/可比且更穩(wěn)定的性能。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-11-18 11:15:34

計算機AI技術(shù)

2021-07-08 15:39:50

機器學(xué)習(xí)人工智能計算

2024-01-03 12:31:09

2024-03-01 13:31:21

2021-11-01 10:40:15

機器學(xué)習(xí)人工智能計算機

2023-09-01 14:06:00

模型AI

2019-01-29 10:27:27

量子計算機芯片超算

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2025-10-23 09:02:12

2025-10-20 00:00:00

2023-12-01 10:20:00

谷歌技術(shù)

2023-03-03 18:31:23

網(wǎng)絡(luò)承運商路由

2023-12-12 13:51:00

AI訓(xùn)練

2023-05-04 07:39:33

2025-05-19 08:30:00

2024-12-26 15:30:00

模型深度學(xué)習(xí)AI

2021-04-26 14:58:20

AI 數(shù)據(jù)人工智能

2024-10-15 12:53:23

2025-07-08 09:10:00

2020-06-08 13:00:33

開源技術(shù) 軟件
點贊
收藏

51CTO技術(shù)棧公眾號