模態(tài)編碼器 | 最強(qiáng)CLIP模型EVA-CLIP-18B

來(lái)自智源王鑫龍團(tuán)隊(duì)的工作,將EVA-CLIP模型參數(shù)擴(kuò)展至18B,簡(jiǎn)單看下結(jié)果,EVA-CLIP-18B性能遠(yuǎn)超其他模型。
項(xiàng)目地址:https://github.com/baaivision/EVA
這篇工作的研究動(dòng)機(jī)旨在解決當(dāng)前多模態(tài)模型發(fā)展中的兩個(gè)關(guān)鍵問(wèn)題。首先,隨著大型語(yǔ)言模型(LLMs)參數(shù)量的增長(zhǎng)至千億級(jí)別,與其配套的視覺(jué)基礎(chǔ)模型卻未能同步擴(kuò)展,這種不對(duì)等限制了多模態(tài)應(yīng)用的整體效能。其次,現(xiàn)有的頂級(jí)CLIP模型雖然在特定任務(wù)中表現(xiàn)出色,但它們依賴難以獲取的大規(guī)模內(nèi)部數(shù)據(jù)集進(jìn)行訓(xùn)練,并且在零樣本學(xué)習(xí)等挑戰(zhàn)性任務(wù)上的表現(xiàn)還有待提高。
01、方法介紹

這篇論文最大的核心貢獻(xiàn)是提出了一種“弱到強(qiáng)”(weak-to-strong)的視覺(jué)模型縮放方法,通過(guò)逐步增大的模型規(guī)模來(lái)持續(xù)提升視覺(jué)模型的性能。這種方法的核心思想是從一個(gè)較小的初始模型開(kāi)始,逐步訓(xùn)練更大的模型,從而實(shí)現(xiàn)性能的穩(wěn)步提升。
簡(jiǎn)單來(lái)說(shuō),從一個(gè)大的EVA視覺(jué)模型開(kāi)始,它從一個(gè)小的EVA-CLIP模型中提取知識(shí),然后這個(gè)小模型作為視覺(jué)編碼器初始化,以穩(wěn)定和加速更大EVA-CLIP模型的訓(xùn)練。之后,閉環(huán)擴(kuò)展循環(huán)繼續(xù)進(jìn)行,從中提取出更大的EVA模型。在整個(gè)模型擴(kuò)展周期中,訓(xùn)練數(shù)據(jù)集保持相對(duì)固定,以展示特定于模型規(guī)模擴(kuò)展的有效性。
- 初始模型的選擇
小模型作為教師:選擇了一個(gè)較小的EVA-CLIP模型(EVA-02-CLIP-E/14+)作為教師模型。這個(gè)小模型經(jīng)過(guò)預(yù)訓(xùn)練,能夠生成高質(zhì)量的圖像-文本對(duì)齊特征。
大模型作為學(xué)生:使用一個(gè)較大的EVA模型(EVA-18B)作為學(xué)生模型,通過(guò)知識(shí)蒸餾(knowledge distillation)從教師模型中學(xué)習(xí)。 - 訓(xùn)練過(guò)程
大模型(EVA-18B)通過(guò)重建小模型(EVA-02-CLIP-E/14+)生成的掩碼圖像-文本對(duì)齊特征來(lái)進(jìn)行訓(xùn)練。這種訓(xùn)練方式有助于大模型學(xué)習(xí)到小模型中的關(guān)鍵特征,同時(shí)避免過(guò)擬合。小模型生成的特征用于初始化大模型的視覺(jué)編碼器,這有助于穩(wěn)定和加速大模型的訓(xùn)練過(guò)程。
隨后,利用EVA模型作為EVA-CLIP預(yù)訓(xùn)練的視覺(jué)編碼器初始化,使用圖像-文本對(duì)比學(xué)習(xí)目標(biāo)訓(xùn)練。 - 循環(huán)縮放
在訓(xùn)練完一個(gè)較大規(guī)模的模型后,可以將其用作下一個(gè)更大模型的教師模型,繼續(xù)進(jìn)行知識(shí)蒸餾。這一過(guò)程形成了一個(gè)閉環(huán)的縮放循環(huán),逐步提升模型的性能。 - 數(shù)據(jù)集
EVA-CLIP-18B基于公開(kāi)可用的數(shù)據(jù)集LAION-2B和COYO-700M進(jìn)行訓(xùn)練,這些數(shù)據(jù)集的規(guī)模遠(yuǎn)小于其他最先進(jìn)CLIP模型所使用的內(nèi)部數(shù)據(jù)集(如DFN-5B和WebLI-10B)。
02、實(shí)驗(yàn)結(jié)果
零樣本圖像分類
EVA-CLIP在所有27個(gè)零樣本圖像分類基準(zhǔn)測(cè)試中表現(xiàn)出色。EVA-CLIP-18B在所有27個(gè)基準(zhǔn)測(cè)試中平均達(dá)到了80.7%的top-1準(zhǔn)確率。這些結(jié)果顯著優(yōu)于之前最佳的開(kāi)源DFN5B-CLIP-H/14+(提高了+1.5%),以及現(xiàn)有的最大CLIP模型InternVL-C(提高了+2.7%)。

零樣本圖像-文本檢索
EVA-CLIP-18B在所有檢索基準(zhǔn)測(cè)試中平均召回率為87.8%,顯著優(yōu)于其他模型

零樣本視頻分類

魯棒性
通過(guò)擴(kuò)展EVA-CLIP顯著增強(qiáng)了視覺(jué)表示的魯棒性。EVA-CLIP在ImageNet變體(包括對(duì)抗性樣本)之間的性能下降最小

Linear Probing
ImageNet-1K上的線性探測(cè)(Linear Probing)是一種評(píng)估預(yù)訓(xùn)練模型特征提取能力的方法。這個(gè)任務(wù)的目的是測(cè)試一個(gè)模型在沒(méi)有經(jīng)過(guò)特定任務(wù)微調(diào)(fine-tuning)的情況下,直接在一個(gè)新的數(shù)據(jù)集上的表現(xiàn)。
通過(guò)在相同的測(cè)試集上進(jìn)行線性探測(cè),可以比較不同預(yù)訓(xùn)練模型的性能,了解哪個(gè)模型能更好地捕捉到對(duì)后續(xù)任務(wù)有用的特征。

3D表示

消融
視頻數(shù)據(jù):消融研究表明,將視頻數(shù)據(jù)納入訓(xùn)練可以顯著提高模型在視頻分類任務(wù)上的性能,這表明視頻數(shù)據(jù)為模型提供了額外的信息,有助于改善其對(duì)動(dòng)作和事件的理解。
圖像分辨率:提高圖像分辨率可以提升模型的零樣本性能,因?yàn)楦叻直媛实膱D像提供了更多的細(xì)節(jié)信息,有助于模型更好地學(xué)習(xí)和泛化。


03、總結(jié)
很有意思的一篇文章,雖然文章很短,但是從弱到強(qiáng)的視覺(jué)模型縮放思想,對(duì)模型進(jìn)行漸進(jìn)式擴(kuò)展,這種方式不僅模型訓(xùn)練穩(wěn)定并且性能也在持續(xù)提高,非常巧妙一個(gè)訓(xùn)練方法。在大模型時(shí)代,可能非常值得實(shí)驗(yàn)。



































