模態(tài)編碼器 | 超強(qiáng)開(kāi)源CLIP模型OpenCLIP

來(lái)自LAION、UC伯克利、HuggingFace等的工作,這篇工作的研究動(dòng)機(jī)也很簡(jiǎn)單,CLIP 模型在多模態(tài)領(lǐng)域展現(xiàn)出了巨大潛力,但原始 CLIP 模型未完全開(kāi)源,限制了其更廣泛的應(yīng)用和深入研究。OpenCLIP 旨在通過(guò)開(kāi)源的方式,讓更多開(kāi)發(fā)者能夠無(wú)門(mén)檻地利用這一先進(jìn)模型,推動(dòng)多模態(tài)技術(shù)在各個(gè)領(lǐng)域的應(yīng)用和發(fā)展。

模型架構(gòu)和原始CLIP無(wú)異,下面簡(jiǎn)單介紹這篇工作中的一些研究規(guī)律和實(shí)驗(yàn)結(jié)果。
01、方法介紹
這篇工作最大的貢獻(xiàn)是CLIP中擴(kuò)展規(guī)律研究:通過(guò)訓(xùn)練包含數(shù)十億圖像文本對(duì)的數(shù)據(jù)集上的CLIP模型,識(shí)別出多個(gè)下游任務(wù)(如零樣本分類、檢索、線性探測(cè)和端到端微調(diào))中的冪律擴(kuò)展規(guī)律。

- 冪律關(guān)系:在兩個(gè)任務(wù)中,模型性能隨計(jì)算量的增加都遵循冪律關(guān)系。這意味著性能的提升并不是線性的,而是隨著計(jì)算量的增加而逐漸減緩。
- 數(shù)據(jù)量的影響:增加數(shù)據(jù)量對(duì)性能提升有顯著影響。特別是在數(shù)據(jù)量較小的情況下,增加數(shù)據(jù)量可以顯著提高性能。
- 模型規(guī)模的影響:更大的模型通常能夠從更多的數(shù)據(jù)中受益,表現(xiàn)出更好的性能。然而,當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后,模型規(guī)模的增加對(duì)性能提升的效果會(huì)逐漸減弱。
- 任務(wù)差異:在零樣本分類任務(wù)中,OpenAI的CLIP模型表現(xiàn)更好;而在零樣本檢索任務(wù)中,OpenCLIP模型表現(xiàn)更優(yōu)。這表明不同的任務(wù)可能對(duì)模型和數(shù)據(jù)有不同的需求。
02、模型訓(xùn)練
- 模型規(guī)模:選擇了幾種不同規(guī)模的CLIP架構(gòu),包括ViT-B/32、ViT-B/16、ViT-L/14、ViT-H/14和ViT-g/14作為視覺(jué)編碼器。
- 數(shù)據(jù)規(guī)模:使用了LAION-80M(LAION-400M的子集)、LAION-400M和LAION-2B三個(gè)不同的數(shù)據(jù)集。
- 訓(xùn)練樣本數(shù)量:訓(xùn)練過(guò)程中使用的樣本數(shù)量分別為30億、130億和340億。
03、實(shí)驗(yàn)結(jié)果
零樣本遷移和魯棒性
模型規(guī)模的影響:隨著模型規(guī)模的增加,零樣本分類性能持續(xù)提升。下圖顯示了不同模型規(guī)模下的零樣本分類準(zhǔn)確率,可以看到,模型規(guī)模越大,準(zhǔn)確率越高。
隨著模型規(guī)模和數(shù)據(jù)量的增加,模型在這些魯棒性基準(zhǔn)數(shù)據(jù)集上的性能也有所提升,尤其是在復(fù)雜的噪聲和擾動(dòng)條件下。

- 數(shù)據(jù)量的影響:增加訓(xùn)練數(shù)據(jù)量也能顯著提高零樣本分類性能。表16展示了不同數(shù)據(jù)量下的VTAB零樣本分類結(jié)果,可以看出,使用更大的數(shù)據(jù)集(如LAION-2B)可以顯著提升模型在多個(gè)任務(wù)上的表現(xiàn)。
圖像檢索
模型規(guī)模的影響:隨著模型規(guī)模的增加,圖像檢索性能持續(xù)提升。下圖顯示了不同模型規(guī)模下的圖像檢索性能,可以看到,模型規(guī)模越大,檢索效果越好。

數(shù)據(jù)量的影響:增加訓(xùn)練數(shù)據(jù)量也能顯著提高圖像檢索性能。下表展示了不同數(shù)據(jù)量下的MS-COCO和Flickr30K圖像檢索結(jié)果,可以看出,使用更大的數(shù)據(jù)集(如LAION-2B)可以顯著提升模型的檢索性能。



linear probing
模型規(guī)模的影響:隨著模型規(guī)模的增加,線性探測(cè)的性能持續(xù)提升。圖2和圖3展示了不同模型規(guī)模下的線性探測(cè)結(jié)果,可以看到,模型規(guī)模越大,線性探測(cè)的準(zhǔn)確率越高。

- 數(shù)據(jù)量的影響:增加訓(xùn)練數(shù)據(jù)量也能顯著提高線性探測(cè)性能。表5展示了不同數(shù)據(jù)量下的線性探測(cè)結(jié)果,可以看出,使用更大的數(shù)據(jù)集(如LAION-2B)可以顯著提升模型的線性探測(cè)性能。

微調(diào)
使用預(yù)訓(xùn)練的CLIP模型作為初始化,然后在ImageNet數(shù)據(jù)集上進(jìn)行端到端微調(diào)
模型規(guī)模的影響:隨著模型規(guī)模的增加,端到端微調(diào)的性能持續(xù)提升。下圖展示了不同模型規(guī)模下的端到端微調(diào)結(jié)果,可以看到,模型規(guī)模越大,微調(diào)后的準(zhǔn)確率越高。

數(shù)據(jù)量的影響:增加訓(xùn)練數(shù)據(jù)量也能顯著提高端到端微調(diào)性能。使用更大的數(shù)據(jù)集(如LAION-2B)可以顯著提升模型的微調(diào)性能。
04、總結(jié)
作為 CLIP 模型的開(kāi)源實(shí)現(xiàn),在更大的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,具有更多的模型參數(shù),并且提供了更多的模型架構(gòu)選擇,總結(jié)出對(duì)比圖像語(yǔ)言模型的縮放定律,為多模態(tài)領(lǐng)域的研究和開(kāi)發(fā)提供了重要資源。其基于 Transformer 架構(gòu)和對(duì)比學(xué)習(xí)方法,讓模型能夠有效學(xué)習(xí)圖像與文本之間的關(guān)聯(lián),推動(dòng)了多模態(tài)技術(shù)的發(fā)展。






































