謝賽寧團隊新作打破“多語言詛咒”!MetaCLIP 2支持300多種語言,英語性能反倒提升了
謝賽寧團隊新作正在引起熱議!
一直以來,作為文生圖基石的CLIP模型主要基于英文數(shù)據(jù)訓練,但實際上,全球互聯(lián)網(wǎng)仍有超過50%的非英文數(shù)據(jù)。
為了將CLIP模型進一步擴展,研究人員需要搞定兩大“攔路虎”:
- 缺乏處理非英語數(shù)據(jù)的篩選方法;
- 現(xiàn)有多語言CLIP的英語性能比純英語版本差(即所謂的“多語言詛咒”)。
而謝賽寧團隊正是在這兩方面取得突破。他們提出了首個基于全球數(shù)據(jù)從頭訓練的CLIP——MetaCLIP 2,通過擴展元數(shù)據(jù)、優(yōu)化篩選和提升模型容量,斬獲了以下成果:
- 搭建了能處理300多種語言的CLIP數(shù)據(jù)整理流程。
- 打破了“多語言詛咒”,不僅沒有影響英語任務的表現(xiàn),而且反倒還提升了。
論文一作Yung-Sung Chuang(MIT博士生、現(xiàn)Meta實習生)激動表示:
是時候告別語言過濾器了!

剛被小扎從OpenAI挖走的Lucas Beyer也出來對這一觀點表示認同,順帶還感謝了論文中的引用:
很高興看到我們提出并始終倡導的“NoFilter”理念能在MetaCLIP 2中得到應用。
這就是正確的道路!

這也引來了謝賽寧本人的回應:
早在MetaCLIP中,團隊的目標也是NoFilter(與其搞復雜過濾,不如相信原始數(shù)據(jù)的價值)。
我也認為NoFilter才是正道。

下面詳細來看MetaCLIP 2所采用的方法。
基于MetaCLIP,進一步優(yōu)化結構和流程
概括而言,為了讓CLIP模型能從全球數(shù)據(jù)中學習,MetaCLIP 2采用了三大關鍵創(chuàng)新:
- 構建全球元數(shù)據(jù)
- 實施全球篩選算法
- 構建全球模型的訓練框架

開始之前,論文先回顧了原始MetaCLIP所采用的思路。
簡單說,其篩選邏輯主要分三步:
- 從英語WordNet、維基百科提取50萬個 “視覺概念”,組成元數(shù)據(jù)列表M;
- 用這些概念匹配圖像-文本對的描述文字(逐個檢查文本里的內容,看能否匹配到M里的詞條);
- 設定一個閾值t,通過 “平衡機制”(控制頭部/尾部概念的比例)篩選數(shù)據(jù),確?!柏垺薄肮贰边@類常見概念和“深海生物”“小眾建筑”這類少見概念分布合理。
順便一提,OpenAI CLIP將t設置為20k,而MetaCLIP為了適配十億級英語數(shù)據(jù),把t調高到170k ,讓平衡策略更適合大規(guī)模數(shù)據(jù)。
而MetaCLIP 2,正是在英文MetaCLIP的基礎上,進一步優(yōu)化了架構和流程。
這第一步非常簡單,無非是將之前的元數(shù)據(jù)擴展到300多種語言。
具體而言,它現(xiàn)在包含了多語言的WordNet和各國維基百科的詞匯,有點像給每種語言都編了一套 “視覺概念詞典”。
然后用算法給每種語言“量身篩數(shù)據(jù)”。
先是識別文字是哪種語言,再用對應語言的“字典”去匹配圖像-文字對。
同時給每種語言設立單獨的篩選標準(比如控制“常見概念”和“少見概念”的比例),確保每種語言的數(shù)據(jù)分布合理,不會出現(xiàn)某類內容過多的情況。
下圖為MetaCLIP 2篩選全球多語言圖像-文本對的偽代碼(用Python/NumPy風格編寫):

最后再調整訓練策略,避免“顧此失彼”。
一方面,鑒于全球數(shù)據(jù)變多了,所以團隊按比例增加了訓練時“見過的樣本量”(比如擴大2.3倍),保證英語樣本量不減少。
另一方面,團隊發(fā)現(xiàn)模型大小很關鍵——小一點的模型(如ViT-L/14)還會受“多語言詛咒”,但大一點的ViT-H/14能打破詛咒,讓英語和非英語能力一起提升。

p.s. 大語言模型中的“多語言詛咒”是指,當模型在多語言數(shù)據(jù)上進行訓練時,出現(xiàn)某些特定語言(尤其是原本表現(xiàn)較好的語言,如英語 )性能下降的現(xiàn)象。
采用以上數(shù)據(jù)篩選方法,MetaCLIP 2與NoFilter理念形成了深度協(xié)同——篩選邏輯的本質從“語言過濾”(如直接排除非英語數(shù)據(jù))轉向“概念平衡”,從“排除數(shù)據(jù)”(如用單一標準排除數(shù)據(jù))轉向“優(yōu)化分布”。
多語言任務創(chuàng)下新SOTA,還打破了“多語言詛咒”
為了驗證方法的有效性,團隊基于全網(wǎng)公開數(shù)據(jù)(英語占44%,非英語占56%)進行了實驗。
訓練配置上,團隊基本沿用OpenAI CLIP/MetaCLIP的參數(shù),僅調整樣本量(如ViT-H/14用290億樣本)和模型容量。
實驗結果顯示,MetaCLIP 2在多項測試中表現(xiàn)亮眼:
首先,它打破了大語言模型領域存在的“多語言詛咒”,證明學了非英語數(shù)據(jù)后,英語能力不僅沒有下降,甚至反而變強了。
例如,它在ImageNet識別日常物品上準確率達到81.3%,超過純英語CLIP的80.5%。

其次,它在多語言測試中(如用280種語言給圖片分類、跨36種語言搜圖),成績遠超之前的mSigLIP、SigLIP 2等模型。
還是上面這張圖,它在Babel-ImageNet多語言圖像分類任務里,取得了50.2%的準確率;在XM3600圖像到文本檢索任務中,檢索匹配的準確率達到64.3%。
更有意思的是,MetaCLIP 2不僅更懂“文化多樣性”,而且嵌入質量也更優(yōu)。
一方面,它在文化多樣性任務(如地理定位)上表現(xiàn)更優(yōu),如在Dollar Street、GLDv2等數(shù)據(jù)集上,全球數(shù)據(jù)訓練的模型準確率顯著高于純英語或純非英語模型。

另一方面,它在對齊性(圖像-文本相關性)和均勻性(視覺嵌入分布)上的得分同樣更優(yōu)。

劃重點,目前相關數(shù)據(jù)和代碼均已開源了~
論文:https://arxiv.org/abs/2507.22062
代碼地址:https://github.com/facebookresearch/MetaCLIP




























