偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI提出的CLIP,被Meta聯(lián)合謝賽寧、劉壯,擴(kuò)展到全球300+語言

人工智能 新聞
為了實(shí)現(xiàn)真正意義上的全球擴(kuò)展能力,MetaCLIP 2 提出了三項(xiàng)核心創(chuàng)新:首先是元數(shù)據(jù)拓展,將英文 MetaCLIP 使用的元數(shù)據(jù)擴(kuò)展到了 300 多種語言,涵蓋維基百科與多語言 WordNet。

在人工智能領(lǐng)域,對(duì)比語言 - 圖像預(yù)訓(xùn)練(CLIP) 是一種流行的基礎(chǔ)模型,由 OpenAI 提出,支持零樣本分類、檢索等下游任務(wù),并可作為多模態(tài)大語言模型(MLLM)的視覺編碼器。

盡管 CLIP 已經(jīng)成功地在數(shù)十億規(guī)模的英語圖文對(duì)上進(jìn)行了訓(xùn)練,但進(jìn)一步擴(kuò)展到全球范圍內(nèi)的數(shù)據(jù)仍面臨以下兩項(xiàng)挑戰(zhàn):

  • 目前缺少有效的方法來處理非英語世界的數(shù)據(jù);
  • 現(xiàn)有的多語言版本 CLIP 在英語上的表現(xiàn)通常不如只使用英語訓(xùn)練的版本,這種現(xiàn)象在大語言模型中也很常見,被稱為「多語言的詛咒」。

為了解決這些挑戰(zhàn),來自 Meta、MIT、普林斯頓大學(xué)、紐約大學(xué)的研究者提出了 MetaCLIP 2,這是首個(gè)從零開始在原生全球圖文對(duì)上訓(xùn)練 CLIP 的方法,不依賴任何外部資源,包括私有數(shù)據(jù)、機(jī)器翻譯或蒸餾??梢钥吹?,作者中有 AI 圈知名的學(xué)者劉壯和謝賽寧。

實(shí)驗(yàn)證明,CLIP 中的「多語言詛咒」實(shí)際上是由訓(xùn)練規(guī)模不足造成的,而這種不足源于缺乏針對(duì)全球數(shù)據(jù)的有效整理與模型訓(xùn)練策略。研究者發(fā)現(xiàn),當(dāng)元數(shù)據(jù)、數(shù)據(jù)篩選、模型容量與訓(xùn)練方法被共同精心設(shè)計(jì)并進(jìn)行同步擴(kuò)展時(shí),英語與非英語之間的性能權(quán)衡會(huì)消失,并且二者之間能夠?qū)崿F(xiàn)互相促進(jìn)。

這種「全球尺度」的訓(xùn)練方式具有極高的價(jià)值,尤其考慮到英語互聯(lián)網(wǎng)數(shù)據(jù)即將耗盡的背景。

image.png

  • 論文標(biāo)題:MetaCLIP 2: A Worldwide Scaling Recipe 
  • 論文地址:https://arxiv.org/pdf/2507.22062v1
  • GitHub 地址:https://github.com/facebookresearch/MetaCLIP

具體來講,MetaCLIP 2 方法建立在英文版本的 MetaCLIP 基礎(chǔ)之上,并刻意與 OpenAI CLIP 的原始架構(gòu)保持最大程度的一致。這種架構(gòu)上的重合,使得本文的研究發(fā)現(xiàn)可以被更廣泛地應(yīng)用于 CLIP 及其變體,而不僅僅是某些追求 SOTA 的系統(tǒng)性工作,因?yàn)楹笳咄蕾囉诖罅考夹g(shù)組合,涉及混合因素或使用外部資源來比較,而不是專注于 CLIP 本身。

為了實(shí)現(xiàn)真正意義上的全球擴(kuò)展能力,MetaCLIP 2 提出了三項(xiàng)核心創(chuàng)新:首先是元數(shù)據(jù)拓展,將英文 MetaCLIP 使用的元數(shù)據(jù)擴(kuò)展到了 300 多種語言,涵蓋維基百科與多語言 WordNet。其次是數(shù)據(jù)篩選算法,設(shè)計(jì)了按語言劃分的子串匹配與均衡算法,使非英語數(shù)據(jù)的概念分布盡可能接近英文數(shù)據(jù)。最后是訓(xùn)練框架,首次設(shè)計(jì)了全球范圍的 CLIP 訓(xùn)練方案,其中在訓(xùn)練過程中,隨著非英語數(shù)據(jù)量的引入,成比例地增加圖文對(duì)的使用次數(shù),并研究了在全球數(shù)據(jù)規(guī)模下所需的最小可行模型容量。

如下圖 1 所示,雖然 ViT-L/14(OpenAI 使用的最大模型)仍然受到「多語言詛咒」的影響,但更大的 ViT-H/14 模型則打破了這一限制。在 ImageNet 上的英語準(zhǔn)確率從 80.5% 提升到了 81.3%,并且在多語言圖文檢索任務(wù)中也創(chuàng)下了新的 SOTA 成績(XM3600 64.3%、Babel-ImageNet 50.2%、CVQA 57.4%),而這一切幾乎沒有改變 CLIP 的核心架構(gòu)。

image.png

綜合來看,MetaCLIP 2 實(shí)現(xiàn)了多項(xiàng)令人期待的成果。

一,英語與非英語數(shù)據(jù)之間實(shí)現(xiàn)了互利:非英語數(shù)據(jù)能夠更好地增強(qiáng)英語模型的能力,反之亦然,這一點(diǎn)在英語互聯(lián)網(wǎng)數(shù)據(jù)日益枯竭的當(dāng)下尤為關(guān)鍵。

二,完全支持多語言:MetaCLIP 2 從不因語言而丟棄圖文對(duì),模型性能全面超越現(xiàn)有多語言系統(tǒng),如 mSigLIP 和 SigLIP 2。

三,原生語言監(jiān)督:模型直接學(xué)習(xí)來自母語使用者所寫的圖像描述,而非依賴機(jī)器翻譯生成的合成文本。

四,文化多樣性:MetaCLIP 2 保留了全球圖像的完整分布,涵蓋了廣泛的文化和社會(huì)經(jīng)濟(jì)背景,有助于提升地理定位與區(qū)域識(shí)別的能力。

五,無過濾理念:通過面向全球設(shè)計(jì)的數(shù)據(jù)篩選算法,MetaCLIP 2 移除了整個(gè)訓(xùn)練流程中最后一個(gè)語言過濾器(即是否為英文描述),提升了多樣性并減少了人為偏差。

六,基礎(chǔ)數(shù)據(jù)影響力更廣泛:本研究提供了一個(gè)全球規(guī)模的圖文對(duì)基礎(chǔ)數(shù)據(jù)集,不僅有利于 CLIP 本身,也為其他使用 CLIP 數(shù)據(jù)的工作提供了支持,例如多模態(tài)大模型(MLLM)、自監(jiān)督學(xué)習(xí)(如 Web-DINO)以及圖像生成(如 DALL-E 和擴(kuò)散模型)。

論文一作 Yung-Sung Chuang 在社媒 X 上表示,「是時(shí)候舍棄語言過濾器了?!?/span>

image.png

MetaCLIP 2 架構(gòu)算法

擴(kuò)展 CLIP 到原生全球數(shù)據(jù)包含三個(gè)步驟,(1)構(gòu)建全球范圍的元數(shù)據(jù),(2)實(shí)施全球范圍的數(shù)據(jù)篩選算法,以及(3)搭建面向全球模型的訓(xùn)練框架。為了確保方法和結(jié)論具有泛化性,MetaCLIP 2 在設(shè)計(jì)時(shí)盡量與 OpenAI CLIP 和 MetaCLIP 保持一致,僅在必要之處做出調(diào)整,以更好地從全球數(shù)據(jù)中學(xué)習(xí)。 

image.png

世界范圍內(nèi)的元數(shù)據(jù)

本文通過構(gòu)建覆蓋非英語世界所缺失的元數(shù)據(jù),來解決全球規(guī)?;M(jìn)程中的首要挑戰(zhàn)。他們?yōu)槊糠N語言維護(hù)獨(dú)立的元數(shù)據(jù)集,這種設(shè)計(jì)既符合直覺(例如同一個(gè)單詞 mit 在英語和德語中含義不同),又能提升系統(tǒng)性能,同時(shí)便于未來靈活地新增和優(yōu)化其他語言版本。

元數(shù)據(jù)與 OpenAI CLIP 和 MetaCLIP 同源(均來自四大數(shù)據(jù)源),但覆蓋了英語之外的語種。核心改進(jìn)如下:

  • Multilingual WordNet:納入 31 種語言的全部同義詞集;
  • Wikipedia 單元詞;
  • Wikipedia 連續(xù)詞:基于 2024 年 5 月的維基百科語料庫(含 329 種語言),使用 WikiExtractor 工具清洗為純文本。多數(shù)語言通過空格和標(biāo)點(diǎn)分詞后統(tǒng)計(jì)詞頻;對(duì)無空格分隔的語種(如部分亞洲語言),則采用當(dāng)?shù)厣鐓^(qū)開發(fā)的開源分詞器,在保持語義完整的前提下切分詞匯。

篩選數(shù)據(jù)算法的偽代碼如算法 1 所示,原始圖文對(duì)數(shù)據(jù)集 D、元數(shù)據(jù)集 M 等作為輸入,經(jīng)過三個(gè)階段,輸出一個(gè)平衡且多樣化的訓(xùn)練數(shù)據(jù)集 D? 。

SCR-20250731-irzm-2.png

訓(xùn)練框架

本文進(jìn)一步設(shè)計(jì)了全球數(shù)據(jù)范圍內(nèi)的 CLIP 訓(xùn)練框架。為確保該框架及研究成果能推廣至 CLIP 及其衍生模型,本文延續(xù)了 OpenAI/MetaCLIP 的訓(xùn)練設(shè)置和模型架構(gòu),并新增三個(gè)關(guān)鍵組件:(1) 多語言文本 tokenizer,(2) 可見訓(xùn)練對(duì)的規(guī)模擴(kuò)展(scaling seen training pairs),以及 (3) 最小可行模型容量研究。

可見訓(xùn)練對(duì)規(guī)模擴(kuò)展。當(dāng)數(shù)據(jù)分布從單一英語擴(kuò)展到全球多語言時(shí),可用圖文對(duì)數(shù)量隨之增長。若在全球版 CLIP 訓(xùn)練中保持與英語 CLIP 相同的訓(xùn)練對(duì)采樣量,將導(dǎo)致英語訓(xùn)練對(duì)被降采樣,進(jìn)而損害模型在英語任務(wù)上的性能。為此,本文根據(jù)非英語數(shù)據(jù)規(guī)模的增長比例同步擴(kuò)大訓(xùn)練對(duì)總量,確保英語訓(xùn)練對(duì)數(shù)量在全球訓(xùn)練過程中保持不變。

具體實(shí)現(xiàn)上,本文通過擴(kuò)大全局訓(xùn)練批次規(guī)模(同時(shí)保持其他超參數(shù)不變)來實(shí)現(xiàn)這一目標(biāo) —— 此舉既能維持英語數(shù)據(jù)比例,又能促進(jìn)跨語言學(xué)習(xí)?;谟⒄Z數(shù)據(jù)占訓(xùn)練集 44% 的實(shí)際情況,本文選擇將全局批次擴(kuò)大 2.3 倍。

實(shí)驗(yàn)結(jié)果

關(guān)于數(shù)據(jù)集和訓(xùn)練設(shè)置,研究者遵循 MetaCLIP 的流程,從互聯(lián)網(wǎng)上收集公開可用的圖文對(duì)。在進(jìn)行語言識(shí)別之后,大約 44% 的圖像描述(alt-text)為英文,這一比例與 MetaCLIP 中英文數(shù)據(jù)的規(guī)模相當(dāng)。

為了讓本文的訓(xùn)練方法和實(shí)驗(yàn)結(jié)果具有普遍適用性,研究者主要基于 OpenAI 的 CLIP-ViT-L/14 模型和 MetaCLIP-ViT-H/14 模型進(jìn)行訓(xùn)練。完整的訓(xùn)練細(xì)節(jié)見下表 6。

image.png

研究者首先在一系列英文與多語言的零樣本遷移評(píng)測基準(zhǔn)上,展示了 MetaCLIP 2 的主要消融實(shí)驗(yàn)結(jié)果,并與其他多語言版本的 CLIP 模型進(jìn)行對(duì)比。

結(jié)果如下表 1 所示,在 ViT-H/14 模型上使用全球數(shù)據(jù)并擴(kuò)大訓(xùn)練中所見圖文對(duì)數(shù)量時(shí),MetaCLIP 2 在英文和多語言任務(wù)上都穩(wěn)定優(yōu)于僅用英文(1.0 倍)或非英文(1.3 倍)數(shù)據(jù)的對(duì)照組,有效地打破了「多語言的詛咒」。而在圖文對(duì)數(shù)量未擴(kuò)展的情況下(如 Worldwide 1.0 倍)或者使用較小的 ViT-L/14 模型(即使使用了 2.3 倍的全球數(shù)據(jù)),這一詛咒仍然存在。

盡管 MetaCLIP 2 的目標(biāo)并不是追求 SOTA,但其完整的訓(xùn)練方法在使用更少圖文對(duì)(僅為 SigLIP 系列的 72%)和更低分辨率(224px,mSigLIP 為 256px)的前提下,依然展現(xiàn)出了強(qiáng)勁性能。

在多個(gè)基準(zhǔn)上,MetaCLIP 2 超越了 mSigLIP(如 IN、SLIP 26、DC 37)以及最近的 SigLIP 2(后兩個(gè)任務(wù))。更重要的是,MetaCLIP 2 在多個(gè)多語言評(píng)測中創(chuàng)下新的 SOTA 紀(jì)錄,例如在 Babel-ImageNet 上提升 3.8%、在 XM3600 上提升 1.1% / 1.5%、在 CVQA 上提升 3% / 7.6%、在 Flickr-30k-200 上提升 7.7% / 7% 以及在 XTD-200 上提升 6.4% /5.8%。

相比之下,SigLIP 2 更側(cè)重英文訓(xùn)練(其訓(xùn)練數(shù)據(jù)中有 90% 為英文),因此在多語言任務(wù)上的表現(xiàn)不如 mSigLIP,在大多數(shù)英文評(píng)測上也不如 MetaCLIP 2,唯一的例外是 ImageNet。

image.png

研究者進(jìn)一步進(jìn)行消融實(shí)驗(yàn),探討了從「僅基于英文的元數(shù)據(jù)和篩選策略」過渡到「面向全球多語言的設(shè)置」對(duì)模型性能的影響。為了提高實(shí)驗(yàn)效率,他們在 ViT-B/32 編碼器上進(jìn)行訓(xùn)練,并在 ImageNet(IN)上評(píng)估英文零樣本遷移性能,在 Babel-ImageNet、XM3600 和 CVQA 上評(píng)估多語言表現(xiàn)。

如下表 2 所示,實(shí)驗(yàn)從英文版 CLIP 開始。首先移除圖像描述(alt-text)的英文過濾器,使所有描述都使用英文元數(shù)據(jù)進(jìn)行篩選。這樣做導(dǎo)致 ImageNet 上的性能下降了 0.6%,說明在匹配文本或元數(shù)據(jù)之前按語言識(shí)別對(duì)英文內(nèi)容進(jìn)行隔離非常重要。

接著,研究者將英文元數(shù)據(jù)替換為不分語言、混合而成的多語言元數(shù)據(jù)。結(jié)果表明,英文性能進(jìn)一步下降,但模型開始具備一定的多語言能力。隨后采用逐語言處理的子串匹配策略,在所有語言中使用統(tǒng)一的前十個(gè)匹配關(guān)鍵詞(ten)進(jìn)行篩選。這一做法導(dǎo)致英文性能再次下降,因?yàn)椤竧en」值對(duì)于非英語語言來說過高,導(dǎo)致數(shù)據(jù)篩選偏向高頻語言,從而影響整體均衡。

最后,研究者引入了一個(gè)名為「t_lang」的調(diào)整機(jī)制,用于保持每種語言中高頻與低頻概念的比例一致。該機(jī)制在提升英語和非英語表現(xiàn)的同時(shí),也優(yōu)化了各語言之間的均衡分布。不過,即便如此,在 ViT-B/32 模型規(guī)模下,「多語言詛咒」依然未能徹底解決,直到在主消融實(shí)驗(yàn)中引入更大模型與更大規(guī)模訓(xùn)練對(duì)數(shù)據(jù)后才實(shí)現(xiàn)突破。

image.png

為了盡量減少對(duì)模型架構(gòu)的修改,研究者僅將英文 tokenizer 替換為多語言 tokenizer。在零樣本評(píng)測中,他們測試了四種主流的 tokenizer。正如表 3 所示,XLM-V 的詞匯表在英文和非英文任務(wù)中都表現(xiàn)出最優(yōu)的性能。 

image.png

圖 3、表 4 表明,僅僅將訓(xùn)練數(shù)據(jù)的分布從 130 億對(duì)英語圖文對(duì)切換為 130 億對(duì)全球圖文對(duì),就能帶來顯著的性能提升;進(jìn)一步擴(kuò)展到 290 億對(duì)全球圖文對(duì)時(shí),性能繼續(xù)提升,唯一的例外是 GeoDE,表現(xiàn)與前者持平,可能已經(jīng)接近飽和。圖 3 中的小樣本地理定位評(píng)估也呈現(xiàn)出類似趨勢。 

image.png

image.png

研究者進(jìn)一步評(píng)估了不同 CLIP 模型在嵌入質(zhì)量方面的表現(xiàn)。從圖 4 可以看出,MetaCLIP 2 在對(duì)齊度和均勻性兩個(gè)指標(biāo)上均表現(xiàn)良好(值更低),而 mSigLIP 、 SigLIP 2 存在一定的偏差。

image.png

更多實(shí)驗(yàn)結(jié)果請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-08 09:10:00

模型訓(xùn)練AI

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2025-08-01 09:12:00

2024-05-20 08:35:00

模型定理

2025-04-03 11:11:50

2022-12-23 10:15:44

模型AI

2015-08-13 13:44:21

優(yōu)化多核

2021-08-05 09:49:44

鴻蒙HarmonyOS應(yīng)用

2024-01-23 12:57:00

模型數(shù)據(jù)

2025-04-25 11:55:46

WebSSL視覺問答圖像模型

2024-02-19 10:12:00

AI技術(shù)

2023-12-04 16:58:27

2022-03-28 11:27:54

量子

2025-05-20 09:08:59

2020-06-05 14:30:03

CephCPU 線程

2025-06-13 08:53:00

2021-01-27 10:03:58

OpenAI機(jī)器學(xué)習(xí)K8S

2020-06-16 11:12:26

醫(yī)療物聯(lián)網(wǎng)IOT

2013-02-21 09:41:49

CitusData數(shù)據(jù)庫Postgres
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)