打破紀(jì)錄!谷歌全網(wǎng)扒1000億圖像文本對,ViT大佬坐鎮(zhèn):數(shù)據(jù)Scaling潛力依舊
史上最大規(guī)模視覺語言數(shù)據(jù)集:1000億圖像-文本對!
什么概念?
較此前紀(jì)錄擴大10倍。
這就是由谷歌推出的最新數(shù)據(jù)集WebLI-100B。
它進(jìn)一步證明,數(shù)據(jù)Scaling Law還遠(yuǎn)沒有到上限。
在英文世界之外的多元文化、多語言維度,1000億規(guī)模數(shù)據(jù)集能更好覆蓋長尾場景,由此帶來明顯性能提升。
這意味著,想要構(gòu)建更加多元的多模態(tài)大模型,千億級數(shù)據(jù)規(guī)模,將成為一個重要參考。
同時研究還進(jìn)一步證明,CLIP等模型的過濾篩選步驟,會對這種多元性提升帶來負(fù)面影響。
該研究由谷歌DeepMind帶來,一作為Xiao Wang、 Ibrahim Alabdulmohsin。
作者之列中還發(fā)現(xiàn)了ViT核心作者翟曉華。2024年12月,他在推特上官宣,將入職OpenAI蘇黎世實驗室。
數(shù)據(jù)規(guī)模越大對細(xì)節(jié)理解越好
論文主要工作有三方面。
- 驗證VLMs在1000億規(guī)模數(shù)據(jù)集上的效果
- 證明1000億規(guī)模數(shù)據(jù)集能增強VLMs文化多樣性、多語言能力以及減少不同子組之間的性能差異。
- 發(fā)現(xiàn)CLIP這類模型過濾篩選數(shù)據(jù)的過程會對無意中降低模型的文化多元性,在1000億規(guī)模數(shù)據(jù)集上亦是如此。
具體來看,研究人員從網(wǎng)絡(luò)上搜集了1000億圖像-文本對,初步去除有害內(nèi)容以及敏感信息。
然后使用CLIP模型對數(shù)據(jù)集進(jìn)行質(zhì)量評估,篩選出與圖像內(nèi)容高度對齊的圖像-文本對。
他們訓(xùn)練了一個分類器模型,對圖像-文本進(jìn)行對齊和錯位分類,并調(diào)整閾值以重新篩選數(shù)據(jù)集。為了評估多語言能力,還使用網(wǎng)頁的語言標(biāo)簽來確定數(shù)據(jù)集中的語言分布。
為了評估不同數(shù)據(jù)規(guī)模對模型性能的影響,研究人員從1000億數(shù)據(jù)集中隨機抽取了1%和10%的數(shù)據(jù),分別創(chuàng)建了10億和100億規(guī)模的數(shù)據(jù)集。
同時為了提高低資源語言的代表性,研究人員對低資源語言進(jìn)行了上采樣,將它們的占比從0.5%提高到1%。
實驗方面,研究人員使用SigLIP模型在不同規(guī)模的數(shù)據(jù)集上進(jìn)行對比視覺語言預(yù)訓(xùn)練。
他們訓(xùn)練了不同大小的模型(ViTB/16、ViT-L/16、ViT-H/14),并使用了大規(guī)模的批量大小和學(xué)習(xí)率調(diào)度。
從結(jié)果來看,1B數(shù)據(jù)集訓(xùn)練的模型在注意力圖上無法很好捕捉細(xì)節(jié)。10B數(shù)據(jù)集有所改善,100B數(shù)據(jù)集能更精準(zhǔn)。
同時使用多語言mt5分詞器對文本進(jìn)行分詞,并訓(xùn)練了多種語言的模型。
在模型評估上,研究人員主要進(jìn)行以下幾個維度分析:
- 傳統(tǒng)基準(zhǔn)測試:多個傳統(tǒng)基準(zhǔn)測試(如ImageNet、COCO Captions等)上評估。
- 文化多樣性:使用Dollar Street、GeoDE和Google Landmarks Dataset v2等數(shù)據(jù)集評估了模型在文化多樣性任務(wù)上的性能。
- 多語言能力:使用Crossmodal-3600數(shù)據(jù)集評估了模型在多語言任務(wù)上的性能。
- 公平性:評估了模型在不同子組(如性別、收入水平、地理區(qū)域)上的性能差異,以評估模型的公平性。
結(jié)果顯示,從100億到1000億規(guī)模數(shù)據(jù),在以西方文化為主的傳統(tǒng)基準(zhǔn)測試上帶來的提升比較有限,但在多語言能力和公平性相關(guān)任務(wù)上顯著提高。
數(shù)據(jù)過濾可以提高模型在傳統(tǒng)任務(wù)上的性能,但可能會減少某些文化背景的代表性,從而限制數(shù)據(jù)集的多樣性。
此外,通過調(diào)整低資源語言的混合比例,可以顯著提高模型在低資源語言基準(zhǔn)測試上的性能。
主創(chuàng)翟曉華已被OpenAI挖走
該研究的一作為Xiao Wang和Ibrahim Alabdulmohsin。
Xiao Wang本科畢業(yè)于南京大學(xué),碩士畢業(yè)于北京大學(xué)。
領(lǐng)英資料顯示,他畢業(yè)后先后任職于IBM中國開發(fā)實驗室、網(wǎng)易有道。2015年加入谷歌DeepMind至今,職位是高級軟件工程師,主要從事視覺語言研究。
主創(chuàng)中還發(fā)現(xiàn)了翟曉華的身影。
他同樣本科畢業(yè)于南京大學(xué),在北京大學(xué)攻讀博士學(xué)位后,赴蘇黎世加入谷歌。
翟曉華和盧卡斯·拜爾(Lucas Beyer)、亞歷山大·科列斯尼科夫(Alexander Kolesnikov)一起在谷歌提出多項重要工作。
2021年,他們?nèi)俗鳛楣餐蛔鞯挠嬎銠C視覺領(lǐng)域神作ViT發(fā)布即刷新ImageNet最高分。
這項研究證實了CNN在CV領(lǐng)域不是必需的,Transformer從NLP跨界,一樣可以取得先進(jìn)效果。開創(chuàng)了Transformer在CV領(lǐng)域應(yīng)用的先河。
目前這篇論文被引用量已超過5.3萬。
他在谷歌DeepMind時領(lǐng)導(dǎo)蘇黎世多模態(tài)研究小組,重點研究多模態(tài)數(shù)據(jù)(WebLI)、開放權(quán)重模型 ( SigLIP、PaliGemma )以及文化包容性。
2024年12月,爆料稱OpenAI挖走ViT三大核心作者。隨后,該消息被本人證實。