偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

1億組圖文對,填補中文開源多模態(tài)數(shù)據集空白

開源
華為諾亞方舟實驗室開源的第一個億級中文多模態(tài)數(shù)據集,不僅規(guī)模大——包含1億組圖文對,而且質量也很高。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。

華為諾亞方舟實驗室開源了第一個億級中文多模態(tài)數(shù)據集:悟空。

這個新發(fā)布的數(shù)據集不僅規(guī)模大——包含1億組圖文對,而且質量也很高。

所有圖像都是篩選過的,長寬都在200個像素以上,比例從1/3-3不等。

而和圖像對應的文本也根據其語言、長度和頻率進行了過濾,隱私和敏感詞也都考慮在內。

例如這一組數(shù)據集中的例子,內容還相當新,像進門掃碼登記,社區(qū)疫苗接種的防疫內容都有。

這一波可以說是填上了大規(guī)模中文多模態(tài)數(shù)據集的缺口。

悟空數(shù)據集

自一年前OpenAI的CLIP+Dall·E組合開啟新一輪多模態(tài)學習浪潮以來,算上后續(xù)的ALIGN和FILIP,都在視覺語言預訓練(VLP)領域表現(xiàn)優(yōu)異。

世界范圍內的成功離不開大規(guī)模數(shù)據集的支持,但中文開源數(shù)據方面,有是有,規(guī)模大的不多。

有了“悟空”數(shù)據集之后,就可以支持更多預訓練模型用于下游任務。

數(shù)據集之外,團隊還附贈了一款基本模型,參考了流行的文本圖像雙編碼器架構:

其中視覺標記和文本標記作為輸入。然后,將兩種模式的輸入標記連接起來,并用位置嵌入來顯示標記位置。

有意思的一點是,這里的圖像編碼器是從英文數(shù)據集上訓練的,上面預加載并鎖定了從外部模型中訓練的英文數(shù)據集中的權重。

但是仍然可以中文文本進行跨模態(tài)預訓練,在下游任務中也表現(xiàn)得很好。

除此之外,華為諾亞還提供了不同下游任務的基準測試。

例如零樣本圖像分類,下圖中除了WukongViT-500M,其他的悟空模型變體都是在這個一億的數(shù)據庫上訓練的:

再比如在圖像檢索文本和文本檢索圖像這兩個任務上,在五個不同的數(shù)據集上的測試結果如下:

而這也證明了將在英語數(shù)據集上預訓練的圖像編碼器應用于中文多模態(tài)預訓練的良好效果。未來也可能會探索更多的解決方案,利用悟空數(shù)據集訓練多語言跨模態(tài)模型。

目前悟空數(shù)據集在官網即可下載(鏈接在文末),趕快用起來吧~

數(shù)據集地址:

https://wukong-dataset.github.io/wukong-dataset/benchmark.html

論文地址:

https://arxiv.org/abs/2202.06767

責任編輯:張燕妮 來源: 量子位
相關推薦

2022-02-25 23:38:29

開源數(shù)據庫算法

2025-04-28 09:14:00

2020-07-06 10:59:00

智慧城市大數(shù)據人工智能

2024-07-29 08:52:00

模型數(shù)據

2024-12-18 18:57:58

2022-08-05 08:48:16

員工技能數(shù)據

2015-07-17 11:00:30

DCIMBMS數(shù)據中心

2009-05-14 17:47:51

屏蔽配線綜合布線智能布線

2024-06-17 18:06:17

2025-05-14 08:51:00

2025-03-19 09:30:00

2023-11-29 13:52:00

模型訓練

2024-07-04 10:13:18

2023-11-07 18:08:03

GPT-4模型

2014-09-23 14:37:22

Wi-FiGPS定位

2025-03-12 13:09:16

2009-06-25 18:20:46

云計算虛擬化IT

2025-05-06 08:40:00

2025-01-08 08:21:16

2016-08-23 17:33:58

騰訊云云數(shù)據庫Postgre
點贊
收藏

51CTO技術棧公眾號