偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布超強(qiáng)Transformer

新聞 人工智能
有20億參數(shù)和30億張圖像加持,谷歌大腦近日又推出了視覺(jué)Transformer進(jìn)階版ViT-G/14, 準(zhǔn)確率提升至90.45%!

[[408123]]

近日,谷歌大腦團(tuán)隊(duì)公布了Vision Transformer(ViT)進(jìn)階版ViT-G/14,參數(shù)高達(dá)20億的CV模型,經(jīng)過(guò)30億張圖片的訓(xùn)練,刷新了ImageNet上最高準(zhǔn)確率記錄——90.45%,此前的ViT取得的最高準(zhǔn)確率記錄是 88.36%,不僅如此,ViT-G/14還超過(guò)之前谷歌提出的Meta Pseduo Labels模型。

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布最強(qiáng)Transformer

Vision Transformer模型的縮放規(guī)律

在多項(xiàng)基準(zhǔn)測(cè)試中,ImageNet, ImageNet-v2和VTAB-1k,ViT-G/14的表現(xiàn)都刷新了記錄。

例如,在幾張照片的識(shí)別挑戰(zhàn)中,準(zhǔn)確率提高了五個(gè)百分點(diǎn)以上。研究人員隨后訓(xùn)練了多個(gè)更微型的模型版本,以尋找架構(gòu)的縮放規(guī)律(scaling law),結(jié)果觀察到性能遵循冪律函數(shù)(power-law function),類(lèi)似于用于NLP的Transformer模型。

2017年由谷歌首次引入的 Transformer 架構(gòu)迅速成為最受歡迎的NLP深度學(xué)習(xí)模型設(shè)計(jì),其中 OpenAI的GPT-3是最著名的。OpenAI 去年發(fā)布的一項(xiàng)研究描述了這些模型的縮放規(guī)則(Scaling rules)。

OpenAI 通過(guò)訓(xùn)練幾個(gè)不同規(guī)模的可比模型,改變訓(xùn)練數(shù)據(jù)的數(shù)量和處理能力,開(kāi)發(fā)了一個(gè)用于評(píng)估模型準(zhǔn)確性的冪律函數(shù)。此外,OpenAI 發(fā)現(xiàn)更大的模型不僅性能更好,而且計(jì)算效率也更高。

與 NLP 模型不同,大多數(shù)SOTA的 CV 深度學(xué)習(xí)模型,采用的是卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(CNN)。2012年, 一個(gè)CNN模型贏得了ImageNet競(jìng)賽,CNN因此聲名鵲起。

隨著Transformer最近在 NLP 領(lǐng)域的成功,研究人員已經(jīng)開(kāi)始關(guān)注它在視覺(jué)問(wèn)題上的表現(xiàn); 例如,OpenAI 已經(jīng)構(gòu)建了一個(gè)基于 GPT-3的圖像生成系統(tǒng)。

谷歌在這個(gè)領(lǐng)域一直非?;钴S,在2020年年底使用他們專(zhuān)有的 JFT-300M 數(shù)據(jù)集訓(xùn)練了一個(gè)600m 參數(shù)的 ViT 模型。

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布最強(qiáng)Transformer

△ 去年10月,谷歌大腦團(tuán)隊(duì)發(fā)布了Vision Transformer(ViT)

而新的ViT-G/14模型使用 JFT-3B 預(yù)先訓(xùn)練,JFT-3B是升級(jí)版數(shù)據(jù)集,包含大約30億張圖片。

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布最強(qiáng)Transformer

研究團(tuán)隊(duì)改進(jìn)了 ViT 架構(gòu),增加了內(nèi)存使用,使模型能夠適應(yīng)單個(gè) TPUv3核心。研究人員在預(yù)先訓(xùn)練的模型上使用少量和微調(diào)的遷移學(xué)習(xí)來(lái)評(píng)估 ViT-G/14和其他較小模型的性能。這些發(fā)現(xiàn)被用來(lái)創(chuàng)建縮放規(guī)則,類(lèi)似于 NLP 規(guī)則:

根據(jù)冪律函數(shù),縮放更多的計(jì)算、模型和數(shù)據(jù)可以提高準(zhǔn)確性;

在較小的模型中,準(zhǔn)確性可能是一個(gè)障礙;

大型數(shù)據(jù)集有助于大型模型。

目前,ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八個(gè)得分最高的模型同樣是由谷歌的研究人員創(chuàng)建的,而第十個(gè)模型來(lái)自Facebook。

作者團(tuán)隊(duì)

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布最強(qiáng)Transformer

本次論文團(tuán)隊(duì)成員是此前發(fā)布ViT模型的4名成員,其中,第一作者是Xiaohua Zhai (翟曉華)。

[[408124]]

https://sites.google.com/site/xzhai89/home

翟曉華目前是谷歌大腦研究員。研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí)和計(jì)算機(jī)視覺(jué)。興趣范圍包括表征學(xué)習(xí)、遷移學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、生成模型、跨模態(tài)感知。

根據(jù)他的個(gè)人網(wǎng)站提供的信息,2009年,翟曉華本科畢業(yè)于南京大學(xué),2014年取得北京大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位。

另外,論文作者Alexander Kolesnikov,同為谷歌大腦研究員,研究領(lǐng)域包括人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)。

畢業(yè)于奧地利Institute of Science and Technology Austria (IST Austria),博士論文為Weakly-Supervised Segmentation and Unsupervised Modeling of Natural Images(自然圖像的弱監(jiān)督分割和無(wú)監(jiān)督建模)。

[[408125]]

另一名作者Neil Houlsby,研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、人工智能、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理。

[[408126]]

第四名作者Lucas Beyer,是一名自學(xué)成才的黑客、研究科學(xué)家,致力于幫助機(jī)器人了解世界、幫助人類(lèi)了解深度學(xué)習(xí)。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-03-01 15:43:49

2020-01-23 15:19:26

谷歌Android開(kāi)發(fā)者

2020-09-21 14:25:26

Google 開(kāi)源技術(shù)

2022-06-15 18:57:43

人工智能

2021-01-26 15:32:40

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2020-12-23 17:50:46

AI語(yǔ)言模型AI倫理

2012-04-06 15:28:25

2024-06-11 08:12:32

2021-09-30 11:14:17

谷歌框架技術(shù)

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2023-04-05 14:25:58

LLM谷歌OpenAI

2019-08-01 08:15:06

機(jī)器學(xué)習(xí)谷歌算法

2022-02-07 15:05:07

模型AI訓(xùn)練

2021-02-21 00:18:47

惡意軟件研究職業(yè)技術(shù)

2015-02-11 16:11:23

微軟

2016-11-13 23:11:15

2025-01-03 16:00:00

AI模型數(shù)據(jù)

2019-06-13 14:52:59

谷歌Android開(kāi)發(fā)者
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)