偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="imi65"><span id="imi65"></span></center>

<u id="imi65"><rp id="imi65"></rp></u>

<ul id="imi65"></ul>

_{<tr id="imi65"></tr>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

作者：新智元 2022-05-30 10:42:14

人工智能新聞

谷歌大神Jeff Dean最近親自操刀發(fā)新作，提出了一個(gè)大規(guī)模多任務(wù)學(xué)習(xí)框架μ2Net，基本把各大數(shù)據(jù)集多任務(wù)學(xué)習(xí)的SOTA刷了個(gè)遍，但這次為何網(wǎng)友有點(diǎn)不買(mǎi)賬了？很簡(jiǎn)單，差錢(qián)。

2021年10月，Jeff Dean親自撰文介紹了一個(gè)全新的機(jī)器學(xué)習(xí)架構(gòu)——Pathways。

目的很簡(jiǎn)單，就是讓一個(gè)AI能夠跨越數(shù)以萬(wàn)計(jì)的的任務(wù)，理解不同類型的數(shù)據(jù)，并同時(shí)以極高的效率實(shí)現(xiàn)：

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

在大半年之后的2022年3月，Jeff Dean終于發(fā)布了Pathways的論文。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

論文連接：https://arxiv.org/abs/2203.12533

其中，補(bǔ)充了不少技術(shù)上的細(xì)節(jié)，比如最基本的系統(tǒng)架構(gòu)等等。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

2022年4月，谷歌用Pathways的PaLM語(yǔ)言模型橫空出世，接連打破多項(xiàng)自然語(yǔ)言處理任務(wù)的SOTA，這個(gè)擁有5400億參數(shù)的Transformer語(yǔ)言模型再次證明了「大力出奇跡」。

除了用到強(qiáng)大的Pathways系統(tǒng)外，論文中介紹PaLM的訓(xùn)練用到了6144個(gè)TPU v4，使用了7800億token的高質(zhì)量數(shù)據(jù)集，并且其中有一定比例的非英文多語(yǔ)種語(yǔ)料。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

論文地址：https://arxiv.org/abs/2204.02311

最近，Jeff Dean一篇新作又引發(fā)了大家對(duì)Pathways的猜測(cè)。

Pathways的拼圖又合上了一塊？

這篇論文的作者只有兩位：大名鼎鼎的Jeff Dean和來(lái)自意大利的工程師Andrea Gesmundo。

有趣的是，不僅Gesmundo很低調(diào)，而且前兩天剛吹完自家Imagen的Jeff Dean也完全沒(méi)有在推特上提及此事。

而有網(wǎng)友拜讀之后推測(cè)，這可能是下一代AI架構(gòu)Pathways的組成部分。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

論文地址：https://arxiv.org/abs/2205.12755

本文的思路是這樣的：

通過(guò)動(dòng)態(tài)地將新任務(wù)納入一個(gè)大型運(yùn)行系統(tǒng)，可以利用稀疏多任務(wù)機(jī)器學(xué)習(xí)模型的碎片，來(lái)實(shí)現(xiàn)新任務(wù)質(zhì)量的提升，并可以在相關(guān)任務(wù)之間自動(dòng)分享模型的碎片。

這種方法可以提高每個(gè)任務(wù)的質(zhì)量，并在收斂時(shí)間、訓(xùn)練實(shí)例數(shù)量、能源消耗等方面提高模型效率。本文提出的機(jī)器學(xué)習(xí)問(wèn)題框架，可以視作標(biāo)準(zhǔn)多任務(wù)和持續(xù)學(xué)習(xí)形式化的概括和綜合。

在這個(gè)框架下，再大的任務(wù)集都可以被聯(lián)合解決。

而且，隨著時(shí)間的推移，任務(wù)集中可以加入連續(xù)的新任務(wù)流來(lái)實(shí)現(xiàn)擴(kuò)展。預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間的區(qū)別也不存在了。

因?yàn)?，隨著新任務(wù)的加入，系統(tǒng)會(huì)尋找如何將已有的知識(shí)和表征與新的模型能力相結(jié)合，以實(shí)現(xiàn)每個(gè)新任務(wù)的高質(zhì)量水平。在解決一個(gè)新任務(wù)時(shí)獲得的知識(shí)和學(xué)到的表征，也可用于任何未來(lái)的任務(wù)，或繼續(xù)學(xué)習(xí)現(xiàn)有任務(wù)。

這個(gè)方法名為「突變多任務(wù)網(wǎng)絡(luò)」或μ2Net。（μ=Mutation）

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

用于大規(guī)模持續(xù)學(xué)習(xí)實(shí)驗(yàn)的兩類突變模型

簡(jiǎn)單說(shuō)，就是生成一個(gè)大規(guī)模的多任務(wù)網(wǎng)絡(luò)，去聯(lián)合解決多個(gè)任務(wù)。不僅每個(gè)任務(wù)的質(zhì)量和效率都獲得了提升，還可以通過(guò)動(dòng)態(tài)增加新的任務(wù)來(lái)實(shí)現(xiàn)模型的擴(kuò)展。

通過(guò)對(duì)以前任務(wù)的學(xué)習(xí)，嵌入到系統(tǒng)中的知識(shí)積累越多，后續(xù)任務(wù)的解決方案的質(zhì)量就越高。

此外，在減少每個(gè)任務(wù)新添加的參數(shù)方面，新任務(wù)的解決效率可以不斷提高。生成的多任務(wù)模型是稀疏激活的，模型集成了基于任務(wù)的路由機(jī)制，隨著模型的擴(kuò)展，保證每個(gè)任務(wù)的計(jì)算成本的上升是有界限的。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

每個(gè)任務(wù)激活的和增加的參數(shù)占多任務(wù)系統(tǒng)參數(shù)總數(shù)的百分比

從每個(gè)任務(wù)學(xué)到的知識(shí)被分割成可以被多個(gè)任務(wù)重用的部分。實(shí)驗(yàn)證明，這種分塊技術(shù)避免了多任務(wù)和持續(xù)學(xué)習(xí)模型的常見(jiàn)問(wèn)題，如災(zāi)難性遺忘、梯度干擾和負(fù)遷移。

對(duì)任務(wù)路線空間的探索和對(duì)每個(gè)任務(wù)最相關(guān)的先驗(yàn)知識(shí)子集的識(shí)別是由一個(gè)進(jìn)化算法引導(dǎo)的，該算法旨在動(dòng)態(tài)地調(diào)整探索/利用的平衡，而不需要手動(dòng)調(diào)整元參數(shù)。同樣的進(jìn)化邏輯被用于動(dòng)態(tài)調(diào)整超參數(shù)多任務(wù)模型組件。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

既然叫「突變網(wǎng)絡(luò)」，這個(gè)突變是怎么解釋的？

深度神經(jīng)網(wǎng)絡(luò)通常由架構(gòu)和超參數(shù)來(lái)定義。本文中的架構(gòu)是由一連串的神經(jīng)網(wǎng)絡(luò)層組成的。每個(gè)層將輸入向量映射到一個(gè)可變維度的輸出向量，網(wǎng)絡(luò)實(shí)例化的細(xì)節(jié)，比如優(yōu)化器或數(shù)據(jù)預(yù)處理的配置，則由超參數(shù)確定。

所以這里講的突變也分為兩類，層克隆突變和超參數(shù)突變。

層克隆突變創(chuàng)建了一個(gè)可以被子模型訓(xùn)練的任何父模型圖層的副本。如果父模型的某層沒(méi)有被選中進(jìn)行克隆，會(huì)凍結(jié)當(dāng)前狀態(tài)并與子模型共享，以保證預(yù)先存在的模型的不變性。

超參數(shù)突變則用于修改子層從父層繼承的配置。每個(gè)超參數(shù)的新值可以從一組有效值中抽取。對(duì)于數(shù)字超參數(shù)，有效值集被排序?yàn)橐粋€(gè)列表，采樣時(shí)僅限于相鄰值，以應(yīng)用一個(gè)增量變化約束。

來(lái)看看實(shí)際效果如何：

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

在ImageNet 2012、cifar100、cifar10三個(gè)數(shù)據(jù)集上，μ2Net在5任務(wù)迭代、10任務(wù)迭代后的表現(xiàn)均超過(guò)了當(dāng)前最通用和性能最好的ViT預(yù)訓(xùn)練微調(diào)模型。

在任務(wù)擴(kuò)展方面，在加入VTAB-full和VDD持續(xù)學(xué)習(xí)任務(wù)后，μ2Net性能表現(xiàn)獲得進(jìn)一步提升，在cifar10數(shù)據(jù)集上的VDD持續(xù)學(xué)習(xí)任務(wù)表現(xiàn)達(dá)到了99.43%的最佳成績(jī)。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

在多任務(wù)字符分類基準(zhǔn)任務(wù)上，在兩次任務(wù)迭代后，μ2Net在大部分?jǐn)?shù)據(jù)集上刷新了SOTA水平，數(shù)據(jù)集規(guī)模由2.5k到240k樣本容量不等。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

簡(jiǎn)單來(lái)說(shuō)，在這個(gè)架構(gòu)之下，模型學(xué)習(xí)的任務(wù)越多，系統(tǒng)學(xué)到的知識(shí)就越多，也就越容易解決新的任務(wù)。

比如，一個(gè)ViT-L架構(gòu)（3.07億個(gè)參數(shù)）可以演變成一個(gè)具有1308.7億個(gè)參數(shù)的多任務(wù)系統(tǒng)，并解決69個(gè)任務(wù)。

此外，隨著系統(tǒng)的增長(zhǎng)，參數(shù)激活的稀疏性使每個(gè)任務(wù)的計(jì)算量和內(nèi)存用量保持不變。實(shí)驗(yàn)表面，每個(gè)任務(wù)平均增加的參數(shù)減少了38%，而多任務(wù)系統(tǒng)只激活了每個(gè)任務(wù)總參數(shù)的2.3%。

當(dāng)然，在這一點(diǎn)上，它只是一個(gè)架構(gòu)和初步實(shí)驗(yàn)。

網(wǎng)友：論文很好，但……

雖然論文很棒棒，但好像有人不買(mǎi)賬。

有些熱愛(ài)戳穿皇帝新衣的網(wǎng)友，在reddit上發(fā)帖，稱他再也不相信愛(ài)情……哦不，「頂級(jí)實(shí)驗(yàn)室/研究機(jī)構(gòu)」出品的AI論文了。

這位ID為「Acurite先生」的網(wǎng)友稱，他自然相信這些論文里的數(shù)據(jù)與模型運(yùn)行結(jié)果。

但，就拿Jeff Dean老師的這篇論文來(lái)說(shuō)吧，18頁(yè)的論文說(shuō)了特別復(fù)雜的進(jìn)化卷積與多任務(wù)學(xué)習(xí)算法，厲害，亮眼，好頂贊。

不過(guò)，有兩點(diǎn)不得不提出：

第一，Jeff Dean們?cè)谡撐闹刑岢龅淖C明自己勝過(guò)競(jìng)品的跑分結(jié)果，是CIFAR-10基準(zhǔn)測(cè)試準(zhǔn)確度99.43，勝過(guò)了當(dāng)前SOTA的99.40……

也不能說(shuō)這是忽悠，但真的很讓人難以措辭形容。

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

第二，論文末尾有用TPU跑算法得出最終結(jié)果的時(shí)間耗費(fèi)表，總計(jì)17810小時(shí)。

假設(shè)有人不在谷歌干、又想復(fù)現(xiàn)論文結(jié)果，按照每小時(shí)3.22美元的市價(jià)租TPU來(lái)再跑一次，那花費(fèi)就是57348美元。

有啥意思呢？連日常論文都要設(shè)置鈔能力門(mén)檻了嗎？

當(dāng)然，這種做派現(xiàn)在是業(yè)界風(fēng)氣，包括但不限于谷歌、OpenAI這些大玩家。大家都往模型里灌少少改進(jìn)現(xiàn)狀的創(chuàng)意、和多多的預(yù)處理數(shù)據(jù)與基準(zhǔn)。

然后，只要運(yùn)行結(jié)果在數(shù)值上比對(duì)家高出哪怕百分點(diǎn)后的小數(shù)點(diǎn)后二位，研究者也可以理直氣壯地在簡(jiǎn)歷上新增一行論文題目啦！

這么搞，對(duì)學(xué)界和業(yè)界有啥真的推動(dòng)？普通研究生又花不起錢(qián)來(lái)驗(yàn)證你的結(jié)論，普通企業(yè)又沒(méi)法在項(xiàng)目里使用這么無(wú)聊的跑分。

還是那句話，有啥意思呢？

這難道就是AI界的可接受舒適區(qū)么？一小撥大企業(yè)、和偶爾的頂尖學(xué)校，天天炫耀我有錢(qián)可以為所欲為、你沒(méi)錢(qián)只好跟后面吃灰？

這么玩下去，干脆另開(kāi)個(gè)計(jì)算機(jī)學(xué)期刊，專收那些結(jié)果可以在消費(fèi)級(jí)單機(jī)顯卡上八小時(shí)跑出復(fù)現(xiàn)的論文算了。

跟帖里，有論文任務(wù)的研究生們紛紛訴苦。

有位ID是「支持向量機(jī)」的網(wǎng)友說(shuō)，自己是小型實(shí)驗(yàn)室里的從業(yè)者，因?yàn)檫@個(gè)勢(shì)頭，已經(jīng)快完全喪失繼續(xù)搞深度學(xué)習(xí)的動(dòng)力了。

因?yàn)榭孔约簩?shí)驗(yàn)室的預(yù)算，根本沒(méi)法和這些巨無(wú)霸比，出不了鈔能力打底的跑分結(jié)果。

即使你有個(gè)理論上的新點(diǎn)子，要寫(xiě)成能過(guò)評(píng)議的論文也難。因?yàn)楝F(xiàn)在論文評(píng)議人里，被大廠的鈔能力養(yǎng)出了「美圖偏見(jiàn)」，論文里用來(lái)測(cè)試的圖像不好看，一切白搭。

不是說(shuō)巨無(wú)霸大廠一無(wú)是處啊，GPT和DALL-E這些項(xiàng)目真的是開(kāi)天辟地。但如果我自己的機(jī)器跑不動(dòng)，我激動(dòng)個(gè)啥呢。

另有一個(gè)博士生網(wǎng)友現(xiàn)身說(shuō)法，跟帖佐證「支持向量機(jī)」。

博士生前兩年遞交了一份關(guān)于流模型的論文，主要著重于發(fā)現(xiàn)可采樣的數(shù)據(jù)潛在空間，對(duì)模型的圖片生成質(zhì)量沒(méi)影響。

結(jié)果論文打分人給的批評(píng)意見(jiàn)是：「生成的圖像看起來(lái)不如用GAN生成的好」。

另一個(gè)ID叫「烏代」的研究生也說(shuō)，2021年他提交的參加會(huì)議論文，打分人給的批評(píng)意見(jiàn)是：「數(shù)據(jù)不夠花哨。」

Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬(wàn)美元

看來(lái)人力不敵鈔能力，真是東西心理攸同、中外道術(shù)未裂的世界性趨勢(shì)。

不過(guò)三十年河?xùn)|、三十年河西，說(shuō)不定算法草根化、全民大寫(xiě)碼，會(huì)帶來(lái)第二次車庫(kù)創(chuàng)業(yè)企業(yè)打敗IBM的奇跡呢。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型谷歌數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="xisgk"><menu id="xisgk"><nobr id="xisgk"></nobr></menu></p><center id="xisgk"></center>