偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<strike id="nync0"><rt id="nync0"></rt></strike>

<cite id="nync0"><rp id="nync0"><pre id="nync0"></pre></rp></cite>

<style id="nync0"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

DeepMind：AI模型需瘦身，自回歸路線將成主流

2022-08-03 11:50:29

以Transformer為核心的自回歸注意力類程序始終難以跨過規(guī)?；@道難關(guān)。為此，DeepMind/谷歌最近建立新項(xiàng)目，提出一種幫助這類程序有效瘦身的好辦法。

以Transformer為核心的自回歸注意力類程序始終難以跨過規(guī)?；@道難關(guān)。為此，DeepMind/谷歌最近建立新項(xiàng)目，提出一種幫助這類程序有效瘦身的好辦法。

DeepMind：AI模型需瘦身，自回歸路線將成主流

DeepMind與Google Brain打造的Perceiver AR架構(gòu)回避了一大嚴(yán)重占用資源的任務(wù)——將輸入與輸出的組合性質(zhì)計(jì)算至潛在空間。相反，他們向潛在空間引入了“因果掩蔽”，由此實(shí)現(xiàn)了典型Transformer的自回歸順序。

人工智能/深度學(xué)習(xí)領(lǐng)域最令人印象深刻的發(fā)展趨勢(shì)之一，就是模型體量越來越大。該領(lǐng)域的專家表示，由于規(guī)模往往與效能直接掛鉤，所以這股體量膨脹的浪潮恐怕還將持續(xù)下去。

但項(xiàng)目規(guī)模越來越大，消耗的資源自然也越來越多，這就導(dǎo)致深度學(xué)習(xí)引發(fā)了社會(huì)倫理層面的新問題。這一困境，已經(jīng)得到《自然》等主流科學(xué)期刊的關(guān)注。

也正因?yàn)槿绱耍覀兛峙掠忠貧w“效率”這個(gè)老字眼——AI程序，到底還沒有進(jìn)一步提效的空間？

DeepMind及Google Brain部門的科學(xué)家們，最近對(duì)自己去年推出的神經(jīng)網(wǎng)絡(luò)Perceiver進(jìn)行了一番改造，希望能提升其對(duì)算力資源的使用效率。

新程序被命名為Perceiver AR。這里的AR源自自回歸“autoregressive”，也是如今越來越多深度學(xué)習(xí)程序的又一發(fā)展方向。自回歸是一種讓機(jī)器將輸出作為程序新輸入的技術(shù)，屬于遞歸操作，借此構(gòu)成多個(gè)元素相互關(guān)聯(lián)的注意力圖。

谷歌在2017年推出的大受歡迎的神經(jīng)網(wǎng)絡(luò)Transformer，也同樣具有這種自回歸特性。事實(shí)上，后來出現(xiàn)的GPT-3以及Perceiver的首個(gè)版本都延續(xù)了自回歸的技術(shù)路線。

在Perceiver AR之前，今年3月推出的Perceiver IO是Perceiver的第二個(gè)版本，再向前追溯就是去年這個(gè)時(shí)候發(fā)布的Perceiver初版了。

最初的Perceiver創(chuàng)新點(diǎn)，在于采用Transformer并做出調(diào)整，使其能夠靈活吸納各種輸入，包括文本、聲音和圖像，由此脫離對(duì)特定類型輸入的依賴。如此一來，研究人員即可利用多種輸入類型開發(fā)相應(yīng)的神經(jīng)網(wǎng)絡(luò)。

作為時(shí)代大潮中的一員，Perceiver跟其他模型項(xiàng)目一樣，也都開始使用自回歸注意力機(jī)制將不同輸入模式和不同任務(wù)域混合起來。此類用例還包括谷歌的Pathways、DeepMind的Gato，以及Meta的data2vec。

到今年3月，初版Perceiver的締造者Andrew Jaegle及其同事團(tuán)隊(duì)又發(fā)布了“IO”版本。新版本增強(qiáng)了Perceiver所支持的輸出類型，實(shí)現(xiàn)了包含多種結(jié)構(gòu)的大量輸出，具體涵蓋文本語言、光流場(chǎng)、視聽序列乃至符號(hào)無序集等等。Perceiver IO甚至能夠生成《星際爭(zhēng)霸2》游戲中的操作指令。

在這次的最新論文中，Perceiver AR已經(jīng)能夠面向長(zhǎng)上下文實(shí)現(xiàn)通用自回歸建模。但在研究當(dāng)中，Jaegle及其團(tuán)隊(duì)也遇到了新的挑戰(zhàn)：模型應(yīng)對(duì)各類多模式輸入和輸出任務(wù)時(shí)，該如何實(shí)現(xiàn)擴(kuò)展。

問題在于，Transformer的自回歸質(zhì)量，以及任何同樣構(gòu)建輸入到輸出注意力圖的程序，都需要包含多達(dá)數(shù)十萬個(gè)元素的巨量分布規(guī)模。

這就是注意力機(jī)制的致命弱點(diǎn)所在。更準(zhǔn)確地說，需要關(guān)注一切才能建立起注意力圖的概率分布。

正如Jaegle及其團(tuán)隊(duì)在論文中提到，當(dāng)輸入當(dāng)中需要相互比較的事物數(shù)量的增加，模型對(duì)算力資源的吞噬也將愈發(fā)夸張：

這種長(zhǎng)上下文結(jié)構(gòu)與Transformer的計(jì)算特性之間相互沖突。Transformers會(huì)反復(fù)對(duì)輸入執(zhí)行自注意力操作，這會(huì)導(dǎo)致計(jì)算需求同時(shí)隨輸入長(zhǎng)度而二次增長(zhǎng)，并隨模型深度而線性增加。輸入數(shù)據(jù)越多，觀察數(shù)據(jù)內(nèi)容所對(duì)應(yīng)的輸入標(biāo)記就越多，輸入數(shù)據(jù)中的模式也變得愈發(fā)微妙且復(fù)雜，必須用更深的層對(duì)所產(chǎn)生的模式進(jìn)行建模。而由于算力有限，因此Transformer用戶被迫要么截?cái)嗄Ｐ洼斎耄ǚ乐褂^察到更多遠(yuǎn)距模式），要么限制模型的深度（也就剝奪了它對(duì)復(fù)雜模式進(jìn)行建模時(shí)的表達(dá)能力）。

實(shí)際上，初版Perceiver也曾經(jīng)嘗試過提高Transformers的效率：不直接執(zhí)行注意力，而是對(duì)輸入的潛在表示執(zhí)行注意力。如此一來，即可“（解耦）處理大型輸入數(shù)組的算力要求同大深度網(wǎng)絡(luò)所對(duì)應(yīng)的算力要求”。

Perceiver AR與標(biāo)準(zhǔn)Transformer深度網(wǎng)絡(luò)、增強(qiáng)型Transformer XL間的比較。

在潛在部分中，輸入表示經(jīng)過了壓縮，因此成為一種效率更高的注意力引擎。這樣，“對(duì)于深度網(wǎng)絡(luò)，大部分計(jì)算就實(shí)際發(fā)生在自注意力堆棧上”，而無需對(duì)無數(shù)輸入執(zhí)行操作。

但挑戰(zhàn)仍然存在，因?yàn)闈撛诒硎静痪邆漤樞蚋拍?，所以Perceiver無法像Transformer那樣生成輸出。而順序在自回歸中至關(guān)重要，每個(gè)輸出都應(yīng)該是它之前輸入的產(chǎn)物，而非之后的產(chǎn)物。

研究人員們寫道，“但由于每個(gè)潛在模型都關(guān)注所有輸入，而不管其位置如何，所以對(duì)于要求每個(gè)模型輸出必須僅依賴其之前輸入的自回歸生成來說，Perceiver將無法直接適用?！?/p>

而到了Perceiver AR這邊，研究團(tuán)隊(duì)更進(jìn)一步，將順序插入至Perceiver當(dāng)中，使其能夠?qū)崿F(xiàn)自動(dòng)回歸功能。

這里的關(guān)鍵，就是對(duì)輸入和潛在表示執(zhí)行所謂“因果掩蔽”。在輸入側(cè)，因果掩蔽會(huì)執(zhí)行“交叉注意”，而在潛在表示這邊則強(qiáng)制要求程序只關(guān)注給定符號(hào)之前的事物。這種方法恢復(fù)了Transformer的有向性，且仍能顯著降低計(jì)算總量。

結(jié)果就是，Perceiver AR能夠基于更多輸入實(shí)現(xiàn)與Transformer相當(dāng)?shù)慕＝Y(jié)果，但性能得以極大提高。

他們寫道，“Perceiver AR可以在合成復(fù)制任務(wù)中，完美識(shí)別并學(xué)習(xí)相距至少 100k個(gè)標(biāo)記的長(zhǎng)上下文模式。”相比之下，Transformer的硬限制為2048個(gè)標(biāo)記，標(biāo)記越多則上下文越長(zhǎng)，程序輸出也就越復(fù)雜。

與廣泛使用純解碼器的Transformer和Transformer-XL架構(gòu)相比，Perceiver AR的效率更高，而且能夠根據(jù)目標(biāo)預(yù)算靈活改變測(cè)試時(shí)實(shí)際使用的算力資源。

論文寫道，在同等注意力條件下，計(jì)算Perceiver AR的掛鐘時(shí)間要明顯更短，且能夠要同等算力預(yù)算下吸納更多上下文（即更多輸入符號(hào)）：

Transformer的上下文長(zhǎng)度限制為2048個(gè)標(biāo)記，相當(dāng)于只支持6個(gè)層——因?yàn)楦蟮哪Ｐ秃透L(zhǎng)的上下文需要占用巨量?jī)?nèi)存。使用同樣的6層配置，我們可以將Transformer-XL內(nèi)存的總上下文長(zhǎng)度擴(kuò)展至8192個(gè)標(biāo)記。Perceiver AR則可將上下文長(zhǎng)度擴(kuò)展至65k個(gè)標(biāo)記，如果配合進(jìn)一步優(yōu)化，甚至有望突破100k。

所有這一切，都令計(jì)算變得更加靈活：“我們能夠更好地控制給定模型在測(cè)試過程中產(chǎn)生的計(jì)算量，并使我們能夠在速度與性能間穩(wěn)定求取平衡?！?/p>

Jaegle及其同事還寫道，這種方法適用于任意輸入類型，并不限于單詞符號(hào)。例如可以支持圖像中的像素：

只要應(yīng)用了因果掩蔽技術(shù)，相同過程就適用于任何可以排序的輸入。例如，通過對(duì)序列中每個(gè)像素的R、G、B顏色通道進(jìn)行有序或亂序解碼，即可按光柵掃描順序?yàn)閳D像的RGB通道排序。

作者們發(fā)現(xiàn)Perceiver中蘊(yùn)藏著巨大潛力，并在論文中寫道，“Perceiver AR是長(zhǎng)上下文通用型自回歸模型的理想候選方案。”

但要想追求更高的計(jì)算效率，還需要解決另一個(gè)額外的不穩(wěn)定因素。作者們指出，最近研究界也在嘗試通過“稀疏性”（即限制部分輸入元素被賦予重要性的過程）來減少自回歸注意力的算力需求。

在相同的掛鐘時(shí)間內(nèi)，Perceiver AR能夠在層數(shù)相同的情況下運(yùn)行更多來自輸入的符號(hào)，或者在輸入符號(hào)運(yùn)行數(shù)量相同的情況下顯著縮短計(jì)算時(shí)長(zhǎng)。作者認(rèn)為，這種出色的靈活性有望為大型網(wǎng)絡(luò)找到一種通用的提效方法。

但稀疏性也有自己的缺點(diǎn)，主要就是過于死板。論文寫道，“使用稀疏性方法的缺點(diǎn)在于，必須以手動(dòng)調(diào)整或者啟發(fā)式方法創(chuàng)建這種稀疏性。這些啟發(fā)式方法往往只適用于特定領(lǐng)域，而且往往很難調(diào)整?！監(jiān)penAI與英偉達(dá)在2019年發(fā)布的Sparse Transformer就屬于稀疏性項(xiàng)目。

他們解釋道，“相比之下，我們的工作并不需要在注意力層上強(qiáng)制手動(dòng)創(chuàng)建稀疏模式，而是允許網(wǎng)絡(luò)自主學(xué)習(xí)哪些長(zhǎng)上下文輸入更需要關(guān)注、更需要通過網(wǎng)絡(luò)進(jìn)行傳播?！?/p>

論文還補(bǔ)充稱，“最初的交叉注意力操作減少了序列中的位置數(shù)量，可以被視為一種稀疏學(xué)習(xí)形式。”

以這種方式學(xué)習(xí)到的稀疏性本身，也許會(huì)在未來幾年內(nèi)成為深度學(xué)習(xí)模型工具包中的又一強(qiáng)大利器。

責(zé)任編輯：未麗燕來源：至頂網(wǎng)

DeepMind AI 瘦身

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="3vlku"></blockquote>

<p id="3vlku"></p>

<cite id="3vlku"><track id="3vlku"></track></cite>

<sub id="3vlku"></sub>

<legend id="3vlku"><li id="3vlku"><menuitem id="3vlku"></menuitem></li></legend>