偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepMind:AI模型需瘦身,自回歸路線將成主流

人工智能
以Transformer為核心的自回歸注意力類程序始終難以跨過規(guī)?;@道難關(guān)。為此,DeepMind/谷歌最近建立新項(xiàng)目,提出一種幫助這類程序有效瘦身的好辦法。

以Transformer為核心的自回歸注意力類程序始終難以跨過規(guī)?;@道難關(guān)。為此,DeepMind/谷歌最近建立新項(xiàng)目,提出一種幫助這類程序有效瘦身的好辦法。

DeepMind:AI模型需瘦身,自回歸路線將成主流

DeepMind與Google Brain打造的Perceiver AR架構(gòu)回避了一大嚴(yán)重占用資源的任務(wù)——將輸入與輸出的組合性質(zhì)計(jì)算至潛在空間。相反,他們向潛在空間引入了“因果掩蔽”,由此實(shí)現(xiàn)了典型Transformer的自回歸順序。

人工智能/深度學(xué)習(xí)領(lǐng)域最令人印象深刻的發(fā)展趨勢(shì)之一,就是模型體量越來越大。該領(lǐng)域的專家表示,由于規(guī)模往往與效能直接掛鉤,所以這股體量膨脹的浪潮恐怕還將持續(xù)下去。

但項(xiàng)目規(guī)模越來越大,消耗的資源自然也越來越多,這就導(dǎo)致深度學(xué)習(xí)引發(fā)了社會(huì)倫理層面的新問題。這一困境,已經(jīng)得到《自然》等主流科學(xué)期刊的關(guān)注。

也正因?yàn)槿绱耍覀兛峙掠忠貧w“效率”這個(gè)老字眼——AI程序,到底還沒有進(jìn)一步提效的空間?

DeepMind及Google Brain部門的科學(xué)家們,最近對(duì)自己去年推出的神經(jīng)網(wǎng)絡(luò)Perceiver進(jìn)行了一番改造,希望能提升其對(duì)算力資源的使用效率。

新程序被命名為Perceiver AR。這里的AR源自自回歸“autoregressive”,也是如今越來越多深度學(xué)習(xí)程序的又一發(fā)展方向。自回歸是一種讓機(jī)器將輸出作為程序新輸入的技術(shù),屬于遞歸操作,借此構(gòu)成多個(gè)元素相互關(guān)聯(lián)的注意力圖。

谷歌在2017年推出的大受歡迎的神經(jīng)網(wǎng)絡(luò)Transformer,也同樣具有這種自回歸特性。事實(shí)上,后來出現(xiàn)的GPT-3以及Perceiver的首個(gè)版本都延續(xù)了自回歸的技術(shù)路線。

在Perceiver AR之前,今年3月推出的Perceiver IO是Perceiver的第二個(gè)版本,再向前追溯就是去年這個(gè)時(shí)候發(fā)布的Perceiver初版了。

最初的Perceiver創(chuàng)新點(diǎn),在于采用Transformer并做出調(diào)整,使其能夠靈活吸納各種輸入,包括文本、聲音和圖像,由此脫離對(duì)特定類型輸入的依賴。如此一來,研究人員即可利用多種輸入類型開發(fā)相應(yīng)的神經(jīng)網(wǎng)絡(luò)。

作為時(shí)代大潮中的一員,Perceiver跟其他模型項(xiàng)目一樣,也都開始使用自回歸注意力機(jī)制將不同輸入模式和不同任務(wù)域混合起來。此類用例還包括谷歌的Pathways、DeepMind的Gato,以及Meta的data2vec。

到今年3月,初版Perceiver的締造者Andrew Jaegle及其同事團(tuán)隊(duì)又發(fā)布了“IO”版本。新版本增強(qiáng)了Perceiver所支持的輸出類型,實(shí)現(xiàn)了包含多種結(jié)構(gòu)的大量輸出,具體涵蓋文本語言、光流場(chǎng)、視聽序列乃至符號(hào)無序集等等。Perceiver IO甚至能夠生成《星際爭(zhēng)霸2》游戲中的操作指令。

在這次的最新論文中,Perceiver AR已經(jīng)能夠面向長(zhǎng)上下文實(shí)現(xiàn)通用自回歸建模。但在研究當(dāng)中,Jaegle及其團(tuán)隊(duì)也遇到了新的挑戰(zhàn):模型應(yīng)對(duì)各類多模式輸入和輸出任務(wù)時(shí),該如何實(shí)現(xiàn)擴(kuò)展。

問題在于,Transformer的自回歸質(zhì)量,以及任何同樣構(gòu)建輸入到輸出注意力圖的程序,都需要包含多達(dá)數(shù)十萬個(gè)元素的巨量分布規(guī)模。

這就是注意力機(jī)制的致命弱點(diǎn)所在。更準(zhǔn)確地說,需要關(guān)注一切才能建立起注意力圖的概率分布。

正如Jaegle及其團(tuán)隊(duì)在論文中提到,當(dāng)輸入當(dāng)中需要相互比較的事物數(shù)量的增加,模型對(duì)算力資源的吞噬也將愈發(fā)夸張:

這種長(zhǎng)上下文結(jié)構(gòu)與Transformer的計(jì)算特性之間相互沖突。Transformers會(huì)反復(fù)對(duì)輸入執(zhí)行自注意力操作,這會(huì)導(dǎo)致計(jì)算需求同時(shí)隨輸入長(zhǎng)度而二次增長(zhǎng),并隨模型深度而線性增加。輸入數(shù)據(jù)越多,觀察數(shù)據(jù)內(nèi)容所對(duì)應(yīng)的輸入標(biāo)記就越多,輸入數(shù)據(jù)中的模式也變得愈發(fā)微妙且復(fù)雜,必須用更深的層對(duì)所產(chǎn)生的模式進(jìn)行建模。而由于算力有限,因此Transformer用戶被迫要么截?cái)嗄P洼斎耄ǚ乐褂^察到更多遠(yuǎn)距模式),要么限制模型的深度(也就剝奪了它對(duì)復(fù)雜模式進(jìn)行建模時(shí)的表達(dá)能力)。

實(shí)際上,初版Perceiver也曾經(jīng)嘗試過提高Transformers的效率:不直接執(zhí)行注意力,而是對(duì)輸入的潛在表示執(zhí)行注意力。如此一來,即可“(解耦)處理大型輸入數(shù)組的算力要求同大深度網(wǎng)絡(luò)所對(duì)應(yīng)的算力要求”。

Perceiver AR與標(biāo)準(zhǔn)Transformer深度網(wǎng)絡(luò)、增強(qiáng)型Transformer XL間的比較。

在潛在部分中,輸入表示經(jīng)過了壓縮,因此成為一種效率更高的注意力引擎。這樣,“對(duì)于深度網(wǎng)絡(luò),大部分計(jì)算就實(shí)際發(fā)生在自注意力堆棧上”,而無需對(duì)無數(shù)輸入執(zhí)行操作。

但挑戰(zhàn)仍然存在,因?yàn)闈撛诒硎静痪邆漤樞蚋拍?,所以Perceiver無法像Transformer那樣生成輸出。而順序在自回歸中至關(guān)重要,每個(gè)輸出都應(yīng)該是它之前輸入的產(chǎn)物,而非之后的產(chǎn)物。

研究人員們寫道,“但由于每個(gè)潛在模型都關(guān)注所有輸入,而不管其位置如何,所以對(duì)于要求每個(gè)模型輸出必須僅依賴其之前輸入的自回歸生成來說,Perceiver將無法直接適用?!?/p>

而到了Perceiver AR這邊,研究團(tuán)隊(duì)更進(jìn)一步,將順序插入至Perceiver當(dāng)中,使其能夠?qū)崿F(xiàn)自動(dòng)回歸功能。

這里的關(guān)鍵,就是對(duì)輸入和潛在表示執(zhí)行所謂“因果掩蔽”。在輸入側(cè),因果掩蔽會(huì)執(zhí)行“交叉注意”,而在潛在表示這邊則強(qiáng)制要求程序只關(guān)注給定符號(hào)之前的事物。這種方法恢復(fù)了Transformer的有向性,且仍能顯著降低計(jì)算總量。

結(jié)果就是,Perceiver AR能夠基于更多輸入實(shí)現(xiàn)與Transformer相當(dāng)?shù)慕=Y(jié)果,但性能得以極大提高。

他們寫道,“Perceiver AR可以在合成復(fù)制任務(wù)中,完美識(shí)別并學(xué)習(xí)相距至少 100k個(gè)標(biāo)記的長(zhǎng)上下文模式。”相比之下,Transformer的硬限制為2048個(gè)標(biāo)記,標(biāo)記越多則上下文越長(zhǎng),程序輸出也就越復(fù)雜。

與廣泛使用純解碼器的Transformer和Transformer-XL架構(gòu)相比,Perceiver AR的效率更高,而且能夠根據(jù)目標(biāo)預(yù)算靈活改變測(cè)試時(shí)實(shí)際使用的算力資源。

論文寫道,在同等注意力條件下,計(jì)算Perceiver AR的掛鐘時(shí)間要明顯更短,且能夠要同等算力預(yù)算下吸納更多上下文(即更多輸入符號(hào)):

Transformer的上下文長(zhǎng)度限制為2048個(gè)標(biāo)記,相當(dāng)于只支持6個(gè)層——因?yàn)楦蟮哪P秃透L(zhǎng)的上下文需要占用巨量?jī)?nèi)存。使用同樣的6層配置,我們可以將Transformer-XL內(nèi)存的總上下文長(zhǎng)度擴(kuò)展至8192個(gè)標(biāo)記。Perceiver AR則可將上下文長(zhǎng)度擴(kuò)展至65k個(gè)標(biāo)記,如果配合進(jìn)一步優(yōu)化,甚至有望突破100k。

所有這一切,都令計(jì)算變得更加靈活:“我們能夠更好地控制給定模型在測(cè)試過程中產(chǎn)生的計(jì)算量,并使我們能夠在速度與性能間穩(wěn)定求取平衡?!?/p>

Jaegle及其同事還寫道,這種方法適用于任意輸入類型,并不限于單詞符號(hào)。例如可以支持圖像中的像素:

只要應(yīng)用了因果掩蔽技術(shù),相同過程就適用于任何可以排序的輸入。例如,通過對(duì)序列中每個(gè)像素的R、G、B顏色通道進(jìn)行有序或亂序解碼,即可按光柵掃描順序?yàn)閳D像的RGB通道排序。

作者們發(fā)現(xiàn)Perceiver中蘊(yùn)藏著巨大潛力,并在論文中寫道,“Perceiver AR是長(zhǎng)上下文通用型自回歸模型的理想候選方案。”

但要想追求更高的計(jì)算效率,還需要解決另一個(gè)額外的不穩(wěn)定因素。作者們指出,最近研究界也在嘗試通過“稀疏性”(即限制部分輸入元素被賦予重要性的過程)來減少自回歸注意力的算力需求。

在相同的掛鐘時(shí)間內(nèi),Perceiver AR能夠在層數(shù)相同的情況下運(yùn)行更多來自輸入的符號(hào),或者在輸入符號(hào)運(yùn)行數(shù)量相同的情況下顯著縮短計(jì)算時(shí)長(zhǎng)。作者認(rèn)為,這種出色的靈活性有望為大型網(wǎng)絡(luò)找到一種通用的提效方法。

但稀疏性也有自己的缺點(diǎn),主要就是過于死板。論文寫道,“使用稀疏性方法的缺點(diǎn)在于,必須以手動(dòng)調(diào)整或者啟發(fā)式方法創(chuàng)建這種稀疏性。這些啟發(fā)式方法往往只適用于特定領(lǐng)域,而且往往很難調(diào)整?!監(jiān)penAI與英偉達(dá)在2019年發(fā)布的Sparse Transformer就屬于稀疏性項(xiàng)目。

他們解釋道,“相比之下,我們的工作并不需要在注意力層上強(qiáng)制手動(dòng)創(chuàng)建稀疏模式,而是允許網(wǎng)絡(luò)自主學(xué)習(xí)哪些長(zhǎng)上下文輸入更需要關(guān)注、更需要通過網(wǎng)絡(luò)進(jìn)行傳播?!?/p>

論文還補(bǔ)充稱,“最初的交叉注意力操作減少了序列中的位置數(shù)量,可以被視為一種稀疏學(xué)習(xí)形式。”

以這種方式學(xué)習(xí)到的稀疏性本身,也許會(huì)在未來幾年內(nèi)成為深度學(xué)習(xí)模型工具包中的又一強(qiáng)大利器。

責(zé)任編輯:未麗燕 來源: 至頂網(wǎng)
相關(guān)推薦

2025-04-22 08:08:37

2023-06-28 08:36:44

大語言模型人工智能

2024-04-26 12:51:48

2016-05-05 10:21:42

2025-04-21 08:20:00

視覺模型訓(xùn)練

2024-01-18 10:57:35

AIM模型NLP

2023-11-27 12:11:32

2009-10-16 16:52:16

電纜布線技術(shù)

2024-08-20 09:13:10

2009-10-15 16:33:04

智能布線管理系統(tǒng)

2016-03-14 13:14:34

物聯(lián)網(wǎng)物聯(lián)網(wǎng)技術(shù)

2024-05-23 16:56:58

2021-12-17 10:09:47

編碼器語言模型DeepMind

2017-12-22 17:40:27

云計(jì)算混合云多云

2022-11-24 17:00:01

模型ARDL開發(fā)

2024-10-23 14:04:24

2010-11-11 09:04:05

跨平臺(tái)移動(dòng)開發(fā)

2010-11-10 09:15:54

云計(jì)算

2017-03-02 13:00:47

超融合技術(shù)數(shù)據(jù)中心

2010-01-25 15:27:43

刀片式SAN交換機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)