DeepMind:AI模型需瘦身,自回歸路線將成主流
以Transformer為核心的自回歸注意力類程序始終難以跨過規(guī)?;@道難關(guān)。為此,DeepMind/谷歌最近建立新項(xiàng)目,提出一種幫助這類程序有效瘦身的好辦法。
DeepMind與Google Brain打造的Perceiver AR架構(gòu)回避了一大嚴(yán)重占用資源的任務(wù)——將輸入與輸出的組合性質(zhì)計(jì)算至潛在空間。相反,他們向潛在空間引入了“因果掩蔽”,由此實(shí)現(xiàn)了典型Transformer的自回歸順序。
人工智能/深度學(xué)習(xí)領(lǐng)域最令人印象深刻的發(fā)展趨勢之一,就是模型體量越來越大。該領(lǐng)域的專家表示,由于規(guī)模往往與效能直接掛鉤,所以這股體量膨脹的浪潮恐怕還將持續(xù)下去。
但項(xiàng)目規(guī)模越來越大,消耗的資源自然也越來越多,這就導(dǎo)致深度學(xué)習(xí)引發(fā)了社會倫理層面的新問題。這一困境,已經(jīng)得到《自然》等主流科學(xué)期刊的關(guān)注。
也正因?yàn)槿绱耍覀兛峙掠忠貧w“效率”這個老字眼——AI程序,到底還沒有進(jìn)一步提效的空間?
DeepMind及Google Brain部門的科學(xué)家們,最近對自己去年推出的神經(jīng)網(wǎng)絡(luò)Perceiver進(jìn)行了一番改造,希望能提升其對算力資源的使用效率。
新程序被命名為Perceiver AR。這里的AR源自自回歸“autoregressive”,也是如今越來越多深度學(xué)習(xí)程序的又一發(fā)展方向。自回歸是一種讓機(jī)器將輸出作為程序新輸入的技術(shù),屬于遞歸操作,借此構(gòu)成多個元素相互關(guān)聯(lián)的注意力圖。
谷歌在2017年推出的大受歡迎的神經(jīng)網(wǎng)絡(luò)Transformer,也同樣具有這種自回歸特性。事實(shí)上,后來出現(xiàn)的GPT-3以及Perceiver的首個版本都延續(xù)了自回歸的技術(shù)路線。
在Perceiver AR之前,今年3月推出的Perceiver IO是Perceiver的第二個版本,再向前追溯就是去年這個時候發(fā)布的Perceiver初版了。
最初的Perceiver創(chuàng)新點(diǎn),在于采用Transformer并做出調(diào)整,使其能夠靈活吸納各種輸入,包括文本、聲音和圖像,由此脫離對特定類型輸入的依賴。如此一來,研究人員即可利用多種輸入類型開發(fā)相應(yīng)的神經(jīng)網(wǎng)絡(luò)。
作為時代大潮中的一員,Perceiver跟其他模型項(xiàng)目一樣,也都開始使用自回歸注意力機(jī)制將不同輸入模式和不同任務(wù)域混合起來。此類用例還包括谷歌的Pathways、DeepMind的Gato,以及Meta的data2vec。
到今年3月,初版Perceiver的締造者Andrew Jaegle及其同事團(tuán)隊(duì)又發(fā)布了“IO”版本。新版本增強(qiáng)了Perceiver所支持的輸出類型,實(shí)現(xiàn)了包含多種結(jié)構(gòu)的大量輸出,具體涵蓋文本語言、光流場、視聽序列乃至符號無序集等等。Perceiver IO甚至能夠生成《星際爭霸2》游戲中的操作指令。
在這次的最新論文中,Perceiver AR已經(jīng)能夠面向長上下文實(shí)現(xiàn)通用自回歸建模。但在研究當(dāng)中,Jaegle及其團(tuán)隊(duì)也遇到了新的挑戰(zhàn):模型應(yīng)對各類多模式輸入和輸出任務(wù)時,該如何實(shí)現(xiàn)擴(kuò)展。
問題在于,Transformer的自回歸質(zhì)量,以及任何同樣構(gòu)建輸入到輸出注意力圖的程序,都需要包含多達(dá)數(shù)十萬個元素的巨量分布規(guī)模。
這就是注意力機(jī)制的致命弱點(diǎn)所在。更準(zhǔn)確地說,需要關(guān)注一切才能建立起注意力圖的概率分布。
正如Jaegle及其團(tuán)隊(duì)在論文中提到,當(dāng)輸入當(dāng)中需要相互比較的事物數(shù)量的增加,模型對算力資源的吞噬也將愈發(fā)夸張:
這種長上下文結(jié)構(gòu)與Transformer的計(jì)算特性之間相互沖突。Transformers會反復(fù)對輸入執(zhí)行自注意力操作,這會導(dǎo)致計(jì)算需求同時隨輸入長度而二次增長,并隨模型深度而線性增加。輸入數(shù)據(jù)越多,觀察數(shù)據(jù)內(nèi)容所對應(yīng)的輸入標(biāo)記就越多,輸入數(shù)據(jù)中的模式也變得愈發(fā)微妙且復(fù)雜,必須用更深的層對所產(chǎn)生的模式進(jìn)行建模。而由于算力有限,因此Transformer用戶被迫要么截?cái)嗄P洼斎耄ǚ乐褂^察到更多遠(yuǎn)距模式),要么限制模型的深度(也就剝奪了它對復(fù)雜模式進(jìn)行建模時的表達(dá)能力)。
實(shí)際上,初版Perceiver也曾經(jīng)嘗試過提高Transformers的效率:不直接執(zhí)行注意力,而是對輸入的潛在表示執(zhí)行注意力。如此一來,即可“(解耦)處理大型輸入數(shù)組的算力要求同大深度網(wǎng)絡(luò)所對應(yīng)的算力要求”。
Perceiver AR與標(biāo)準(zhǔn)Transformer深度網(wǎng)絡(luò)、增強(qiáng)型Transformer XL間的比較。
在潛在部分中,輸入表示經(jīng)過了壓縮,因此成為一種效率更高的注意力引擎。這樣,“對于深度網(wǎng)絡(luò),大部分計(jì)算就實(shí)際發(fā)生在自注意力堆棧上”,而無需對無數(shù)輸入執(zhí)行操作。
但挑戰(zhàn)仍然存在,因?yàn)闈撛诒硎静痪邆漤樞蚋拍睿訮erceiver無法像Transformer那樣生成輸出。而順序在自回歸中至關(guān)重要,每個輸出都應(yīng)該是它之前輸入的產(chǎn)物,而非之后的產(chǎn)物。
研究人員們寫道,“但由于每個潛在模型都關(guān)注所有輸入,而不管其位置如何,所以對于要求每個模型輸出必須僅依賴其之前輸入的自回歸生成來說,Perceiver將無法直接適用?!?/p>
而到了Perceiver AR這邊,研究團(tuán)隊(duì)更進(jìn)一步,將順序插入至Perceiver當(dāng)中,使其能夠?qū)崿F(xiàn)自動回歸功能。
這里的關(guān)鍵,就是對輸入和潛在表示執(zhí)行所謂“因果掩蔽”。在輸入側(cè),因果掩蔽會執(zhí)行“交叉注意”,而在潛在表示這邊則強(qiáng)制要求程序只關(guān)注給定符號之前的事物。這種方法恢復(fù)了Transformer的有向性,且仍能顯著降低計(jì)算總量。
結(jié)果就是,Perceiver AR能夠基于更多輸入實(shí)現(xiàn)與Transformer相當(dāng)?shù)慕=Y(jié)果,但性能得以極大提高。
他們寫道,“Perceiver AR可以在合成復(fù)制任務(wù)中,完美識別并學(xué)習(xí)相距至少 100k個標(biāo)記的長上下文模式。”相比之下,Transformer的硬限制為2048個標(biāo)記,標(biāo)記越多則上下文越長,程序輸出也就越復(fù)雜。
與廣泛使用純解碼器的Transformer和Transformer-XL架構(gòu)相比,Perceiver AR的效率更高,而且能夠根據(jù)目標(biāo)預(yù)算靈活改變測試時實(shí)際使用的算力資源。
論文寫道,在同等注意力條件下,計(jì)算Perceiver AR的掛鐘時間要明顯更短,且能夠要同等算力預(yù)算下吸納更多上下文(即更多輸入符號):
Transformer的上下文長度限制為2048個標(biāo)記,相當(dāng)于只支持6個層——因?yàn)楦蟮哪P秃透L的上下文需要占用巨量內(nèi)存。使用同樣的6層配置,我們可以將Transformer-XL內(nèi)存的總上下文長度擴(kuò)展至8192個標(biāo)記。Perceiver AR則可將上下文長度擴(kuò)展至65k個標(biāo)記,如果配合進(jìn)一步優(yōu)化,甚至有望突破100k。
所有這一切,都令計(jì)算變得更加靈活:“我們能夠更好地控制給定模型在測試過程中產(chǎn)生的計(jì)算量,并使我們能夠在速度與性能間穩(wěn)定求取平衡?!?/p>
Jaegle及其同事還寫道,這種方法適用于任意輸入類型,并不限于單詞符號。例如可以支持圖像中的像素:
只要應(yīng)用了因果掩蔽技術(shù),相同過程就適用于任何可以排序的輸入。例如,通過對序列中每個像素的R、G、B顏色通道進(jìn)行有序或亂序解碼,即可按光柵掃描順序?yàn)閳D像的RGB通道排序。
作者們發(fā)現(xiàn)Perceiver中蘊(yùn)藏著巨大潛力,并在論文中寫道,“Perceiver AR是長上下文通用型自回歸模型的理想候選方案?!?/p>
但要想追求更高的計(jì)算效率,還需要解決另一個額外的不穩(wěn)定因素。作者們指出,最近研究界也在嘗試通過“稀疏性”(即限制部分輸入元素被賦予重要性的過程)來減少自回歸注意力的算力需求。
在相同的掛鐘時間內(nèi),Perceiver AR能夠在層數(shù)相同的情況下運(yùn)行更多來自輸入的符號,或者在輸入符號運(yùn)行數(shù)量相同的情況下顯著縮短計(jì)算時長。作者認(rèn)為,這種出色的靈活性有望為大型網(wǎng)絡(luò)找到一種通用的提效方法。
但稀疏性也有自己的缺點(diǎn),主要就是過于死板。論文寫道,“使用稀疏性方法的缺點(diǎn)在于,必須以手動調(diào)整或者啟發(fā)式方法創(chuàng)建這種稀疏性。這些啟發(fā)式方法往往只適用于特定領(lǐng)域,而且往往很難調(diào)整?!監(jiān)penAI與英偉達(dá)在2019年發(fā)布的Sparse Transformer就屬于稀疏性項(xiàng)目。
他們解釋道,“相比之下,我們的工作并不需要在注意力層上強(qiáng)制手動創(chuàng)建稀疏模式,而是允許網(wǎng)絡(luò)自主學(xué)習(xí)哪些長上下文輸入更需要關(guān)注、更需要通過網(wǎng)絡(luò)進(jìn)行傳播?!?/p>
論文還補(bǔ)充稱,“最初的交叉注意力操作減少了序列中的位置數(shù)量,可以被視為一種稀疏學(xué)習(xí)形式?!?/p>
以這種方式學(xué)習(xí)到的稀疏性本身,也許會在未來幾年內(nèi)成為深度學(xué)習(xí)模型工具包中的又一強(qiáng)大利器。