MIT發(fā)出「算力」警告:深度學(xué)習(xí)正在逼近計算極限
深度學(xué)習(xí)的流行,本質(zhì)原因都是人們對算力的追求。
近日,MIT卻發(fā)出警告:深度學(xué)習(xí)正在接近計算極限,必須轉(zhuǎn)變現(xiàn)有技術(shù)「大幅」提高計算效率。
根據(jù)麻省理工學(xué)院,安德伍德國際學(xué)院和巴西利亞大學(xué)的研究人員的說法,他們在最近的一項研究中發(fā)現(xiàn),深度學(xué)習(xí)的進展「非常依賴」計算的增長。他們斷言,不斷的進步將需要通過改變現(xiàn)有技術(shù)或通過尚未發(fā)現(xiàn)的新方法來「戲劇性地」更有效地使用深度學(xué)習(xí)方法。
「我們的研究表明,深度學(xué)習(xí)的計算成本并非偶然,而是精心設(shè)計的。同樣的靈活性使得它在建模各種現(xiàn)象和優(yōu)于專家模型方面表現(xiàn)出色,也使得它的計算成本大大增加。盡管如此,我們發(fā)現(xiàn)深度學(xué)習(xí)模型的實際計算負擔(dān)比理論上擴展得更快,這表明需要會有實質(zhì)性的改進?!?/p>
深度學(xué)習(xí)是機器學(xué)習(xí)的一個子領(lǐng)域,研究的是受大腦結(jié)構(gòu)和功能啟發(fā)的算法。這些算法被稱為人工神經(jīng)網(wǎng)絡(luò),由排列成層的函數(shù)(神經(jīng)元)組成,這些函數(shù)將信號傳輸給其他神經(jīng)元。
這些信號是輸入數(shù)據(jù)輸入網(wǎng)絡(luò)的產(chǎn)物,從一層傳輸?shù)搅硪粚?,緩慢地「調(diào)整」網(wǎng)絡(luò),實際上就是調(diào)整每個連接的突觸權(quán)重。網(wǎng)絡(luò)最終學(xué)會了通過從數(shù)據(jù)集中提取特征和識別交叉樣本的趨勢來進行預(yù)測。
研究人員分析了預(yù)印本服務(wù)器Arxiv.org上的1058篇論文和其他基準(zhǔn)資料,以理解深度學(xué)習(xí)性能和計算之間的聯(lián)系,特別關(guān)注圖像分類、目標(biāo)檢測、問題回答、命名實體識別和機器翻譯等領(lǐng)域。他們分別對計算需求進行了兩項分析,反映了可用的兩類信息:
1、每一網(wǎng)絡(luò)遍歷的計算量,或給定深度學(xué)習(xí)模型中單次遍歷(即權(quán)值調(diào)整)所需的浮點運算數(shù)。
2、硬件負擔(dān),或用于訓(xùn)練模型的硬件的計算能力,以處理器數(shù)量乘以計算速度和時間計算。(研究人員承認,雖然這是一種不精確的計算方法,但在他們分析的論文中,它的報道比其他基準(zhǔn)要廣泛得多。)
報告說,除從英語到德語的機器翻譯(使用的計算能力幾乎沒有變化)外,所有基準(zhǔn)均具有「統(tǒng)計學(xué)上顯著性」的斜率和「強大的解釋能力」。
對象檢測,命名實體識別和機器翻譯對于硬件的負擔(dān)大幅增加,而結(jié)果的改善卻相對較小,計算能力解釋了流行的開源ImageNet基準(zhǔn)測試中圖像分類精度差異的43%。
研究人員估計,三年的算法改進相當(dāng)于計算能力提高了10倍。他們寫道:「總體而言,我們的結(jié)果清楚地表明,在深度學(xué)習(xí)的許多領(lǐng)域中,訓(xùn)練模型的進步取決于所使用的計算能力的大幅提高?!?/p>
「另一種可能性是,要改善算法本身可能需要互補地提高計算能力?!?/p>
在研究過程中,研究人員還對預(yù)測進行了推斷,以了解達到各種理論基準(zhǔn)所需的計算能力以及相關(guān)的經(jīng)濟和環(huán)境成本。即使是最樂觀的計算,要降低ImageNet上的圖像分類錯誤率,也需要進行100000次以上的計算。
他們的觀點是,一份同步報告估計,華盛頓大學(xué)(University of Washington)的格羅弗(Grover)假新聞檢測模型的培訓(xùn)成本為2.5萬美元,耗時約兩周。據(jù)報道,OpenAI花費了1200萬美元來訓(xùn)練它的GPT-3語言模型,谷歌花費了大約6912美元來訓(xùn)練BERT,一個雙向轉(zhuǎn)換模型重新定義了11個自然語言處理任務(wù)的最新狀態(tài)。
在去年6月的另一份報告中,馬薩諸塞大學(xué)阿姆赫斯特分校(University of Massachusetts at Amherst)的研究人員得出結(jié)論稱,訓(xùn)練和搜索某一模型所需的能量大約排放了62.6萬磅二氧化碳。這相當(dāng)于美國汽車平均壽命的五倍。
研究人員寫道:「我們不認為這些目標(biāo)所隱含的計算要求……硬件、環(huán)境和貨幣成本會令人望而卻步。以經(jīng)濟的方式實現(xiàn)這一目標(biāo),將需要更高效的硬件、更高效的算法或其他改進,從而產(chǎn)生如此巨大的凈影響。」
研究人員指出,在算法級別進行深度學(xué)習(xí)改進已有歷史先例。他們指出了諸如Google的張量處理單元,現(xiàn)場可編程門陣列(FPGA)和專用集成電路(ASIC)之類的硬件加速器的出現(xiàn),以及通過網(wǎng)絡(luò)壓縮和加速技術(shù)來降低計算復(fù)雜性的嘗試。
他們還引用了神經(jīng)體系結(jié)構(gòu)搜索和元學(xué)習(xí),以此使用優(yōu)化來查找在一類問題上保持良好性能的體系結(jié)構(gòu),以此作為計算上有效的改進方法的途徑。
算力確實在提高。一項OpenAI研究表明,自2012年以來,每16個月將AI模型訓(xùn)練到ImageNet圖像分類中相同性能所需的計算量就減少了2倍。Google的Transformer架構(gòu)超越了以前的狀態(tài)seq2seq也是由Google開發(fā)的模型,在seq2seq推出三年后,計算量減少了61倍。
DeepMind的AlphaZero這個系統(tǒng)從零開始教自己如何掌握國際象棋,將棋和圍棋的游戲,而在一年后,與該系統(tǒng)的前身AlphaGoZero的改進版本相匹配,其計算量就減少了八倍。
用于深度學(xué)習(xí)模型的計算能力的爆炸式增長已經(jīng)結(jié)束了「人工智能冬天」,并為各種任務(wù)的計算機性能樹立了新的基準(zhǔn)。
但是,深度學(xué)習(xí)對計算能力的巨大需求限制了它可以以目前的形式提高性能的程度,特別是在硬件性能的提高放緩的時代。這些計算限制的可能影響迫使……機器學(xué)習(xí)轉(zhuǎn)向比深度學(xué)習(xí)更高效的技術(shù)。