偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="btpj3"><li id="btpj3"></li></dfn>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

在Scaling Transformers用稀疏性就足夠了！我們以后或許能在筆記本電腦上托管 GPT-3

作者：鄭宇宏 2022-03-28 11:01:24

人工智能新聞

大型模型在許多任務(wù)上都產(chǎn)生了令人印象深刻的結(jié)果，但是訓(xùn)練和微調(diào)的成本很高，而且解碼速度過慢，以至于研究和使用難度提升。華沙大學(xué)，谷歌研究和OpenAI的學(xué)者們通過利用稀疏性來解決這個問題。他們研究了模型中所有層級的稀疏變量，并提出了下一代Transformer模型族-Scaling Transformers。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

1.Scaling Transformers：讓大型語言模型更易于管理

近年來，基于Transformer架構(gòu)的大型神經(jīng)網(wǎng)絡(luò)，自然語言處理領(lǐng)域取得了巨大的進步。前幾年在Reddit上發(fā)布大量灌水貼的thegentlemetre賬號一周后才被人類發(fā)覺：這竟然是一個應(yīng)用程序在“作怪”！它正是以被稱為地表最強的語言模型GPT-3為基礎(chǔ)開發(fā)的程序。

GPT-3作為一個大型語言模型，可以創(chuàng)作出整篇文章，即使把這些文章和人類寫的文章相比較的話，都很難被區(qū)分出來。

但是這種“聰明”的模型卻有一個弊端。

因為它的訓(xùn)練成本極高，不是每個人都有資源來訓(xùn)練這種大型模型。

那么如何讓大型語言模型更易于管理以適用日常需要呢？

華沙大學(xué)，谷歌研究和OpenAI的學(xué)者們提出一個新的模型族-Scaling Transformers。

論文地址：https://arxiv.org/abs/2111.12763

文章提出了一種通過稀疏化網(wǎng)絡(luò)中線性層的激活（前饋和 Q、K、V 投影）來訓(xùn)練大規(guī)模稀疏模型的方法。該方法特別吸引人，因為它似乎不需要任何特定于硬件或低級別的優(yōu)化即可有效。控制器網(wǎng)絡(luò)在激活時生成一個塊式 one-hot 掩碼，并根據(jù)此掩碼動態(tài)選擇后續(xù)層的權(quán)重。當擴大模型大小時，用稀疏層來有效擴展并執(zhí)行非批次解碼的速度比標準Transformer模型快的多。在參數(shù)數(shù)量相同的情況下，稀疏層足以獲得與標準Transformer相同的困惑度。

2.文章解讀

Fabio Chiusano在NLP上發(fā)表了對這篇論文的正面評價。Fabio Chiusano是Digitiamo 數(shù)據(jù)科學(xué)主管，也是人工智能領(lǐng)域的頂級媒體作家。AI科技評論對Chiusano的點評做了不改原意的整理：

Scaling Transformer 真的很有趣，因為當我們擴大模型大小時，它們允許有效地縮放語言模型并且比標準 Transformer 更快地執(zhí)行非批處理解碼。嚴謹?shù)卣f：

我們稱其??d?? 為 Transformer 模型的參數(shù)個數(shù)。
然后，一個標準的密集 Transformer 將需要近似??d^2??計算來進行預(yù)測。
相反，稀疏的 Scaling Transformer 將需要近似??d^1.5??計算。

如果說這樣的改進看起來不明顯，請考慮一下這??d??通常是一個非常高的數(shù)字，大約數(shù)十億，實際上實驗表明，Scaling Transformer 為單個令牌帶來了近 20 倍的預(yù)測加速（從 3.690s 到 0.183 s) 關(guān)于具有 17B 個參數(shù)的密集 Transformer。注意：這些加速是針對未批量預(yù)測的。

在具有建議的稀疏機制（FF、QKV、FF+QKV）的 C4 數(shù)據(jù)集上，Scaling Transformers（相當于 T5 大小，具有大約 800M 參數(shù)）的對數(shù)困惑度類似于基線密集模型。

具有 17B 參數(shù)的 Terraformer 的單個令牌的解碼速度比密集基線模型快 37 倍，推理所需的時間少于 100 毫秒/令牌。這里注意力稀疏 = 64，ff-稀疏 = 256，損失稀疏 = 4

稀疏化的收益非常好。然而，當解碼較長的序列時，它們會更糟，因為解碼時間將由注意力操作控制。

幸運的是，已經(jīng)提出了許多方法來解決 Transformer 的這個問題，例如LSH（Locality-Sensitive Hashing）注意處理長序列和可逆層以提高內(nèi)存效率。我會說這不是個微不足道的結(jié)果！

這篇論文還對用于提高 Transformer 效率的其他技術(shù)進行了有趣的概述。我在這里報告了它的一些摘錄，我認為它可以作為那些不熟悉 Transformer 技術(shù)效率的人的參考。

模型壓縮。模型修剪通過在訓(xùn)練之后或訓(xùn)練期間移除不需要的權(quán)重來使矩陣更小。
模型蒸餾。模型蒸餾包括在先前訓(xùn)練的大模型（即教師）的輸出上訓(xùn)練一個小模型（即學(xué)生）。用于移動推理的幾種自然語言模型依靠蒸餾來加速從預(yù)先訓(xùn)練的大型模型中進行推理。
稀疏注意力?；谙∈枳⒁饬Φ姆椒ㄍㄟ^合并額外的組合機制或選擇該層所關(guān)注的標記子集，使注意力層更加高效，尤其是對于長序列。
稀疏前饋。關(guān)鍵思想是將前饋層劃分為多個部分（稱為專家），每個令牌只檢索一個部分，這降低了前饋塊的復(fù)雜性。這些加速主要以訓(xùn)練速度來衡量，并且該方法側(cè)重于前饋塊。專家方法的混合已被證明可以在訓(xùn)練中實現(xiàn)計算效率，擴展到一萬億個參數(shù)。

雖然目前的結(jié)果有許多局限性。盡管如此，這篇論文可以被認為是通往可持續(xù)大型模型的第一步。

大家怎么看？

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

模型訓(xùn)練谷歌

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<meter id="cp0q9"><fieldset id="cp0q9"></fieldset></meter>