偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

1000000000！微軟改進(jìn)Transformer一次能記住這么多token了

作者：量子位 2023-07-07 19:23:08

目前最強(qiáng)的GPT-4也才最大支持一次處理32k token，相當(dāng)于50頁文字。而能夠只用1分鐘看完一本數(shù)萬字小說的Claude，其token數(shù)也不過“才”100k（10萬）。

微軟亞研院最新研究，有點(diǎn)震撼：

他們開發(fā)了一個(gè)Transformer變體，居然將其token拓展到了10億。

圖片

什么概念？

目前最強(qiáng)的GPT-4也才最大支持一次處理32k token，相當(dāng)于50頁文字。

而能夠只用1分鐘看完一本數(shù)萬字小說的Claude，其token數(shù)也不過“才”100k（10萬）。

一次性擴(kuò)展到10億，并且這個(gè)數(shù)字理論上其實(shí)還是無限的，這不就意味著：

不久的將來，整個(gè)語料庫甚至互聯(lián)網(wǎng)都能視為一個(gè)序列？

圖片

若真如此，簡(jiǎn)直不敢想象。

如何做到？

大預(yù)言模型時(shí)代，擴(kuò)展序列長(zhǎng)度已成為一大關(guān)鍵需求。

然而，現(xiàn)有的方法要么難以解決計(jì)算復(fù)雜性，要么搞不定模型表達(dá)力，導(dǎo)致長(zhǎng)度很受限。

在此，作者提出一個(gè)Transformer變體：LongNet，它應(yīng)用了一種叫做“膨脹注意力（dilated attention）”的機(jī)制，可以隨著距離的增長(zhǎng)，讓注意力場(chǎng)（模型感知范圍）呈指數(shù)級(jí)擴(kuò)展。

具體而言，dilated attention替代了普通Transformer中的注意力機(jī)制的，其一般的設(shè)計(jì)原則是：

讓注意力的分配隨著token之間距離的增長(zhǎng)，呈指數(shù)級(jí)下降。

如下圖構(gòu)建塊所示，dilated attention由一系列用于建模短期和長(zhǎng)期依賴關(guān)系的注意力pattern組成。pattern的數(shù)量可以根據(jù)序列長(zhǎng)度進(jìn)行擴(kuò)展。

圖片

實(shí)驗(yàn)證明，dilated attention能夠產(chǎn)生線性計(jì)算復(fù)雜度和token之間的對(duì)數(shù)依賴性，從而解決了注意力資源有限，但每一個(gè)token都可訪問的矛盾。

除此之外，作者還引入了多頭dilated attention。如下圖所示，不同頭之間的注意力pattern會(huì)因位置的連續(xù)變化而不同。

圖片

在最終實(shí)現(xiàn)中，LongNet可轉(zhuǎn)換為密集的Transformer，從而無縫集成Transformer現(xiàn)有的優(yōu)化方法（比如內(nèi)核融合、量化和分布式訓(xùn)練）。

而利用線性復(fù)雜度，LongNet還可以跨節(jié)點(diǎn)并行訓(xùn)練，利用分布式算法打破計(jì)算和內(nèi)存的限制。

如下圖所示，LongNet通過劃分序列維度在兩個(gè)GPU上進(jìn)行并行化訓(xùn)練。隨著設(shè)備數(shù)量的增長(zhǎng)，計(jì)算和通信成本幾乎仍然是不變的。

圖片

因此，這使得LongNet可以在幾乎恒定的運(yùn)行時(shí)間內(nèi)有效地將序列長(zhǎng)度擴(kuò)展到10億token（同時(shí)無需犧牲較短序列的性能）。

圖片

相比之下，普通Transformer還在受困于二次復(fù)雜度帶來的影響。

實(shí)驗(yàn)評(píng)估

作者將LongNet與普通Transformer和稀疏Transformer進(jìn)行了比較。

三者之間的體系結(jié)構(gòu)差異只體現(xiàn)在注意力層，模型的序列長(zhǎng)度都從2K擴(kuò)展到32K，同時(shí)減少batch size以保持每個(gè)batch的token數(shù)量不變。

對(duì)于LongNet，作者使用w＝{2048,4096,8192,16384,32768}的分段長(zhǎng)度，同時(shí)擴(kuò)張比率為r＝{1,2,4,6,12}，并實(shí)現(xiàn)了稀疏注意力的固定模式，再將稀疏比進(jìn)行調(diào)整為匹配LongNet的計(jì)算flops，從而使實(shí)驗(yàn)公平。

（由于計(jì)算限制，只能將LongNet擴(kuò)展到32K序列長(zhǎng)度）。

下表為以上三個(gè)模型在Stack數(shù)據(jù)集上的結(jié)果，衡量指標(biāo)是困惑度，測(cè)試了每個(gè)模型不同的序列長(zhǎng)度。

當(dāng)輸入長(zhǎng)度超過模型支持的最大長(zhǎng)度時(shí)，作者就使用一種最先進(jìn)的語言模型推理外推方法：分塊因果注意（BCA）。

此外，還去除了絕對(duì)位置編碼。

圖片

結(jié)果表明：

首先，在訓(xùn)練過程中增加序列長(zhǎng)度一般會(huì)得到效果更好的語言模型。

其次，在長(zhǎng)度遠(yuǎn)大于模型支持的情況下，序列長(zhǎng)度外推法（推理時(shí)）并不適用。

最后，可以看到，LongNet的每一項(xiàng)數(shù)據(jù)都優(yōu)于其他兩個(gè)基線，證明了它在語言建模方面的有效性。

除此之外，作者還證明，在擴(kuò)展語言模型上下文長(zhǎng)度時(shí)，LongNet也是一種更有效的方法。

圖片

網(wǎng)友：Memery is all you need

不少人看完這項(xiàng)成果總結(jié)道，說來說去，還是“memery is all you need”（手動(dòng)狗頭）

圖片

圖片

有點(diǎn)厲害！非常希望它是真的且可復(fù)現(xiàn)。

圖片

不過，也不乏爭(zhēng)議。

比如有人吐槽實(shí)驗(yàn)只將LongNet擴(kuò)展到了32k長(zhǎng)度，離10億還差的遠(yuǎn)呢。

圖片

還有不少人稱，方法不算很創(chuàng)新，其實(shí)就跟稀疏注意力模式差不多。

圖片

作者介紹

本論文作者7位，全部來自微軟亞研院。

兩位共同一作：

Jiayu Ding，微軟亞研院實(shí)習(xí)生，本碩畢業(yè)于北京郵電大學(xué)計(jì)算機(jī)科學(xué)專業(yè)；

馬樹銘，微軟亞研院自然語言計(jì)算組研究員，2019年加入，本碩畢業(yè)于北京大學(xué)。

通訊作者為Furu Wei，微軟亞研院自然語言計(jì)算組全球研究合伙人，博士畢業(yè)于武漢大學(xué)，曾任IBM中國研究院研究員、香港理工大學(xué)電子計(jì)算系研究助理。

論文地址：https://arxiv.org/abs/2307.02486

參考鏈接：
[1]https://twitter.com/arankomatsuzaki/status/1676765133362675712
[2]https://twitter.com/AlphaSignalAI/status/1677009901334192143?s=20
[3]https://www.reddit.com/r/LocalLLaMA/comments/14rym30/longnet_scaling_transformers_to_1000000000_tokens/

責(zé)任編輯：武曉燕來源：量子位

微軟文字 Claude

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<button id="7tg6s"></button>