偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<legend id="b3vng"><track id="b3vng"><dfn id="b3vng"></dfn></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

RNN模型挑戰(zhàn)Transformer霸權(quán)！1%成本性能比肩Mistral-7B，支持100+種語言全球最多

作者：新智元 2024-02-19 14:09:00

大模型內(nèi)卷時(shí)代，也不斷有人跳出來挑戰(zhàn)Transformer的統(tǒng)治地位，RWKV最新發(fā)布的Eagle 7B模型登頂了多語言基準(zhǔn)測(cè)試，同時(shí)成本降低了數(shù)十倍。

在大模型內(nèi)卷的同時(shí)，Transformer的地位也接連受到挑戰(zhàn)。

近日，RWKV發(fā)布了Eagle 7B模型，基于最新的RWKV-v5架構(gòu)。

Eagle 7B在多語言基準(zhǔn)測(cè)試中，擊敗了所有的同級(jí)別模型，在單獨(dú)的英語測(cè)試中，也和表現(xiàn)最好的模型基本打平。

同時(shí)，Eagle 7B用的是RNN架構(gòu)，相比于同尺寸的Transformer模型，推理成本降低了10-100倍以上，可以說是世界上最環(huán)保的7B模型。

由于RWKV-v5的論文可能要下個(gè)月才能發(fā)布，這里先奉上RWKV的論文，——也是第一個(gè)擴(kuò)展到數(shù)百億參數(shù)的非Transformer架構(gòu)。

圖片

論文地址：https://arxiv.org/pdf/2305.13048.pdf

這篇工作已被EMNLP 2023錄用，我們可以看到論文的作者來自不同國(guó)家的頂尖高校、研究機(jī)構(gòu)以及科技公司。

下面是Eagle 7B的官圖，表示這只老鷹正在飛躍變形金剛。

圖片

Eagle 7B

Eagle 7B使用來自100多種語言的，1.1T（萬億）個(gè)Token的訓(xùn)練數(shù)據(jù)，在下圖的多語言基準(zhǔn)測(cè)試中，Eagle 7B平均成績(jī)位列第一。

基準(zhǔn)測(cè)試包括xLAMBDA、xStoryCloze、xWinograd和xCopa，涵蓋了23種語言，以及各自語言的常識(shí)推理。

Eagle 7B拿到了其中三項(xiàng)的第一，盡管有一項(xiàng)沒打過Mistral-7B，屈居第二，但對(duì)手使用的訓(xùn)練數(shù)據(jù)要遠(yuǎn)高于Eagle。

圖片

下圖的英語測(cè)試包含了12個(gè)獨(dú)立的基準(zhǔn)、常識(shí)推理和世界知識(shí)。

在英語性能測(cè)試中，Eagle 7B的水平接近Falcon（1.5T）、LLaMA2（2T）、Mistral（>2T），與同樣使用了1T左右訓(xùn)練數(shù)據(jù)的MPT-7B不相上下。

圖片

并且，在兩種測(cè)試中，新的v5架構(gòu)相比于之前的v4，有了巨大的整體飛躍。

Eagle 7B目前由Linux基金會(huì)托管，以Apache 2.0許可證授權(quán)，可以不受限制地用于個(gè)人或商業(yè)用途。

多語言支持

前面說了，Eagle 7B的訓(xùn)練數(shù)據(jù)來自100多種語言，而上面采用的4項(xiàng)多語言基準(zhǔn)測(cè)試只包括了23種語言。

圖片

雖然取得了第一名的成績(jī)，但總的來說，Eagle 7B是吃虧的，畢竟，基準(zhǔn)測(cè)試無法直接評(píng)估模型在其他70多種語言中的性能。

額外的訓(xùn)練代價(jià)并不能幫助自己刷榜，如果集中在英語，可能會(huì)獲得比現(xiàn)在更好的成績(jī)。

——那么，RWKV為什么要這么做呢？官方對(duì)此表示：

Building inclusive AI for everyone in this world —— not just the English

在對(duì)于RWKV模型的眾多反饋中，最常見的是：

多語言方法損害了模型的英語評(píng)估分?jǐn)?shù)，并減緩了線性Transformer的發(fā)展；

讓多語言模型與純英語模型，比較多語言性能是不公平的

官方表示，「在大多數(shù)情況下，我們同意這些意見，」

「但我們沒有計(jì)劃改變這一點(diǎn)，因?yàn)槲覀冋跒槭澜鐦?gòu)建人工智能——這不僅僅是一個(gè)英語世界。」

圖片

2023年，世界上只有17%的人口會(huì)說英語（大約13億人），但是，通過支持世界上排名前25位的語言，模型可以覆蓋大約40億人，即世界人口總數(shù)的50%。

團(tuán)隊(duì)希望未來的人工智能可以為每個(gè)人都提供幫助，比如讓模型可以在低端硬件上以低廉的價(jià)格運(yùn)行，比如支持更多的語言。

團(tuán)隊(duì)將在之后逐漸擴(kuò)大多語言數(shù)據(jù)集，以支持更廣泛的語言，并慢慢將覆蓋范圍擴(kuò)大到世界上100%的地區(qū)，——確保沒有語言被遺漏。

數(shù)據(jù)集+可擴(kuò)展架構(gòu)

在模型的訓(xùn)練過程中，有一個(gè)值得注意的現(xiàn)象：

隨著訓(xùn)練數(shù)據(jù)規(guī)模不斷增加，模型的性能逐漸進(jìn)步，當(dāng)訓(xùn)練數(shù)據(jù)達(dá)到300B左右時(shí)，模型顯示出與pythia-6.9b 相似的性能，而后者的訓(xùn)練數(shù)據(jù)量為300B。

圖片

這個(gè)現(xiàn)象與之前在RWKV-v4架構(gòu)上進(jìn)行的一項(xiàng)實(shí)驗(yàn)相同，——也就是說，在訓(xùn)練數(shù)據(jù)規(guī)模相同的情況下，像RWKV這種線性Transformer的性能會(huì)和Transformer差不多。

那么我們不禁要問，如果確實(shí)如此，那么是不是相比于確切的架構(gòu)，數(shù)據(jù)反而對(duì)模型的性能提升更加重要？

圖片

我們知道，Transformer類的模型，計(jì)算和存儲(chǔ)代價(jià)是平方級(jí)別的，而在上圖中RWKV架構(gòu)的計(jì)算成本只是隨著Token數(shù)線性增長(zhǎng)。

也許我們應(yīng)該尋求更高效、更可擴(kuò)展的架構(gòu)，以提高可訪問性，降低每個(gè)人的人工智能成本，并減少對(duì)環(huán)境的影響。

RWKV

RWKV架構(gòu)是一種具有GPT級(jí)別LLM性能的RNN，同時(shí)又可以像Transformer一樣并行化訓(xùn)練。

RWKV結(jié)合了RNN和Transformer的優(yōu)點(diǎn)——出色的性能、快速推理、快速訓(xùn)練、節(jié)省VRAM、「無限」的上下文長(zhǎng)度和免費(fèi)的句子嵌入，RWKV并不使用注意力機(jī)制。

下圖展示了RWKV與Transformer派模型在計(jì)算成本上的對(duì)比：

圖片

為了解決Transformer的時(shí)間和空間復(fù)雜度問題，研究人員提出了多種架構(gòu)：

圖片

RWKV架構(gòu)由一系列堆疊的殘差塊組成，每個(gè)殘差塊由一個(gè)具有循環(huán)結(jié)構(gòu)的時(shí)間混合和一個(gè)通道混合子塊組成

下圖中左邊為RWKV塊元素，右邊為RWKV殘差塊，以及用于語言建模的最終頭部。

圖片

遞歸可以表述為當(dāng)前輸入和前一個(gè)時(shí)間步的輸入之間的線性插值（如下圖中的對(duì)角線所示），可以針對(duì)輸入嵌入的每個(gè)線性投影獨(dú)立調(diào)整。

這里還引入了一個(gè)單獨(dú)處理當(dāng)前Token的向量，以補(bǔ)償潛在的退化。

圖片

RWKV可以在我們所說的時(shí)間并行模式下有效地并行化（矩陣乘法）。

在循環(huán)網(wǎng)絡(luò)中，通常使用前一時(shí)刻的輸出作為當(dāng)前時(shí)刻的輸入。這在語言模型的自回歸解碼推理中尤為明顯，它要求在輸入下一步之前計(jì)算每個(gè)令牌，從而使RWKV能夠利用其類似RNN的結(jié)構(gòu)，稱為時(shí)間順序模式。

在這種情況下，RWKV可以方便地遞歸表述，以便在推理過程中進(jìn)行解碼，它利用了每個(gè)輸出令牌僅依賴于最新狀態(tài)的優(yōu)勢(shì)，狀態(tài)的大小是恒定的，而與序列長(zhǎng)度無關(guān)。

然后充當(dāng)RNN解碼器，相對(duì)于序列長(zhǎng)度產(chǎn)生恒定的速度和內(nèi)存占用，從而能夠更有效地處理較長(zhǎng)的序列。

相比之下，自注意力的KV緩存相對(duì)于序列長(zhǎng)度不斷增長(zhǎng)，從而導(dǎo)致效率下降，并隨著序列的延長(zhǎng)而增加內(nèi)存占用和時(shí)間。

參考資料：

https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers

責(zé)任編輯：武曉燕來源：新智元

模型 Eagle 7B RNN

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="enc6n"></blockquote>^{<blockquote id="enc6n"><code id="enc6n"></code></blockquote>}

<sub id="enc6n"><rt id="enc6n"></rt></sub>