偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI 架構(gòu) Transformer 再進(jìn)化:谷歌新方法突破長(zhǎng)文本處理,注意力模塊內(nèi)存需求可降至 1/47

人工智能
谷歌公司推出了選擇性注意力(Selective Attention)方法,可以提高 Transformer 架構(gòu)模型的性能。

10 月 9 日消息,科技媒體 marktechpost 昨日(10 月 8 日)發(fā)布博文,報(bào)道稱谷歌公司推出了選擇性注意力(Selective Attention)方法,可以提高 Transformer 架構(gòu)模型的性能。

Transformer 架構(gòu)簡(jiǎn)介

Transformer 是一種革命性的神經(jīng)網(wǎng)絡(luò)架構(gòu),由谷歌在 2017 年提出,主要用于處理序列數(shù)據(jù),特別是在自然語(yǔ)言處理(NLP)領(lǐng)域。

Transformer 的核心是自注意力機(jī)制,允許模型在處理輸入序列時(shí)捕捉詞與詞之間的關(guān)系,讓模型能夠關(guān)注輸入序列中的所有部分,而不僅僅是局部信息。

Transformer 由多個(gè)編碼器和解碼器組成。編碼器負(fù)責(zé)理解輸入數(shù)據(jù),而解碼器則生成輸出。多頭自注意力機(jī)制使模型能夠并行處理信息,提高了效率和準(zhǔn)確性。

Transformer 架構(gòu)模型挑戰(zhàn)

Transformer 架構(gòu)的一大挑戰(zhàn)是它們?cè)谔幚黹L(zhǎng)文本序列時(shí)效率低下,由于每個(gè)標(biāo)記與序列中的每個(gè)其他標(biāo)記都相互作用導(dǎo)致二次復(fù)雜度,這就導(dǎo)致隨著上下文長(zhǎng)度的增加,計(jì)算和內(nèi)存需求呈指數(shù)增長(zhǎng)。

現(xiàn)在解決這一問(wèn)題的方法包括稀疏注意力機(jī)制(sparse attention mechanisms),它限制了標(biāo)記之間的交互數(shù)量,以及通過(guò)總結(jié)過(guò)去信息來(lái)減少序列長(zhǎng)度的上下文壓縮技術(shù)。

不過(guò)這種方法是通過(guò)減少在注意力機(jī)制中考慮的標(biāo)記數(shù)量達(dá)成的,因此通常以性能為代價(jià),可能會(huì)導(dǎo)致上下文關(guān)鍵信息丟失。

谷歌新方法

谷歌研究的研究人員提出了一種名為選擇性注意的新方法,可以動(dòng)態(tài)忽略不再相關(guān)的標(biāo)記,從而提高 Transformer 模型的效率。

選擇性注意力使用軟掩碼矩陣來(lái)確定每個(gè)標(biāo)記對(duì)未來(lái)標(biāo)記的重要性,減少對(duì)不重要標(biāo)記的關(guān)注。

研究表明,配備選擇性注意的 Transformer 架構(gòu)模型在多個(gè)自然語(yǔ)言處理任務(wù)中表現(xiàn)出色,同時(shí)顯著降低了內(nèi)存使用和計(jì)算成本。

例如,在擁有 1 億參數(shù)的 Transformer 模型中,注意力模塊的內(nèi)存需求在上下文大小為 512、1024 和 2048 個(gè) tokens 時(shí)分別減少至 1/16、1/25 和 1/47。所提方法在 HellaSwag 基準(zhǔn)測(cè)試中也優(yōu)于傳統(tǒng) Transformer,對(duì)于較大的模型規(guī)模實(shí)現(xiàn)了高達(dá) 5% 的準(zhǔn)確率提升。

選擇性注意力允許構(gòu)建更小、更高效的模型,在不損害準(zhǔn)確性的情況下,顯著減少內(nèi)存需求。

IT之家附上參考地址

責(zé)任編輯:龐桂玉 來(lái)源: IT之家
相關(guān)推薦

2010-07-21 10:05:13

Perl文本處理模塊

2025-05-19 09:12:16

2025-06-17 09:05:00

2025-06-26 09:09:31

2010-01-06 17:12:26

.Net Framew

2013-10-30 10:35:29

Linux命令文本處理

2017-03-02 18:10:20

LinuxShell命令

2021-01-28 08:12:15

Linux命令技巧

2013-08-20 16:14:46

pythonpython文本處理

2024-10-23 19:47:54

2025-06-09 08:52:00

2023-11-24 12:36:00

模型訓(xùn)練

2023-09-25 10:04:37

模型AI

2024-02-19 00:12:00

模型數(shù)據(jù)

2024-10-31 10:00:39

注意力機(jī)制核心組件

2022-02-08 15:43:08

AITransforme模型

2024-09-12 17:39:27

2024-04-12 12:14:39

Rust字符串代碼

2025-04-07 07:47:00

模型訓(xùn)練AI

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)