偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

姚期智團(tuán)隊(duì)開源新型注意力,節(jié)省90%內(nèi)存不降性能,一個(gè)框架統(tǒng)一MHA/MQA/GQA

人工智能 新聞
論文由清華&上海期智研究員團(tuán)隊(duì)、UCLA顧全全團(tuán)隊(duì)合作,共同一作為清華博士生張伊凡與姚班校友、現(xiàn)UCLA博士生劉益楓。

新型注意力機(jī)制TPA,姚期智院士團(tuán)隊(duì)打造。

圖片

TPA對(duì)每個(gè)token做動(dòng)態(tài)的張量分解,不存儲(chǔ)完整的靜態(tài)KV,而是保留分解的版本,內(nèi)存占用節(jié)省90%(或者更多),而不會(huì)犧牲性能。

圖片

論文中還證明了流行的MHA、MQA、GQA都是TPA的特殊情況,用一個(gè)框架統(tǒng)一了現(xiàn)代注意力設(shè)計(jì)。

圖片

用此方法訓(xùn)練的新模型T6,代碼已在GitHub開源。

圖片

論文發(fā)布后,有創(chuàng)業(yè)者表示,終于不用付那么多錢給云廠商了。

圖片

也有研究者認(rèn)為,論文中的實(shí)驗(yàn)看起來很有希望,不過實(shí)驗(yàn)中的模型規(guī)模有點(diǎn)小,希望看到更多結(jié)果。

圖片

動(dòng)態(tài)張量分解,無(wú)縫集成RoPE

盡管現(xiàn)有的注意力機(jī)制在眾多任務(wù)中取得了不錯(cuò)的效果,但它還是有計(jì)算和內(nèi)存開銷大的缺陷。

DeepSeek-v2中提出的MLA壓縮了KV緩存,但與RoPE位置編碼不兼容,每個(gè)注意力頭需要額外的位置編碼參數(shù)。

為了克服這些方法的局限性,團(tuán)隊(duì)提出張量積注意力(TPA,Tensor Product Attention)。

新方法在注意力計(jì)算過程中對(duì)QKV做分解。

與LoRA系列低秩分解方法相比,TPA將QKV分別構(gòu)造為與上下文相關(guān)的分解張量,實(shí)現(xiàn)動(dòng)態(tài)適應(yīng)。

圖片

通過只緩存分解后的秩,設(shè)置合適的參數(shù)可使內(nèi)存占用降低90%或以上。

圖片

對(duì)于流行的RoPE位置編碼,TPA可以與之無(wú)縫集成,實(shí)現(xiàn)以較低的成本旋轉(zhuǎn)分解KV,無(wú)需進(jìn)行復(fù)雜的調(diào)整。

圖片

在實(shí)驗(yàn)中,使用FineWeb-Edu 100B數(shù)據(jù)集訓(xùn)練模型,TPA與其他注意力設(shè)計(jì)相比始終保持較低的困惑度。

圖片

在ARC、BoolQ、HellaSwag和MMLU等基準(zhǔn)測(cè)試中測(cè)試了零樣本和少樣本性能。TPA和TPA-KVonly在大多數(shù)任務(wù)中都優(yōu)于或匹配所有基線。

圖片

論文由清華&上海期智研究員團(tuán)隊(duì)、UCLA顧全全團(tuán)隊(duì)合作,共同一作為清華博士生張伊凡與姚班校友、現(xiàn)UCLA博士生劉益楓。

此外還有來自心動(dòng)網(wǎng)絡(luò)Taptap的Qin Zhen。

圖片

論文地址:https://arxiv.org/abs/2501.06425
開源代碼:https://github.com/tensorgi/T6

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-26 14:32:51

2024-04-03 14:31:08

大型語(yǔ)言模型PytorchGQA

2024-09-19 10:07:41

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2023-01-31 12:30:26

模型代碼

2025-10-31 16:00:45

AI模型架構(gòu)

2023-10-26 00:30:00

Excel開源框架

2024-12-05 16:19:14

2019-01-29 10:06:31

開源技術(shù) 趨勢(shì)

2025-01-17 13:20:00

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2024-07-01 12:17:54

2025-01-06 06:10:00

開源.NEThttps://mp

2013-07-02 10:24:52

團(tuán)隊(duì)管理團(tuán)隊(duì)遠(yuǎn)程團(tuán)隊(duì)

2024-12-23 14:10:00

AI模型數(shù)據(jù)

2025-06-09 08:52:00

2025-05-30 09:06:00

2025-07-16 10:15:51

2025-07-08 09:10:00

2016-09-13 10:56:03

運(yùn)維性能密度
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)