偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="rmt9y"></wbr>

<rt id="rmt9y"><menu id="rmt9y"><em id="rmt9y"></em></menu></rt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存

發(fā)布于 2024-6-25 11:31

瀏覽

0收藏

Transformer在大模型領(lǐng)域的影響力不言而喻，ChatGPT、Sora、Midjourney、Suno、Llama、Stable Difusion等幾乎所有知名開閉源模型，皆基于該架構(gòu)開發(fā)而成。

但隨著大模型參數(shù)呈指數(shù)級(jí)增長，小的幾百億大的上千億甚至萬億，這使得Transformer在解碼時(shí)所需的KV（鍵值）緩存急劇增加，會(huì)導(dǎo)致內(nèi)存占用過大造成部署、推理方面的瓶頸。

所以，麻省理工的研究人員提出了全新的跨層注意力（Cross-Layer Attention, 簡稱“CLA”），通過在不同解碼層間共享KV來顯著降低對(duì)內(nèi)存的使用，從而提升大模型在處理長序列和大批次推理任務(wù)時(shí)的效率以及準(zhǔn)確率。

論文地址：https://arxiv.org/abs/2405.12981

麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存-AI.x社區(qū)

目前，解決Transformer緩存瓶頸的方法是多查詢注意力和分組查詢注意力， CLA則是在這兩者之上做了進(jìn)一步優(yōu)化。

在傳統(tǒng)的Transformer架構(gòu)中，每一層都包含獨(dú)立的KV投影，用于生成鍵值對(duì)；查詢投影則負(fù)責(zé)生成查詢向量；注意力模塊可根據(jù)查詢和KV對(duì)計(jì)算注意力分布；

輸出投影進(jìn)行整合注意力輸出；殘差連接和層歸一化，主要用來確保學(xué)習(xí)穩(wěn)定性和表現(xiàn)力。

?

CLA的核心思想是通過在相鄰層之間共享KV來降低內(nèi)存占用，而不是每層獨(dú)立計(jì)算和存儲(chǔ)。

在CLA中不同層之間的通信也是通過共享KV激活來完成的，這極大減少了模型必須維護(hù)的獨(dú)立KV集合的數(shù)量，而其他層則通過層間連接重用這些激活。

麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存-AI.x社區(qū)

此外，CLA提供了靈活的配置允許開發(fā)者根據(jù)需要調(diào)整共享因子，以平衡內(nèi)存使用和模型性能。共享因子定義了每個(gè)KV投影被多少層共享。例如，在CLA2配置中，每對(duì)相鄰層共享一個(gè)KV緩存。

為了測試CLA的性能，研究人員在10億和30億參數(shù)上訓(xùn)練了多款CLA和非CLA模型，目的是在固定內(nèi)存預(yù)算下找到CLA的最佳準(zhǔn)確性。這些模型的變化涵蓋了從MHA到GQA再到MQA的范圍，KV緩存的內(nèi)存需求也由此跨越了兩個(gè)數(shù)量級(jí)。

麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存-AI.x社區(qū)

為了確保結(jié)果的穩(wěn)健性，研究人員對(duì)選定的幾個(gè)模型進(jìn)行了學(xué)習(xí)率調(diào)整實(shí)驗(yàn)，以確認(rèn)CLA在與經(jīng)過良好調(diào)整學(xué)習(xí)率的基線模型相比時(shí)是否具有優(yōu)勢。

實(shí)驗(yàn)結(jié)果顯示，CLA在減少KV緩存大小的同時(shí)，能夠?qū)崿F(xiàn)與非CLA模型相當(dāng)?shù)耐评頊?zhǔn)確性。在10億參數(shù)規(guī)模的實(shí)驗(yàn)中，CLA模型成功地在保持準(zhǔn)確度的基礎(chǔ)上顯著減少了KV緩存的大小。

麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存-AI.x社區(qū)

特別是MQA-CLA2配置在減少KV緩存大小方面表現(xiàn)非常出色，相比基線MQA模型，在相同的KV緩存內(nèi)存下實(shí)現(xiàn)了更低的驗(yàn)證困惑度。

麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存-AI.x社區(qū)

在30億參數(shù)模型的實(shí)驗(yàn)中，CLA也展現(xiàn)了其高效性。CLA2配置在減少KV緩存大小的同時(shí)，與相同頭維度的MQA基線模型相比，實(shí)現(xiàn)了更低的驗(yàn)證困惑度，進(jìn)一步證明了CLA在大規(guī)模模型中的有效性。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者： AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/EwSK31dClHfK51IpbjKMCg??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

基于多級(jí)注意力機(jī)制的并行預(yù)測模型

Tang_Lan ? 4839瀏覽 ? 0回復(fù)
麻省理工分享ChatGPT，在教育的5個(gè)實(shí)際應(yīng)用案例

Aceryt ? 5797瀏覽 ? 0回復(fù)
基于多級(jí)注意力機(jī)制的并行預(yù)測模型

Tang_Lan ? 3469瀏覽 ? 0回復(fù)
Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級(jí)省內(nèi)存

輕薄滴假象 ? 2359瀏覽 ? 0回復(fù)
ACL 2024 | 提升大模型持續(xù)學(xué)習(xí)性能，哈工大、度小滿提出共享注意力框架SAPT

輕薄滴假象 ? 3018瀏覽 ? 0回復(fù)
中國AI大模型論文數(shù)量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 2993瀏覽 ? 0回復(fù)
即插即用 | 時(shí)間編碼+LSTM+全局注意力

Tang_Lan ? 4667瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：深入注意力機(jī)制

魯班模錘1 ? 3335瀏覽 ? 0回復(fù)
麻省理工創(chuàng)新模型：用2D視頻擴(kuò)散，生成 3D 視頻

Aceryt ? 3168瀏覽 ? 0回復(fù)
聊聊 KAN、KAN 卷積結(jié)合注意力機(jī)制！

Tang_Lan ? 5906瀏覽 ? 0回復(fù)
注意力機(jī)制的變體之MLA

shizhi02 ? 7250瀏覽 ? 0回復(fù)
《Transformer 關(guān)鍵要素：非所有注意力皆必要》論文解讀

智能交互引擎 ? 2414瀏覽 ? 0回復(fù)
一文圖解BERT注意力機(jī)制

石映飛云 ? 2925瀏覽 ? 0回復(fù)
基于深度學(xué)習(xí)故障診斷注意力機(jī)制案例分析

步驚云_32 ? 2232瀏覽 ? 0回復(fù)
大模型神經(jīng)網(wǎng)絡(luò)之注意力機(jī)制——attention

AI探索時(shí)代 ? 2242瀏覽 ? 0回復(fù)
DeepSeek中的多頭潛在注意力（MLA）淺嘗

大模型自然語言處理 ? 2571瀏覽 ? 0回復(fù)
高效注意力機(jī)制與硬件優(yōu)化：硬件優(yōu)化的稀疏注意力，長上下文建模

AI研究前瞻 ? 2337瀏覽 ? 0回復(fù)
KIMI 月之暗面提出（MoBA）大模型長文本處理新解法：塊注意力混合

AI論文解讀 ? 3698瀏覽 ? 0回復(fù)
解鎖Transformer核心！一文吃透自注意力機(jī)制

人工智能訓(xùn)練營 ? 4463瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動(dòng)開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：谷歌推出V2A，可為視頻大模型自動(dòng)匹配語音

下一篇：腦洞大開！用大模型開卡車，還融了2億美元

社區(qū)精華內(nèi)容

目錄

<nobr id="8tytu"><strong id="8tytu"></strong></nobr>