偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek中的多頭潛在注意力(MLA)淺嘗 原創(chuàng)

發(fā)布于 2025-2-11 11:03
瀏覽
0收藏

MLA是MHA的變體,因此先來看看MHA。

MHA(多頭注意力)

MHA通過將輸入向量分割成多個(gè)并行的注意力“頭”,每個(gè)頭獨(dú)立地計(jì)算注意力權(quán)重并產(chǎn)生輸出,然后將這些輸出通過拼接和線性變換進(jìn)行合并以生成最終的注意力表示。

DeepSeek中的多頭潛在注意力(MLA)淺嘗-AI.x社區(qū)

Transformer 編碼器塊內(nèi)的縮放點(diǎn)積注意力機(jī)制和多頭注意力機(jī)制

DeepSeek中的多頭潛在注意力(MLA)淺嘗-AI.x社區(qū)

MHA計(jì)算過程

DeepSeek中的多頭潛在注意力(MLA)淺嘗-AI.x社區(qū)

MHA 能夠理解輸入不同部分之間的關(guān)系。然而,這種復(fù)雜性是有代價(jià)的——對(duì)內(nèi)存帶寬的需求很大,尤其是在解碼器推理期間。主要問題的關(guān)鍵在于內(nèi)存開銷。在自回歸模型中,每個(gè)解碼步驟都需要加載解碼器權(quán)重以及所有注意鍵和值。這個(gè)過程不僅計(jì)算量大,而且內(nèi)存帶寬也大。隨著模型規(guī)模的擴(kuò)大,這種開銷也會(huì)增加,使得擴(kuò)展變得越來越艱巨。

MLA(多頭潛在注意力)

概念:

  • 多頭注意力機(jī)制:Transformer 的核心模塊,能夠通過多個(gè)注意力頭并行捕捉輸入序列中的多樣化特征。
  • 潛在表示學(xué)習(xí):通過將高維輸入映射到低維潛在空間,可以提取更抽象的語義特征,同時(shí)有效減少計(jì)算復(fù)雜度。

問題:

1.效率問題:傳統(tǒng)多頭注意力的計(jì)算復(fù)雜度為O(n2d),即隨著序列長度的增長,鍵值(Key-Value,KV)緩存的大小也會(huì)線性增加,這給模型帶來了顯著的內(nèi)存負(fù)擔(dān)。) 2.表達(dá)能力瓶頸:難以充分捕捉復(fù)雜全局依賴。MLA 通過在潛在空間中執(zhí)行注意力計(jì)算,有效降低復(fù)雜度,同時(shí)提升建模能力。

MLA 的提出:MLA 將多頭注意力機(jī)制 與 潛在表示學(xué)習(xí) 相結(jié)合,解決MHA在高計(jì)算成本和KV緩存方面的局限性。

MLA的具體做法(創(chuàng)新點(diǎn)): 采用低秩聯(lián)合壓縮鍵值技術(shù),優(yōu)化了鍵值(KV)矩陣,顯著減少了內(nèi)存消耗并提高了推理效率。

DeepSeek中的多頭潛在注意力(MLA)淺嘗-AI.x社區(qū)

如上圖,在MHA、GQA中大量存在于keys values中的KV緩存——帶陰影表示,到了MLA中時(shí),只有一小部分的被壓縮Compressed的Latent KV了。

并且,在推理階段,MHA需要緩存獨(dú)立的鍵(Key)和值(Value)矩陣,這會(huì)增加內(nèi)存和計(jì)算開銷。而MLA通過低秩矩陣分解技術(shù),顯著減小了存儲(chǔ)的KV(Key-Value)的維度,從而降低了內(nèi)存占用。

MLA的核心步驟:

  1. 輸入映射->潛在空間

DeepSeek中的多頭潛在注意力(MLA)淺嘗-AI.x社區(qū)

  1. 潛在空間中的多頭注意力計(jì)算

DeepSeek中的多頭潛在注意力(MLA)淺嘗-AI.x社區(qū)

  1. 映射回原始空間
    將多頭注意力結(jié)果從潛在空間映射回原始空間:

DeepSeek中的多頭潛在注意力(MLA)淺嘗-AI.x社區(qū)

參考文獻(xiàn):https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf


本文轉(zhuǎn)載自公眾號(hào)大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/CSK1t9o82un5QDphhOP6fQ??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦