偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek中的多頭潛在注意力(MLA)淺嘗

人工智能
MHA通過將輸入向量分割成多個并行的注意力“頭”,每個頭獨(dú)立地計算注意力權(quán)重并產(chǎn)生輸出,然后將這些輸出通過拼接和線性變換進(jìn)行合并以生成最終的注意力表示。

MLA是MHA的變體,因此先來看看MHA。

MHA(多頭注意力)

MHA通過將輸入向量分割成多個并行的注意力“頭”,每個頭獨(dú)立地計算注意力權(quán)重并產(chǎn)生輸出,然后將這些輸出通過拼接和線性變換進(jìn)行合并以生成最終的注意力表示。

Transformer 編碼器塊內(nèi)的縮放點(diǎn)積注意力機(jī)制和多頭注意力機(jī)制Transformer 編碼器塊內(nèi)的縮放點(diǎn)積注意力機(jī)制和多頭注意力機(jī)制

MHA計算過程MHA計算過程

MHA 能夠理解輸入不同部分之間的關(guān)系。然而,這種復(fù)雜性是有代價的——對內(nèi)存帶寬的需求很大,尤其是在解碼器推理期間。主要問題的關(guān)鍵在于內(nèi)存開銷。在自回歸模型中,每個解碼步驟都需要加載解碼器權(quán)重以及所有注意鍵和值。這個過程不僅計算量大,而且內(nèi)存帶寬也大。隨著模型規(guī)模的擴(kuò)大,這種開銷也會增加,使得擴(kuò)展變得越來越艱巨。

MLA(多頭潛在注意力)

概念:

  • 多頭注意力機(jī)制:Transformer 的核心模塊,能夠通過多個注意力頭并行捕捉輸入序列中的多樣化特征。
  • 潛在表示學(xué)習(xí):通過將高維輸入映射到低維潛在空間,可以提取更抽象的語義特征,同時有效減少計算復(fù)雜度。

問題:

MLA 的提出:MLA 將多頭注意力機(jī)制 與 潛在表示學(xué)習(xí) 相結(jié)合,解決MHA在高計算成本和KV緩存方面的局限性。

MLA的具體做法(創(chuàng)新點(diǎn)): 采用低秩聯(lián)合壓縮鍵值技術(shù),優(yōu)化了鍵值(KV)矩陣,顯著減少了內(nèi)存消耗并提高了推理效率。

圖片

如上圖,在MHA、GQA中大量存在于keys values中的KV緩存——帶陰影表示,到了MLA中時,只有一小部分的被壓縮Compressed的Latent KV了。

并且,在推理階段,MHA需要緩存獨(dú)立的鍵(Key)和值(Value)矩陣,這會增加內(nèi)存和計算開銷。而MLA通過低秩矩陣分解技術(shù),顯著減小了存儲的KV(Key-Value)的維度,從而降低了內(nèi)存占用。

MLA的核心步驟:

責(zé)任編輯:武曉燕 來源: 大模型自然語言處理
相關(guān)推薦

2025-02-26 14:32:51

2025-02-24 12:52:46

2025-02-25 10:03:20

2025-02-24 11:31:33

2025-02-19 10:49:30

2025-06-03 08:43:00

2024-09-19 10:07:41

2025-02-19 15:30:00

模型訓(xùn)練數(shù)據(jù)

2024-06-28 08:04:43

語言模型應(yīng)用

2024-02-19 00:12:00

模型數(shù)據(jù)

2024-10-31 10:00:39

注意力機(jī)制核心組件

2025-02-14 11:22:34

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2025-02-19 09:18:04

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡(luò)CNN機(jī)器學(xué)習(xí)

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2025-03-07 08:52:07

2011-07-07 13:12:58

移動設(shè)備端設(shè)計注意力

2024-04-03 14:31:08

大型語言模型PytorchGQA

2025-02-19 15:47:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號