Meta新注意力機(jī)制突破Transformer上限,還用上了OpenAI的開(kāi)源技術(shù)
Meta挖走OpenAI大批員工后,又用OpenAI的技術(shù)搞出新突破。
這是什么殺人又誅心(doge)?
新架構(gòu)名為2-Simplicial Transformer,重點(diǎn)是通過(guò)修改標(biāo)準(zhǔn)注意力,讓Transformer能更高效地利用訓(xùn)練數(shù)據(jù),以突破當(dāng)前大模型發(fā)展的數(shù)據(jù)瓶頸。
而核心方法,就是基于OpenAI提出的Triton,將標(biāo)準(zhǔn)點(diǎn)積注意力推廣到三線性函數(shù)。

實(shí)驗(yàn)結(jié)果顯示,在同等參數(shù)量和數(shù)據(jù)量下,相較于傳統(tǒng)Transformer,新架構(gòu)在數(shù)學(xué)、編程、推理等任務(wù)上均有更好的表現(xiàn)。
并且,2-Simplicial Transformer的縮放指數(shù)高于傳統(tǒng)Transformer——這意味著隨著參數(shù)增加,新架構(gòu)加持下的模型性能提升更快,更適用于有限數(shù)據(jù)的場(chǎng)景。
三元線性注意力
傳統(tǒng)Transformer的核心機(jī)制是點(diǎn)積注意力,其計(jì)算復(fù)雜度較低,但對(duì)復(fù)雜任務(wù)(如邏輯推理、數(shù)學(xué)運(yùn)算等)表達(dá)能力有限。
針對(duì)于此,Meta的這項(xiàng)研究,重點(diǎn)放在將點(diǎn)積注意力從二元線性操作擴(kuò)展到三元線性操作。
簡(jiǎn)單來(lái)說(shuō),就是在計(jì)算注意力時(shí)引入第三個(gè)向量,來(lái)增加模型對(duì)復(fù)雜模式的表達(dá)能力。

這第三個(gè)向量,是一個(gè)新的Key,寫(xiě)為K’,通過(guò)三元線性函數(shù)計(jì)算得到。

K’引入了額外的維度,使得注意力機(jī)制能夠捕獲更加豐富的關(guān)系。
舉個(gè)例子,在處理推理任務(wù)時(shí),可以用查詢(xún)向量Q表示當(dāng)前問(wèn)題,用鍵向量K表示第一個(gè)參考信息,用K’表示第二個(gè)參考信息。
其中關(guān)鍵的一點(diǎn)在于,相比于點(diǎn)積,三元計(jì)算更為復(fù)雜。為此,這項(xiàng)研究引入了Triton來(lái)實(shí)現(xiàn)核心運(yùn)算。
Triton是一種高效的GPU編程框架,最早由OpenAI提出。它旨在讓研究人員無(wú)需CUDA經(jīng)驗(yàn),就能用較少的代碼實(shí)現(xiàn)接近于手寫(xiě)CUDA的性能。
研究人員通過(guò)Triton實(shí)現(xiàn)了520TFLOPS(每秒萬(wàn)億次浮點(diǎn)運(yùn)算)的性能。

另外,論文還引入了滑動(dòng)窗口(Sliding Window)機(jī)制,通過(guò)限制注意力的計(jì)算范圍,來(lái)降低計(jì)算成本,同時(shí)保持較好的性能。

縮放指數(shù)更優(yōu)
研究人員訓(xùn)練了一系列MoE模型來(lái)驗(yàn)證2-Simplicial Transformer的有效性。
模型規(guī)模從活躍參數(shù)10億、總參數(shù)570億,到活躍參數(shù)35億、總參數(shù)1760億不等。
在不同任務(wù)和模型規(guī)模上對(duì)比2-Simplicial Transformer和傳統(tǒng)Transformer的負(fù)對(duì)數(shù)似然(值越小,說(shuō)明模型對(duì)數(shù)據(jù)的預(yù)測(cè)越準(zhǔn)確),結(jié)果如下:

可以看到,在小模型(1B)上,2-Simplicial Transformer改進(jìn)有限,在GSM8k、MBPP等任務(wù)中甚至出現(xiàn)了較為明顯的性能下降。
但在較大模型上,2-Simplicial Transformer表現(xiàn)顯著優(yōu)于傳統(tǒng)Transformer。
論文還分析了縮放指數(shù)的變化。

2-Simplicial Transformer的縮放指數(shù)α明顯高于傳統(tǒng)Transformer,說(shuō)明模型性能隨參數(shù)量、數(shù)據(jù)量的增加,變強(qiáng)速度更快。這也意味著,2-Simplicial Transformer在數(shù)據(jù)有限場(chǎng)景下優(yōu)勢(shì)會(huì)更加明顯。
不過(guò),研究人員也提到,目前,2-Simplicial Transformer的計(jì)算復(fù)雜度和延遲仍然較高,Triton雖然高效,但仍需進(jìn)一步優(yōu)化以適配生產(chǎn)環(huán)境。
One More Thing
新注意力機(jī)制引發(fā)討論,而背后的Triton這次也牢牢吸引住了網(wǎng)友們的目光。
用Triton實(shí)現(xiàn)三元線性注意力機(jī)制?這就像給了模型一把瑞士軍刀。

整個(gè)Triton庫(kù)就是一本關(guān)于如何不編程的教科書(shū)。

合著Meta的論文,這次算是給OpenAI的技術(shù)做了宣傳了(doge)。
不過(guò)反過(guò)來(lái)也可以說(shuō),Meta這波不僅挖走了OpenAI的人,也玩轉(zhuǎn)了OpenAI的技術(shù)。
論文地址:
https://arxiv.org/abs/2507.02754



































