偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta新注意力機(jī)制突破Transformer上限,還用上了OpenAI的開(kāi)源技術(shù)

人工智能 新聞
新架構(gòu)名為2-Simplicial Transformer,重點(diǎn)是通過(guò)修改標(biāo)準(zhǔn)注意力,讓Transformer能更高效地利用訓(xùn)練數(shù)據(jù),以突破當(dāng)前大模型發(fā)展的數(shù)據(jù)瓶頸。

Meta挖走OpenAI大批員工后,又用OpenAI的技術(shù)搞出新突破。

這是什么殺人又誅心(doge)?

新架構(gòu)名為2-Simplicial Transformer,重點(diǎn)是通過(guò)修改標(biāo)準(zhǔn)注意力,讓Transformer能更高效地利用訓(xùn)練數(shù)據(jù),以突破當(dāng)前大模型發(fā)展的數(shù)據(jù)瓶頸。

而核心方法,就是基于OpenAI提出的Triton,將標(biāo)準(zhǔn)點(diǎn)積注意力推廣到三線性函數(shù)。

圖片

實(shí)驗(yàn)結(jié)果顯示,在同等參數(shù)量和數(shù)據(jù)量下,相較于傳統(tǒng)Transformer,新架構(gòu)在數(shù)學(xué)、編程、推理等任務(wù)上均有更好的表現(xiàn)。

并且,2-Simplicial Transformer的縮放指數(shù)高于傳統(tǒng)Transformer——這意味著隨著參數(shù)增加,新架構(gòu)加持下的模型性能提升更快,更適用于有限數(shù)據(jù)的場(chǎng)景

三元線性注意力

傳統(tǒng)Transformer的核心機(jī)制是點(diǎn)積注意力,其計(jì)算復(fù)雜度較低,但對(duì)復(fù)雜任務(wù)(如邏輯推理、數(shù)學(xué)運(yùn)算等)表達(dá)能力有限。

針對(duì)于此,Meta的這項(xiàng)研究,重點(diǎn)放在將點(diǎn)積注意力從二元線性操作擴(kuò)展到三元線性操作。

簡(jiǎn)單來(lái)說(shuō),就是在計(jì)算注意力時(shí)引入第三個(gè)向量,來(lái)增加模型對(duì)復(fù)雜模式的表達(dá)能力。

圖片

這第三個(gè)向量,是一個(gè)新的Key,寫(xiě)為K’,通過(guò)三元線性函數(shù)計(jì)算得到。

圖片

K’引入了額外的維度,使得注意力機(jī)制能夠捕獲更加豐富的關(guān)系。

舉個(gè)例子,在處理推理任務(wù)時(shí),可以用查詢(xún)向量Q表示當(dāng)前問(wèn)題,用鍵向量K表示第一個(gè)參考信息,用K’表示第二個(gè)參考信息。

其中關(guān)鍵的一點(diǎn)在于,相比于點(diǎn)積,三元計(jì)算更為復(fù)雜。為此,這項(xiàng)研究引入了Triton來(lái)實(shí)現(xiàn)核心運(yùn)算。

Triton是一種高效的GPU編程框架,最早由OpenAI提出。它旨在讓研究人員無(wú)需CUDA經(jīng)驗(yàn),就能用較少的代碼實(shí)現(xiàn)接近于手寫(xiě)CUDA的性能。

研究人員通過(guò)Triton實(shí)現(xiàn)了520TFLOPS(每秒萬(wàn)億次浮點(diǎn)運(yùn)算)的性能。

圖片

另外,論文還引入了滑動(dòng)窗口(Sliding Window)機(jī)制,通過(guò)限制注意力的計(jì)算范圍,來(lái)降低計(jì)算成本,同時(shí)保持較好的性能。

圖片

縮放指數(shù)更優(yōu)

研究人員訓(xùn)練了一系列MoE模型來(lái)驗(yàn)證2-Simplicial Transformer的有效性。

模型規(guī)模從活躍參數(shù)10億、總參數(shù)570億,到活躍參數(shù)35億、總參數(shù)1760億不等。

在不同任務(wù)和模型規(guī)模上對(duì)比2-Simplicial Transformer和傳統(tǒng)Transformer的負(fù)對(duì)數(shù)似然(值越小,說(shuō)明模型對(duì)數(shù)據(jù)的預(yù)測(cè)越準(zhǔn)確),結(jié)果如下:

圖片

可以看到,在小模型(1B)上,2-Simplicial Transformer改進(jìn)有限,在GSM8k、MBPP等任務(wù)中甚至出現(xiàn)了較為明顯的性能下降。

但在較大模型上,2-Simplicial Transformer表現(xiàn)顯著優(yōu)于傳統(tǒng)Transformer。

論文還分析了縮放指數(shù)的變化。

圖片

2-Simplicial Transformer的縮放指數(shù)α明顯高于傳統(tǒng)Transformer,說(shuō)明模型性能隨參數(shù)量、數(shù)據(jù)量的增加,變強(qiáng)速度更快。這也意味著,2-Simplicial Transformer在數(shù)據(jù)有限場(chǎng)景下優(yōu)勢(shì)會(huì)更加明顯。

不過(guò),研究人員也提到,目前,2-Simplicial Transformer的計(jì)算復(fù)雜度和延遲仍然較高,Triton雖然高效,但仍需進(jìn)一步優(yōu)化以適配生產(chǎn)環(huán)境。

One More Thing

新注意力機(jī)制引發(fā)討論,而背后的Triton這次也牢牢吸引住了網(wǎng)友們的目光。

用Triton實(shí)現(xiàn)三元線性注意力機(jī)制?這就像給了模型一把瑞士軍刀。

圖片

整個(gè)Triton庫(kù)就是一本關(guān)于如何不編程的教科書(shū)。

圖片

合著Meta的論文,這次算是給OpenAI的技術(shù)做了宣傳了(doge)。

不過(guò)反過(guò)來(lái)也可以說(shuō),Meta這波不僅挖走了OpenAI的人,也玩轉(zhuǎn)了OpenAI的技術(shù)。

論文地址:
https://arxiv.org/abs/2507.02754

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-11-24 12:36:00

模型訓(xùn)練

2025-04-07 07:47:00

模型訓(xùn)練AI

2024-11-04 10:40:00

AI模型

2024-10-31 10:00:39

注意力機(jī)制核心組件

2024-12-04 09:25:00

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2025-09-29 18:51:01

2025-10-31 16:00:45

AI模型架構(gòu)

2024-12-17 14:39:16

2024-09-19 10:07:41

2024-02-19 00:12:00

模型數(shù)據(jù)

2021-05-07 15:40:36

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2025-07-16 10:15:51

2024-08-01 09:30:00

2023-06-12 09:57:22

AIChatGPT

2022-02-08 15:43:08

AITransforme模型

2024-06-28 08:04:43

語(yǔ)言模型應(yīng)用

2022-01-25 10:40:30

Windows 10微軟升級(jí)

2025-10-11 01:45:00

MANO多模態(tài)Swin

2025-06-17 09:05:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)