偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

剛剛,英偉達(dá)新模型上線!4B推理狂飆53倍,全新注意力架構(gòu)超越Mamba 2

人工智能 新聞
Jet-Nemotron是英偉達(dá)最新推出的小模型系列(2B/4B),由全華人團(tuán)隊打造。其核心創(chuàng)新在于提出后神經(jīng)架構(gòu)搜索(PostNAS)與新型線性注意力模塊JetBlock,實(shí)現(xiàn)了從預(yù)訓(xùn)練Transformer出發(fā)的高效架構(gòu)優(yōu)化。

英偉達(dá)最近真的癡迷上「小模型」了。

剛剛,英偉達(dá)發(fā)布了一個全新的混合架構(gòu)語言模型系列,Jet-Nemotron。

論文地址:https://arxiv.org/pdf/2508.15884

項(xiàng)目地址:https://github.com/NVlabs/Jet-Nemotron

Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。

英偉達(dá)表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等當(dāng)前最先進(jìn)的開源全注意力語言模型。

同時實(shí)現(xiàn)了顯著的效率提升,在H100 GPU上生成吞吐量最高可提升53.6倍。

在右上角的雷達(dá)圖中,可以看到Jet-Nemotron簡直就是六邊形戰(zhàn)士。

Jet-Nemotron-4B模型在六個維度MMLU-pro、Math、Retrieval、Commonsense、Code、Long幾乎都拉滿。

在預(yù)填充和解碼階段,Jet-Nemotron-2B在上下文越增加的情況下,相對Qwen 3-1.7B優(yōu)勢越夸張。

一句話總結(jié)就是同等硬件與評測設(shè)置下,Jet-Nemotron在長上下文的場景里,把吞吐做到了數(shù)量級提升(解碼可達(dá)50倍提升)。

同時在常識/數(shù)學(xué)/代碼/檢索/長上下文等維度的準(zhǔn)確率不降反升。

相較傳統(tǒng)全注意力小模型又快又準(zhǔn)。

看來,英偉達(dá)盯上了小模型Small Model這個領(lǐng)域。

上一周,他們剛剛發(fā)布了只有9B大小的NVIDIA Nemotron Nano 2模型。

在復(fù)雜推理基準(zhǔn)測試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率,并且吞吐量最高可達(dá)其6倍。

今天就推出了更小的Jet系列,體量降到了2B和4B模型。

核心創(chuàng)新

Jet-Nemotron有兩項(xiàng)核心創(chuàng)新。

  • 后神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Post Neural Architecture Search,PostNAS),這是一個高效的訓(xùn)練后架構(gòu)探索與適應(yīng)流程,適用于任意預(yù)訓(xùn)練的Transformer模型;
  • JetBlock,一種新型線性注意力模塊,其性能顯著優(yōu)于先前的設(shè)計,如Mamba2。

PostNAS:訓(xùn)練后架構(gòu)探索與適配

與之前從頭開始訓(xùn)練以探索新模型架構(gòu)的方法不同,PostNAS在預(yù)訓(xùn)練的Transformer模型基礎(chǔ)上進(jìn)行構(gòu)建。

同時支持對注意力塊設(shè)計的靈活探索,從而大大降低了開發(fā)新語言模型架構(gòu)的成本和風(fēng)險。

PostNAS首先確定全注意力層的最佳放置位置,然后再搜索改進(jìn)的注意力塊設(shè)計。

PostNAS從一個已預(yù)訓(xùn)練的全注意力模型出發(fā),并將MLP凍結(jié)。

隨后對高效注意力塊的設(shè)計進(jìn)行由粗到細(xì)的搜索:

先確定全注意力層的最優(yōu)放置位置,再選擇最合適的線性注意力塊采用新的線性注意力塊,最后搜索最優(yōu)的架構(gòu)超參數(shù)。

通過將PostNAS應(yīng)用于基線模型后,在所有基準(zhǔn)測試上都取得了顯著的準(zhǔn)確率提升。

在預(yù)訓(xùn)練的Transformer模型中,并非所有注意力層的貢獻(xiàn)都是相同的。

PostNAS揭示了預(yù)訓(xùn)練Transformer模型中重要的注意力層。

KV緩存大小是影響長上下文和長生成吞吐量的最關(guān)鍵因素。

PostNAS硬件感知搜索能夠發(fā)現(xiàn)一些架構(gòu),在保持相似生成吞吐量的同時,擁有更多參數(shù)并實(shí)現(xiàn)更高的準(zhǔn)確性。

JetBlock: 一種具有SOTA準(zhǔn)確率的新型線性注意力模塊

通過PostNAS,引入了JetBlock:一種新穎的線性注意力模塊,它將動態(tài)卷積與硬件感知架構(gòu)搜索相結(jié)合,以增強(qiáng)線性注意力,在保持與先前設(shè)計相似的訓(xùn)練和推理吞吐量的同時,實(shí)現(xiàn)了顯著的準(zhǔn)確率提升。

下方使用完全相同的訓(xùn)練數(shù)據(jù)和訓(xùn)練方案,對Mamba2 Block與JetBlock進(jìn)行了公平的對比。

性能

Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基準(zhǔn)測試中達(dá)到或超過了主流高效語言模型(例如Qwen3)的準(zhǔn)確率。

同時運(yùn)行速度明顯更快——分別比Qwen3-1.7B-Base快21倍和47倍。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-18 13:59:11

計算英偉達(dá)視覺

2024-07-09 12:59:37

2025-10-30 16:11:29

AI智能體英偉達(dá)

2025-02-19 09:18:04

2025-05-30 15:52:05

訓(xùn)練代碼推理

2025-08-19 09:14:44

2024-02-01 12:43:16

模型數(shù)據(jù)

2025-06-13 11:24:39

英偉達(dá)AI芯片

2023-11-24 12:36:00

模型訓(xùn)練

2025-06-03 08:43:00

2025-07-30 08:40:00

AI編程模型

2024-08-28 13:34:13

2025-06-16 09:13:00

2025-09-30 08:36:09

2025-03-18 09:23:22

2022-06-01 16:47:53

AI模型開源

2025-08-19 21:23:45

DeepSeekAPP接口

2024-12-05 13:50:00

AI大模型

2025-09-29 18:51:01

2024-06-17 08:55:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號