剛剛,英偉達(dá)新模型上線!4B推理狂飆53倍,全新注意力架構(gòu)超越Mamba 2
英偉達(dá)最近真的癡迷上「小模型」了。
剛剛,英偉達(dá)發(fā)布了一個全新的混合架構(gòu)語言模型系列,Jet-Nemotron。

論文地址:https://arxiv.org/pdf/2508.15884
項(xiàng)目地址:https://github.com/NVlabs/Jet-Nemotron
Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。
英偉達(dá)表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等當(dāng)前最先進(jìn)的開源全注意力語言模型。

同時實(shí)現(xiàn)了顯著的效率提升,在H100 GPU上生成吞吐量最高可提升53.6倍。
在右上角的雷達(dá)圖中,可以看到Jet-Nemotron簡直就是六邊形戰(zhàn)士。
Jet-Nemotron-4B模型在六個維度MMLU-pro、Math、Retrieval、Commonsense、Code、Long幾乎都拉滿。

在預(yù)填充和解碼階段,Jet-Nemotron-2B在上下文越增加的情況下,相對Qwen 3-1.7B優(yōu)勢越夸張。
一句話總結(jié)就是同等硬件與評測設(shè)置下,Jet-Nemotron在長上下文的場景里,把吞吐做到了數(shù)量級提升(解碼可達(dá)50倍提升)。
同時在常識/數(shù)學(xué)/代碼/檢索/長上下文等維度的準(zhǔn)確率不降反升。
相較傳統(tǒng)全注意力小模型又快又準(zhǔn)。
看來,英偉達(dá)盯上了小模型Small Model這個領(lǐng)域。
上一周,他們剛剛發(fā)布了只有9B大小的NVIDIA Nemotron Nano 2模型。
在復(fù)雜推理基準(zhǔn)測試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率,并且吞吐量最高可達(dá)其6倍。

今天就推出了更小的Jet系列,體量降到了2B和4B模型。
核心創(chuàng)新
Jet-Nemotron有兩項(xiàng)核心創(chuàng)新。
- 后神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Post Neural Architecture Search,PostNAS),這是一個高效的訓(xùn)練后架構(gòu)探索與適應(yīng)流程,適用于任意預(yù)訓(xùn)練的Transformer模型;
- JetBlock,一種新型線性注意力模塊,其性能顯著優(yōu)于先前的設(shè)計,如Mamba2。
PostNAS:訓(xùn)練后架構(gòu)探索與適配
與之前從頭開始訓(xùn)練以探索新模型架構(gòu)的方法不同,PostNAS在預(yù)訓(xùn)練的Transformer模型基礎(chǔ)上進(jìn)行構(gòu)建。
同時支持對注意力塊設(shè)計的靈活探索,從而大大降低了開發(fā)新語言模型架構(gòu)的成本和風(fēng)險。
PostNAS首先確定全注意力層的最佳放置位置,然后再搜索改進(jìn)的注意力塊設(shè)計。

PostNAS從一個已預(yù)訓(xùn)練的全注意力模型出發(fā),并將MLP凍結(jié)。

隨后對高效注意力塊的設(shè)計進(jìn)行由粗到細(xì)的搜索:
先確定全注意力層的最優(yōu)放置位置,再選擇最合適的線性注意力塊或采用新的線性注意力塊,最后搜索最優(yōu)的架構(gòu)超參數(shù)。
通過將PostNAS應(yīng)用于基線模型后,在所有基準(zhǔn)測試上都取得了顯著的準(zhǔn)確率提升。

在預(yù)訓(xùn)練的Transformer模型中,并非所有注意力層的貢獻(xiàn)都是相同的。
PostNAS揭示了預(yù)訓(xùn)練Transformer模型中重要的注意力層。

KV緩存大小是影響長上下文和長生成吞吐量的最關(guān)鍵因素。
PostNAS硬件感知搜索能夠發(fā)現(xiàn)一些架構(gòu),在保持相似生成吞吐量的同時,擁有更多參數(shù)并實(shí)現(xiàn)更高的準(zhǔn)確性。

JetBlock: 一種具有SOTA準(zhǔn)確率的新型線性注意力模塊
通過PostNAS,引入了JetBlock:一種新穎的線性注意力模塊,它將動態(tài)卷積與硬件感知架構(gòu)搜索相結(jié)合,以增強(qiáng)線性注意力,在保持與先前設(shè)計相似的訓(xùn)練和推理吞吐量的同時,實(shí)現(xiàn)了顯著的準(zhǔn)確率提升。
下方使用完全相同的訓(xùn)練數(shù)據(jù)和訓(xùn)練方案,對Mamba2 Block與JetBlock進(jìn)行了公平的對比。

性能
Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基準(zhǔn)測試中達(dá)到或超過了主流高效語言模型(例如Qwen3)的準(zhǔn)確率。
同時運(yùn)行速度明顯更快——分別比Qwen3-1.7B-Base快21倍和47倍。






































