偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="cbqg1"></style>

<blockquote id="cbqg1"><rt id="cbqg1"></rt></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

剛剛，英偉達(dá)新模型上線！4B推理狂飆53倍，全新注意力架構(gòu)超越Mamba 2

2025-08-26 15:31:35

人工智能新聞

Jet-Nemotron是英偉達(dá)最新推出的小模型系列（2B/4B），由全華人團(tuán)隊打造。其核心創(chuàng)新在于提出后神經(jīng)架構(gòu)搜索（PostNAS）與新型線性注意力模塊JetBlock，實(shí)現(xiàn)了從預(yù)訓(xùn)練Transformer出發(fā)的高效架構(gòu)優(yōu)化。

英偉達(dá)最近真的癡迷上「小模型」了。

剛剛，英偉達(dá)發(fā)布了一個全新的混合架構(gòu)語言模型系列，Jet-Nemotron。

論文地址：https://arxiv.org/pdf/2508.15884

項(xiàng)目地址：https://github.com/NVlabs/Jet-Nemotron

Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。

英偉達(dá)表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等當(dāng)前最先進(jìn)的開源全注意力語言模型。

同時實(shí)現(xiàn)了顯著的效率提升，在H100 GPU上生成吞吐量最高可提升53.6倍。

在右上角的雷達(dá)圖中，可以看到Jet-Nemotron簡直就是六邊形戰(zhàn)士。

Jet-Nemotron-4B模型在六個維度MMLU-pro、Math、Retrieval、Commonsense、Code、Long幾乎都拉滿。

在預(yù)填充和解碼階段，Jet-Nemotron-2B在上下文越增加的情況下，相對Qwen 3-1.7B優(yōu)勢越夸張。

一句話總結(jié)就是同等硬件與評測設(shè)置下，Jet-Nemotron在長上下文的場景里，把吞吐做到了數(shù)量級提升（解碼可達(dá)50倍提升）。

同時在常識/數(shù)學(xué)/代碼/檢索/長上下文等維度的準(zhǔn)確率不降反升。

相較傳統(tǒng)全注意力小模型又快又準(zhǔn)。

看來，英偉達(dá)盯上了小模型Small Model這個領(lǐng)域。

上一周，他們剛剛發(fā)布了只有9B大小的NVIDIA Nemotron Nano 2模型。

在復(fù)雜推理基準(zhǔn)測試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率，并且吞吐量最高可達(dá)其6倍。

今天就推出了更小的Jet系列，體量降到了2B和4B模型。

核心創(chuàng)新

Jet-Nemotron有兩項(xiàng)核心創(chuàng)新。

后神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（Post Neural Architecture Search，PostNAS），這是一個高效的訓(xùn)練后架構(gòu)探索與適應(yīng)流程，適用于任意預(yù)訓(xùn)練的Transformer模型；
JetBlock，一種新型線性注意力模塊，其性能顯著優(yōu)于先前的設(shè)計，如Mamba2。

PostNAS：訓(xùn)練后架構(gòu)探索與適配

與之前從頭開始訓(xùn)練以探索新模型架構(gòu)的方法不同，PostNAS在預(yù)訓(xùn)練的Transformer模型基礎(chǔ)上進(jìn)行構(gòu)建。

同時支持對注意力塊設(shè)計的靈活探索，從而大大降低了開發(fā)新語言模型架構(gòu)的成本和風(fēng)險。

PostNAS首先確定全注意力層的最佳放置位置，然后再搜索改進(jìn)的注意力塊設(shè)計。

PostNAS從一個已預(yù)訓(xùn)練的全注意力模型出發(fā)，并將MLP凍結(jié)。

隨后對高效注意力塊的設(shè)計進(jìn)行由粗到細(xì)的搜索：

先確定全注意力層的最優(yōu)放置位置，再選擇最合適的線性注意力塊或采用新的線性注意力塊，最后搜索最優(yōu)的架構(gòu)超參數(shù)。

通過將PostNAS應(yīng)用于基線模型后，在所有基準(zhǔn)測試上都取得了顯著的準(zhǔn)確率提升。

在預(yù)訓(xùn)練的Transformer模型中，并非所有注意力層的貢獻(xiàn)都是相同的。

PostNAS揭示了預(yù)訓(xùn)練Transformer模型中重要的注意力層。

KV緩存大小是影響長上下文和長生成吞吐量的最關(guān)鍵因素。

PostNAS硬件感知搜索能夠發(fā)現(xiàn)一些架構(gòu)，在保持相似生成吞吐量的同時，擁有更多參數(shù)并實(shí)現(xiàn)更高的準(zhǔn)確性。

JetBlock：一種具有SOTA準(zhǔn)確率的新型線性注意力模塊

通過PostNAS，引入了JetBlock：一種新穎的線性注意力模塊，它將動態(tài)卷積與硬件感知架構(gòu)搜索相結(jié)合，以增強(qiáng)線性注意力，在保持與先前設(shè)計相似的訓(xùn)練和推理吞吐量的同時，實(shí)現(xiàn)了顯著的準(zhǔn)確率提升。

下方使用完全相同的訓(xùn)練數(shù)據(jù)和訓(xùn)練方案，對Mamba2 Block與JetBlock進(jìn)行了公平的對比。

性能

Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基準(zhǔn)測試中達(dá)到或超過了主流高效語言模型（例如Qwen3）的準(zhǔn)確率。

同時運(yùn)行速度明顯更快——分別比Qwen3-1.7B-Base快21倍和47倍。

責(zé)任編輯：張燕妮來源：新智元

英偉達(dá)模型架構(gòu)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<form id="zcy64"></form>

<sub id="zcy64"></sub>

<style id="zcy64"></style>