偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

英偉達全新開源模型:三倍吞吐、單卡可跑,還拿下推理SOTA

人工智能 新聞
模型在科學、數(shù)學、編程及agent任務(wù)中實現(xiàn)SOTA表現(xiàn)的同時,還將吞吐量提升至前代的3倍,且可在單卡高效運行,實現(xiàn)更準、更快、更輕的“既要又要還要”。

眾所周知,老黃不僅賣鏟子(GPU),還自己下場開礦(造模型)。

英偉達最新推出的Llama Nemotron Super v1.5開源模型就專為復雜推理和agnet任務(wù)量身打造。

模型在科學、數(shù)學、編程及agent任務(wù)中實現(xiàn)SOTA表現(xiàn)的同時,還將吞吐量提升至前代的3倍,且可在單卡高效運行,實現(xiàn)更準、更快、更輕的“既要又要還要”。

圖片

這是怎么做到的?

模型介紹

Llama Nemotron Super v1.5是Llama-3.3-Nemotron-Super-49B-V1.5的簡稱。它是Llama-3.3-Nemotron-Super-49B-V1的升級版本(該模型是Meta的Llama-3.3-70B-Instruct的衍生模型),專為復雜推理和智能體任務(wù)設(shè)計。

模型架構(gòu)

Llama Nemotron Super v1.5采用神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS),使該模型在準確率和效率之間實現(xiàn)了良好的平衡,將吞吐量的提升有效轉(zhuǎn)化為更低的運行成本。

(注:NAS的目標是通過搜索算法從大量的可能架構(gòu)中找到最優(yōu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用自動化方法替代人工設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu),從而提高模型的性能和效率。)

圖片

在Llama Nemotron Super v1.5中,NAS算法生成了非標準、非重復的網(wǎng)絡(luò)模塊(blocks)。相較于傳統(tǒng)的Transformer,其包含以下兩類變化:

  • 跳過注意力機制(Skip attention):在某些模塊中,直接跳過了注意力層,或者只用一個線性層來代替。
  • 可變前饋網(wǎng)絡(luò)(Variable FFN):在前饋網(wǎng)絡(luò)(Feedforward Network)中,不同模塊采用了不同的擴展/壓縮比。


由此,模型通過跳過attention或改變FFN寬度以減少FLOPs,從而在資源受限時更高效地運行模型。

之后,研究團隊還對原始的Llama模型(Llama 3.3 70B Instruct)進行了逐模塊的蒸餾(block-wise distillation),通過對每個模塊構(gòu)造多個變體,并在所有模塊結(jié)構(gòu)中搜索組合,從而構(gòu)建一個模型。

使它既能滿足在單個H100 80GB顯卡上的吞吐量和內(nèi)存要求,又盡量減少性能損失。

訓練與數(shù)據(jù)集

模型首先在FineWeb、Buzz-V1.2 和 Dolma三個數(shù)據(jù)集共400億個token的訓練數(shù)據(jù)上進行了知識蒸餾(knowledge distillation,KD),重點關(guān)注英語單輪和多輪聊天。

在后訓練階段,模型通過結(jié)合監(jiān)督微調(diào)(SFT)和強化學習(RL)的方法,以進一步提升模型在代碼、數(shù)學、推理和指令遵循等關(guān)鍵任務(wù)上的表現(xiàn)。

這些數(shù)據(jù)既包括來自公開語料庫的題目,也包含人工合成的問答樣本,其中部分題目配有開啟和關(guān)閉推理的答案,旨在增強模型對推理模式的辨別能力。

英偉達表示數(shù)據(jù)集將在未來幾周內(nèi)發(fā)布。

總的來說,Llama Nemotron Super V1.5是一個通過NAS自動優(yōu)化架構(gòu)、精簡計算圖的 Llama 3.3 70B Instruct變體。它針對單卡運行場景做了結(jié)構(gòu)簡化、知識蒸餾訓練與后訓練,兼顧高準確性、高吞吐量與低資源占用,特別適合英語對話類任務(wù)及編程任務(wù)的部署。

此外,在部署方面,英偉達延續(xù)了其一貫的生態(tài)優(yōu)勢:

我們的AI模型專為在 NVIDIA GPU 加速系統(tǒng)上運行而設(shè)計和/或優(yōu)化。通過充分利用 NVIDIA 的硬件(如 GPU 核心)和軟件框架(如 CUDA 庫),相比僅依賴 CPU 的方案,模型在訓練和推理階段實現(xiàn)了顯著的速度提升。

該模型現(xiàn)已開源。開發(fā)者可以在build.nvidia.com體驗Llama Nemotron Super v1.5或直接從Hugging Face下載模型。

One more thing

作為英偉達最新發(fā)布的開源大語言模型,Llama Nemotron Super v1.5隸屬于英偉達Nemotron生態(tài),該生態(tài)集成了大語言模型、訓練與推理框架、優(yōu)化工具和企業(yè)級部署方案,旨在實現(xiàn)高性能、可控性強、易于擴展的生成式 AI 應(yīng)用開發(fā)。

圖片

為滿足不同場景需求與用戶定位,英偉達在此生態(tài)的基礎(chǔ)上推出了三個不同定位的大語言模型系列——Nano、Super和Ultra。

圖片

其中,Nano系列針對成本效益和邊緣部署,適合部署在邊緣設(shè)備(如移動端、機器人、IoT設(shè)備等)或成本敏感型場景(比如本地運行、離線場景、商業(yè)小模型推理)。

Super系列則針對單個GPU上平衡的精度和計算效率,它可以在一張高性能 GPU(如 H100) 上運行,不需要多卡或大型集群。它的精度比Nano高,但比Ultra小巧,適合企業(yè)開發(fā)者或中型部署。我們上面提到的Llama Nemotron Super v1.5就屬于這一系列。

Ultra則致力于數(shù)據(jù)中心的最大精度,專為在數(shù)據(jù)中心、超算集群、多張 GPU上運行而設(shè)計,面向復雜推理、大規(guī)模生成、高保真對話等對精度要求極高的任務(wù)。

目前,Nemotron已獲得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte 等企業(yè)支持或集成使用,用于構(gòu)建面向企業(yè)級流程自動化和復雜問題解決的AI智能體平臺。

此外,在Amazon Bedrock Marketplace中也能通過NVIDIA NIM微服務(wù)調(diào)用Nemotron模型,簡化部署流程,支持云端、混合架構(gòu)等多種運營方案。

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-27 08:30:00

2023-09-10 12:37:38

模型英偉達

2025-04-16 09:46:46

2025-03-04 09:00:00

2025-08-19 09:14:44

2025-07-29 09:03:00

2024-12-05 13:50:00

AI大模型

2025-07-22 10:40:00

2025-08-26 15:31:35

英偉達模型架構(gòu)

2023-03-22 13:53:26

芯片英偉達

2025-02-27 09:09:45

2025-06-11 09:03:29

2022-06-01 16:47:53

AI模型開源

2021-07-06 10:21:55

Facebook AI開源

2022-04-26 15:09:14

優(yōu)化模型訓練

2025-09-15 14:42:55

o3視覺推理開源

2025-05-07 10:10:36

模型生成AI

2025-08-06 09:02:31

2025-02-12 12:45:59

2025-04-09 10:40:32

點贊
收藏

51CTO技術(shù)棧公眾號