偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

英偉達(dá)最強(qiáng)通用大模型Nemotron-4登場(chǎng)!15B擊敗62B,目標(biāo)單張A100/H100可跑

人工智能 新聞
許久未更新大模型的英偉達(dá)推出了150億參數(shù)的Nemotron-4,目標(biāo)是打造一個(gè)能在單個(gè)A100/H100可跑的通用大模型。

最近,英偉達(dá)團(tuán)隊(duì)推出了全新的模型Nemotron-4,150億參數(shù),在8T token上完成了訓(xùn)練。

值得一提的是,Nemotron-4在英語(yǔ)、多語(yǔ)言和編碼任務(wù)方面令人印象深刻。

論文地址:https://arxiv.org/abs/2402.16819

在7個(gè)評(píng)估基準(zhǔn)上,與同等參數(shù)規(guī)模的模型相比,Nemotron-4 15B表現(xiàn)出色。

甚至,其性能超過了4倍大的模型,以及專用于多語(yǔ)言任務(wù)的模型。

如今LLM已經(jīng)非常多了,英偉達(dá)新發(fā)布的語(yǔ)言模型,有何不同?

打造最強(qiáng)通用LLM,單個(gè)A100/H100可跑

最近發(fā)表的LLM研究受到了Chinchilla模型「縮放定律」的啟發(fā)——給定固定計(jì)算預(yù)算,數(shù)據(jù)和模型大小一同優(yōu)化。

而過去,研究主要針對(duì)模型大小進(jìn)行縮放。

研究表明,給定兩個(gè)數(shù)據(jù)分布類似的IsoFLOP GPT模型,一個(gè)是在1.4萬(wàn)億token上的65億參數(shù)模型,另一個(gè)是3000億token上的2800億參數(shù)模型。

顯然,65B的模型在下游任務(wù)上的準(zhǔn)確性更高。

圖片

從推理的角度來看,將計(jì)算分配給更多數(shù)據(jù)的訓(xùn)練,而不是增加模型大小特別有吸引力,可以減少延遲和服務(wù)模型所需的計(jì)算量。

因此,語(yǔ)言建模訓(xùn)練工作的主要焦點(diǎn)已轉(zhuǎn)向從CommonCrawl等公共資源中,收集高質(zhì)量的數(shù)萬(wàn)億token數(shù)據(jù)集。

對(duì)此,英偉達(dá)研究人員提出了Nemotron-4 15B,來延續(xù)這一趨勢(shì)。

具體來說,Nemotron-4 15B是在8萬(wàn)億個(gè)token,包括英語(yǔ)、多語(yǔ)種、編碼文本的基礎(chǔ)上進(jìn)行訓(xùn)練。

英偉達(dá)稱,Nemotron-4 15B的開發(fā)目的:

成為能在單個(gè)英偉達(dá)A100或H100 GPU上運(yùn)行的最佳「通用大模型」。

架構(gòu)介紹

Nemotron-4采用了標(biāo)準(zhǔn)的純解碼器Transformer架構(gòu),并帶有因果注意掩碼。

核心的超參數(shù),如表1所示。

圖片

Nemotron-4有32億個(gè)嵌入?yún)?shù)和125億個(gè)非嵌入?yún)?shù)。

研究人員使用旋轉(zhuǎn)位置編碼(RoPE)、SentencePiece分詞器、MLP層的平方ReLU激活、無偏置項(xiàng)(bias terms)、零丟失率,以及無限制的輸入輸出嵌入。

通過分組查詢關(guān)注(GQA),可實(shí)現(xiàn)更快的推理和更低的內(nèi)存占用。

數(shù)據(jù)

研究人員在包含8萬(wàn)億個(gè)token的預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練Nemotron-4 15B。

分為三種不同類型的數(shù)據(jù):英語(yǔ)自然語(yǔ)言數(shù)據(jù)(70%)、多語(yǔ)言自然語(yǔ)言數(shù)據(jù)(15%)和源代碼數(shù)據(jù)(15%)。

英語(yǔ)語(yǔ)料庫(kù)由來自各種來源和領(lǐng)域的精選文檔組成,包括網(wǎng)絡(luò)文檔、新聞文章、科學(xué)論文、書籍等。

代碼和多語(yǔ)言數(shù)據(jù)包括一組多樣化的自然語(yǔ)言和編程語(yǔ)言。

研究人員發(fā)現(xiàn),從這些語(yǔ)言中適當(dāng)?shù)夭蓸觮oken是在這些領(lǐng)域獲得高準(zhǔn)確度的關(guān)鍵。

此外,研究人員分別在圖3和圖4中共享預(yù)訓(xùn)練數(shù)據(jù)集中用于代碼和多語(yǔ)言標(biāo)記的分布。

圖片

預(yù)訓(xùn)練

Nemotron-4使用384個(gè)DGX H100節(jié)點(diǎn)進(jìn)行訓(xùn)練。每個(gè)節(jié)點(diǎn)包含8個(gè)基于英偉達(dá)Hopper架構(gòu)的H100 80GB SXM5 GPU。

在執(zhí)行無稀疏性的16位浮點(diǎn)(bfloat16)算術(shù)時(shí),每個(gè)H100 GPU的峰值吞吐量為989 teraFLOP/s。

每個(gè)節(jié)點(diǎn)內(nèi),GPU通過NVLink和NVSwitch(nvl)連接;GPU到GPU的帶寬為900 GB/s(每個(gè)方向450 GB/s)。

每個(gè)節(jié)點(diǎn)都有8個(gè)NVIDIA Mellanox 400 Gbps HDR InfiniBand主機(jī)通道適配器(HCA),用于節(jié)點(diǎn)間通信。

研究人員使用8路張量并行和數(shù)據(jù)并行的組合來訓(xùn)練模型,還使用了分布式優(yōu)化器,將優(yōu)化器狀態(tài)分片到數(shù)據(jù)并行副本上。隨著批大小的增加,數(shù)據(jù)并行度從96增加到384。

表2總結(jié)了批大小提升的3個(gè)階段,包括每次迭代時(shí)間和模型FLOP/s利用率(MFU)。MFU量化了GPU在模型訓(xùn)練中的利用效率。訓(xùn)練大約在13天內(nèi)完成。

圖片

再訓(xùn)練

與最近的研究類似,研究人員發(fā)現(xiàn)在模型訓(xùn)練結(jié)束時(shí),切換數(shù)據(jù)分布和學(xué)習(xí)率衰減時(shí)間表,可以極大地提高模型質(zhì)量。

具體來說,在對(duì)整個(gè)8T預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練之后,使用相同的損失目標(biāo),并對(duì)與預(yù)訓(xùn)練token相比的較少的token進(jìn)行持續(xù)訓(xùn)練。

在這一額外的繼續(xù)訓(xùn)練階段,利用兩種不同的數(shù)據(jù)分布。

第一個(gè)分布是,從持續(xù)訓(xùn)練期間大部分token采樣。它利用在預(yù)訓(xùn)練期間已經(jīng)引入的token,但其分布將更大的采樣權(quán)重放在更高質(zhì)量來源上。

第二個(gè)分布,引入了少量基準(zhǔn)式對(duì)齊示例,以更好地讓模型在下游評(píng)估中回答此類問題,同時(shí)還增加來自模型性能較低區(qū)域的數(shù)據(jù)源的權(quán)重。

實(shí)驗(yàn)結(jié)果

研究人員在涵蓋各種任務(wù)和領(lǐng)域的下游評(píng)估領(lǐng)域評(píng)了 Nemotron-4 15B。

常識(shí)推理

作者使用LM-Evaluation Harness在所有上述任務(wù)中評(píng)估Nemotron-4 15B。

表3顯示了Nemotron-4 15B在這組不同的任務(wù)中實(shí)現(xiàn)了最強(qiáng)的平均性能。

圖片

熱門的綜合基準(zhǔn)

從表4可以看出,Nemotron-4 15B在現(xiàn)有模型中獲得了BBH的最佳分?jǐn)?shù),增長(zhǎng)了近7%。

此外,Nemotron-4在BBH基準(zhǔn)測(cè)試中明顯優(yōu)于LLaMA-2 70B模型,其中LLaMA-2 70B的得分為51.2,Nemotron-4的得分為58.7。

Nemotron-4 15B另外還獲得了極具競(jìng)爭(zhēng)力的MMLU分?jǐn)?shù)。

圖片

數(shù)學(xué)和代碼

表5重點(diǎn)介紹了Nemotron-4 15B在數(shù)學(xué)和代碼任務(wù)上的性能。

具體來說,在數(shù)學(xué)推理上,Nemotron-4 15B表現(xiàn)強(qiáng)勁,得分與Gemma 7B相似,但落后于Baichuan-2和QWEN等模型。

在代碼任務(wù)中,Nemotron-4的性能與QWEN 14B相當(dāng),但略落后于Gemma 7B。

在這兩種類型的任務(wù)中,Nemotron-4 15B的性能均優(yōu)于Mistral 7B和LlaMA-213B/34B。

圖片

幾乎所有類似規(guī)模的開放模型都只根據(jù)Python相關(guān)任務(wù)的性能來確定其代碼能力,而忽略了對(duì)其他編程語(yǔ)言能力的評(píng)估。

在表6中,展示了Nemotron-4 15B在Multiple-E基準(zhǔn)上的結(jié)果,涉及11種不同的編程語(yǔ)言。

結(jié)果發(fā)現(xiàn),Nemotron-4 15B在各種編程語(yǔ)言中都有很強(qiáng)的編碼性能,平均性能優(yōu)于Starcoder和Mistral 7B。

研究人員特別強(qiáng)調(diào)了Nemotron-4 15B在Scala、Julia和R等低資源編程語(yǔ)言上的卓越性能。

圖片

多語(yǔ)言

分類

在表7中,可以清楚地看到Nemotron-4在所有模型中實(shí)現(xiàn)了最佳性能,在4次設(shè)置中實(shí)現(xiàn)了近12%的改進(jìn)。

圖片

生成

表8顯示Nemotron-4 15B實(shí)現(xiàn)了最佳性能。

令人印象深刻的是,Nemotron-4 15B能夠顯著改進(jìn)下一個(gè)最佳模型PaLM 62B-cont。

表9顯示了MGSM上的性能,進(jìn)一步證明了Nemotron-4 15B令人印象深刻的多語(yǔ)言能力。

在這項(xiàng)評(píng)估數(shù)學(xué)和多語(yǔ)言能力交集的挑戰(zhàn)性任務(wù)中,Nemotron-4 15B在比較模型中實(shí)現(xiàn)了最佳性能,并且比最接近的分?jǐn)?shù)提高了近30%。

圖片

機(jī)器翻譯

如表10所示,Nemotron-4 15B的性能遠(yuǎn)遠(yuǎn)優(yōu)于LLaMA-2 13B和Baichuan-2 13B,性能分別提高了90.2%和44.1%。

Nemotron-4 15B不僅在中文翻譯成英文方面表現(xiàn)出色,而且在中文直接翻譯成其他語(yǔ)言方面也能取得令人印象深刻的效果。

這種能力凸顯了Nemotron-4 15B對(duì)廣泛的自然語(yǔ)言的深刻理解。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-06-17 08:55:00

2023-06-14 12:08:51

2023-08-14 08:07:46

ChatGPTAI

2023-08-13 07:44:18

GPU模型英偉達(dá)

2025-01-20 07:30:00

2024-09-05 14:10:00

AI計(jì)算

2023-11-21 09:14:33

微軟Azure AI

2023-10-18 13:17:12

AI芯片英偉達(dá)美國(guó)

2023-11-14 08:59:25

英偉達(dá)AI

2025-02-27 09:09:45

2022-11-08 15:00:51

芯片英偉達(dá)

2024-07-22 07:50:00

模型英偉達(dá)

2025-04-22 09:47:07

2024-03-14 14:49:34

Meta人工智能

2023-08-10 13:54:36

GPUAI

2024-10-17 14:05:34

2023-09-11 12:58:00

AI訓(xùn)練

2023-08-06 13:01:34

AI開發(fā)

2021-10-12 15:03:18

模型人工智能深度學(xué)習(xí)

2023-09-14 13:23:00

AI芯片
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)