340B險(xiǎn)勝70B,Kimi機(jī)器人貼臉“嘲諷”英偉達(dá)新開(kāi)源模型
排名超過(guò)Llama-3-70B,英偉達(dá)Nemotron-4 340B問(wèn)鼎競(jìng)技場(chǎng)最強(qiáng)開(kāi)源模型!
前兩天,英偉達(dá)突然開(kāi)源了其通用大模型Nemotron的3400億參數(shù)版本。
就在最近,競(jìng)技場(chǎng)更新了排名情況:
勝率熱圖顯示,Nemotron-4 340B對(duì)陣Llama-3-70B的勝率為53%。
究竟Nemotron-4 340B表現(xiàn)如何?接下來(lái)一起看看。
新模型最新戰(zhàn)績(jī)
簡(jiǎn)單回顧一下,英偉達(dá)上周五突然宣布開(kāi)源Nemotron-4 340B,該系列包括基礎(chǔ)模型、指令模型和獎(jiǎng)勵(lì)模型,用于生成訓(xùn)練和改進(jìn)LLM的合成數(shù)據(jù)。
Nemotron-4 340B一經(jīng)發(fā)布便瞬時(shí)登頂Hugging Face RewardBench 榜一!
緊接著,競(jìng)技場(chǎng)新近公布了Nemotron-4 340B的一系列測(cè)評(píng)結(jié)果。
在長(zhǎng)文本查詢(長(zhǎng)度>=500個(gè)token)中,Nemotron-4 340B排在第5位,超過(guò)Claude 3 Sonnet及Qwen 2-72B等主流開(kāi)源模型。
在處理硬提示方面,Nemotron-4 340B超越了Claude 3 Sonnet和Llama3 70B-Instruct,顯示出其在應(yīng)對(duì)復(fù)雜和高難度查詢時(shí)的卓越能力。
在整體性能評(píng)估中,Nemotron-4 340B的評(píng)分和穩(wěn)定性均處于中上水平,超越了多款知名開(kāi)源模型。
概括一下,Nemotron-4 340B已經(jīng)取得了不錯(cuò)的戰(zhàn)績(jī),直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,有時(shí)甚至可以和GPT-4一較高下。
其實(shí),以前這個(gè)模型就曾登上大模型競(jìng)技場(chǎng)LMSys Chatbot Arena,當(dāng)時(shí)它的別名是june-chatbot。
具體來(lái)說(shuō),這個(gè)模型支持4K上下文窗口、50多種自然語(yǔ)言和40多種編程語(yǔ)言,訓(xùn)練數(shù)據(jù)截止到2023年6月。
訓(xùn)練數(shù)據(jù)方面,英偉達(dá)采用了高達(dá)9萬(wàn)億個(gè)token。其中,8萬(wàn)億用于預(yù)訓(xùn)練,1萬(wàn)億用于繼續(xù)訓(xùn)練以提高質(zhì)量。
在BF16精度下,模型的推理需要8塊H200,或16塊H100/A100 80GB。如果是在FP8精度下,則只需8塊H100。
值得一提的是,指令模型的訓(xùn)練是在98%的合成數(shù)據(jù)上完成的。
而合成數(shù)據(jù)無(wú)疑是Nemotron-4 340B的最大亮點(diǎn),它有可能徹底改變訓(xùn)練LLM的方式。
合成數(shù)據(jù)才是未來(lái)
面對(duì)最新排名,興奮的網(wǎng)友們突然咂摸出一絲不對(duì)勁:
用340B對(duì)戰(zhàn)70B,而且還是險(xiǎn)勝,這事兒有點(diǎn)說(shuō)不過(guò)去吧!
就連機(jī)器人Kimi也對(duì)此開(kāi)啟了“嘲諷”模式:
英偉達(dá)這波操作,參數(shù)大得像宇宙,性能卻跟Llama-3-70B肩并肩,科技界的”大號(hào)小能”啊!
對(duì)此,在英偉達(dá)負(fù)責(zé)AI模型對(duì)齊和定制的Oleksii Kuchaiev拿出了關(guān)鍵法寶:
是的,Nemotron-4 340B商用友好,支持生成合成數(shù)據(jù)。
高級(jí)深度學(xué)習(xí)研究工程師Somshubra Majumdar對(duì)此表示大贊:
你可以用它(免費(fèi))生成你想要的所有數(shù)據(jù)
這一突破性進(jìn)展,標(biāo)志著AI行業(yè)的一個(gè)重要里程碑——
從此,各行各業(yè)都無(wú)需依賴大量昂貴的真實(shí)世界數(shù)據(jù)集了,用合成數(shù)據(jù),就可以創(chuàng)建性能強(qiáng)大的特定領(lǐng)域LLM!
那么,英偉達(dá)具體是如何實(shí)現(xiàn)的呢?
一句話概括,這與它開(kāi)源通常不發(fā)布的獎(jiǎng)勵(lì)模型有關(guān)。
生成高質(zhì)量合成數(shù)據(jù)不僅需要優(yōu)秀的指導(dǎo)模型,還需根據(jù)特定需求進(jìn)行數(shù)據(jù)篩選。
通常,使用同一模型作為評(píng)分者(LLM-as-Judge);但在特定情況下,采用專(zhuān)門(mén)的獎(jiǎng)勵(lì)模型(Reward-Model-as-Judge)進(jìn)行評(píng)估更為合適。
而Nemotron-4 340B指令模型可以生成高質(zhì)量的數(shù)據(jù),然后獎(jiǎng)勵(lì)模型可以過(guò)濾掉多個(gè)屬性的數(shù)據(jù)。
它會(huì)根據(jù)有用性、正確性、一致性、復(fù)雜性和冗長(zhǎng)性這5個(gè)屬性,對(duì)響應(yīng)評(píng)分。
另外,研究者可以使用自己的專(zhuān)用數(shù)據(jù),再結(jié)合HelpSteer2數(shù)據(jù)集,定制Nemotron-4 340B基礎(chǔ)模型,以創(chuàng)建自己的指令或獎(jiǎng)勵(lì)模型。
回到一開(kāi)頭和Llama-3-70B的對(duì)戰(zhàn),Nemotron-4 340B擁有更寬松的許可,或許這才是它的真正價(jià)值所在。
畢竟數(shù)據(jù)短缺早已成為業(yè)內(nèi)普遍痛點(diǎn)。
據(jù)Epoch研究所的AI研究員Pablo Villalobos預(yù)測(cè),到2024年年中,對(duì)高質(zhì)量數(shù)據(jù)的需求超過(guò)供給的可能性為50%,到2026年發(fā)生這種情況的可能性為90%。
新的預(yù)期顯示,這種短缺風(fēng)險(xiǎn)將延遲至2028年。
合成數(shù)據(jù)才是未來(lái)正逐漸成為行業(yè)共識(shí)……
模型地址:https://huggingface.co/nvidia/Nemotron-4-340B-Instruct