英偉達Mistral AI聯(lián)袂出擊!120億小模型王者強勢登場,碾壓Llama 3單張4090可跑
小模型,成為本周的AI爆點。
先是HuggingFace推出了小模型SmoLLM;OpenAI直接殺入小模型戰(zhàn)場,發(fā)布了GPT-4o mini。
GPT-4o mini發(fā)布同天,歐洲最強AI初創(chuàng)公司Mistral立馬發(fā)布旗下最新最強小模型——Mistral NeMo。
Mistral NeMo由Mistral AI和英偉達聯(lián)手打造,有12B參數(shù),支持128K上下文。
從整體性能上來看,Mistral NeMo在多項基準測試中,擊敗了Gemma 2 9B和Llama 3 8B。
看到各大巨頭和獨角獸都和小模型杠上了,吃瓜群眾紛紛鼓掌。
HuggingFace創(chuàng)始人表示,本周巨頭小模型三連發(fā),「小模型周」來了!卷!繼續(xù)卷!
Mistral這周的確像打了雞血,火力全開。
幾天前,Mistral才發(fā)布了兩款小模型,專為數(shù)學推理和科學發(fā)現(xiàn)設計的Mathstral 7B和代碼模型Codestral Mamba,是首批采用Mamba 2架構的開源模型之一。
沒想到周這只是平A了兩下熱熱場子,還和老黃憋著大招等待閃亮登場。
1+1>2?
最新發(fā)布的小模型Mistral NeMo 12B,瞄準企業(yè)用戶的使用。
開發(fā)人員可以輕松定制和部署支持聊天機器人、多語言任務、編碼和摘要的企業(yè)應用程序。
通過將Mistral AI在訓練數(shù)據(jù)方面的專業(yè)知識,與英偉達優(yōu)化的硬件和軟件生態(tài)系統(tǒng)相結合,「最強爹媽」培養(yǎng)出的娃,Mistral NeMo模型性能極其優(yōu)秀。
Mistral AI聯(lián)合創(chuàng)始人兼首席科學家Guillaume Lample表示,「我們很幸運能夠與英偉達團隊合作,利用他們的頂級硬件和軟件?!?/span>
Mistral NeMo在NVIDIA DGX Cloud AI平臺完成了訓練,該平臺提供對最新英偉達架構的專用和可擴展訪問。
加速大語言模型推理性能的NVIDIA TensorRT-LLM,以及構建自定義生成AI模型的NVIDIA NeMo開發(fā)平臺也用于推進和優(yōu)化新模型的性能。
此次合作也凸顯了英偉達對支持模型構建器生態(tài)系統(tǒng)的承諾。
企業(yè)賽道,卓越性能
Mistral NeMo支持128K上下文,能夠更加連貫、準確地處理廣泛且復雜的信息,確保輸出與上下文相關。
與同等參數(shù)規(guī)模模型相比,它的推理、世界知識和編碼準確性都處于領先地位。
下表結果所示,除了在MMLU基準上,Mistral NeMo不如Gemma 2 9B。
但在多輪對話、數(shù)學、常識推理、世界知識和編碼等基準中,超越了Gemma 2 9B和Llama 3 8B。
由于Mistral NeMo使用標準架構,因此兼容性強,易于使用,并且可以直接替代任何使用Mistral 7B的系統(tǒng)。
Mistral NeMo是一個擁有120億參數(shù)的模型,根據(jù)Apache 2.0許可證發(fā)布,任何人皆可下載使用。
此外,模型使用FP8數(shù)據(jù)格式進行模型推理,這可以減少內存大小并加快部署速度,而不會降低準確性。
這意味著,模型可以流暢絲滑地學習任務,并更有效地處理不同的場景,使其成為企業(yè)的理想選擇。
這種格式可以在任何地方輕松部署,各種應用程序都能靈活使用。
因此,模型可以在幾分鐘內,部署到任何地方,免去等待和設備限制的煩惱。
Mistral NeMo瞄準企業(yè)用戶的使用,采用屬于NVIDIA AI Enterprise一部分的企業(yè)級軟件,具有專用功能分支、嚴格的驗證流程以及企業(yè)級安全性的支持。
開放模型許可證也允許企業(yè)將Mistral NeMo無縫集成到商業(yè)應用程序中。
Mistral NeMo NIM專為安裝在單個NVIDIA L40S、NVIDIA GeForce RTX 4090或NVIDIA RTX 4500 GPU的內存上而設計,高效率低成本,并且保障安全性和隱私性。
也就是說,單個英偉達L40S,一塊GPU就可跑了。
對于希望實現(xiàn)先進人工智能的企業(yè)來說,Mistral NeMo 12B提供了強大且實用的組合技。
先進模型的開發(fā)和定制
Mistral AI和英偉達各自擅長的領域結合,優(yōu)化了Mistral NeMo的訓練和推理。
模型利用Mistral AI的專業(yè)知識進行訓練,尤其是在多語言、代碼和多輪內容方面,受益于英偉達全堆棧的加速訓練。
它專為實現(xiàn)最佳性能而設計,利用高效的模型并行技術、可擴展性以及與Megatron-LM的混合精度。
該模型使用NVIDIA NeMo的一部分Megatron-LM進行訓練,在DGX Cloud上配備3,072個H100 80GB Tensor Core GPU,由NVIDIA AI架構組成,包括加速計算、網絡結構和軟件,以提高訓練效率。
面向大眾的多語言模型
Mistral NeMo模型專為全球多語言應用程序而設計。
它經過函數(shù)調用訓練,具有較大的上下文窗口,并且在英語、法語、德語、西班牙語、意大利語、葡萄牙語、中文、日語、韓語、阿拉伯語和印地語多語言方面性能強大。
可以說,這是將前沿人工智能模型帶到全世界不同語言使用者手中的重要一步。
Mistral NeMo在多語言基準測試中的表現(xiàn)
Tekken:更高效的分詞器
Mistral NeMo使用基于Tiktoken的全新分詞器——Tekken,該分詞器已針對100多種語言進行訓練,并且比以前的Mistral模型中使用的SentencePiece分詞器更有效地壓縮自然語言文本和源代碼。
具體而言,在壓縮源代碼、中文、意大利語、法語、德語、西班牙語和俄語方面的效率提高了約30%;
在壓縮韓語和阿拉伯語方面的效率也分別提高了2倍和3倍。與Llama 3分詞器相比,Tekken在壓縮大約85%的所有語言的文本方面表現(xiàn)更為出色。
Tekken壓縮率
指令微調
Mistral NeMo已經經過了高級微調和對齊階段。與Mistral 7B相比,它在遵循精確指令、推理、處理多輪對話和生成代碼方面表現(xiàn)得更好。
Mistral NeMo指令微調模型精度,使用GPT-4o作為官方參考的評判標準進行評估
可用性和部署
憑借在云、數(shù)據(jù)中心或RTX工作站等任何地方運行的靈活性,Mistral NeMo已準備好成為徹底改變跨平臺使用AI應用程序的先鋒。
用戶可以立即通過ai.nvidia.com作為NVIDIA NIM體驗Mistral NeMo,可下載的NIM版本即將推出。
有網友已經迫不及待在英偉達NIM推理微服務中運行了Mistral NeMo 12B。
開發(fā)者現(xiàn)在可以使用mistral-inference試用Mistral NeMo,并使用mistral-finetune對其進行微調。
Mistral NeMo在La Plateforme上以open-mistral-nemo-2407的名稱公開。