英偉達(dá)和微軟發(fā)布新的小語言模型

英偉達(dá)近日發(fā)布了一款輕量級(jí)語言模型Mistral-NeMo-Minitron 8B,該模型在一系列任務(wù)中的表現(xiàn)均優(yōu)于同等規(guī)模的神經(jīng)網(wǎng)絡(luò)。
該模型的代碼以開源許可的形式發(fā)布在Hugging Face網(wǎng)站上。該模型發(fā)布的前一天,微軟剛剛推出了幾個(gè)自己的開源語言模型。與英偉達(dá)的新算法一樣,這些新模型也是為了在處理能力有限的設(shè)備上運(yùn)行而設(shè)計(jì)的。
Mistral-NeMo-Minitron 8B是英偉達(dá)上個(gè)月推出的Mistral NeMo 12B語言模型的縮小版。后者是與Mistral AI SAS合作開發(fā)的算法,Mistral AI SAS是一家人工智能初創(chuàng)公司,已經(jīng)募集了大量的資金。英偉達(dá)利用了兩種名為“剪枝”和“提煉”的機(jī)器學(xué)習(xí)技術(shù)創(chuàng)建了Mistral-NeMo-Minitron 8B。
“剪枝”是一種通過刪除代碼庫中不必要的組件來降低模型硬件要求的方法。神經(jīng)網(wǎng)絡(luò)由無數(shù)個(gè)人工神經(jīng)元組成,每個(gè)人工神經(jīng)元的代碼片段都能執(zhí)行一組相對(duì)簡(jiǎn)單的計(jì)算。其中一些代碼片段在處理用戶請(qǐng)求時(shí)發(fā)揮的作用不如其他代碼片段活躍,這意味著可以在不顯著降低人工智能輸出質(zhì)量的情況下刪除這些代碼片段。
在對(duì) Mistral NeMo 12B進(jìn)行“剪枝”后,英偉達(dá)進(jìn)入了該項(xiàng)目的所謂“提煉”階段?!疤釤挕笔枪こ處煂⑷斯ぶ悄苤R(shí)轉(zhuǎn)移到另一個(gè)硬件效率更高的神經(jīng)網(wǎng)絡(luò)的過程。在這種情況下,第二個(gè)模型就是今天亮相的Mistral-NeMo-Minitron 8B,它比原來的模型少了40億個(gè)參數(shù)。
開發(fā)人員還可以通過從頭開始訓(xùn)練一個(gè)全新的模型來降低人工智能項(xiàng)目的硬件要求。與這種方法相比,“提煉”有幾個(gè)優(yōu)勢(shì),尤其是能提高人工智能的輸出質(zhì)量。將大型模型“提煉”為小型模型的成本也更低,因?yàn)檫@項(xiàng)任務(wù)不需要那么多訓(xùn)練數(shù)據(jù)。
英偉達(dá)表示,在開發(fā)過程中結(jié)合使用“剪枝”和“提煉”技術(shù)顯著提高了Mistral-NeMo-Minitron 8B 的效率。英偉達(dá)的高管Kari Briski在一篇博文中介紹說,“其體積小到足以在配備了Nvidia RTX的工作站上運(yùn)行,同時(shí)在人工智能支持的聊天機(jī)器人、虛擬助手、內(nèi)容生成器和教育工具的多個(gè)基準(zhǔn)測(cè)試中依然表現(xiàn)出色?!?/p>
Mistral-NeMo-Minitron 8B發(fā)布的前一天,微軟剛剛開源了自己的三個(gè)語言模型。與英偉達(dá)的新算法一樣,它們的開發(fā)也考慮到了硬件效率。
這些模型中最緊湊的名為Phi-3.5-mini-instruct。它擁有38億個(gè)參數(shù),可以處理多達(dá) 128,000個(gè)標(biāo)記的數(shù)據(jù)提示,這使它能夠攝取冗長(zhǎng)的商業(yè)文檔。微軟進(jìn)行的一項(xiàng)基準(zhǔn)測(cè)試表明,Phi-3.5-mini-instruct在執(zhí)行某些任務(wù)時(shí)比Llama 3.1 8B和Mistral 7B更出色,而后兩者的參數(shù)數(shù)量大約是前者的兩倍。
本周二,微軟還開源了另外兩個(gè)語言模型。第一個(gè)是Phi-3.5-vision-instruct,它是Phi-3.5-mini-instruct的一個(gè)版本,可以執(zhí)行圖像分析任務(wù),比如解釋用戶上傳的圖表。它與Phi-3.5-MoE-instruct同時(shí)推出,后者是一個(gè)更大的模型,擁有608億個(gè)參數(shù)。當(dāng)用戶輸入提示時(shí),只有十分之一的參數(shù)會(huì)激活,這大大減少了推理所需的硬件數(shù)量。


































