首個(gè)國(guó)產(chǎn)開源MoE大模型來(lái)了!性能媲美Llama 2-7B,計(jì)算量降低60%
開源MoE模型,終于迎來(lái)首位國(guó)產(chǎn)選手!
它的表現(xiàn)完全不輸給密集的Llama 2-7B模型,計(jì)算量卻僅有40%。
這個(gè)模型堪稱19邊形戰(zhàn)士,特別是在數(shù)學(xué)和代碼能力上對(duì)Llama形成了碾壓。
它就是深度求索團(tuán)隊(duì)最新開源的160億參數(shù)專家模型DeepSeek MoE。
除了性能上表現(xiàn)優(yōu)異,DeepSeek MoE主打的就是節(jié)約計(jì)算量。
在這張表現(xiàn)-激活參數(shù)量圖中,它“一枝獨(dú)秀”地占據(jù)了左上角的大片空白區(qū)。
發(fā)布僅一天,DeepSeek團(tuán)隊(duì)在X上的推文就有大量轉(zhuǎn)發(fā)關(guān)注。
JP摩根的機(jī)器學(xué)習(xí)工程師Maxime Labonne測(cè)試后也表示,DeepSeek MoE的chat版本表現(xiàn)要略勝于微軟的“小模型”Phi-2。
同時(shí),DeepSeek MoE還在GitHub上獲得了300+星標(biāo),并登上了Hugging Face文本生成類模型排行榜的首頁(yè)。
那么,DeepSeek MoE的具體表現(xiàn)究竟怎么樣呢?
計(jì)算量減少60%
DeepSeek MoE目前推出的版本參數(shù)量為160億,實(shí)際激活參數(shù)量大約是28億。
與自家的7B密集模型相比,二者在19個(gè)數(shù)據(jù)集上的表現(xiàn)各有勝負(fù),但整體比較接近。
而與同為密集模型的Llama 2-7B相比,DeepSeek MoE在數(shù)學(xué)、代碼等方面還體現(xiàn)出來(lái)明顯的優(yōu)勢(shì)。
但兩種密集模型的計(jì)算量都超過(guò)了180TFLOPs每4k token,DeepSeek MoE卻只有74.4TFLOPs,只有兩者的40%。
在20億參數(shù)量時(shí)進(jìn)行的性能測(cè)試顯示,DeepSeek MoE同樣能以更少的計(jì)算量,達(dá)到與1.5倍參數(shù)量、同為MoE模型的GShard 2.8B相當(dāng)甚至更好的效果。
此外深度求索團(tuán)隊(duì)還基于SFT微調(diào)除了DeepSeek MoE的Chat版本,表現(xiàn)同樣接近自家密集版本和Llama 2-7B。
此外,深度求索團(tuán)隊(duì)還透露,DeepSeek MoE模型還有145B版本正在研發(fā)。
階段性的初步試驗(yàn)顯示,145B的DeepSeek MoE對(duì)GShard 137B具有極大的領(lǐng)先優(yōu)勢(shì),同時(shí)能夠以28.5%的計(jì)算量達(dá)到與密集版DeepSeek 67B模型相當(dāng)?shù)男阅堋?/p>
研發(fā)完畢后,團(tuán)隊(duì)也將對(duì)145B版本進(jìn)行開源。
而在這些模型表現(xiàn)的背后,是DeepSeek全新的自研MoE架構(gòu)。
自研MoE新架構(gòu)
首先是相比于傳統(tǒng)的MoE架構(gòu),DeepSeek擁有更細(xì)粒度專家劃分。
在總參數(shù)量一定的情況下,傳統(tǒng)模型分出N個(gè)專家,而DeepSeek可能分出2N個(gè)。
同時(shí),每次執(zhí)行任務(wù)時(shí)選擇的專家數(shù)量也是傳統(tǒng)模型的2倍,所以總體使用的參數(shù)量也不變,但選擇的自由度增加了。
這種分割策略允許更靈活和適應(yīng)性的激活專家組合,從而提高了模型在不同任務(wù)上的準(zhǔn)確性和知識(shí)獲取的針對(duì)性。
除了專家劃分上的差異,DeepSeek還創(chuàng)新性地引入了“共享專家”的設(shè)置。
這些共享專家對(duì)所有輸入的token激活,不受路由模塊影響,目的是捕獲和整合在不同上下文中都需要的共同知識(shí)。
通過(guò)將這些共享知識(shí)壓縮到共享專家中,可以減少其他專家之間的參數(shù)冗余,從而提高模型的參數(shù)效率。
共享專家的設(shè)置有助于其他專家更加專注于其獨(dú)特的知識(shí)領(lǐng)域,從而提高整體的專家專業(yè)化水平。
消融實(shí)驗(yàn)結(jié)果表明,這兩個(gè)方案都為DeepSeek MoE的“降本增效”起到了重要作用。
論文地址:https://arxiv.org/abs/2401.06066。
參考鏈接:https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg。