偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="kj65j"><menu id="kj65j"></menu></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

首個國產(chǎn)開源MoE大模型來了！性能媲美Llama 2-7B，計算量降低60%

2024-01-12 17:25:45

DeepSeek MoE目前推出的版本參數(shù)量為160億，實際激活參數(shù)量大約是28億。與自家的7B密集模型相比，二者在19個數(shù)據(jù)集上的表現(xiàn)各有勝負(fù)，但整體比較接近。

開源MoE模型，終于迎來首位國產(chǎn)選手！

它的表現(xiàn)完全不輸給密集的Llama 2-7B模型，計算量卻僅有40%。

這個模型堪稱19邊形戰(zhàn)士，特別是在數(shù)學(xué)和代碼能力上對Llama形成了碾壓。

它就是深度求索團隊最新開源的160億參數(shù)專家模型DeepSeek MoE。

除了性能上表現(xiàn)優(yōu)異，DeepSeek MoE主打的就是節(jié)約計算量。

在這張表現(xiàn)-激活參數(shù)量圖中，它“一枝獨秀”地占據(jù)了左上角的大片空白區(qū)。

發(fā)布僅一天，DeepSeek團隊在X上的推文就有大量轉(zhuǎn)發(fā)關(guān)注。

JP摩根的機器學(xué)習(xí)工程師Maxime Labonne測試后也表示，DeepSeek MoE的chat版本表現(xiàn)要略勝于微軟的“小模型”Phi-2。

同時，DeepSeek MoE還在GitHub上獲得了300+星標(biāo)，并登上了Hugging Face文本生成類模型排行榜的首頁。

那么，DeepSeek MoE的具體表現(xiàn)究竟怎么樣呢？

計算量減少60%

DeepSeek MoE目前推出的版本參數(shù)量為160億，實際激活參數(shù)量大約是28億。

與自家的7B密集模型相比，二者在19個數(shù)據(jù)集上的表現(xiàn)各有勝負(fù)，但整體比較接近。

而與同為密集模型的Llama 2-7B相比，DeepSeek MoE在數(shù)學(xué)、代碼等方面還體現(xiàn)出來明顯的優(yōu)勢。

但兩種密集模型的計算量都超過了180TFLOPs每4k token，DeepSeek MoE卻只有74.4TFLOPs，只有兩者的40%。

在20億參數(shù)量時進行的性能測試顯示，DeepSeek MoE同樣能以更少的計算量，達到與1.5倍參數(shù)量、同為MoE模型的GShard 2.8B相當(dāng)甚至更好的效果。

此外深度求索團隊還基于SFT微調(diào)除了DeepSeek MoE的Chat版本，表現(xiàn)同樣接近自家密集版本和Llama 2-7B。

此外，深度求索團隊還透露，DeepSeek MoE模型還有145B版本正在研發(fā)。

階段性的初步試驗顯示，145B的DeepSeek MoE對GShard 137B具有極大的領(lǐng)先優(yōu)勢，同時能夠以28.5%的計算量達到與密集版DeepSeek 67B模型相當(dāng)?shù)男阅堋?/p>

研發(fā)完畢后，團隊也將對145B版本進行開源。

而在這些模型表現(xiàn)的背后，是DeepSeek全新的自研MoE架構(gòu)。

自研MoE新架構(gòu)

首先是相比于傳統(tǒng)的MoE架構(gòu)，DeepSeek擁有更細粒度專家劃分。

在總參數(shù)量一定的情況下，傳統(tǒng)模型分出N個專家，而DeepSeek可能分出2N個。

同時，每次執(zhí)行任務(wù)時選擇的專家數(shù)量也是傳統(tǒng)模型的2倍，所以總體使用的參數(shù)量也不變，但選擇的自由度增加了。

這種分割策略允許更靈活和適應(yīng)性的激活專家組合，從而提高了模型在不同任務(wù)上的準(zhǔn)確性和知識獲取的針對性。

除了專家劃分上的差異，DeepSeek還創(chuàng)新性地引入了“共享專家”的設(shè)置。

這些共享專家對所有輸入的token激活，不受路由模塊影響，目的是捕獲和整合在不同上下文中都需要的共同知識。

通過將這些共享知識壓縮到共享專家中，可以減少其他專家之間的參數(shù)冗余，從而提高模型的參數(shù)效率。

共享專家的設(shè)置有助于其他專家更加專注于其獨特的知識領(lǐng)域，從而提高整體的專家專業(yè)化水平。

消融實驗結(jié)果表明，這兩個方案都為DeepSeek MoE的“降本增效”起到了重要作用。

論文地址：https://arxiv.org/abs/2401.06066。

參考鏈接：https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg。

責(zé)任編輯：姜華來源：量子位

MoE模型開源人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<dfn id="fhouz"><form id="fhouz"></form></dfn>

<table id="fhouz"></table>