偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="ml51a"><th id="ml51a"></th></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

又有人來(lái)問(wèn)MOE和Dense模型到底差哪了？

發(fā)布于 2025-9-29 07:29

瀏覽

0收藏

最近更新的比較少，因?yàn)橐恢痹诖蚪职?的天梯，我已經(jīng)沖到鉆石了，離大師一步之遙。

又有人來(lái)問(wèn)MOE和Dense模型到底差哪了？-AI.x社區(qū)

然而...今天又被人問(wèn)了MOE和dense到底區(qū)別在哪，但是他說(shuō)的很多理解是完全錯(cuò)的。其實(shí)我以前講過(guò)，但是可能沒(méi)那么細(xì)，所以我今天仔細(xì)澄清一下大家理解的誤區(qū)。

如果隨便答，其實(shí)什么推理省顯存，簡(jiǎn)單的道理，因?yàn)閍ctivation 少了么，原來(lái)要激活整個(gè)MLP，現(xiàn)在激活的幾個(gè)expert之類的云答案，這種很好找的。

那么問(wèn)題來(lái)了，激活experts（一般需要*N）就比你dense模型激活少么？

首先MOE的experts和dense的 MLP是什么關(guān)系？

估計(jì)大部分兄弟隨口一云，就會(huì)說(shuō)per_expert_dim * expert_num= MLP

這對(duì)么？

看起來(lái)好像對(duì)的答案，其實(shí)是經(jīng)不起推敲的。

我們知道transformer的layer的架構(gòu)排布是下面這樣的。

又有人來(lái)問(wèn)MOE和Dense模型到底差哪了？-AI.x社區(qū) 圖片

因?yàn)槲覀優(yōu)榱撕?jiǎn)單就用標(biāo)準(zhǔn)的causal LLM也就是右邊的這個(gè)來(lái)講。

首先MH attention 層要經(jīng)過(guò)qkv矩陣之后算注意力然后由liner o 也就是output會(huì)產(chǎn)生出來(lái)送給MLP層的tensor，這個(gè)東西對(duì)mlp層計(jì)算的dim（維度）是和mlp層的input layer是相同的。

那就變了MOE就能不同？

想象都知道不可能得事嗎，維度不一樣，你怎么矩陣計(jì)算呢？

所以這個(gè)在互聯(lián)網(wǎng)上普及的看似正確的答案就是個(gè)純扯淡的意淫流答案。

那實(shí)際是怎么樣的呢？

我們分兩個(gè)思路來(lái)看

第一，假設(shè)你原有一個(gè)模型，你就想給它升級(jí)MOE

那你升級(jí)哪呢？

升級(jí)MLP么，對(duì)吧，基于我剛才講的，liner o出來(lái)的維度要和mlp維度等價(jià)，所以你如果有8個(gè)experts，就是相當(dāng)于給你的整個(gè)MLP層擴(kuò)大了8倍參數(shù)。

這么做的話呢，首先可以肯定的是，如果你會(huì)訓(xùn)練，知道怎么穩(wěn)定MOE梯度之類的操作，那么效果自然是好的，因?yàn)閿U(kuò)參數(shù)，想都不用想。

但是，你省資源了嗎？

那必然是沒(méi)省，因?yàn)槟阏麄€(gè)參數(shù)擴(kuò)大了，對(duì)于transformer模型來(lái)講最大頭的參數(shù)肯定是MLP，也就是你放大了幾倍的參數(shù)，weight顯存，你占定了，同樣的激活，原來(lái)我激活一個(gè)mlp，哪怕你是最簡(jiǎn)單的8 experts only激活2個(gè)，那也是2倍一樣的激活顯存，這個(gè)不管訓(xùn)練還是推理，你都要投入對(duì)應(yīng)的顯存容量來(lái)fulfill。

所以這個(gè)和你初始的要求不太一樣?。?/p>

所以第二個(gè)思路，我重做一個(gè)，重頭design。

我們以qwen的32b和qwen 30B A3B來(lái)做一個(gè)對(duì)比。

又有人來(lái)問(wèn)MOE和Dense模型到底差哪了？-AI.x社區(qū) 圖片

這倆模型差不多大，對(duì)于weight顯存的占用肯定是差不多了。

那么我們現(xiàn)在來(lái)分析左邊的dense 32B 和右邊的MOE 30B-A3B的區(qū)別。

一、誰(shuí)變了、變到哪

層數(shù) L
dense: num_hidden_layers=64
MoE: num_hidden_layers=48
MoE 版顯著減少了層數(shù)。因?yàn)樵诳倕⑹芟蘖?，?0B左右，所以FFN（MLP）大點(diǎn)，地方就那么大，那前面attention層就要受擠壓，MoE 會(huì)讓骨干深度變淺，把參數(shù)預(yù)算讓給 experts。
模型隱維 d_model 與注意力dense: hidden_size=5120, num_attention_heads=64, head_dim=128（由圖左側(cè) head_dim=128 可見）MoE: hidden_size=2048, num_attention_heads=32, head_dim=128MoE 版把 d_model 從 5120 降到 2048；注意力頭數(shù)也從 64 降到 32，但單頭寬度 head_dim 仍是 128。這意味著注意力與殘差主干被整體“瘦身”了，剛才把a(bǔ)ttention的層干淺了，這次把整個(gè)模型的dim寬度也干窄了，進(jìn)一步為了維持30B左右的參數(shù)，繼續(xù)砍。?
FFN/MLP 中間維（dense 的 intermediate_size）dense: intermediate_size=25600（≈5× d_model=5120）MoE: intermediate_size=6144（這是 MoE 層里每個(gè) expert 的中間維度 d_ff_expert；≈3× d_model=2048）。關(guān)鍵點(diǎn)：MoE 不是把 dense 的中間維切片，而是每個(gè) expert 自己一套、但更“瘦”。這里清楚顯示了業(yè)界常用策略：保持輸入輸出維為 d_model，降低專家的中間寬度來(lái)控參控算。當(dāng)然有人也會(huì)杠，那為什么沒(méi)有人在liner o，也就是proj o 后面加一個(gè)降為的liner來(lái)和mlp的expert對(duì)齊，這個(gè)問(wèn)題我不回答，大家自己琢磨琢磨，留個(gè)彩蛋，當(dāng)然你想明白這個(gè)問(wèn)題就自然會(huì)心一笑。
MoE 相關(guān)字段"moe_intermediate_size": 768（圖右存在該字段，通常用于門控/共享投影等 MoE 內(nèi)部維度，具體實(shí)現(xiàn)依賴庫(kù)）"num_experts": 128"num_experts_per_tok": 3（就是 top-k=3）還有 router/負(fù)載均衡的若干超參（如 router_aux_loss_coeff 等）這是一個(gè)較大 N 的 MoE（128 個(gè)專家），每個(gè) token 激活 3 個(gè)。從訓(xùn)練的角度這個(gè)確實(shí)省激活，其實(shí)推理就還好。別看好像省了125個(gè)experts，但是對(duì)于推理來(lái)講，它不是訓(xùn)練，不用考慮反向。這種沒(méi)那么大的模型，activation的顯存能省，但是省不了你們想那么多，除非你input的seq特別長(zhǎng)，batch太大。
KV headsdense: num_key_value_heads=64（與總頭數(shù)一致）
MoE: num_key_value_heads=4（顯著更少，采用 GQA：少量 KV 頭共享給多查詢頭）
這進(jìn)一步壓縮了注意力狀態(tài)與推理緩存（KV cache），降低顯存與帶寬壓力。

二、從這些變化得出的結(jié)論

MoE 版把“共享、每 token 必算”的主干（d_model、注意力頭數(shù)、層數(shù)）都縮小了；把參數(shù)預(yù)算轉(zhuǎn)移到“稀疏激活”的專家集合上。在總參固定下，MoE 也沒(méi)有超能力，所以只能讓注意力/層數(shù)變小或變淺。
每個(gè) expert 的中間維度被降了：dense 的 25600（≈5×5120）對(duì)比 MoE 每 expert 的 6144（≈3×2048），其實(shí)單個(gè)的mlp（一個(gè)expert）的表達(dá)能力是被降低了，我們知道m(xù)lp層的核心訴求就是需求隱空間的語(yǔ)義信息，那降低了怎么辦？用多experts來(lái)承載多樣性。
同時(shí)引入 GQA（num_key_value_heads 遠(yuǎn)小于總頭數(shù)）來(lái)進(jìn)一步節(jié)約注意力側(cè)的參數(shù)與 KV cache，適配大 N、top?k 的 MoE 設(shè)計(jì)，保障吞吐和顯存可行。

三、對(duì)訓(xùn)練/推理與效果的含義

訓(xùn)練/推理 FLOPs
每 token 的 MoE 計(jì)算量主要隨 k=3 與 d_ff_expert=6144 走；N=128 對(duì)單 token FLOPs 影響不大（更多影響參數(shù)量與路由）。
注意力側(cè)因 d_model 變小、頭數(shù)變少、GQA 化，計(jì)算與 KV cache 顯著下降，有利于吞吐。
表達(dá)力與路由
雖然單個(gè) expert 比 dense 的 FFN 更瘦，但有 128 個(gè)專家且 top?3 激活，整體表達(dá)多樣性提升；負(fù)載均衡和路由質(zhì)量變得關(guān)鍵。
長(zhǎng)上下文與注意力質(zhì)量
d_model 與頭數(shù)變小對(duì)注意力分辨率不利，但通過(guò)層數(shù)/專家多樣性、訓(xùn)練策略與數(shù)據(jù)規(guī)模可以部分補(bǔ)償。具體效果要看實(shí)際評(píng)測(cè)。這個(gè)也是moe的一個(gè)弱點(diǎn)（同等參數(shù)下），當(dāng)然如果你能給upset做到671B又做到1T，那當(dāng)我沒(méi)說(shuō)

四、可復(fù)制的設(shè)計(jì)要點(diǎn)（如果你要做同類改型）

保持子層輸入/輸出維一致為 d_model（方便殘差與實(shí)現(xiàn)），把“瘦身”放在 expert 的中間維 d_ff_expert。
通過(guò)減少 L、d_model、注意力頭數(shù)和使用 GQA 來(lái)為 MoE 挪參數(shù)預(yù)算。
選擇合適的 N 與 k，常見 k=1–2；這里采用 k=3，配合更強(qiáng)的路由/均衡與較瘦的 expert。
關(guān)注 router 正則（如 router_aux_loss_coeff）與 capacity 設(shè)置，保證均衡與穩(wěn)定訓(xùn)練。

好，那么我們總結(jié)一下！

看這兩個(gè)模型config.json的配置，并對(duì)比，非常清晰地展示了標(biāo)準(zhǔn)業(yè)界的 MoE 的典型取舍：在總參相近時(shí)，MoE 模型顯著縮小了主干（d_model、層數(shù)、注意力頭/GQA），并把 FFN 從 dense 的單路大寬度，改成多專家的中等寬度；每個(gè) expert 的維度被刻意降了，以換取“多專家 + 稀疏激活”的表達(dá)力與性價(jià)比。

本文轉(zhuǎn)載自??熵減AI??，作者：周博洋

標(biāo)簽

已于2025-9-29 10:11:56修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

CVPR 2024 | 分割一切模型SAM泛化能力差？域適應(yīng)策略給解決了

輕薄滴假象 ? 4844瀏覽 ? 0回復(fù)
曾爆火的 InstantID又有了新玩法：風(fēng)格化圖像生成，已開源

輕薄滴假象 ? 4337瀏覽 ? 0回復(fù)
現(xiàn)在，所有人都能免費(fèi)用GPT-4o了！

duhorse ? 6141瀏覽 ? 0回復(fù)
高考結(jié)束了，AI時(shí)代下哪些專業(yè)更有前途，這得來(lái)問(wèn)問(wèn)AI了！

wsp_ping ? 4669瀏覽 ? 0回復(fù)
13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了

wsp_ping ? 5464瀏覽 ? 0回復(fù)
終于有人將深度學(xué)習(xí)中重點(diǎn)做成了動(dòng)畫

魚蟲子 ? 4524瀏覽 ? 0回復(fù)
終于有人將多模態(tài)重點(diǎn)內(nèi)容做成了動(dòng)畫

魚蟲子 ? 3516瀏覽 ? 0回復(fù)
大模型到底需要消耗多少GPU顯存？公式和工具全都有

Syrupup ? 1.5w瀏覽 ? 1回復(fù)
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 4323瀏覽 ? 0回復(fù)
HunYuan MoE：聊一聊 LLM 參數(shù)量、計(jì)算量和 MFU 等

sbf_2000 ? 1.0w瀏覽 ? 0回復(fù)
HunYuan MoE：聊一聊 LLM 參數(shù)量、計(jì)算量和 MFU 等

amei2000go ? 5957瀏覽 ? 0回復(fù)
總算有人把智能體記憶說(shuō)清楚了

ermulong ? 5237瀏覽 ? 0回復(fù)
DeepSeek太給力了！自家的大模型秘方開源到底！國(guó)產(chǎn)大模型雄起

51CTO技術(shù)棧 ? 3880瀏覽 ? 0回復(fù)
現(xiàn)在的AI Agent還是這么差！

51CTO技術(shù)棧 ? 2834瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 4809瀏覽 ? 0回復(fù)
“指哪改哪”！北交&美圖發(fā)布DCEdit：改圖不傷背景的終極方案

angel ? 2729瀏覽 ? 0回復(fù)
主流AI換臉應(yīng)用大比拼：到底哪款好用？

AppMall ? 3413瀏覽 ? 0回復(fù)
為什么大家都開始探索 MoE 架構(gòu)？MoE 相比 Dense 有什么好處？

鴻煊的學(xué)習(xí)筆記 ? 2963瀏覽 ? 0回復(fù)
我測(cè)了9款A(yù)I，只想問(wèn)：所謂的Agent，到底把PPT變成了什么鬼東西？

AIGC新知 ? 2343瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Anthropic最新研究Persona vector人格向量 2025-08-11 06:51:42發(fā)布
用Dynamic chunk去干掉tokenizer？ 2025-07-28 00:36:21發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇： Anthropic最新研究Persona vector人格向量

社區(qū)精華內(nèi)容

目錄

<samp id="1lwts"></samp>

<em id="1lwts"><samp id="1lwts"></samp></em>