偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="e0lf4"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

為什么大家都開始探索 MoE 架構(gòu)？MoE 相比 Dense 有什么好處？

鴻煊的學(xué)習(xí)筆記

發(fā)布于 2025-7-4 00:16

瀏覽

0收藏

在大模型發(fā)展進(jìn)程中，MoE 架構(gòu)憑借獨(dú)特優(yōu)勢(shì)備受關(guān)注。與傳統(tǒng) Dense 架構(gòu)相比，它在計(jì)算效率、模型擴(kuò)展性和任務(wù)處理能力等方面表現(xiàn)突出，為大模型性能提升提供了新方向。下面是其優(yōu)勢(shì)：

計(jì)算效率更高：MoE 架構(gòu)通過路由器網(wǎng)絡(luò)動(dòng)態(tài)選擇輸入 token 激活的專家集合，僅激活部分參數(shù)，大幅降低計(jì)算量。如 DeepSeek - V3 激活 37B 參數(shù)（占總量 671B 的 5.5%），其 FLOPs 可降低至傳統(tǒng) Dense 架構(gòu)的 30% 以下。在推理時(shí)，MoE 架構(gòu)能根據(jù)輸入動(dòng)態(tài)分配計(jì)算資源，避免不必要計(jì)算，而 Dense 架構(gòu)每次前向傳播都需激活全部參數(shù)，計(jì)算成本高。這種高效計(jì)算模式使 MoE 在處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)時(shí)，速度更快且資源消耗更少。
模型擴(kuò)展性更強(qiáng)：增加模型參數(shù)是提升大模型能力的常見方法，但 Dense 架構(gòu)擴(kuò)展參數(shù)會(huì)導(dǎo)致計(jì)算需求劇增。MoE 架構(gòu)則不同，它將任務(wù)分給多個(gè)專家處理，增加專家不會(huì)使計(jì)算需求成比例增加。通過添加專家，MoE 可處理更大、更多樣化的數(shù)據(jù)集，還能促進(jìn)并行處理，加速操作。這一特性使 MoE 能突破計(jì)算資源限制，構(gòu)建參數(shù)規(guī)模更大的模型，提升模型整體性能和泛化能力。
知識(shí)表達(dá)更靈活：像 DeepSeek MoE 等創(chuàng)新架構(gòu)，將單個(gè)專家分割為多個(gè)細(xì)粒度子專家，如拆分 FFN 隱藏維度，通過組合式激活提升知識(shí)表達(dá)靈活性。實(shí)驗(yàn)顯示，32 個(gè)子專家配置可使模型在數(shù)學(xué)推理任務(wù)中的準(zhǔn)確率提升 18%。相比之下，Dense 架構(gòu)神經(jīng)元連接固定，在處理復(fù)雜任務(wù)時(shí)，知識(shí)表達(dá)的靈活性和針對(duì)性不如 MoE 架構(gòu)。
跨領(lǐng)域知識(shí)遷移能力更強(qiáng)：MoE 架構(gòu)保留部分專家作為共享知識(shí)庫(kù)，如 DeepSeek MoE 隔離 15% 共享專家，既降低參數(shù)冗余度，又增強(qiáng)跨領(lǐng)域知識(shí)遷移能力。在醫(yī)療問答測(cè)試中，該技術(shù)使模型準(zhǔn)確率從 91% 提升至 94%。而 Dense 架構(gòu)在跨領(lǐng)域知識(shí)遷移方面相對(duì)較弱，難以快速適應(yīng)不同領(lǐng)域任務(wù)需求。
提升訓(xùn)練效率：以 DeepSeek 為例，其多 tokens 預(yù)測(cè)（MTP）技術(shù)允許模型同時(shí)預(yù)測(cè)多個(gè)連續(xù)位置的 token，極大提高了訓(xùn)練效率。此外，DeepSeek V3 原生支持 FP8 混合精度訓(xùn)練，降低了計(jì)算和存儲(chǔ)需求，使得在資源有限環(huán)境下也能高效訓(xùn)練大規(guī)模模型。而 Dense 模型在訓(xùn)練時(shí)，由于其全連接和全激活的特點(diǎn)，訓(xùn)練效率相對(duì)較低，對(duì)計(jì)算資源的需求也更大。

參考

??https://mp.weixin.qq.com/s/21reK1zrvy8rdz58NQ9aDA?? 騰訊混元大模型面試：奪命11連問

??https://blog.csdn.net/Z_Flank/article/details/145970067?? Qwen-2.5、DeepSeek-R1、DeepSeek-V3 核心區(qū)別

??https://blog.csdn.net/weixin_59191169/article/details/148560050?? 三萬字詳解，一文講清楚Qwen系列，看這一篇就夠了！

??https://blog.51cto.com/u_15497017/13880122?? Qwen3 開源！深度對(duì)比 DeepSeek，一文選對(duì)模型

??https://blog.csdn.net/weixin_41429382/article/details/145400425?? qwen2.5-max 和deepseek 比較

??https://blog.csdn.net/smileKH/article/details/148828469?? 通義千問（Qwen）：阿里云打造的全能AI大模型

??https://www.cnblogs.com/obullxl/p/18706323/NTopic2025020901?? DeepSeek vs. Qwen 大模型編程能力比拼，誰更適合作為你的 AI 輔助編程助手？

本文轉(zhuǎn)載自????????鴻煊的學(xué)習(xí)筆記????????，作者：乘風(fēng)破浪jxj

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

XAI有什么用？探索LLM時(shí)代利用可解釋性的10種策略

輕薄滴假象 ? 4511瀏覽 ? 0回復(fù)
為什么我們勸你棄用LangChain？

51CTO技術(shù)棧 ? 8882瀏覽 ? 0回復(fù)
大模型所謂的參數(shù)是什么？大模型為什么需要訓(xùn)練？大模型訓(xùn)練到底干了什么？

AI探索時(shí)代 ? 8899瀏覽 ? 0回復(fù)
你知道什么是微調(diào)嗎？大模型為什么要微調(diào)？以及大模型微調(diào)的原理是什么？

AI探索時(shí)代 ? 8920瀏覽 ? 0回復(fù)
什么監(jiān)督學(xué)習(xí)，無監(jiān)督學(xué)習(xí)與深度學(xué)習(xí)？它們之間有什么區(qū)別和聯(lián)系？

AI探索時(shí)代 ? 1.4w瀏覽 ? 0回復(fù)
什么是提示詞工程(prompt engineering)？為什么需要提示詞工程？

AI探索時(shí)代 ? 9152瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 4851瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時(shí)代 ? 6907瀏覽 ? 0回復(fù)
NPU 與 GPU 相比，有什么差別？| 技術(shù)速覽

Baihai_IDP ? 5282瀏覽 ? 0回復(fù)
什么是具身智能模型，它和普通大模型有什么區(qū)別？

AI探索時(shí)代 ? 5389瀏覽 ? 0回復(fù)
和語義召回相比有什么優(yōu)劣？

AI博物院 ? 3471瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時(shí)代 ? 5792瀏覽 ? 0回復(fù)
為什么有了大模型還需要用Embedding模型？

石映飛云 ? 3671瀏覽 ? 0回復(fù)
你為什么要用GraphGAG？

熵減AI ? 3087瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 4840瀏覽 ? 0回復(fù)
為什么 RAG 一定需要 Rerank？

玄姐聊AGI ? 3690瀏覽 ? 0回復(fù)
騰訊二面真題：DeepSeek對(duì)MoE架構(gòu)做了哪些改進(jìn)？

丁師兄大模型 ? 2987瀏覽 ? 0回復(fù)
什么是混合專家模型——MoE(Mixture of Experts)

AI探索時(shí)代 ? 2151瀏覽 ? 0回復(fù)
又有人來問MOE和Dense模型到底差哪了？

熵減AI ? 1636瀏覽 ? 0回復(fù)

鴻煊的學(xué)習(xí)筆記

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

魔搭 ms-swift 框架 2025-08-22 08:41:41發(fā)布
大模型微調(diào)技術(shù)基礎(chǔ) 2025-08-22 08:00:16發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：大模型訓(xùn)練流程及 SFT、RLHF 作用簡(jiǎn)述

下一篇： PPO 與 DPO：大模型偏好對(duì)齊的兩種核心算法解析

社區(qū)精華內(nèi)容

目錄

<button id="cbbko"></button>

<samp id="cbbko"></samp>

<tt id="cbbko"><nobr id="cbbko"></nobr></tt>