偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="iypsl"><code id="iypsl"></code></style>

<abbr id="iypsl"><listing id="iypsl"><cite id="iypsl"></cite></listing></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一文速通 DeepSeek 家族核心技術(shù)點(diǎn)：從 LLM 到 R1！

作者：小喵學(xué)AI 2025-02-11 15:56:18

本文筆者將總結(jié)梳理DeepSeek家族從最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath，再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1，每一款模型都包括哪些核心技術(shù)點(diǎn)，看看DeepSeek采用了哪些技術(shù)構(gòu)建了最先進(jìn)的大模型。

DeepSeek橫空出世并迅速走紅，引發(fā)了全球科技圈的強(qiáng)烈震動(dòng)，NVIDIA股價(jià)暴跌18%，全球科技股市市值蒸發(fā)近1萬億美元。特朗普也居然公開稱贊DeepSeek的崛起具有“積極意義”，并表示這給美國(guó)敲響了“警鐘”。Anthropic一方面肯定了DeepSeek的成就，另一方面卻呼吁美國(guó)政府加強(qiáng)對(duì)華芯片管制。這也表明中國(guó)的AI實(shí)力已經(jīng)不容小覷，正在改變?nèi)駻I的發(fā)展格局。

DeepSeek系列在技術(shù)創(chuàng)新的道路上不斷深耕，每一次新版本的發(fā)布，都是在原有基礎(chǔ)上的一次飛躍，不斷為行業(yè)注入新的活力。從最初的DeepSeek LLM到最新的DeepSeek R1，每一款模型都蘊(yùn)含了獨(dú)特的創(chuàng)新點(diǎn)，在模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)集開發(fā)等多個(gè)維度上不斷突破。

本文筆者將總結(jié)梳理DeepSeek家族從最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath，再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1，每一款模型都包括哪些核心技術(shù)點(diǎn)，看看DeepSeek采用了哪些技術(shù)構(gòu)建了最先進(jìn)的大模型。每一次的升級(jí)迭代都伴隨著哪些訓(xùn)練數(shù)據(jù)的優(yōu)化、模型結(jié)構(gòu)的升級(jí)以及優(yōu)化方式的更新，并與大家分享~

DeepSeek LLM

(1) 發(fā)布日期：2024年1月

(2) 數(shù)據(jù)&架構(gòu)

2萬億個(gè)中英文詞元（2T Tokens）
調(diào)整了模型層數(shù)，DeepSeek 7B是30層，DeepSeek 67B是95層。
使用 GQA 優(yōu)化推理成本。

(3) 訓(xùn)練&Infra

使用多階段學(xué)習(xí)率調(diào)度器替代余弦學(xué)習(xí)率調(diào)度器，可以方便復(fù)用第一個(gè)訓(xùn)練階段，在continual training時(shí)有獨(dú)特的優(yōu)勢(shì)。
使用內(nèi)部自研的輕量級(jí)高效訓(xùn)練框架HAI-LLM來支持訓(xùn)練和評(píng)估LLM。

(4) Scaling Laws

找到最優(yōu)的模型/數(shù)據(jù)規(guī)模分配比例。

(5) 性能

67B模型性能超越LLaMA-2 70B。
Chat版本優(yōu)于GPT-3.5。

DeepSeek MoE

(1) 發(fā)布日期: 2024年1月

(2) 數(shù)據(jù)&架構(gòu)

采用了創(chuàng)新的 MoE 架構(gòu)，涉及兩個(gè)主要策略：細(xì)粒度專家細(xì)分和共享專家隔離。
在2T英文和中文token上從頭開始訓(xùn)練。

(3) 性能

DeepSeekMoE 16B的性能與DeekSeek 7B和LLaMA2 7B相當(dāng)，計(jì)算量?jī)H為40%左右。
16B版本可在單40GB內(nèi)存GPU上部署，通過有監(jiān)督微調(diào)構(gòu)建了聊天模型，還采用專家級(jí)和設(shè)備級(jí)平衡損失緩解負(fù)載不均衡問題。

DeepSeek Math

(1) 發(fā)布日期：2024年2月

(2) 數(shù)據(jù)&架構(gòu)

來自Common Crawl提取的120B高質(zhì)量數(shù)學(xué)網(wǎng)頁數(shù)據(jù)，總數(shù)據(jù)量是開源數(shù)據(jù)集OpenWebMath的9倍。
引入了PPO變體的強(qiáng)化學(xué)習(xí)算法GRPO，丟棄了Critic Model，顯著減少了訓(xùn)練顯存并提升了對(duì)齊效果。

(3) 預(yù)訓(xùn)練

使用了代碼領(lǐng)域模型DeepSeek-Coder-v1.5初始化，可以獲得比從通用用模型初始化更好的數(shù)學(xué)能力。

(4) 性能

在中英數(shù)學(xué)基準(zhǔn)榜單上超過Mistral 7B、Llemma-34B，逼近GPT-4能力，跟Minerva 540B效果相當(dāng)。

DeepSeek V2

(1) 發(fā)布日期：2024年5月

(2) 數(shù)據(jù)&架構(gòu)

改造注意力模塊，提出 MLA（Multi-Head Latent Attention）。
改進(jìn) MoE（Mixture-of-Experts）。
基于YaRN擴(kuò)展長(zhǎng)上下文。

(3) 訓(xùn)練

設(shè)計(jì)三種輔助損失并引入Token-Dropping策略，通過多階段訓(xùn)練流程提升性能。

DeepSeek V3

(1) 發(fā)布日期：2024年12月

(2) 數(shù)據(jù)&架構(gòu)

采用無輔助損失的負(fù)載均衡策略。
多Token預(yù)測(cè)。
基于YaRN擴(kuò)展長(zhǎng)上下文。

(3) 訓(xùn)練

使用 FP8 混合精度訓(xùn)練框架。
使用高效通信框架。

(4) 優(yōu)化

通過知識(shí)蒸餾提升推理性能。

(5) 性能

在低訓(xùn)練成本下性能強(qiáng)大。
基礎(chǔ)模型超越其他開源模型。
聊天版本與領(lǐng)先閉源模型性能相當(dāng)。

DeepSeek R1

(1) 發(fā)布日期：2025年1月

(2) 數(shù)據(jù)&架構(gòu)

采用多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)。

(3) 性能

DeepSeek-R1-Zero無需SFT就有卓越推理能力，與OpenAI-o1-0912在AIME上性能相當(dāng)。
DeepSeek-R1推理性能與OpenAI-o1-1217相當(dāng)。
提煉出六個(gè)蒸餾模型，顯著提升小模型推理能力。

責(zé)任編輯：趙寧寧來源：小喵學(xué)AI

DeepSeek AI 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<center id="ma1qn"></center>