偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek-R1簡明解析:從DeepSeek-V3到DeepSeek-R1,LLM是如何實現(xiàn)自我進化的?

發(fā)布于 2025-7-31 00:47
瀏覽
0收藏

在之前的文章中,我們在文章??DeepSeek簡明解析,10分鐘速通DeepSeekV1~V3核心技術(shù)點!??中介紹了從DeepSeek v1到DeepSeek v3的模型升級之路。那么目前在國內(nèi)外大火的DeepSeek R1和之前的DeepSeek是什么關(guān)系呢?今天這篇文章就用簡明的語言給大家介紹一下DeepSeek R1的核心技術(shù)點。

DeepSeek R1是基于DeepSeek V3模型進一步進行訓(xùn)練得到的,其核心優(yōu)化在于訓(xùn)練方式上。通過深度思維鏈文本進行強化學(xué)習(xí)、并讓模型自己生成高質(zhì)量的SFT數(shù)據(jù),實現(xiàn)模型的自我進化。具體的又分為DeepSeek R1和DeepSeek R1-Zero兩個模型,前者是后者的進一步升級。下面展開為大家介紹核心的優(yōu)化點。

DeepSeek-R1簡明解析:從DeepSeek-V3到DeepSeek-R1,LLM是如何實現(xiàn)自我進化的?-AI.x社區(qū)

1.R1-Zero:強化學(xué)習(xí)實現(xiàn)模型自我進化

現(xiàn)在的大模型基本的訓(xùn)練流程是,先用大量的網(wǎng)絡(luò)數(shù)據(jù)進行無監(jiān)督預(yù)訓(xùn)練,再搜集高質(zhì)量的人工數(shù)據(jù)采用SFT+RLHF進行偏好對齊。SFT指的是用一些人工指令+答案的高質(zhì)量文本訓(xùn)練一遍大模型,RHLF則是借助強化學(xué)習(xí)技術(shù),通過reward讓模型給出更符合人類偏好的結(jié)果。

在DeepSeek R1-Zero和DeepSeek R1中,直接將SFT階段去掉,改成純強化學(xué)習(xí)訓(xùn)練,完全無需借助任何有標注數(shù)據(jù)(這是DeepSeek R1的一個核心優(yōu)化),讓模型在強化學(xué)習(xí)的過程中實現(xiàn)自我更新。這樣,就不再受限于SFT中需要高質(zhì)量人工標注文本的限制。

具體的作為將,將所有待訓(xùn)練的問題都構(gòu)建成如下形式的文本,prompt放置對應(yīng)的推理問題(比如數(shù)學(xué)問題、邏輯問題等),輸入到DeeSeek中,讓模型生成對應(yīng)的推理過程(放到think標簽內(nèi))以及答案(放到answer標簽內(nèi))。模型在訓(xùn)練過程中會生成多種思考過程和答案,然后根據(jù)答案是否正確,以及生成的格式是否正確,作為reward,利用強化學(xué)習(xí)進行模型參數(shù)的更新。

DeepSeek-R1簡明解析:從DeepSeek-V3到DeepSeek-R1,LLM是如何實現(xiàn)自我進化的?-AI.x社區(qū)

這其中有2類reward,答案是否正確reward和格式是否正確reward。前者根據(jù)輸出的答案與真實答案(比如數(shù)學(xué)題的答案、LeetCode代碼編譯結(jié)果是否符合預(yù)期等)判斷,后者根據(jù)思考過程、答案是否寫到了對應(yīng)的標簽里,即格式是否符合要求判斷。通過強化學(xué)習(xí)基于reward的不斷更新,讓模型提升生成正確答案、正確格式的思考過程和答案。

通過上述不斷的訓(xùn)練,DeepSeek-R1-Zero取得了超過OpenAI-o1的效果。隨著訓(xùn)練的進行,DeeoSeek-R1-Zero的效果也在逐漸提升。

DeepSeek-R1簡明解析:從DeepSeek-V3到DeepSeek-R1,LLM是如何實現(xiàn)自我進化的?-AI.x社區(qū)

模型也隨著訓(xùn)練不斷進化,生成的文本越來越長,表明隨和強化學(xué)習(xí)的進行,生成了更多思考文本,讓模型的思考變得更加深入了。

DeepSeek-R1簡明解析:從DeepSeek-V3到DeepSeek-R1,LLM是如何實現(xiàn)自我進化的?-AI.x社區(qū)

2.R1:少量SFT數(shù)據(jù)冷啟+SFT數(shù)據(jù)生成

雖然DeekSeek-R1-Zero已經(jīng)取得比較好的效果,但是仍然存在生成的結(jié)果可讀性差、出現(xiàn)多語言混合等不滿足人類偏好的問題。DeepSeek-R1對DeepSeek-R1-Zero的訓(xùn)練過程進一步升級,將后者的只有強化學(xué)習(xí),升級為少量SFT數(shù)據(jù)冷啟動->強化學(xué)習(xí)->生成大量SFT數(shù)據(jù)進一步訓(xùn)練->進一步強化學(xué)習(xí)4個步驟,通過初期的SFT和強化學(xué)習(xí)提升模型能力,并進一步生成大量的SFT數(shù)據(jù)用于訓(xùn)練,實現(xiàn)了LLM的自我驅(qū)動。

少量SFT數(shù)據(jù)冷啟動:首先在DeepSeek-R1-Zero的升級版DeepSeek-R1中,先引入了少量數(shù)據(jù)的SFT進行冷啟動(也是基于DeepSeek V3),以此來緩解在訓(xùn)練最開始的階段存在一些不確定性,影響模型自我進化的過程。通過少量SFT這種確定性的高質(zhì)量數(shù)據(jù)進行初始訓(xùn)練,可以讓模型先收斂到一個符合人類偏好的初始狀態(tài),再進行后續(xù)的強化學(xué)習(xí)可以取得更好的效果。

強化學(xué)習(xí):在SFT冷啟動之后,類似DeepSeek-R1-Zero,采用強化學(xué)習(xí)進行進一步訓(xùn)練。同時為了緩解前面提到的多語言混合的問題,在DeepSeek-R1中引入了一個語言一致性的reward,要求生成的答案盡可能都來源于同一個語言,這樣雖然會讓最終推理結(jié)果有一些效果損失,但是更加符合人類偏好。

生成大量SFT數(shù)據(jù)進一步訓(xùn)練:在此之后,DeepSeek-R1還會進一步進行SFT。這里使用上面已經(jīng)訓(xùn)練好的模型,去構(gòu)建一些問題和相應(yīng)的答案,自動化的生成更多SFT數(shù)據(jù),然后使用DeepSeek-V3進行評判,并基于規(guī)則進行一些低質(zhì)量數(shù)據(jù)的過濾(拒絕采樣),生成一份600K的推理SFT數(shù)據(jù)。對于非推理數(shù)據(jù),也復(fù)用DeepSeek-V3等數(shù)據(jù)進行SFT。相比第一步的SFT,這一步用訓(xùn)練好的模型自己生成了更多SFT數(shù)據(jù)。以這些更多高質(zhì)量SFT數(shù)據(jù)為基礎(chǔ),重新訓(xùn)練DeepSeek。

進一步強化學(xué)習(xí):在最后一個階段,仍然是采用強化學(xué)習(xí)進一步對齊人類偏好,讓模型具備助人性、無害性,并進一步提升模型的推理能力。核心和第二階段類似,并且額外加入相關(guān)reward在強化學(xué)習(xí)中的引入,例如生成的結(jié)果是否有風(fēng)險、是否滿足用戶需求等。

經(jīng)過上述的4輪訓(xùn)練,就構(gòu)建了最終的DeepSeek-R1模型,取得了和OpenAI GPT-4o相當(dāng)?shù)男Ч?/p>

DeepSeek-R1簡明解析:從DeepSeek-V3到DeepSeek-R1,LLM是如何實現(xiàn)自我進化的?-AI.x社區(qū)

3.知識蒸餾提升其他LLM效果

DeepSeek-R1除了自我進化外,也通過生成訓(xùn)練數(shù)據(jù)的方式賦能其他LLM模型。文中通過DeepSeek-R1生成了800K的訓(xùn)練樣本(也就是DeepSeek-R1的第三階段訓(xùn)練樣本),用來finetune千問、Llama等LLM模型,都會使得這些模型取得推理能力上的提升。這個過程中只使用了SFT,沒有使用強化學(xué)習(xí)。這說明通過推理能力很強的大模型生成數(shù)據(jù)蒸餾小模型以提升小模型推理能力的方式,也是行得通的。

DeepSeek-R1簡明解析:從DeepSeek-V3到DeepSeek-R1,LLM是如何實現(xiàn)自我進化的?-AI.x社區(qū)

本文轉(zhuǎn)載自????圓圓的算法筆記???,作者:Fareise

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦