偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

剛剛,DeepSeek-R1論文登上Nature封面,通訊作者梁文鋒

人工智能
DeepSeek-R1 論文本身固然有其科學(xué)價值,但作為首個接受并通過主流期刊同行評審的 LLM,其「程序價值」可能更為深遠(yuǎn)。

太令人意外!

卻又實至名歸!

最新一期的 Nature 封面,竟然是 DeepSeek-R1 的研究。

也就是今年 1 月份 DeepSeek 在 arxiv 公布的論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。這篇Nature論文通訊作者正是梁文鋒。

論文鏈接:https://www.nature.com/articles/s41586-025-09422-z

在封面的推薦介紹中,Nature 寫到:

如果訓(xùn)練出的大模型能夠規(guī)劃解決問題所需的步驟,那么它們往往能夠更好地解決問題。這種『推理』與人類處理更復(fù)雜問題的方式類似,但這對人工智能有極大挑戰(zhàn),需要人工干預(yù)來添加標(biāo)簽和注釋。在本周的期刊中,DeepSeek 的研究人員揭示了他們?nèi)绾文軌蛟跇O少的人工輸入下訓(xùn)練一個模型,并使其進(jìn)行推理。

DeepSeek-R1 模型采用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。在這種學(xué)習(xí)中,模型正確解答數(shù)學(xué)問題時會獲得高分獎勵,答錯則會受到懲罰。結(jié)果,它學(xué)會了推理——逐步解決問題并揭示這些步驟——更有可能得出正確答案。這使得 DeepSeek-R1 能夠自我驗證和自我反思,在給出新問題的答案之前檢查其性能,從而提高其在編程和研究生水平科學(xué)問題上的表現(xiàn)。

此外,在這周期刊中,Nature 還盛贊 DeepSeek-R1 的這種開放模式。

值得注意的是,R1 被認(rèn)為是首個通過權(quán)威學(xué)術(shù)期刊同行評審的大語言模型。

Hugging Face 的機(jī)器學(xué)習(xí)工程師、同時也是該論文審稿人之一的 Lewis Tunstall 對此表示:「這是一個備受歡迎的先例。如果缺乏這種公開分享大部分研發(fā)過程的行業(yè)規(guī)范,我們將很難評估這些系統(tǒng)的潛在風(fēng)險?!?/p>

為回應(yīng)評審意見,DeepSeek 團(tuán)隊不僅在論文中避免了對模型的擬人化描述,還補(bǔ)充了關(guān)于訓(xùn)練數(shù)據(jù)類型和安全性的技術(shù)細(xì)節(jié)。俄亥俄州立大學(xué) AI 研究員 Huan Sun 評論道:「經(jīng)歷嚴(yán)格的同行評審,無疑能有效驗證模型的可靠性與實用價值。其他公司也應(yīng)效仿此舉?!?/p>

顯而易見,當(dāng)前 AI 行業(yè)充斥著發(fā)布會上的驚艷演示和不斷刷新的排行榜分?jǐn)?shù)。

但正如文中所指,基準(zhǔn)測試是可被「操控」的。將模型的設(shè)計、方法論和局限性交由獨立的外部專家審視,能夠有效擠出其中的水分。

同行評審充當(dāng)了一個公正的「守門人」,它要求 AI 公司從「王婆賣瓜」式的自我宣傳,轉(zhuǎn)向用扎實的證據(jù)和可復(fù)現(xiàn)的流程來支持其聲明。

因此,DeepSeek-R1 論文本身固然有其科學(xué)價值,但作為首個接受并通過主流期刊同行評審的 LLM,其「程序價值」可能更為深遠(yuǎn)。

可以預(yù)見的是,將 LLM 納入獨立的同行評審體系,是從「技術(shù)競賽」邁向「科學(xué)紀(jì)律」的關(guān)鍵一步,對于遏制行業(yè)亂象、建立公眾信任至關(guān)重要。

接下來,就讓我們回顧下這篇重磅研究。但也建議大家細(xì)看下 Nature 上發(fā)表的論文,有更多補(bǔ)充細(xì)節(jié):

DeepSeek-R1的多階段pipeline

以往的研究主要依賴大量的監(jiān)督數(shù)據(jù)來提升模型性能。DeepSeek 的開發(fā)團(tuán)隊則開辟了一種全新的思路:即使不用監(jiān)督微調(diào)(SFT)作為冷啟動,通過大規(guī)模強(qiáng)化學(xué)習(xí)也能顯著提升模型的推理能力。如果再加上少量的冷啟動數(shù)據(jù),效果會更好。

為了做到這一點,他們開發(fā)了 DeepSeek-R1-Zero。具體來說,DeepSeek-R1-Zero 主要有以下三點獨特的設(shè)計:

  • 首先是采用了群組相對策略優(yōu)化(GRPO)來降低訓(xùn)練成本。GRPO 不需要使用與策略模型同樣大小的評估模型,而是直接從群組分?jǐn)?shù)中估算基線。
  • 其次是獎勵設(shè)計。如何設(shè)計獎勵,決定著 RL 優(yōu)化的方向。DeepSeek 給出的解法是采用準(zhǔn)確度和格式兩種互補(bǔ)的獎勵機(jī)制。
  • 第三點是訓(xùn)練模版,在 GRPO 和獎勵設(shè)計的基礎(chǔ)上,開發(fā)團(tuán)隊設(shè)計了如表 1 所示的簡單模板來引導(dǎo)基礎(chǔ)模型。這個模板要求 DeepSeek-R1-Zero 先給出推理過程,再提供最終答案。這種設(shè)計僅規(guī)范了基本結(jié)構(gòu),不對內(nèi)容施加任何限制或偏見,比如不強(qiáng)制要求使用反思性推理或特定解題方法。這種最小干預(yù)的設(shè)計能夠清晰地觀察模型在 RL 的進(jìn)步過程。

在訓(xùn)練過程中,DeepSeek-R1-Zero 展現(xiàn)出了顯著的自我進(jìn)化能力。它學(xué)會了生成數(shù)百到數(shù)千個推理 token,能夠更深入地探索和完善思維過程。

隨著訓(xùn)練的深入,模型也發(fā)展出了一些高級行為,比如反思能力和探索不同解題方法的能力。這些都不是預(yù)先設(shè)定的,而是模型在強(qiáng)化學(xué)習(xí)環(huán)境中自然產(chǎn)生的。

特別值得一提的是,開發(fā)團(tuán)隊觀察到了一個有趣的「Aha Moment」。在訓(xùn)練的中期階段,DeepSeek-R1-Zero 學(xué)會了通過重新評估初始方法來更合理地分配思考時間。這可能就是強(qiáng)化學(xué)習(xí)的魅力:只要提供正確的獎勵機(jī)制,模型就能自主發(fā)展出高級的解題策略。

不過 DeepSeek-R1-Zero 仍然存在一些局限性,如回答的可讀性差、語言混雜等問題。

利用冷啟動進(jìn)行強(qiáng)化學(xué)習(xí)

與 DeepSeek-R1-Zero 不同,為了防止基礎(chǔ)模型在 RL 訓(xùn)練早期出現(xiàn)不穩(wěn)定的冷啟動階段,開發(fā)團(tuán)隊針對 R1 構(gòu)建并收集了少量的長 CoT 數(shù)據(jù),以作為初始 RL actor 對模型進(jìn)行微調(diào)。為了收集此類數(shù)據(jù),開發(fā)團(tuán)隊探索了幾種方法:以長 CoT 的少樣本提示為例、直接提示模型通過反思和驗證生成詳細(xì)答案、以可讀格式收集 DeepSeek-R1-Zero 輸出、以及通過人工注釋者的后處理來細(xì)化結(jié)果。

DeepSeek 收集了數(shù)千個冷啟動數(shù)據(jù),以微調(diào) DeepSeek-V3-Base 作為 RL 的起點。與 DeepSeek-R1-Zero 相比,冷啟動數(shù)據(jù)的優(yōu)勢包括:

  • 可讀性:DeepSeek-R1-Zero 的一個主要限制是其內(nèi)容通常不適合閱讀。響應(yīng)可能混合多種語言或缺乏 markdown 格式來為用戶突出顯示答案。相比之下,在為 R1 創(chuàng)建冷啟動數(shù)據(jù)時,開發(fā)團(tuán)隊設(shè)計了一個可讀模式,在每個響應(yīng)末尾包含一個摘要,并過濾掉不友好的響應(yīng)。
  • 潛力:通過精心設(shè)計具有人類先驗知識的冷啟動數(shù)據(jù)模式,開發(fā)團(tuán)隊觀察到相較于 DeepSeek-R1-Zero 更好的性能。開發(fā)團(tuán)隊相信迭代訓(xùn)練是推理模型的更好方法。

推理導(dǎo)向的強(qiáng)化學(xué)習(xí)

在利用冷啟動數(shù)據(jù)上對 DeepSeek-V3-Base 進(jìn)行微調(diào)后,開發(fā)團(tuán)隊采用與 DeepSeek-R1-Zero 相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練流程。此階段側(cè)重于增強(qiáng)模型的推理能力,特別是在編碼、數(shù)學(xué)、科學(xué)和邏輯推理等推理密集型任務(wù)中。

為了緩解語言混合的問題,開發(fā)團(tuán)隊在 RL 訓(xùn)練中引入了語言一致性獎勵,其計算方式為 CoT 中目標(biāo)語言單詞的比例。雖然消融實驗表明這種對齊會導(dǎo)致模型性能略有下降,但這種獎勵符合人類偏好,更具可讀性。

最后,開發(fā)團(tuán)隊將推理任務(wù)的準(zhǔn)確率和語言一致性的獎勵直接相加,形成最終獎勵。然后對微調(diào)后的模型進(jìn)行強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,直到它在推理任務(wù)上實現(xiàn)收斂。

拒絕采樣和監(jiān)督微調(diào)

當(dāng)面向推理導(dǎo)向的強(qiáng)化學(xué)習(xí)收斂時,開發(fā)團(tuán)隊利用生成的檢查點為后續(xù)輪次收集 SFT(監(jiān)督微調(diào))數(shù)據(jù)。此階段結(jié)合了來自其他領(lǐng)域的數(shù)據(jù),以增強(qiáng)模型在寫作、角色扮演和其他通用任務(wù)中的能力。

開發(fā)團(tuán)隊通過從上述強(qiáng)化學(xué)習(xí)訓(xùn)練的檢查點執(zhí)行拒絕采樣來整理推理提示并生成推理軌跡。此階段通過合并其他數(shù)據(jù)擴(kuò)展數(shù)據(jù)集,其中一些數(shù)據(jù)使用生成獎勵模型,將基本事實和模型預(yù)測輸入 DeepSeek-V3 進(jìn)行判斷。

此外,開發(fā)團(tuán)隊過濾掉了混合語言、長段落和代碼塊的思路鏈。對于每個提示,他們會抽取多個答案,并僅保留正確的答案。最終,開發(fā)團(tuán)隊收集了約 60 萬個推理相關(guān)的訓(xùn)練樣本。

用于所有場景的強(qiáng)化學(xué)習(xí)

為了進(jìn)一步使模型與人類偏好保持一致,這里還要實施第二階段強(qiáng)化學(xué)習(xí),旨在提高模型的有用性和無害性,同時完善其推理能力。

具體來說,研究人員使用獎勵信號和各種提示分布的組合來訓(xùn)練模型。對于推理數(shù)據(jù),遵循 DeepSeek-R1-Zero 中概述的方法,該方法利用基于規(guī)則的獎勵來指導(dǎo)數(shù)學(xué)、代碼和邏輯推理領(lǐng)域的學(xué)習(xí)過程;對于一般數(shù)據(jù),則采用獎勵模型來捕捉復(fù)雜而微妙的場景中的人類偏好。

最終,獎勵信號和多樣化數(shù)據(jù)分布的整合使我們能夠訓(xùn)練出一個在推理方面表現(xiàn)出色的模型,同時優(yōu)先考慮有用性和無害性。

蒸餾:讓小模型具備推理能力

為了使更高效的小模型具備 DeepSeek-R1 那樣的推理能力,開發(fā)團(tuán)隊還直接使用 DeepSeek-R1 整理的 80 萬個樣本對 Qwen 和 Llama 等開源模型進(jìn)行了微調(diào)。研究結(jié)果表明,這種簡單的蒸餾方法顯著增強(qiáng)了小模型的推理能力。

得益于以上多項技術(shù)的創(chuàng)新,開發(fā)團(tuán)隊的大量基準(zhǔn)測試表明,DeepSeek-R1 實現(xiàn)了比肩業(yè)內(nèi) SOTA 推理大模型的硬實力,具體可以參考以下結(jié)果:

更多技術(shù)細(xì)節(jié)請參閱原論文。

責(zé)任編輯:趙寧寧 來源: 機(jī)器之心
相關(guān)推薦

2025-09-18 08:05:39

2025-02-19 09:18:04

2025-05-19 09:12:16

2025-10-28 09:27:04

2025-02-19 08:00:00

2025-05-16 09:02:00

2025-01-26 08:00:00

模型AI數(shù)據(jù)

2022-11-18 18:39:03

AI神經(jīng)網(wǎng)絡(luò)

2025-07-31 09:00:00

2024-07-25 13:56:49

2025-03-20 10:20:16

2025-02-19 08:33:18

2025-09-05 09:01:40

2024-03-18 10:19:15

AI藥物研發(fā)

2022-01-20 16:05:02

Nature論文研究

2023-12-15 12:52:32

模型數(shù)據(jù)

2025-05-29 09:07:37

點贊
收藏

51CTO技術(shù)棧公眾號