偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="8arhn"></pre>

<thead id="8arhn"><mark id="8arhn"></mark></thead>

<pre id="8arhn"></pre>

<output id="8arhn"><tt id="8arhn"><delect id="8arhn"></delect></tt></output>

<ruby id="8arhn"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

剛剛，DeepSeek登上Nature封面！梁文鋒帶隊回應(yīng)質(zhì)疑，R1訓(xùn)練真29.4萬美金

作者：新智元 2025-09-18 08:05:39

DeepSeek榮登Nature封面，實至名歸！今年1月，梁文鋒帶隊R1新作，開創(chuàng)了AI推理新范式——純粹RL就能激發(fā)LLM無限推理能力。Nature還特發(fā)一篇評論文章，對其大加贊賞。

剛剛，DeepSeek-R1登上了Nature封面！

圖片

今年1月，DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning論文發(fā)布，如今成功登上全球頂刊封面。

通訊作者梁文鋒帶隊，用RL為大模型推理能力開辟了全新路徑。

圖片

論文地址：https://www.nature.com/articles/s41586-025-09422-z

在封面推薦中，Nature毫不吝嗇地贊揚了DeepSeek-R1的成就。

開源之后，R1在Hugging Face成為最受歡迎的模型，下載量破1090萬次。關(guān)鍵是，它是全球首個經(jīng)過同行評審的主流大模型。

圖片

值得一的是，補充材料首次公開了R1訓(xùn)練成本——294000美元，數(shù)字低到驚人。

即便是加上約600萬美元的基礎(chǔ)模型成本，也遠(yuǎn)低于OpenAI、谷歌訓(xùn)練AI的成本。

圖片

從一篇arXiv論文到Nature封面，DeepSeek團隊再次用實力為AI推理的未來鋪路。

圖片

R1被認(rèn)為是首個經(jīng)歷同行評審過程的主流LLM。

審稿人Lewis Tunstall表示：

這是一個非常值得歡迎的先例。若不公開分享大部分研發(fā)過程，我們將難以評估這些系統(tǒng)是否存在風(fēng)險。

針對同行評審意見，DeepSeek減少了擬人化描述，并增加了技術(shù)細(xì)節(jié)說明，包括模型訓(xùn)練數(shù)據(jù)類型和安全性能。

審稿人Huan Sun表示：

通過嚴(yán)格同行評審過程，有助于驗證模型的有效性和實用性，其他公司也應(yīng)效仿。

DeepSeek-R1-Zero誕生

研究團隊的出發(fā)點大膽而純粹：徹底拋開對人類推理軌跡的依賴。

人類定義的推理模式，可能反而是一種束縛。

圖片

他們選擇了一個強大的基礎(chǔ)模型DeepSeek-V3 Base，跳過了傳統(tǒng)的SFT階段。

取而代之的，是一個極其簡潔的強化學(xué)習(xí)框架，只告訴模型兩件事：

1. 任務(wù)格式：回答必須包含兩部分，一個是被<think>標(biāo)簽包裹的「思考過程」，另一個是被<answer>標(biāo)簽包裹的「最終答案」。

2. 獎勵信號：根據(jù)最終答案是否正確來給予獎勵，不管采用什么樣的思考方法。

在沒有解題步驟的對錯評判，沒有思維方式的引導(dǎo)下，DeepSeek-R1-Zero開始了它的「野蠻生長」。

在整個訓(xùn)練過程中，R1-Zero的推理能力發(fā)生了質(zhì)的飛躍。

以AIME 2024為例，它的平均解題準(zhǔn)確率（pass@1）從最初的15.6%，一路狂飆至77.9%。

如果再配合「自洽解碼」技術(shù)，準(zhǔn)確率更是高達(dá)86.7%——這一成績遠(yuǎn)超AIME競賽中所有人類選手的平均水平。

圖片

AI「頓悟時刻」

更令人著迷的，是它在能力提升過程中展現(xiàn)出的自我進(jìn)化行為。

「思考時間」自主增加

隨著訓(xùn)練的進(jìn)行，模型在<think>標(biāo)簽內(nèi)生成的文本長度穩(wěn)步增加。

它自發(fā)地學(xué)會了用更長的「思維鏈」來探索和優(yōu)化解題策略，有時甚至?xí)沙砂偕锨€token來反復(fù)推敲一個問題。

高級推理策略的涌現(xiàn)

模型不再是線性地一步步解題，而是開始展現(xiàn)出「自我反思」和「系統(tǒng)性探索替代解法」等高級策略。

它會驗證自己的中間步驟，甚至?xí)鲃犹剿鳌溉绻矣昧硪环N方法會怎么樣？」

一個有趣「頓悟時刻」

在訓(xùn)練的某個階段，研究人員觀察到了一個清晰的「頓悟時刻」（Aha Moment）。

也就是，模型在反思過程中，使用「wait」（等等）這個詞的頻率突然急劇增加。

這一時刻，標(biāo)志著DeepSeek-R1-Zero在推理模式上發(fā)生了明顯轉(zhuǎn)變，清晰地揭示了它的自我進(jìn)化過程。

圖片

而這種進(jìn)化，也完美詮釋了強化學(xué)習(xí)的魅力：

不必教它如何解題，只需提供正確的激勵，它就能自主地發(fā)展出比人類教的更高級的策略。

DeepSeek-R1之路

盡管DeepSeek-R1-Zero展現(xiàn)了神級的推理能力，但由于其訓(xùn)練完全以推理為導(dǎo)向，它存在可讀性差、偶爾會在中英文之間混亂切換的問題，并且在寫作、開放域問答等通用能力上表現(xiàn)平平。

為了解決R1-Zero的問題，并讓其強大的推理能力能被更廣泛地應(yīng)用，研究團隊設(shè)計了一套精密的多階段訓(xùn)練流程，并啟動了第二階段的「精煉」計劃：

1. 冷啟動（Cold Start）：首先，用數(shù)千條高質(zhì)量的、符合人類對話習(xí)慣的數(shù)據(jù)對模型進(jìn)行初步微調(diào)，教它「好好說話」。

2. 第一輪強化學(xué)習(xí)（RL）：再次應(yīng)用強化學(xué)習(xí)，但這次的目標(biāo)不僅是提升推理，也包括保持語言的一致性和對話的流暢性。

3. 大規(guī)模監(jiān)督微調(diào)（SFT）：團隊將推理數(shù)據(jù)與海量的非推理數(shù)據(jù)（如寫作、通用問答、代碼工程）混合在一起，進(jìn)行大規(guī)模的監(jiān)督微調(diào)。這極大地擴展了模型的知識面和通用能力。

4. 第二輪強化學(xué)習(xí)（RL）：最后，再進(jìn)行一輪全面的強化學(xué)習(xí)，利用一個更復(fù)雜的獎勵模型，進(jìn)一步增強模型的有用性、無害性，并使其行為與人類偏好對齊。

圖片

經(jīng)過多輪煉丹，DeepSeek-R1不僅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和用戶偏好的基準(zhǔn)上，性能提升了17%-25%，而且還在數(shù)學(xué)、編程等高難度推理任務(wù)上保持了頂尖水準(zhǔn)。

揭秘DeepSeek-R1「煉丹爐」

接下來，就讓我們深入這個「煉丹爐」的內(nèi)部，一探究竟。

GRPO算法

在AI訓(xùn)練的賽道上，強化學(xué)習(xí)算法PPO（近端策略優(yōu)化）長期以來都是大語言模型訓(xùn)練的「標(biāo)配賽車」。它雖然強大，但也以資源消耗巨大和實現(xiàn)復(fù)雜而著稱。

DeepSeek團隊選擇了一條更聰明的路，他們采用了GRPO（組相對策略優(yōu)化）算法作為核心驅(qū)動引擎。

圖片

PPO就像一位極其謹(jǐn)慎的教練，它在每次訓(xùn)練更新時，都會嚴(yán)格限制新策略與舊策略的偏離程度，以防模型「跑偏」導(dǎo)致訓(xùn)練崩潰。

這種謹(jǐn)慎是有代價的，它需要大量的計算來維持穩(wěn)定。

而GRPO則像一位更高效、更相信「集體智慧」的教練。它的核心思想是：

在每次訓(xùn)練時，讓模型針對同一個問題，生成一組（比如16個）不同的答案。

然后，它不只是簡單地獎勵最好的那個，而是根據(jù)這一組答案的「相對好壞」，來整體優(yōu)化模型。

具體來說，它會計算出每個答案相對于這一組答案平均水平的「優(yōu)勢」（Advantage），優(yōu)勢大的（即表現(xiàn)更好的）答案會得到更大的激勵權(quán)重，而表現(xiàn)差的則會被抑制。

這種「組內(nèi)競爭、擇優(yōu)而學(xué)」的機制，簡化了PPO復(fù)雜的約束過程，不僅顯著降低了資源消耗，還被證明在實踐中同樣穩(wěn)定高效。

獎勵設(shè)計

強化學(xué)習(xí)的本質(zhì)，就是通過獎勵（Reward）來塑造模型的行為。它決定了模型將朝著哪個方向進(jìn)化。

為此，DeepSeek團隊設(shè)計了一套雙軌制的獎勵系統(tǒng)。

1. 基于規(guī)則的獎勵

對于推理任務(wù)（數(shù)學(xué)、編程、邏輯），團隊采用了一套極其嚴(yán)格的基于規(guī)則的獎勵系統(tǒng)。

準(zhǔn)確率獎勵：最終答案對不對？對于數(shù)學(xué)題，答案必須和標(biāo)準(zhǔn)答案完全一致；對于編程題，代碼必須通過所有預(yù)設(shè)的測試用例。
格式獎勵：思考過程是否符合規(guī)范？所有的思考過程都必須封裝在<think>和</think>標(biāo)簽內(nèi)。

圖片

這里，有一個關(guān)鍵的決定：在推理任務(wù)上，完全不使用基于神經(jīng)網(wǎng)絡(luò)的獎勵模型。

因為團隊發(fā)現(xiàn)，AI在長時間、大規(guī)模的強化學(xué)習(xí)中，會找到獎勵模型本身的漏洞并加以利用，即所謂的「獎勵投機（Reward Hacking）」。

2. 基于模型的獎勵

然而，世界并非非黑即白。對于通用任務(wù)比如寫作、對話，大多只有好壞之分。

于是，DeepSeek團隊引入了基于模型的獎勵，從而讓模型更符合人類的偏好。

有用性獎勵模型：專門負(fù)責(zé)評判模型的回答對用戶是否有用、切題。它通過比較大量的「好答案」與「壞答案」對（由DeepSeek-V3生成并篩選）來學(xué)習(xí)人類的偏好。有趣的是，它只評估最終的摘要部分，而不去干涉底層的推理過程，給予模型在思考上的充分自由。

圖片

安全獎勵模型：負(fù)責(zé)檢查模型的全部輸出，包括思考過程，以識別和懲罰任何潛在的有害、偏見或危險內(nèi)容。

圖片

如此一來，模型在保持強大推理能力的同時，也學(xué)會了如何生成更有用、更安全、更符合人類習(xí)慣的內(nèi)容。

圖片

訓(xùn)練細(xì)節(jié)

DeepSeek的訓(xùn)練并非一蹴而就，而是分為多個精心設(shè)計的階段，每個階段都有不同的側(cè)重點和巧妙的參數(shù)調(diào)整。

最開始的訓(xùn)練完全聚焦于數(shù)學(xué)、編程等推理任務(wù)，僅使用基于規(guī)則的獎勵。

圖片

一個有趣的現(xiàn)象發(fā)生在訓(xùn)練進(jìn)行到第8,200步時：研究人員將模型處理的最大文本長度從32,768個Token猛增到65,536個Token。

這一改變帶來了立竿見影的效果，模型的性能和回答長度都出現(xiàn)了「大幅躍升」。

圖片

其他參數(shù)設(shè)置如下：

學(xué)習(xí)率：3×10??

KL散度系數(shù)：0.001

GRPO裁剪比率?：10

推理采樣溫度：1

每個訓(xùn)練步包含32個獨立問題，每步的批大小為512。

每400步，用最新的策略模型替換參考模型。

第一強化學(xué)習(xí)階段

在這一階段，訓(xùn)練數(shù)據(jù)變得更加多樣化。

團隊遇到了一個意想不到的挑戰(zhàn)：模型的「思維鏈」（<think>標(biāo)簽內(nèi)的內(nèi)容）中頻繁出現(xiàn)中英夾雜的「語言混合」現(xiàn)象。雖然這不一定影響最終答案的正確性，但極大地影響了可讀性。

為了解決這個問題，他們創(chuàng)造性地引入了一個「語言一致性獎勵」：如果模型在處理中文問題時，思維鏈中中文詞匯的比例越高，獲得的獎勵就越多。

圖片

盡管實驗表明，強行「矯正」語言會導(dǎo)致模型性能微乎其微的下降，但為了輸出結(jié)果更符合人類閱讀習(xí)慣，這個犧牲是值得的。

圖片

第二強化學(xué)習(xí)階段

在這一階段，研究人員結(jié)合了獎勵信號和多樣化的提示詞分布來訓(xùn)練模型。

推理數(shù)據(jù)使用基于規(guī)則的獎勵，通用數(shù)據(jù)則啟用基于模型的獎勵。

獎勵可以公式化為：

圖片

其中

圖片

第二階段保留了第一階段的大部分參數(shù)，但將溫度降至0.7，以防因為系數(shù)過高造導(dǎo)致生成內(nèi)容不連貫。

此外，這里還有一個關(guān)鍵操作：基于模型的獎勵（有用性和安全性）僅在最后400個訓(xùn)練步中才被引入，從而避免獎勵投機的產(chǎn)生。

挑戰(zhàn)與未來

DeepSeek-R1的誕生，為AI發(fā)展帶來了深刻的啟示，也伴隨著新的挑戰(zhàn)。

能力局限在結(jié)構(gòu)化輸出和工具使用（如調(diào)用計算器、搜索引擎）方面，目前的DeepSeek-R1尚有欠缺。它對提示詞非常敏感，不適合復(fù)雜的少樣本提示，在零樣本直接提問時效果最佳。此外，由于強化學(xué)習(xí)在耗時長的軟件工程任務(wù)上效率不高，R1在該領(lǐng)域的提升有限。
獎勵投機純強化學(xué)習(xí)的成功，完全依賴于可靠的獎勵信號。在數(shù)學(xué)、編程這類有明確對錯答案的領(lǐng)域，這很容易實現(xiàn)。但對于像「寫一首優(yōu)美的詩」這樣主觀的任務(wù)，則很難設(shè)計完美的獎勵模型。如果獎勵信號本身有漏洞，策略模型就會像一個聰明的學(xué)生鉆考試規(guī)則的空子一樣，「投機取巧」、騙取高分，而不是真正提升能力。

年初，DeepSeek-R1發(fā)布后，OpenAI感覺不可思議，指責(zé)DeepSeek「可能使用了ChatGPT的輸出來訓(xùn)練R1」。

圖片

在與審稿人的交流中，DeepSeek表示，R1并非通過復(fù)制OpenAI模型生成的推理示例來學(xué)習(xí)。

不過，與大多數(shù)其他大語言模型一樣，R1的基礎(chǔ)模型是在網(wǎng)絡(luò)上訓(xùn)練的，因此它會吸收互聯(lián)網(wǎng)上已有的AI生成的內(nèi)容。

俄亥俄州立大學(xué)AI研究員Huan Sun表示，這一解釋「與我們在任何出版物中看到的一樣令人信服」。

圖片

Nature審稿人、Hugging Face機器學(xué)習(xí)工程師Lewis Tunstall補充說，其他實驗室的復(fù)制嘗試表明，DeepSeek推理方法已經(jīng)足夠好，不需要這樣做。

他說：「我認(rèn)為現(xiàn)在的證據(jù)相當(dāng)明確，僅使用強化學(xué)習(xí)就可以獲得非常高的性能?！?/p>

圖片

Lewis Tunstall說，其他研究人員現(xiàn)在正試圖應(yīng)用創(chuàng)建R1的方法來改進(jìn)現(xiàn)有大語言模型的類似推理能力，并將其擴展到數(shù)學(xué)和編碼以外的領(lǐng)域。他補充說，通過這種方式，R1「開啟了一場革命」。

參考資料：HYJ

https://www.nature.com/articles/s41586-025-09422

https://www.nature.com/articles/d41586-025-03015-6

責(zé)任編輯：武曉燕來源：新智元

DeepSeek Nature封面梁文鋒

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<bdo id="y57l0"><listing id="y57l0"><label id="y57l0"></label></listing></bdo>

<em id="y57l0"><dfn id="y57l0"></dfn></em>
<abbr id="y57l0"><listing id="y57l0"><p id="y57l0"></p></listing></abbr>