偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="gpvrg"></abbr>

<big id="gpvrg"></big>

<thead id="gpvrg"></thead>

<ruby id="gpvrg"></ruby>

<em id="gpvrg"><menuitem id="gpvrg"></menuitem></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Sebastian Raschka：關(guān)于DeepSeek R1和推理模型，我有幾點看法

作者：機(jī)器之心 2025-02-10 06:50:00

開發(fā) 人工智能

著名 AI 研究者和博主 Sebastian Raschka 將立足于 DeepSeek 技術(shù)報告，介紹用于構(gòu)建推理模型的四種主要方法，也就是如何通過推理能力來增強(qiáng) LLM。

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。這一次，他將立足于 DeepSeek 技術(shù)報告，介紹用于構(gòu)建推理模型的四種主要方法，也就是如何通過推理能力來增強(qiáng) LLM。Sebastian Raschka 表示：「我希望這能提供有價值的見解，并幫助你了解圍繞這一主題的快速演變的文獻(xiàn)和話題炒作?！?/p>

原文地址：https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

2024 年，LLM 領(lǐng)域的專業(yè)化程度不斷提高。除了預(yù)訓(xùn)練和微調(diào)之外，我們還見證了從 RAG 到代碼助手等專業(yè)應(yīng)用的興起。我預(yù)計這一趨勢將在 2025 年加速，也就是更加重視特定于具體領(lǐng)域和應(yīng)用的優(yōu)化（即專業(yè)化 /specialization）。

第 1-3 階段是開發(fā) LLM 的常見步驟。第 4 階段是針對具體用例對 LLM 進(jìn)行專門化。

開發(fā)推理模型就是一種專業(yè)化。這能讓 LLM 更擅長處理復(fù)雜任務(wù) —— 解決這些任務(wù)時最好使用中間步驟，例子包括解答謎題、高級數(shù)學(xué)和編程難題。但是，這種專業(yè)化并不能取代其他 LLM 應(yīng)用。因為將 LLM 轉(zhuǎn)換為推理模型也會帶來某些缺點，我將在后面討論。

如何定義「推理模型」？

如果你在 AI（或廣義上的機(jī)器學(xué)習(xí)）領(lǐng)域內(nèi)工作，你可能已經(jīng)很了解相關(guān)定義的模糊性了?！竿评砟Ｐ停╮easoning model）」這個術(shù)語也不例外。最終，有人會在一篇論文中正式定義它，但卻又會在下一篇論文中重新定義它，如此連綿不斷。

本文將「推理」定義為回答需要復(fù)雜、多步驟生成和中間步驟的問題的過程。例如，像「法國首都是哪里？」這樣的事實性問答不需要推理。相比之下，像「如果一列火車以 60 英里 / 小時的速度行駛 3 小時，它會行駛多遠(yuǎn)？」這樣的問題需要一些簡單的推理 —— 它需要識別距離、速度和時間之間的關(guān)系，方能得出答案。

常規(guī)的 LLM 可能只提供簡短的答案（如左圖所示），而推理模型通常包括揭示部分思維過程的中間步驟。（請注意，許多沒有專門為推理任務(wù)開發(fā)的 LLM 也能在其答案中提供中間推理步驟。）

大多數(shù)現(xiàn)代 LLM 都具有基本的推理能力，可以回答諸如「如果一列火車以 60 英里 / 小時的速度行駛 3 小時，它會行駛多遠(yuǎn)？」這樣的問題。因此，今天當(dāng)我們提到推理模型時，我們通常指的是擅長更復(fù)雜推理任務(wù)的 LLM，例如解決謎題、謎語和數(shù)學(xué)證明。

此外，如今大多數(shù)被稱為推理模型的 LLM 都將「思維」或「思考」過程作為其響應(yīng)的一部分。LLM 是否以及如何真正「思考」則是另一個話題了。

推理模型中的中間步驟可以兩種方式出現(xiàn)。第一種，中間步驟可能顯式地出現(xiàn)在響應(yīng)中，如上圖所示。第二種，一些推理 LLM（例如 OpenAI o1）則會運行多個迭代，中間步驟對用戶來說是不可見的。

使用「推理」的兩個不同層級：1）通過多個中間步驟處理輸入和生成結(jié)果，2）將某種形式的推理放在響應(yīng)中提供給用戶。

什么時候應(yīng)該使用推理模型？

現(xiàn)在我們已經(jīng)定義了推理模型，接下來討論更有趣的部分：如何構(gòu)建和改進(jìn)用于推理任務(wù)的 LLM。然而，在深入研究技術(shù)細(xì)節(jié)之前，重要的是思考何時才真正需要推理模型。

我們什么時候需要推理模型？推理模型擅長解決復(fù)雜任務(wù)，例如解決難題、高級數(shù)學(xué)問題和高難度編程任務(wù)。但是，對于總結(jié)、翻譯或基于知識的問答等簡單任務(wù)，它們并不是必需的。事實上，如果你將推理模型用于所有事情，則可能遭遇低效率和高成本問題。例如，推理模型通常使用起來更昂貴、更冗長，有時由于「過度思考」而更容易出錯。很容易理解：為了完成任務(wù)，需要使用正確的工具（或 LLM 類型）。

下圖總結(jié)了推理模型的主要優(yōu)勢和局限性。

推理模型的主要優(yōu)勢和劣勢。

推理模式的優(yōu)勢：

演繹或歸納推理（例如解密、數(shù)學(xué)證明）
思維鏈推理（分解成多步驟問題）
復(fù)雜的決策任務(wù)
能更好地泛化到新問題

推理模式的劣勢：

快速且低成本的響應(yīng)（更多推理時間）
基于知識的任務(wù)（幻覺）
簡單任務(wù)（過度思考）

簡要了解 DeepSeek 訓(xùn)練流程

在下一節(jié)討論構(gòu)建和改進(jìn)推理模型的四種主要方法之前，這里簡要概述一下 DeepSeek R1 的工作流程 —— 信息來源是 DeepSeek R1 技術(shù)報告。該報告既是一個有趣的案例研究，也可作為一份開發(fā)推理 LLM 的藍(lán)圖。

請注意，DeepSeek 并沒有發(fā)布單一的 R1 推理模型，而是發(fā)布了三個不同的變體：DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根據(jù)其技術(shù)報告中的描述，我在下圖中總結(jié)了這些模型的開發(fā)過程。

DeepSeek R1 技術(shù)報告中討論的三種不同推理模型的開發(fā)過程。

接下來，我們簡單過一遍上圖所示的流程。下一節(jié)將介紹更多細(xì)節(jié) —— 將討論構(gòu)建和改進(jìn)推理模型的四種主要方法。

(1) DeepSeek-R1-Zero：該模型基于 2024 年 12 月發(fā)布的 671B 預(yù)訓(xùn)練版 DeepSeek-V3 基礎(chǔ)模型。該研究團(tuán)隊使用強(qiáng)化學(xué)習(xí)（RL）對其進(jìn)行了訓(xùn)練，并提供了兩種類型的獎勵。這種方法被稱為「冷啟動（cold start）」訓(xùn)練，因為它不包括監(jiān)督微調(diào)（SFT）步驟，而這通常是基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）的一部分。

(2) DeepSeek-R1：這是 DeepSeek 的旗艦推理模型，基于 DeepSeek-R1-Zero 而構(gòu)建。該團(tuán)隊使用了額外的 SFT 階段和進(jìn)一步的 RL 訓(xùn)練對其進(jìn)行了進(jìn)一步微調(diào)，從而在「冷啟動」的 R1-Zero 模型基礎(chǔ)上實現(xiàn)了提升。

(3) DeepSeek-R1-Distill：DeepSeek 團(tuán)隊利用前面步驟生成的 SFT 數(shù)據(jù)對 Qwen 和 Llama 模型進(jìn)行了微調(diào)，以增強(qiáng)其推理能力。雖然這不是傳統(tǒng)意義上的蒸餾，但這個過程也確實是在較大的 DeepSeek-R1 671B 模型的輸出上訓(xùn)練較小的模型（Llama 8B 和 70B，以及 Qwen 1.5B-30B）。

構(gòu)建和改進(jìn)推理模型的 4 種主要方法

下面將概述當(dāng)前用于增強(qiáng) LLM 推理能力和構(gòu)建專門的推理模型（如 DeepSeek-R1、OpenAI 的 o1 和 o3 等）的關(guān)鍵技術(shù)。

注意：OpenAI 并未詳細(xì)說明 o1 和 o3 的具體工作原理。然而，據(jù)傳它們組合式地利用了推理和訓(xùn)練技術(shù)。

1. 推理時間擴(kuò)展

提高 LLM 推理能力（或任何能力）的一種方法是推理時間擴(kuò)展（inference-time scaling）。這個術(shù)語可以有多種含義，但在這里，它指的是在推理過程中增加計算資源以提高輸出質(zhì)量。

做個粗略的類比：人類在解決復(fù)雜問題時，如果給他更多時間，得到的答案往往會更好。類似地，我們可以應(yīng)用一些技術(shù)來鼓勵 LLM 在生成答案時更多地「思考」。（不過 LLM 究竟是否真的會「思考」還有待討論。）

推理時間擴(kuò)展的一種直接簡單的方法是巧妙的提示詞工程。一個典型的例子是思維鏈（CoT）提示方法，即在輸入的提示詞中包含「think step by step」等短語。這能鼓勵模型生成中間推理步驟，而不是直接跳到最終答案，這通常（但并不一定）可以在更復(fù)雜的問題上得到更準(zhǔn)確的結(jié)果。（請注意，對于更簡單的基于知識的問題，例如「法國的首都是什么」，采用這種策略是沒有意義的，這又是一個很好的經(jīng)驗法則，可以找出推理模型是否對給定的輸入查詢有用。）

一個經(jīng)典 CoT 提示示例，來自論文《Large Language Models are Zero-Shot Reasoners》

上述 CoT 方法可被視為一種推理時間擴(kuò)展，因為它會生成更多輸出 token，使推理的成本也會更高。

推理時間擴(kuò)展的另一種方法是使用投票和搜索策略。一個簡單的例子是多數(shù)投票 —— 讓 LLM 生成多個答案，然后我們通過多數(shù)投票選擇正確的答案。同樣，我們可以使用集束搜索和其他搜索算法來生成更好的響應(yīng)。

這里強(qiáng)烈推薦一篇論文：

論文標(biāo)題：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

論文地址：https://arxiv.org/pdf/2408.03314

不同的基于搜索的方法依賴于基于過程獎勵的模型來選擇最佳答案。

DeepSeek R1 技術(shù)報告指出其模型沒有使用推理時間擴(kuò)展。然而，這種技術(shù)通常在 LLM 之上的應(yīng)用層實現(xiàn)，因此 DeepSeek 有可能會在其應(yīng)用中使用它。

我猜想 OpenAI 的 o1 和 o3 模型使用了推理時間擴(kuò)展，這可以解釋為什么它們與 GPT-4o 等模型相比相對昂貴。除了推理時間擴(kuò)展之外，o1 和 o3 可能使用類似于 DeepSeek R1 使用的 RL 流程進(jìn)行訓(xùn)練。下面兩節(jié)將詳細(xì)介紹強(qiáng)化學(xué)習(xí)。

2. 純 RL

DeepSeek R1 論文的亮點之一是他們發(fā)現(xiàn)推理是純 RL 涌現(xiàn)出的一種行為。讓我們更詳細(xì)地探討一下這意味著什么。

如前所述，DeepSeek 開發(fā)了三種類型的 R1 模型。第一個 DeepSeek-R1-Zero 建立在 DeepSeek-V3 基礎(chǔ)模型之上，這是他們于 2024 年 12 月發(fā)布的標(biāo)準(zhǔn)預(yù)訓(xùn)練 LLM。與典型的 RL 流程不同（即在 RL 之前應(yīng)用監(jiān)督微調(diào)（SFT）），DeepSeek-R1-Zero 僅使用 RL 進(jìn)行訓(xùn)練，沒有初始 SFT 階段，如下圖所示。

DeepSeek-R1-Zero 模型的開發(fā)過程。

盡管如此，這種 RL 過程類似于常用的 RLHF 方法，后者通常應(yīng)用于偏好微調(diào) LLM。更多詳情可參閱《LLM 成功不可或缺的基石：RLHF 及其替代技術(shù)》。但是，如上所述，DeepSeek-R1-Zero 的主要區(qū)別在于他們跳過了用于指令調(diào)整的監(jiān)督微調(diào)（SFT）階段。這就是他們將其稱為「純」RL 的原因。（不過需要指出，LLM 背景下的 RL 與傳統(tǒng) RL 有很大不同。）

對于獎勵，他們沒有使用根據(jù)人類偏好訓(xùn)練的獎勵模型，而是采用了兩種類型的獎勵：準(zhǔn)確度獎勵和格式獎勵。

準(zhǔn)確度獎勵使用 LeetCode 編譯器來驗證編碼答案，并使用確定性系統(tǒng)來評估數(shù)學(xué)響應(yīng)。
格式獎勵依靠 LLM 評判員來確保響應(yīng)遵循預(yù)期格式，例如將推理步驟放在標(biāo)簽內(nèi)。

令人驚訝的是，這種方法足以讓 LLM 發(fā)展出基本的推理技能。研究人員觀察到了一個「啊哈！」時刻，盡管沒有經(jīng)過明確的訓(xùn)練，但模型開始在其響應(yīng)中生成推理痕跡，如下圖所示。

DeepSeek R1 技術(shù)報告展示的「啊哈」時刻，https://arxiv.org/abs/2501.12948

雖然 R1-Zero 并不是表現(xiàn)最好的推理模型，但它確實通過生成中間的「思考」步驟展示了推理能力，如上圖所示。這證實了使用純 RL 開發(fā)推理模型是可能的，DeepSeek 團(tuán)隊是第一個展示（或至少發(fā)布）這種方法的團(tuán)隊。

3. 監(jiān)督微調(diào)加強(qiáng)化學(xué)習(xí)（SFT + RL）

接下來，讓我們看看 DeepSeek 的旗艦推理模型 DeepSeek-R1 的開發(fā)過程，這可作為構(gòu)建推理模型的藍(lán)圖。其方法是通過結(jié)合額外的 SFT 和 RL 來改進(jìn) DeepSeek-R1-Zero，以提高其推理性能。

請注意，在 RL 之前包含 SFT 階段實際上很常見，如標(biāo)準(zhǔn) RLHF 流程那樣。OpenAI o1 很可能就使用了類似的方法。

DeepSeek-R1 模型的開發(fā)過程。

如上圖所示，DeepSeek 團(tuán)隊使用 DeepSeek-R1-Zero 生成了所謂的「冷啟動」SFT 數(shù)據(jù)。術(shù)語「冷啟動」指的是這些數(shù)據(jù)是由 DeepSeek-R1-Zero 生成的，而 DeepSeek-R1-Zero 本身并未接受過任何 SFT 數(shù)據(jù)的訓(xùn)練。

DeepSeek 隨后使用此冷啟動 SFT 數(shù)據(jù)通過指令微調(diào)訓(xùn)練模型，然后進(jìn)行另一個 RL 階段。此 RL 階段保留了 DeepSeek-R1-Zero RL 過程中使用的相同準(zhǔn)確度和格式獎勵。不過，他們還添加了一致性獎勵以防止語言混合 —— 當(dāng)模型在響應(yīng)中在多種語言之間切換時就會發(fā)生這種情況。

RL 階段之后是另一輪 SFT 數(shù)據(jù)收集。在此階段，使用最新的模型檢查點生成 600K 思維鏈 SFT 樣本，同時使用 DeepSeek-V3 基礎(chǔ)模型創(chuàng)建另外 200K 基于知識的 SFT 樣本。

然后將這些 600K + 200K SFT 樣本用于另一輪 RL。在此階段，他們再次使用基于規(guī)則的方法對數(shù)學(xué)和編程問題進(jìn)行準(zhǔn)確度獎勵，而對其他問題類型使用人類偏好標(biāo)簽。

最終模型 DeepSeek-R1 由于增加了 SFT 和 RL 階段，性能在 DeepSeek-R1-Zero 基礎(chǔ)上有了明顯提升，如下表所示。

OpenAI o1 和 DeepSeek R1 模型的基準(zhǔn)評測結(jié)果比較，來自 DeepSeek-R1 技術(shù)報告。

4. 純監(jiān)督微調(diào)（SFT）和蒸餾

到目前為止，我們已經(jīng)介紹了構(gòu)建和改進(jìn)推理模型的三種主要方法：

推理時間擴(kuò)展，這是一種無需訓(xùn)練或以其他方式修改底層模型即可提高推理能力的技術(shù)。
純 RL，如 DeepSeek-R1-Zero，它表明推理可以在沒有監(jiān)督微調(diào)的情況下成為一種學(xué)習(xí)行為。
SFT + RL，這得到了 DeepSeek 的旗艦推理模型 DeepSeek-R1。

那么，還有什么方法？模型「蒸餾」。

令人驚訝的是，DeepSeek 還發(fā)布了通過所謂「蒸餾」過程訓(xùn)練的較小模型。然而，在 LLM 語境中，蒸餾并不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識蒸餾方法。傳統(tǒng)上，在知識蒸餾中，較小的學(xué)生模型在較大的教師模型和目標(biāo)數(shù)據(jù)集的 logits 上進(jìn)行訓(xùn)練。

相反，這里的蒸餾是指在較大的 LLM 生成的 SFT 數(shù)據(jù)集上對較小的 LLM（例如 Llama 8B 和 70B 以及 Qwen 2.5 模型（0.5B 到 32B））進(jìn)行指令微調(diào)。具體來說，這些較大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中間檢查點。事實上，用于此蒸餾過程的 SFT 數(shù)據(jù)與用于訓(xùn)練 DeepSeek-R1 的數(shù)據(jù)集相同，如上一節(jié)所述。

下圖中突出展示了蒸餾部分。

蒸餾版 DeepSeek R1 模型的開發(fā)過程。

他們?yōu)槭裁匆_發(fā)這些蒸餾模型？我認(rèn)為有兩個主要原因：

較小的模型效率更高。這意味著它們運行起來更便宜，但它們也可以在低端硬件上運行，這對許多像我一樣的研究人員和修補(bǔ)匠來說尤其有趣。

純 SFT 案例研究。這些蒸餾模型可作為有趣的基準(zhǔn)，展示純監(jiān)督微調(diào) (SFT) 在沒有 RL 的情況下可以讓模型走多遠(yuǎn)。

下表比較了這些蒸餾模型與其他流行模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的性能。

蒸餾模型與非蒸餾模型的基準(zhǔn)比較。注釋圖來自 DeepSeek-R1 技術(shù)報告。

我們可以看到，蒸餾后的模型明顯弱于 DeepSeek-R1，但與 DeepSeek-R1-Zero 相比，它們卻出奇地強(qiáng)大，盡管規(guī)模小了幾個數(shù)量級。值得注意的是，這些模型與 o1 mini 相比，表現(xiàn)非常好（我懷疑 o1-mini 本身可能是 o1 的一個類似的蒸餾版本）。

在結(jié)束本節(jié)之前，還有一個有趣的比較值得一提。DeepSeek 團(tuán)隊測試了 DeepSeek-R1-Zero 中出現(xiàn)的涌現(xiàn)推理行為是否也會出現(xiàn)在較小的模型中。為了研究這一點，他們將 DeepSeek-R1-Zero 中相同的純 RL 方法直接應(yīng)用于 Qwen-32B。

下表展示了實驗的結(jié)果，其中 QwQ-32B-Preview 是千問團(tuán)隊基于 Qwen 2.5 32B 開發(fā)的參考推理模型（我認(rèn)為訓(xùn)練細(xì)節(jié)從未披露過）。此比較提供了一些額外的洞察，即純 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引導(dǎo)推理能力。

在較小的 32B 模型上對蒸餾和 RL 進(jìn)行基準(zhǔn)比較。注釋圖來自 DeepSeek-R1 技術(shù)報告。

有趣的是，結(jié)果表明，對于較小的模型，蒸餾比純 RL 更有效。這與以下觀點一致：單靠 RL 可能不足以在這種規(guī)模的模型中產(chǎn)生強(qiáng)大的推理能力，而使用高質(zhì)量推理數(shù)據(jù)進(jìn)行 SFT 在使用小模型時可能是一種更有效的策略。

為了完整性，查看表格中的其他比較將會很有用：

Qwen-32B 使用 SFT + RL 進(jìn)行訓(xùn)練，類似于 DeepSeek-R1 的開發(fā)方式。這將有助于確定當(dāng) RL 與 SFT 結(jié)合時，與純 RL 和純 SFT 相比可以取得多大的改進(jìn)。
DeepSeek-V3 使用純 SFT 進(jìn)行訓(xùn)練，與創(chuàng)建蒸餾模型的方式類似。這樣可以直接比較，看看 RL + SFT 相對于純 SFT 的效果如何。

總結(jié)

本節(jié)探討了構(gòu)建和改進(jìn)推理模型的四種不同策略：

推理時間擴(kuò)展不需要額外的訓(xùn)練，但會增加推理成本，隨著用戶數(shù)量或查詢量的增加，大規(guī)模部署的成本會更高。不過，對于已經(jīng)很強(qiáng)大的模型來說，提高性能仍然是明智之舉。我強(qiáng)烈懷疑 o1 利用了推理時間擴(kuò)展，這有助于解釋為什么與 DeepSeek-R1 相比，它在每 token 基礎(chǔ)上的成本更高。
純 RL 對于研究目標(biāo)來說很有趣，因為它可以提供推理作為一種涌現(xiàn)行為的洞察。然而，在實際的模型開發(fā)中，RL + SFT 是首選方法，因為它可以產(chǎn)生更強(qiáng)大的推理模型。我強(qiáng)烈懷疑 o1 也是使用 RL + SFT 進(jìn)行訓(xùn)練的。更準(zhǔn)確地說，我相信 o1 從比 DeepSeek-R1 更弱、更小的基礎(chǔ)模型開始，但通過 RL + SFT 和推理時間擴(kuò)展進(jìn)行了補(bǔ)償。
如上所述，RL + SFT 是構(gòu)建高性能推理模型的關(guān)鍵方法。DeepSeek-R1 是一個很好的藍(lán)圖，展示了如何做到這一點。
蒸餾是一種有吸引力的方法，尤其是用于創(chuàng)建更小、更高效的模型。然而，蒸餾的局限性在于它不會推動創(chuàng)新或產(chǎn)生下一代推理模型。例如，蒸餾總是依賴于現(xiàn)有的、更強(qiáng)大的模型來生成監(jiān)督微調(diào) (SFT) 數(shù)據(jù)。

我預(yù)計接下來會看到的一個有趣的方面是將 RL + SFT（方法 3）與推理時間擴(kuò)展（方法 1）相結(jié)合。

這很可能是 OpenAI o1 正在做的事情，只不過它可能基于比 DeepSeek-R1 更弱的基礎(chǔ)模型，這解釋了為什么 DeepSeek-R1 表現(xiàn)如此出色，同時在推理時間上保持相對低的成本。

關(guān)于 DeepSeek R1 的思考

最近幾周，很多人都問我對 DeepSeek-R1 模型的看法。

簡而言之，我認(rèn)為它們是一項了不起的成就。作為一名研究工程師，我特別欣賞這份詳細(xì)的技術(shù)報告，它提供了我可以從中學(xué)習(xí)的方法論見解。

最令人著迷的收獲之一是：推理可以基于純 RL 涌現(xiàn)出來。令人印象深刻的是，DeepSeek 已根據(jù)寬松的 MIT 開源許可證對其模型進(jìn)行了開源，該許可證的限制甚至比 Meta 的 Llama 模型還要少。

1. 與 o1 相比如何？

DeepSeek-R1 比 o1 好嗎？我認(rèn)為兩者大致相同。然而，最突出的是 DeepSeek-R1 在推理時間上更高效。這表明 DeepSeek 可能在訓(xùn)練過程中投入了更多，而 OpenAI 可能更多地依賴于 o1 的推理時間擴(kuò)展。

盡管如此，很難直接比較 o1 和 DeepSeek-R1，因為 OpenAI 尚未披露有關(guān) o1 的太多信息。

例如，我們不知道一些信息：

o1 也是 MoE 嗎？
o1 有多大？
o1 可能只是 GPT-4o 的稍微改進(jìn)版本，具有最少的 RL + SFT 和僅廣泛的推理時間擴(kuò)展嗎？

如果不知道這些細(xì)節(jié)，直接比較就是驢唇不對馬嘴了。

2. 訓(xùn)練 DeepSeek-R1 的成本

另一個討論點是開發(fā) DeepSeek-R1 的成本。有人提到訓(xùn)練成本約為 600 萬美元，但他們可能將 DeepSeek-V3（去年 12 月發(fā)布的基礎(chǔ)模型）和 DeepSeek-R1 混為一談。

600 萬美元的估算是基于每 GPU 小時 2 美元的假設(shè)以及 DeepSeek-V3 最終訓(xùn)練運行所需的 GPU 小時數(shù)，該估算最初于 2024 年 12 月進(jìn)行討論。

然而，DeepSeek 團(tuán)隊從未透露 R1 的具體 GPU 小時數(shù)或開發(fā)成本，因此任何成本估算都還只是純粹的猜測。

無論如何，最終 DeepSeek-R1 成為了開放權(quán)重推理模型的一個重要里程碑，并且其推理時的效率使其成為 OpenAI o1 的一個有趣替代品。

在有限的預(yù)算下開發(fā)推理模型

開發(fā) DeepSeek-R1 級推理模型可能需要數(shù)十萬到數(shù)百萬美元，即使從像 DeepSeek-V3 這樣的開放權(quán)重基礎(chǔ)模型開始也是如此。對于預(yù)算有限的研究人員或工程師來說，這可能會令人沮喪。

1. 好消息：蒸餾可以發(fā)揮很大的作用

幸運的是，模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek 團(tuán)隊通過 R1 蒸餾模型證明了這一點，盡管其比 DeepSeek-R1 小得多，但推理性能卻出奇地強(qiáng)大。然而，即使是這種方法也并不完全便宜。他們的蒸餾過程使用了 800K SFT 樣本，這需要大量計算。

有趣的是，就在 DeepSeek-R1 發(fā)布前幾天，我偶然看到了一篇關(guān)于 Sky-T1 的文章，這是一個令人著迷的項目，一個小團(tuán)隊僅使用 17K 的 SFT 樣本訓(xùn)練了一個開放權(quán)重 32B 模型。

總成本是多少？僅需 450 美元，這比大多數(shù) AI 會議的注冊費還低。

這個例子表明，盡管大規(guī)模訓(xùn)練仍然昂貴，但較小規(guī)模、有針對性的微調(diào)工作仍然可以以極低的成本產(chǎn)生出色的結(jié)果。

圖源：《Sky-T1：在 450 美元以內(nèi)訓(xùn)練你自己的 O1 預(yù)覽模型》一文。https://novasky-ai.github.io/posts/sky-t1/

根據(jù)他們的基準(zhǔn)測試，Sky-T1 的表現(xiàn)與 OpenAI o1 大致相當(dāng)，考慮到其低廉的訓(xùn)練成本，這一表現(xiàn)令人印象深刻。

2. 預(yù)算內(nèi)的純 RL：TinyZero

雖然 Sky-T1 專注于模型蒸餾，但我也在「純 RL」領(lǐng)域發(fā)現(xiàn)了一些有趣的工作。一個值得注意的例子是 TinyZero，這是一個 3B 參數(shù)模型，它復(fù)制了 DeepSeek-R1-Zero 方法（附注：訓(xùn)練成本不到 30 美元）。

令人驚訝的是，即使只有 3B 參數(shù)，TinyZero 也表現(xiàn)出一些涌現(xiàn)的自我驗證能力，這支持了推理可以通過純 RL 涌現(xiàn)的想法，即使在小模型中也是如此。

TinyZero 庫提到研究報告仍在進(jìn)行中，我一定會密切關(guān)注更多細(xì)節(jié)。

TinyZero 庫 (https://github.com/Jiayi-Pan/TinyZero) 中的一張圖片表明該模型能夠進(jìn)行自我驗證。（相比之下，看看基礎(chǔ)模型的回復(fù)會很有趣。）

上述兩個項目表明，即使預(yù)算有限，也可以在推理模型上開展有趣的工作。雖然這兩種方法都復(fù)現(xiàn)了 DeepSeek-R1 的方法，一種專注于純 RL（TinyZero），另一種專注于純 SFT（Sky-T1），但探索如何進(jìn)一步擴(kuò)展這些想法將非常有趣。

3. 超越傳統(tǒng) SFT：旅程學(xué)習(xí)

去年我偶然發(fā)現(xiàn)一種特別有趣的方法，論文《O1 Replication Journey: A Strategic Progress Report – Part 1》中對此進(jìn)行了描述。盡管標(biāo)題如此，但該論文實際上并沒有復(fù)制 o1。相反，它介紹了一種改進(jìn)蒸餾（純 SFT）過程的另一種方法。

論文的核心思想是用「旅程學(xué)習(xí)」替代「捷徑學(xué)習(xí)」。

捷徑學(xué)習(xí)是指指令微調(diào)的傳統(tǒng)方法，其中僅使用正確的解決方案路徑來訓(xùn)練模型。
另一方面，旅程學(xué)習(xí)也包括錯誤的解決路徑，讓模型從錯誤中學(xué)習(xí)。

這種方法與 TinyZero 的純 RL 訓(xùn)練中觀察到的自我驗證能力有點相似，但它專注于完全通過 SFT 改進(jìn)模型。通過讓模型接觸錯誤的推理路徑及其修正，旅程學(xué)習(xí)還可以增強(qiáng)自我修正能力，從而可能通過這種方式使推理模型更加可靠。

與傳統(tǒng)的捷徑學(xué)習(xí)不同，旅程學(xué)習(xí)在 SFT 數(shù)據(jù)中包含了錯誤的解決方案路徑。注釋圖來自 https://arxiv.org/abs/2410.18982

這可能是未來工作的一個令人興奮的方向，特別是對于低預(yù)算推理模型開發(fā)，因為基于 RL 的方法在計算上可能不切實際。

無論如何，推理模型方面目前正在發(fā)生很多有趣的工作，我相信我們將在接下來的幾個月里看到更多令人興奮的成果！

責(zé)任編輯：趙寧寧來源：機(jī)器之心

AI DeepSeek 推理模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="se5rv"></center>