Sebastian Raschka:關(guān)于DeepSeek R1和推理模型,我有幾點看法
著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。這一次,他將立足于 DeepSeek 技術(shù)報告,介紹用于構(gòu)建推理模型的四種主要方法,也就是如何通過推理能力來增強(qiáng) LLM。Sebastian Raschka 表示:「我希望這能提供有價值的見解,并幫助你了解圍繞這一主題的快速演變的文獻(xiàn)和話題炒作?!?/p>
原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html
2024 年,LLM 領(lǐng)域的專業(yè)化程度不斷提高。除了預(yù)訓(xùn)練和微調(diào)之外,我們還見證了從 RAG 到代碼助手等專業(yè)應(yīng)用的興起。我預(yù)計這一趨勢將在 2025 年加速,也就是更加重視特定于具體領(lǐng)域和應(yīng)用的優(yōu)化(即專業(yè)化 /specialization)。
第 1-3 階段是開發(fā) LLM 的常見步驟。第 4 階段是針對具體用例對 LLM 進(jìn)行專門化。
開發(fā)推理模型就是一種專業(yè)化。這能讓 LLM 更擅長處理復(fù)雜任務(wù) —— 解決這些任務(wù)時最好使用中間步驟,例子包括解答謎題、高級數(shù)學(xué)和編程難題。但是,這種專業(yè)化并不能取代其他 LLM 應(yīng)用。因為將 LLM 轉(zhuǎn)換為推理模型也會帶來某些缺點,我將在后面討論。
如何定義「推理模型」?
如果你在 AI(或廣義上的機(jī)器學(xué)習(xí))領(lǐng)域內(nèi)工作,你可能已經(jīng)很了解相關(guān)定義的模糊性了?!竿评砟P停╮easoning model)」這個術(shù)語也不例外。最終,有人會在一篇論文中正式定義它,但卻又會在下一篇論文中重新定義它,如此連綿不斷。
本文將「推理」定義為回答需要復(fù)雜、多步驟生成和中間步驟的問題的過程。例如,像「法國首都是哪里?」這樣的事實性問答不需要推理。相比之下,像「如果一列火車以 60 英里 / 小時的速度行駛 3 小時,它會行駛多遠(yuǎn)?」這樣的問題需要一些簡單的推理 —— 它需要識別距離、速度和時間之間的關(guān)系,方能得出答案。
常規(guī)的 LLM 可能只提供簡短的答案(如左圖所示),而推理模型通常包括揭示部分思維過程的中間步驟。(請注意,許多沒有專門為推理任務(wù)開發(fā)的 LLM 也能在其答案中提供中間推理步驟。)
大多數(shù)現(xiàn)代 LLM 都具有基本的推理能力,可以回答諸如「如果一列火車以 60 英里 / 小時的速度行駛 3 小時,它會行駛多遠(yuǎn)?」這樣的問題。因此,今天當(dāng)我們提到推理模型時,我們通常指的是擅長更復(fù)雜推理任務(wù)的 LLM,例如解決謎題、謎語和數(shù)學(xué)證明。
此外,如今大多數(shù)被稱為推理模型的 LLM 都將「思維」或「思考」過程作為其響應(yīng)的一部分。LLM 是否以及如何真正「思考」則是另一個話題了。
推理模型中的中間步驟可以兩種方式出現(xiàn)。第一種,中間步驟可能顯式地出現(xiàn)在響應(yīng)中,如上圖所示。第二種,一些推理 LLM(例如 OpenAI o1)則會運行多個迭代,中間步驟對用戶來說是不可見的。
使用「推理」的兩個不同層級:1)通過多個中間步驟處理輸入和生成結(jié)果,2)將某種形式的推理放在響應(yīng)中提供給用戶。
什么時候應(yīng)該使用推理模型?
現(xiàn)在我們已經(jīng)定義了推理模型,接下來討論更有趣的部分:如何構(gòu)建和改進(jìn)用于推理任務(wù)的 LLM。然而,在深入研究技術(shù)細(xì)節(jié)之前,重要的是思考何時才真正需要推理模型。
我們什么時候需要推理模型?推理模型擅長解決復(fù)雜任務(wù),例如解決難題、高級數(shù)學(xué)問題和高難度編程任務(wù)。但是,對于總結(jié)、翻譯或基于知識的問答等簡單任務(wù),它們并不是必需的。事實上,如果你將推理模型用于所有事情,則可能遭遇低效率和高成本問題。例如,推理模型通常使用起來更昂貴、更冗長,有時由于「過度思考」而更容易出錯。很容易理解:為了完成任務(wù),需要使用正確的工具(或 LLM 類型)。
下圖總結(jié)了推理模型的主要優(yōu)勢和局限性。
推理模型的主要優(yōu)勢和劣勢。
推理模式的優(yōu)勢:
- 演繹或歸納推理(例如解密、數(shù)學(xué)證明)
- 思維鏈推理(分解成多步驟問題)
- 復(fù)雜的決策任務(wù)
- 能更好地泛化到新問題
推理模式的劣勢:
- 快速且低成本的響應(yīng)(更多推理時間)
- 基于知識的任務(wù)(幻覺)
- 簡單任務(wù)(過度思考)
簡要了解 DeepSeek 訓(xùn)練流程
在下一節(jié)討論構(gòu)建和改進(jìn)推理模型的四種主要方法之前,這里簡要概述一下 DeepSeek R1 的工作流程 —— 信息來源是 DeepSeek R1 技術(shù)報告。該報告既是一個有趣的案例研究,也可作為一份開發(fā)推理 LLM 的藍(lán)圖。
請注意,DeepSeek 并沒有發(fā)布單一的 R1 推理模型,而是發(fā)布了三個不同的變體:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。
根據(jù)其技術(shù)報告中的描述,我在下圖中總結(jié)了這些模型的開發(fā)過程。
DeepSeek R1 技術(shù)報告中討論的三種不同推理模型的開發(fā)過程。
接下來,我們簡單過一遍上圖所示的流程。下一節(jié)將介紹更多細(xì)節(jié) —— 將討論構(gòu)建和改進(jìn)推理模型的四種主要方法。
(1) DeepSeek-R1-Zero:該模型基于 2024 年 12 月發(fā)布的 671B 預(yù)訓(xùn)練版 DeepSeek-V3 基礎(chǔ)模型。該研究團(tuán)隊使用強(qiáng)化學(xué)習(xí)(RL)對其進(jìn)行了訓(xùn)練,并提供了兩種類型的獎勵。這種方法被稱為「冷啟動(cold start)」訓(xùn)練,因為它不包括監(jiān)督微調(diào)(SFT)步驟,而這通常是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的一部分。
(2) DeepSeek-R1:這是 DeepSeek 的旗艦推理模型,基于 DeepSeek-R1-Zero 而構(gòu)建。該團(tuán)隊使用了額外的 SFT 階段和進(jìn)一步的 RL 訓(xùn)練對其進(jìn)行了進(jìn)一步微調(diào),從而在「冷啟動」的 R1-Zero 模型基礎(chǔ)上實現(xiàn)了提升。
(3) DeepSeek-R1-Distill:DeepSeek 團(tuán)隊利用前面步驟生成的 SFT 數(shù)據(jù)對 Qwen 和 Llama 模型進(jìn)行了微調(diào),以增強(qiáng)其推理能力。雖然這不是傳統(tǒng)意義上的蒸餾,但這個過程也確實是在較大的 DeepSeek-R1 671B 模型的輸出上訓(xùn)練較小的模型(Llama 8B 和 70B,以及 Qwen 1.5B-30B)。
構(gòu)建和改進(jìn)推理模型的 4 種主要方法
下面將概述當(dāng)前用于增強(qiáng) LLM 推理能力和構(gòu)建專門的推理模型(如 DeepSeek-R1、OpenAI 的 o1 和 o3 等)的關(guān)鍵技術(shù)。
注意:OpenAI 并未詳細(xì)說明 o1 和 o3 的具體工作原理。然而,據(jù)傳它們組合式地利用了推理和訓(xùn)練技術(shù)。
1. 推理時間擴(kuò)展
提高 LLM 推理能力(或任何能力)的一種方法是推理時間擴(kuò)展(inference-time scaling)。這個術(shù)語可以有多種含義,但在這里,它指的是在推理過程中增加計算資源以提高輸出質(zhì)量。
做個粗略的類比:人類在解決復(fù)雜問題時,如果給他更多時間,得到的答案往往會更好。類似地,我們可以應(yīng)用一些技術(shù)來鼓勵 LLM 在生成答案時更多地「思考」。(不過 LLM 究竟是否真的會「思考」還有待討論。)
推理時間擴(kuò)展的一種直接簡單的方法是巧妙的提示詞工程。一個典型的例子是思維鏈(CoT)提示方法,即在輸入的提示詞中包含「think step by step」等短語。這能鼓勵模型生成中間推理步驟,而不是直接跳到最終答案,這通常(但并不一定)可以在更復(fù)雜的問題上得到更準(zhǔn)確的結(jié)果。(請注意,對于更簡單的基于知識的問題,例如「法國的首都是什么」,采用這種策略是沒有意義的,這又是一個很好的經(jīng)驗法則,可以找出推理模型是否對給定的輸入查詢有用。)
一個經(jīng)典 CoT 提示示例,來自論文《Large Language Models are Zero-Shot Reasoners》
上述 CoT 方法可被視為一種推理時間擴(kuò)展,因為它會生成更多輸出 token,使推理的成本也會更高。
推理時間擴(kuò)展的另一種方法是使用投票和搜索策略。一個簡單的例子是多數(shù)投票 —— 讓 LLM 生成多個答案,然后我們通過多數(shù)投票選擇正確的答案。同樣,我們可以使用集束搜索和其他搜索算法來生成更好的響應(yīng)。
這里強(qiáng)烈推薦一篇論文:
論文標(biāo)題:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
論文地址:https://arxiv.org/pdf/2408.03314
不同的基于搜索的方法依賴于基于過程獎勵的模型來選擇最佳答案。
DeepSeek R1 技術(shù)報告指出其模型沒有使用推理時間擴(kuò)展。然而,這種技術(shù)通常在 LLM 之上的應(yīng)用層實現(xiàn),因此 DeepSeek 有可能會在其應(yīng)用中使用它。
我猜想 OpenAI 的 o1 和 o3 模型使用了推理時間擴(kuò)展,這可以解釋為什么它們與 GPT-4o 等模型相比相對昂貴。除了推理時間擴(kuò)展之外,o1 和 o3 可能使用類似于 DeepSeek R1 使用的 RL 流程進(jìn)行訓(xùn)練。下面兩節(jié)將詳細(xì)介紹強(qiáng)化學(xué)習(xí)。
2. 純 RL
DeepSeek R1 論文的亮點之一是他們發(fā)現(xiàn)推理是純 RL 涌現(xiàn)出的一種行為。讓我們更詳細(xì)地探討一下這意味著什么。
如前所述,DeepSeek 開發(fā)了三種類型的 R1 模型。第一個 DeepSeek-R1-Zero 建立在 DeepSeek-V3 基礎(chǔ)模型之上,這是他們于 2024 年 12 月發(fā)布的標(biāo)準(zhǔn)預(yù)訓(xùn)練 LLM。與典型的 RL 流程不同(即在 RL 之前應(yīng)用監(jiān)督微調(diào)(SFT)),DeepSeek-R1-Zero 僅使用 RL 進(jìn)行訓(xùn)練,沒有初始 SFT 階段,如下圖所示。
DeepSeek-R1-Zero 模型的開發(fā)過程。
盡管如此,這種 RL 過程類似于常用的 RLHF 方法,后者通常應(yīng)用于偏好微調(diào) LLM。更多詳情可參閱《LLM 成功不可或缺的基石:RLHF 及其替代技術(shù)》。但是,如上所述,DeepSeek-R1-Zero 的主要區(qū)別在于他們跳過了用于指令調(diào)整的監(jiān)督微調(diào)(SFT)階段。這就是他們將其稱為「純」RL 的原因。(不過需要指出,LLM 背景下的 RL 與傳統(tǒng) RL 有很大不同。)
對于獎勵,他們沒有使用根據(jù)人類偏好訓(xùn)練的獎勵模型,而是采用了兩種類型的獎勵:準(zhǔn)確度獎勵和格式獎勵。
- 準(zhǔn)確度獎勵使用 LeetCode 編譯器來驗證編碼答案,并使用確定性系統(tǒng)來評估數(shù)學(xué)響應(yīng)。
- 格式獎勵依靠 LLM 評判員來確保響應(yīng)遵循預(yù)期格式,例如將推理步驟放在標(biāo)簽內(nèi)。
令人驚訝的是,這種方法足以讓 LLM 發(fā)展出基本的推理技能。研究人員觀察到了一個「啊哈!」時刻,盡管沒有經(jīng)過明確的訓(xùn)練,但模型開始在其響應(yīng)中生成推理痕跡,如下圖所示。
DeepSeek R1 技術(shù)報告展示的「啊哈」時刻,https://arxiv.org/abs/2501.12948
雖然 R1-Zero 并不是表現(xiàn)最好的推理模型,但它確實通過生成中間的「思考」步驟展示了推理能力,如上圖所示。這證實了使用純 RL 開發(fā)推理模型是可能的,DeepSeek 團(tuán)隊是第一個展示(或至少發(fā)布)這種方法的團(tuán)隊。
3. 監(jiān)督微調(diào)加強(qiáng)化學(xué)習(xí)(SFT + RL)
接下來,讓我們看看 DeepSeek 的旗艦推理模型 DeepSeek-R1 的開發(fā)過程,這可作為構(gòu)建推理模型的藍(lán)圖。其方法是通過結(jié)合額外的 SFT 和 RL 來改進(jìn) DeepSeek-R1-Zero,以提高其推理性能。
請注意,在 RL 之前包含 SFT 階段實際上很常見,如標(biāo)準(zhǔn) RLHF 流程那樣。OpenAI o1 很可能就使用了類似的方法。
DeepSeek-R1 模型的開發(fā)過程。
如上圖所示,DeepSeek 團(tuán)隊使用 DeepSeek-R1-Zero 生成了所謂的「冷啟動」SFT 數(shù)據(jù)。術(shù)語「冷啟動」指的是這些數(shù)據(jù)是由 DeepSeek-R1-Zero 生成的,而 DeepSeek-R1-Zero 本身并未接受過任何 SFT 數(shù)據(jù)的訓(xùn)練。
DeepSeek 隨后使用此冷啟動 SFT 數(shù)據(jù)通過指令微調(diào)訓(xùn)練模型,然后進(jìn)行另一個 RL 階段。此 RL 階段保留了 DeepSeek-R1-Zero RL 過程中使用的相同準(zhǔn)確度和格式獎勵。不過,他們還添加了一致性獎勵以防止語言混合 —— 當(dāng)模型在響應(yīng)中在多種語言之間切換時就會發(fā)生這種情況。
RL 階段之后是另一輪 SFT 數(shù)據(jù)收集。在此階段,使用最新的模型檢查點生成 600K 思維鏈 SFT 樣本,同時使用 DeepSeek-V3 基礎(chǔ)模型創(chuàng)建另外 200K 基于知識的 SFT 樣本。
然后將這些 600K + 200K SFT 樣本用于另一輪 RL。在此階段,他們再次使用基于規(guī)則的方法對數(shù)學(xué)和編程問題進(jìn)行準(zhǔn)確度獎勵,而對其他問題類型使用人類偏好標(biāo)簽。
最終模型 DeepSeek-R1 由于增加了 SFT 和 RL 階段,性能在 DeepSeek-R1-Zero 基礎(chǔ)上有了明顯提升,如下表所示。
OpenAI o1 和 DeepSeek R1 模型的基準(zhǔn)評測結(jié)果比較,來自 DeepSeek-R1 技術(shù)報告。
4. 純監(jiān)督微調(diào)(SFT)和蒸餾
到目前為止,我們已經(jīng)介紹了構(gòu)建和改進(jìn)推理模型的三種主要方法:
- 推理時間擴(kuò)展,這是一種無需訓(xùn)練或以其他方式修改底層模型即可提高推理能力的技術(shù)。
- 純 RL,如 DeepSeek-R1-Zero,它表明推理可以在沒有監(jiān)督微調(diào)的情況下成為一種學(xué)習(xí)行為。
- SFT + RL,這得到了 DeepSeek 的旗艦推理模型 DeepSeek-R1。
那么,還有什么方法?模型「蒸餾」。
令人驚訝的是,DeepSeek 還發(fā)布了通過所謂「蒸餾」過程訓(xùn)練的較小模型。然而,在 LLM 語境中,蒸餾并不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識蒸餾方法。傳統(tǒng)上,在知識蒸餾中,較小的學(xué)生模型在較大的教師模型和目標(biāo)數(shù)據(jù)集的 logits 上進(jìn)行訓(xùn)練。
相反,這里的蒸餾是指在較大的 LLM 生成的 SFT 數(shù)據(jù)集上對較小的 LLM(例如 Llama 8B 和 70B 以及 Qwen 2.5 模型(0.5B 到 32B))進(jìn)行指令微調(diào)。具體來說,這些較大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中間檢查點。事實上,用于此蒸餾過程的 SFT 數(shù)據(jù)與用于訓(xùn)練 DeepSeek-R1 的數(shù)據(jù)集相同,如上一節(jié)所述。
下圖中突出展示了蒸餾部分。
蒸餾版 DeepSeek R1 模型的開發(fā)過程。
他們?yōu)槭裁匆_發(fā)這些蒸餾模型?我認(rèn)為有兩個主要原因:
較小的模型效率更高。這意味著它們運行起來更便宜,但它們也可以在低端硬件上運行,這對許多像我一樣的研究人員和修補(bǔ)匠來說尤其有趣。
純 SFT 案例研究。這些蒸餾模型可作為有趣的基準(zhǔn),展示純監(jiān)督微調(diào) (SFT) 在沒有 RL 的情況下可以讓模型走多遠(yuǎn)。
下表比較了這些蒸餾模型與其他流行模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的性能。
蒸餾模型與非蒸餾模型的基準(zhǔn)比較。注釋圖來自 DeepSeek-R1 技術(shù)報告。
我們可以看到,蒸餾后的模型明顯弱于 DeepSeek-R1,但與 DeepSeek-R1-Zero 相比,它們卻出奇地強(qiáng)大,盡管規(guī)模小了幾個數(shù)量級。值得注意的是,這些模型與 o1 mini 相比,表現(xiàn)非常好(我懷疑 o1-mini 本身可能是 o1 的一個類似的蒸餾版本)。
在結(jié)束本節(jié)之前,還有一個有趣的比較值得一提。DeepSeek 團(tuán)隊測試了 DeepSeek-R1-Zero 中出現(xiàn)的涌現(xiàn)推理行為是否也會出現(xiàn)在較小的模型中。為了研究這一點,他們將 DeepSeek-R1-Zero 中相同的純 RL 方法直接應(yīng)用于 Qwen-32B。
下表展示了實驗的結(jié)果,其中 QwQ-32B-Preview 是千問團(tuán)隊基于 Qwen 2.5 32B 開發(fā)的參考推理模型(我認(rèn)為訓(xùn)練細(xì)節(jié)從未披露過)。此比較提供了一些額外的洞察,即純 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引導(dǎo)推理能力。
在較小的 32B 模型上對蒸餾和 RL 進(jìn)行基準(zhǔn)比較。注釋圖來自 DeepSeek-R1 技術(shù)報告。
有趣的是,結(jié)果表明,對于較小的模型,蒸餾比純 RL 更有效。這與以下觀點一致:單靠 RL 可能不足以在這種規(guī)模的模型中產(chǎn)生強(qiáng)大的推理能力,而使用高質(zhì)量推理數(shù)據(jù)進(jìn)行 SFT 在使用小模型時可能是一種更有效的策略。
為了完整性,查看表格中的其他比較將會很有用:
- Qwen-32B 使用 SFT + RL 進(jìn)行訓(xùn)練,類似于 DeepSeek-R1 的開發(fā)方式。這將有助于確定當(dāng) RL 與 SFT 結(jié)合時,與純 RL 和純 SFT 相比可以取得多大的改進(jìn)。
- DeepSeek-V3 使用純 SFT 進(jìn)行訓(xùn)練,與創(chuàng)建蒸餾模型的方式類似。這樣可以直接比較,看看 RL + SFT 相對于純 SFT 的效果如何。
總結(jié)
本節(jié)探討了構(gòu)建和改進(jìn)推理模型的四種不同策略:
- 推理時間擴(kuò)展不需要額外的訓(xùn)練,但會增加推理成本,隨著用戶數(shù)量或查詢量的增加,大規(guī)模部署的成本會更高。不過,對于已經(jīng)很強(qiáng)大的模型來說,提高性能仍然是明智之舉。我強(qiáng)烈懷疑 o1 利用了推理時間擴(kuò)展,這有助于解釋為什么與 DeepSeek-R1 相比,它在每 token 基礎(chǔ)上的成本更高。
- 純 RL 對于研究目標(biāo)來說很有趣,因為它可以提供推理作為一種涌現(xiàn)行為的洞察。然而,在實際的模型開發(fā)中,RL + SFT 是首選方法,因為它可以產(chǎn)生更強(qiáng)大的推理模型。我強(qiáng)烈懷疑 o1 也是使用 RL + SFT 進(jìn)行訓(xùn)練的。更準(zhǔn)確地說,我相信 o1 從比 DeepSeek-R1 更弱、更小的基礎(chǔ)模型開始,但通過 RL + SFT 和推理時間擴(kuò)展進(jìn)行了補(bǔ)償。
- 如上所述,RL + SFT 是構(gòu)建高性能推理模型的關(guān)鍵方法。DeepSeek-R1 是一個很好的藍(lán)圖,展示了如何做到這一點。
- 蒸餾是一種有吸引力的方法,尤其是用于創(chuàng)建更小、更高效的模型。然而,蒸餾的局限性在于它不會推動創(chuàng)新或產(chǎn)生下一代推理模型。例如,蒸餾總是依賴于現(xiàn)有的、更強(qiáng)大的模型來生成監(jiān)督微調(diào) (SFT) 數(shù)據(jù)。
我預(yù)計接下來會看到的一個有趣的方面是將 RL + SFT(方法 3)與推理時間擴(kuò)展(方法 1)相結(jié)合。
這很可能是 OpenAI o1 正在做的事情,只不過它可能基于比 DeepSeek-R1 更弱的基礎(chǔ)模型,這解釋了為什么 DeepSeek-R1 表現(xiàn)如此出色,同時在推理時間上保持相對低的成本。
關(guān)于 DeepSeek R1 的思考
最近幾周,很多人都問我對 DeepSeek-R1 模型的看法。
簡而言之,我認(rèn)為它們是一項了不起的成就。作為一名研究工程師,我特別欣賞這份詳細(xì)的技術(shù)報告,它提供了我可以從中學(xué)習(xí)的方法論見解。
最令人著迷的收獲之一是:推理可以基于純 RL 涌現(xiàn)出來。令人印象深刻的是,DeepSeek 已根據(jù)寬松的 MIT 開源許可證對其模型進(jìn)行了開源,該許可證的限制甚至比 Meta 的 Llama 模型還要少。
1. 與 o1 相比如何?
DeepSeek-R1 比 o1 好嗎?我認(rèn)為兩者大致相同。然而,最突出的是 DeepSeek-R1 在推理時間上更高效。這表明 DeepSeek 可能在訓(xùn)練過程中投入了更多,而 OpenAI 可能更多地依賴于 o1 的推理時間擴(kuò)展。
盡管如此,很難直接比較 o1 和 DeepSeek-R1,因為 OpenAI 尚未披露有關(guān) o1 的太多信息。
例如,我們不知道一些信息:
- o1 也是 MoE 嗎?
- o1 有多大?
- o1 可能只是 GPT-4o 的稍微改進(jìn)版本,具有最少的 RL + SFT 和僅廣泛的推理時間擴(kuò)展嗎?
如果不知道這些細(xì)節(jié),直接比較就是驢唇不對馬嘴了。
2. 訓(xùn)練 DeepSeek-R1 的成本
另一個討論點是開發(fā) DeepSeek-R1 的成本。有人提到訓(xùn)練成本約為 600 萬美元,但他們可能將 DeepSeek-V3(去年 12 月發(fā)布的基礎(chǔ)模型)和 DeepSeek-R1 混為一談。
600 萬美元的估算是基于每 GPU 小時 2 美元的假設(shè)以及 DeepSeek-V3 最終訓(xùn)練運行所需的 GPU 小時數(shù),該估算最初于 2024 年 12 月進(jìn)行討論。
然而,DeepSeek 團(tuán)隊從未透露 R1 的具體 GPU 小時數(shù)或開發(fā)成本,因此任何成本估算都還只是純粹的猜測。
無論如何,最終 DeepSeek-R1 成為了開放權(quán)重推理模型的一個重要里程碑,并且其推理時的效率使其成為 OpenAI o1 的一個有趣替代品。
在有限的預(yù)算下開發(fā)推理模型
開發(fā) DeepSeek-R1 級推理模型可能需要數(shù)十萬到數(shù)百萬美元,即使從像 DeepSeek-V3 這樣的開放權(quán)重基礎(chǔ)模型開始也是如此。對于預(yù)算有限的研究人員或工程師來說,這可能會令人沮喪。
1. 好消息:蒸餾可以發(fā)揮很大的作用
幸運的是,模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek 團(tuán)隊通過 R1 蒸餾模型證明了這一點,盡管其比 DeepSeek-R1 小得多,但推理性能卻出奇地強(qiáng)大。然而,即使是這種方法也并不完全便宜。他們的蒸餾過程使用了 800K SFT 樣本,這需要大量計算。
有趣的是,就在 DeepSeek-R1 發(fā)布前幾天,我偶然看到了一篇關(guān)于 Sky-T1 的文章,這是一個令人著迷的項目,一個小團(tuán)隊僅使用 17K 的 SFT 樣本訓(xùn)練了一個開放權(quán)重 32B 模型。
總成本是多少?僅需 450 美元,這比大多數(shù) AI 會議的注冊費還低。
這個例子表明,盡管大規(guī)模訓(xùn)練仍然昂貴,但較小規(guī)模、有針對性的微調(diào)工作仍然可以以極低的成本產(chǎn)生出色的結(jié)果。
圖源:《Sky-T1:在 450 美元以內(nèi)訓(xùn)練你自己的 O1 預(yù)覽模型》一文。https://novasky-ai.github.io/posts/sky-t1/
根據(jù)他們的基準(zhǔn)測試,Sky-T1 的表現(xiàn)與 OpenAI o1 大致相當(dāng),考慮到其低廉的訓(xùn)練成本,這一表現(xiàn)令人印象深刻。
2. 預(yù)算內(nèi)的純 RL:TinyZero
雖然 Sky-T1 專注于模型蒸餾,但我也在「純 RL」領(lǐng)域發(fā)現(xiàn)了一些有趣的工作。一個值得注意的例子是 TinyZero,這是一個 3B 參數(shù)模型,它復(fù)制了 DeepSeek-R1-Zero 方法(附注:訓(xùn)練成本不到 30 美元)。
令人驚訝的是,即使只有 3B 參數(shù),TinyZero 也表現(xiàn)出一些涌現(xiàn)的自我驗證能力,這支持了推理可以通過純 RL 涌現(xiàn)的想法,即使在小模型中也是如此。
TinyZero 庫提到研究報告仍在進(jìn)行中,我一定會密切關(guān)注更多細(xì)節(jié)。
TinyZero 庫 (https://github.com/Jiayi-Pan/TinyZero) 中的一張圖片表明該模型能夠進(jìn)行自我驗證。(相比之下,看看基礎(chǔ)模型的回復(fù)會很有趣。)
上述兩個項目表明,即使預(yù)算有限,也可以在推理模型上開展有趣的工作。雖然這兩種方法都復(fù)現(xiàn)了 DeepSeek-R1 的方法,一種專注于純 RL(TinyZero),另一種專注于純 SFT(Sky-T1),但探索如何進(jìn)一步擴(kuò)展這些想法將非常有趣。
3. 超越傳統(tǒng) SFT:旅程學(xué)習(xí)
去年我偶然發(fā)現(xiàn)一種特別有趣的方法,論文《O1 Replication Journey: A Strategic Progress Report – Part 1》中對此進(jìn)行了描述。盡管標(biāo)題如此,但該論文實際上并沒有復(fù)制 o1。相反,它介紹了一種改進(jìn)蒸餾(純 SFT)過程的另一種方法。
論文的核心思想是用「旅程學(xué)習(xí)」替代「捷徑學(xué)習(xí)」。
- 捷徑學(xué)習(xí)是指指令微調(diào)的傳統(tǒng)方法,其中僅使用正確的解決方案路徑來訓(xùn)練模型。
- 另一方面,旅程學(xué)習(xí)也包括錯誤的解決路徑,讓模型從錯誤中學(xué)習(xí)。
這種方法與 TinyZero 的純 RL 訓(xùn)練中觀察到的自我驗證能力有點相似,但它專注于完全通過 SFT 改進(jìn)模型。通過讓模型接觸錯誤的推理路徑及其修正,旅程學(xué)習(xí)還可以增強(qiáng)自我修正能力,從而可能通過這種方式使推理模型更加可靠。
與傳統(tǒng)的捷徑學(xué)習(xí)不同,旅程學(xué)習(xí)在 SFT 數(shù)據(jù)中包含了錯誤的解決方案路徑。注釋圖來自 https://arxiv.org/abs/2410.18982
這可能是未來工作的一個令人興奮的方向,特別是對于低預(yù)算推理模型開發(fā),因為基于 RL 的方法在計算上可能不切實際。
無論如何,推理模型方面目前正在發(fā)生很多有趣的工作,我相信我們將在接下來的幾個月里看到更多令人興奮的成果!