OpenAI：強(qiáng)化學(xué)習(xí)確實(shí)可顯著提高LLM性能，DeepSeek R1、Kimi k1.5發(fā)現(xiàn)o1的秘密

作者：機(jī)器之心 2025-02-20 09:11:28

OpenAI 在論文開(kāi)篇就用一句話(huà)進(jìn)行了總結(jié)：「將強(qiáng)化學(xué)習(xí)應(yīng)用于大型語(yǔ)言模型（LLM）可顯著提高在復(fù)雜編程和推理任務(wù)上的性能?！?/div>

最近，OpenAI 發(fā)了一篇論文，宣稱(chēng) o3 模型在 2024 IOI 上達(dá)到了金牌水平，并且在 CodeForces 上獲得了與精英級(jí)人類(lèi)相當(dāng)?shù)牡梅帧?/span>

他們是怎么做到的呢？OpenAI 在論文開(kāi)篇就用一句話(huà)進(jìn)行了總結(jié)：「將強(qiáng)化學(xué)習(xí)應(yīng)用于大型語(yǔ)言模型（LLM）可顯著提高在復(fù)雜編程和推理任務(wù)上的性能?！?/span>

論文標(biāo)題：Competitive Programming with Large Reasoning Models
論文地址：https://arxiv.org/pdf/2502.06807

這兩天，這篇論文又引起了廣泛熱議，尤其是其中被博主 Matthew Berman 指出的關(guān)鍵：這種策略不僅適用于編程，它還是通往 AGI 及更遠(yuǎn)未來(lái)的最清晰路徑。

也就是說(shuō)，這篇論文不僅僅是展示了 AI 編程的新成績(jī)，更是給出了一份創(chuàng)造世界最佳 AI 程序員乃至 AGI 的藍(lán)圖。正如 OpenAI 在論文中寫(xiě)到的那樣：「這些結(jié)果表明，擴(kuò)展通用強(qiáng)化學(xué)習(xí)，而不是依賴(lài)特定領(lǐng)域的技術(shù)，能為在推理領(lǐng)域（例如競(jìng)技編程）實(shí)現(xiàn) SOTA AI 提供一條穩(wěn)健的路徑?！?/span>

此外，這篇論文還特別提到，中國(guó)的 DeepSeek-R1 和 Kimi k1.5 通過(guò)獨(dú)立研究顯示，利用思維鏈（CoT）學(xué)習(xí)方法可顯著提升模型在數(shù)學(xué)解題與編程挑戰(zhàn)中的綜合表現(xiàn)，這也是 o1 此前沒(méi)有公開(kāi)過(guò)的「配方」—— 直到前些天才半遮半掩地揭示一些，參閱機(jī)器之心報(bào)道《感謝 DeepSeek，ChatGPT 開(kāi)始公開(kāi) o3 思維鏈，但不完整》。（1 月 20 日，DeepSeek 和 Kimi 在同一天發(fā)布推理模型 R1 和 k1.5，兩個(gè)模型均有超越 OpenAI o1 的表現(xiàn)。）

下面，我們先看看這篇論文的核心內(nèi)容，然后再看看 Matthew Berman 為什么說(shuō)擴(kuò)展通用強(qiáng)化學(xué)習(xí)是「通往 AGI 及更遠(yuǎn)未來(lái)的最清晰路徑」。

OpenAI 從自家的三個(gè)模型入手，這三個(gè)模型分別是 o1 、 o1-ioi 以及 o3。

OpenAI o1 ：在競(jìng)爭(zhēng)性編程任務(wù)上的性能大幅提升

o1 是一個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的大型語(yǔ)言模型，旨在解決復(fù)雜的推理任務(wù)。

在回答問(wèn)題之前，o1 會(huì)先生成一個(gè)內(nèi)部思維鏈，并且用強(qiáng)化學(xué)習(xí)完善這種思維鏈過(guò)程，幫助模型識(shí)別和糾正錯(cuò)誤，將復(fù)雜任務(wù)分解為可管理的部分，并在一種方法失敗時(shí)探索替代的解決方案路徑。這些上下文推理能力顯著提升了 o1 在廣泛任務(wù)上的整體表現(xiàn)。

Kimi 研究員 Flood Sung 也談到了推理模型 Kimi k1.5 的研發(fā)過(guò)程也有類(lèi)似的發(fā)現(xiàn)，他指出：「長(zhǎng)思維鏈的有效性曾在 Kimi 內(nèi)部得到驗(yàn)證，使用很小的模型，訓(xùn)練模型做幾十位的加減乘除運(yùn)算，將細(xì)粒度的運(yùn)算過(guò)程合成出來(lái)變成很長(zhǎng)的 CoT 數(shù)據(jù)做 SFT，就可以獲得非常好的效果。」他說(shuō)，「依然記得當(dāng)時(shí)看到那個(gè)效果的震撼?！?/span>

除此之外，o1 還可調(diào)用外部工具驗(yàn)證代碼。

不同模型在 CodeForces 基準(zhǔn)上的表現(xiàn)。

OpenAI 將 o1 與非推理型大語(yǔ)言模型（gpt-4o）以及早期的推理模型（o1-preview）進(jìn)行了對(duì)比。

圖 1 展示了 o1-preview 和 o1 都顯著優(yōu)于 gpt-4o，這凸顯了強(qiáng)化學(xué)習(xí)在復(fù)雜推理任務(wù)中的有效性。

o1-preview 模型在 CodeForces 上的評(píng)分達(dá)到了 1258 分，相比 gpt-4o 的 808 分有了顯著提升。進(jìn)一步的訓(xùn)練將 o1 的評(píng)分提升至 1673，為 AI 在競(jìng)爭(zhēng)性編程中的表現(xiàn)樹(shù)立了新的里程碑。

OpenAI o1-ioi：增加強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)推理就能帶來(lái)大幅提升

OpenAI 在開(kāi)發(fā)和評(píng)估 OpenAI o1 的過(guò)程中，他們發(fā)現(xiàn)增加 RL 計(jì)算量和測(cè)試時(shí)推理計(jì)算量都能持續(xù)提升模型性能。

如圖 2 所示，擴(kuò)展 RL 訓(xùn)練和延長(zhǎng)測(cè)試時(shí)推理可以顯著提升模型性能?；谶@些洞見(jiàn)，OpenAI 創(chuàng)建了 o1-ioi 系統(tǒng)。

他們從以下方面來(lái)實(shí)現(xiàn)。

第一步是擴(kuò)展 OpenAI o1 的強(qiáng)化學(xué)習(xí)階段，重點(diǎn)關(guān)注編碼任務(wù)。具體如下：

從 OpenAI o1 檢查點(diǎn)開(kāi)始繼續(xù)強(qiáng)化學(xué)習(xí)訓(xùn)練；
特別強(qiáng)調(diào)了具有挑戰(zhàn)性的編程問(wèn)題，幫助模型改進(jìn) C++ 生成和運(yùn)行時(shí)檢查。
指導(dǎo)模型以 IOI 提交格式生成輸出。

在高層次上，OpenAI 將每個(gè) IOI 問(wèn)題分解為子任務(wù)，并為每個(gè)子任務(wù)從 o1-ioi 中采樣了 10,000 個(gè)解決方案，然后采用基于聚類(lèi)和重新排名的方法來(lái)決定從這些解決方案中提交哪些。

圖 3 顯示，o1-ioi 的 CodeForces 評(píng)分達(dá)到 1807，超過(guò) 93% 的競(jìng)爭(zhēng)對(duì)手 —— 這證明了在編碼任務(wù)上進(jìn)行額外的 RL 訓(xùn)練可以帶來(lái)明顯的改進(jìn)。

這些結(jié)果證實(shí)，特定領(lǐng)域的 RL 微調(diào)與高級(jí)選擇啟發(fā)式相結(jié)合可以顯著提高編程結(jié)果。

圖 4 為 IOI 比賽結(jié)果。在比賽期間，系統(tǒng)為每道問(wèn)題生成了 10,000 個(gè)候選解決方案，并使用測(cè)試時(shí)選擇策略從中篩選出 50 次提交。最終，模型獲得了 213 分，排名位于前 49 % 。

OpenAI o3：無(wú)需人類(lèi)的強(qiáng)化學(xué)習(xí)效果卓越

基于從 o1 和 o1-ioi 獲得的洞見(jiàn)，OpenAI 又探索了僅依賴(lài)強(qiáng)化學(xué)習(xí)（RL）結(jié)果如何，而不依賴(lài)于人為設(shè)計(jì)的測(cè)試時(shí)策略。

甚至 OpenAI 試圖探索進(jìn)一步的 RL 訓(xùn)練，模型是否能夠自主開(kāi)發(fā)和執(zhí)行自己的測(cè)試時(shí)推理策略。

為此，OpenAI 使用了 o3 的早期檢查點(diǎn)，以評(píng)估其在競(jìng)技編程任務(wù)上的表現(xiàn)。

如圖 5 所示，進(jìn)一步的強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練顯著提升了 o1 和完整 o1-ioi 系統(tǒng)的表現(xiàn)。o3 能夠以更高的可靠性解決更廣泛的復(fù)雜算法問(wèn)題，使其能力更接近 CodeForces 上的頂級(jí)人類(lèi)程序員。

圖 7 為模型在 IOI 2024 上的最終得分。2024 年比賽的總分上限為 600 分，金牌的分?jǐn)?shù)線(xiàn)約為 360 分。

以下是關(guān)鍵結(jié)果：

o1-ioi 在 50 次提交的限制下獲得了 213 分，而在 10,000 次提交的限制下提升至 362.14 分，略高于金牌分?jǐn)?shù)線(xiàn)。

o3 在 50 次提交的限制下獲得了 395.64 分，超過(guò)了金牌分?jǐn)?shù)線(xiàn)。

這些結(jié)果表明，o3 在不依賴(lài)針對(duì) IOI 手工設(shè)計(jì)的測(cè)試時(shí)策略的情況下，表現(xiàn)優(yōu)于 o1-ioi。相反，o3 在訓(xùn)練過(guò)程中自然涌現(xiàn)的復(fù)雜測(cè)試時(shí)技術(shù)（例如生成暴力解法以驗(yàn)證輸出）足以替代 o1-ioi 所需的手工設(shè)計(jì)的聚類(lèi)和選擇流程。

總體而言，在 IOI 2024 上的結(jié)果證實(shí)，僅通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練即可實(shí)現(xiàn)最先進(jìn)的編程和推理性能。通過(guò)獨(dú)立學(xué)習(xí)生成、評(píng)估和優(yōu)化解決方案，o3 超越了 o1-ioi，而無(wú)需依賴(lài)領(lǐng)域特定的啟發(fā)式方法或基于聚類(lèi)的方法。

另外，在 CodeForces 上，如前圖 5 所示，o3 的成績(jī)達(dá)到了 2724 分，已經(jīng)進(jìn)入了全球前 200 名。

該論文的作者之一 Ahmed El-Kishky 在 ?? 上分享了一個(gè)有趣的發(fā)現(xiàn)。他表示，他們?cè)跈z查思維鏈時(shí)發(fā)現(xiàn)該模型獨(dú)立發(fā)展出了自己的測(cè)試時(shí)策略：該模型首先會(huì)編寫(xiě)一個(gè)簡(jiǎn)單的暴力解決方案，然后再使用它來(lái)驗(yàn)證一種更加復(fù)雜優(yōu)化版方法。

軟件工程評(píng)估

OpenAI 還對(duì)模型進(jìn)行了軟件工程評(píng)估。他們?cè)趦蓚€(gè)數(shù)據(jù)集上測(cè)試了模型：HackerRank Astra 數(shù)據(jù)集和 SWE-bench verified。

圖 8 表明了模型進(jìn)行思維鏈推理的影響：與 GPT-4o 相比，o1-preview 模型在 pass@1 上提升了 9.98%，在平均得分上提高了 6.03 分。

通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步微調(diào)后，o1 的表現(xiàn)得到了提升，其 pass@1 達(dá)到了 63.92%，平均得分為 75.80%—— 相比 o1-preview，pass@1 提高了 3.03%。

圖 9 所示，o1 預(yù)覽版在 SWE-bench 上相比 gpt-4o 提升了 8.1%，突顯了模型推理能力的顯著進(jìn)步。

在訓(xùn)練過(guò)程中應(yīng)用額外的強(qiáng)化學(xué)習(xí)計(jì)算，o1 進(jìn)一步實(shí)現(xiàn)了 8.6% 的性能提升。

值得注意的是，o3 使用了比 o1 顯著更多的計(jì)算資源進(jìn)行訓(xùn)練，比 o1 實(shí)現(xiàn)了 22.8% 的顯著改進(jìn)。

通用強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn) AGI 的最清晰路徑？

基于此論文，Matthew Berman 通過(guò)一系列推文佐證了一個(gè)論點(diǎn)：通用強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn) AGI 的最清晰路徑。下面我們來(lái)看看他的論據(jù)。

首先，在這篇論文中，OpenAI 的研究表明「強(qiáng)化學(xué)習(xí) + 測(cè)試時(shí)計(jì)算」是構(gòu)建超智能 AI 的關(guān)鍵。OpenAI CEO Sam Altman 也說(shuō) OpenAI 的模型已經(jīng)在競(jìng)爭(zhēng)性編程任務(wù)上從 175 名上升到了 50 名，并有望在今年底達(dá)到第 1 名。

同時(shí)，上述論文中也指出，一開(kāi)始模型依賴(lài)于人類(lèi)設(shè)計(jì)的推理策略，但進(jìn)步最大時(shí)候并不是在這個(gè)階段出現(xiàn)的，而是在將人類(lèi)完全移出流程之后。

Berman 也引出了 DeepSeek-R1 的巨大成就。

他指出，DeepSeek-R1 的突破來(lái)自于「可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)」，而這其實(shí)也是 AlphaGo 使用的方法 —— 讓模型在試錯(cuò)中學(xué)習(xí)，然后無(wú)限地?cái)U(kuò)展智能。

AlphaGo 在沒(méi)有人類(lèi)引導(dǎo)的情況下成為了世界最強(qiáng)圍棋棋手。它的方法就是不斷與自己博弈，直到其掌握這個(gè)游戲。

Kimi 研究員 Flood Sung 也談到了這一點(diǎn)，他指出：「不管模型中間做錯(cuò)了什么，只要不是重復(fù)的，最后模型做對(duì)了就認(rèn)為這是一個(gè)好的探索，值得鼓勵(lì)。反之，要懲罰。隨后在實(shí)際訓(xùn)練中，發(fā)現(xiàn)模型會(huì)隨著訓(xùn)練提升表現(xiàn)并不斷增加 token 數(shù)，證明強(qiáng)化訓(xùn)練過(guò)程中模型可以自己涌現(xiàn)，這與 DeepSeek 的發(fā)現(xiàn)非常相似，也為 k1.5 視覺(jué)思考模型的上線(xiàn)奠定了基礎(chǔ)?！?/span>

而現(xiàn)在，類(lèi)似的策略也被 OpenAI 用在了編程領(lǐng)域，并且未來(lái)也可能被用在更多領(lǐng)域。

這意味著什么呢？Berman 認(rèn)為，這意味著每個(gè)具有可驗(yàn)證獎(jiǎng)勵(lì)的領(lǐng)域（包括數(shù)學(xué)、編程、科學(xué)）都可被 AI 通過(guò)自我博弈方法掌握。

Flood Sung 也表達(dá)了類(lèi)似的期待：「o3 在前面，還有很多路要走。給 AI 一個(gè)可衡量的目標(biāo)，然后讓其自己去探索。比如讓 AI 寫(xiě)出 10 萬(wàn) + 的公眾號(hào)文章，比如讓 AI 發(fā)布一個(gè)復(fù)制 tiktok 的 app，讓我們一起期待一下接下來(lái)的進(jìn)展！」

屆時(shí)，AI 將不再受到人類(lèi)水平的限制。這或許也就是 AGI 誕生之時(shí)。

實(shí)際上，特斯拉已經(jīng)在全自動(dòng)駕駛?cè)蝿?wù)上驗(yàn)證這一點(diǎn)了。過(guò)去，他們的方法是依靠一個(gè)「人類(lèi)規(guī)則 + AI」的混合模型；但他們換成端到端的 AI 方法之后，性能實(shí)現(xiàn)了大幅提升。Berman 表示：「AI 只需要更多計(jì)算 —— 而不是更多人類(lèi)干預(yù)?！?/span>