清華、上海AI Lab等頂級團(tuán)隊(duì)發(fā)布推理模型RL超全綜述,探索通往超級智能之路
在人工智能的發(fā)展中,強(qiáng)化學(xué)習(xí) (RL) 一直是一種非常重要的方法。
自 1998 年 Sutton 提出強(qiáng)化學(xué)習(xí)概念以來,就明確了只要給出明確的獎(jiǎng)勵(lì)信號,智能體就能學(xué)會(huì)在復(fù)雜環(huán)境中超越人類。
在 2013 年,DeepMind 就展示過一個(gè)小實(shí)驗(yàn):用 RL 訓(xùn)練的智能體,只憑屏幕上的像素和得分反饋,就能學(xué)會(huì)玩上世紀(jì)的街機(jī)游戲《打磚塊》。幾年后,AlphaGo 和 AlphaZero 更是通過自我對弈和獎(jiǎng)勵(lì)信號,超越了世界頂尖棋手,在圍棋、國際象棋和將棋上達(dá)到「人類難以企及」的水平。
進(jìn)入大模型時(shí)代后,RL 又找到了新的舞臺。它最初被用于讓模型更符合人類偏好,比如通過人類反饋強(qiáng)化學(xué)習(xí)(RLHF),讓模型的回答更有用、更誠實(shí)、更安全。
最近幾年,一個(gè)新的趨勢正在出現(xiàn):研究者們希望通過 RL 不僅讓模型「更聽話」,還真正學(xué)會(huì)「推理」。
這類被稱為大推理模型(LRM)的系統(tǒng),會(huì)通過可驗(yàn)證的獎(jiǎng)勵(lì)來提升推理能力,例如數(shù)學(xué)題答對率或者代碼能否通過測試。像 OpenAI 的 o1 和 DeepSeek-R1 就展示了這種方法的潛力:模型在經(jīng)過 RL 訓(xùn)練后,能夠更好地規(guī)劃、反思,甚至在出錯(cuò)時(shí)自我糾正。這意味著,推理能力也許和參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)一樣,可以通過「擴(kuò)展」不斷增強(qiáng)。
然而,要讓 RL 在大推理模型中真正實(shí)現(xiàn)大規(guī)模應(yīng)用,還存在許多挑戰(zhàn):獎(jiǎng)勵(lì)設(shè)計(jì)是否合理,算法是否高效,數(shù)據(jù)和算力能否支撐等等。
過去兩個(gè)月里,來自清華大學(xué)和上海人工智能實(shí)驗(yàn)室等的研究者們組織并總結(jié)了推理模型的最新 RL 研究,形成了一份非常全面的調(diào)查綜述,回顧最新進(jìn)展,討論面臨的問題,并展望未來的發(fā)展方向。

- 論文標(biāo)題:A Survey of Reinforcement Learning for Large Reasoning Models
- 論文鏈接:https://arxiv.org/abs/2509.08827
本文綜述了近年來強(qiáng)化學(xué)習(xí)在大語言模型推理能力方面的最新進(jìn)展。
RL 在推動(dòng) LLM 能力邊界上取得了顯著成果,尤其在數(shù)學(xué)、編程等復(fù)雜邏輯任務(wù)中表現(xiàn)突出。因此,RL 已逐漸成為將 LLM 演化為具備更強(qiáng)推理能力的大推理模型(LRM)的核心方法。
隨著該領(lǐng)域的快速發(fā)展,如何進(jìn)一步擴(kuò)展 RL 在 LRM 上的應(yīng)用,已面臨基礎(chǔ)性挑戰(zhàn) —— 不僅涉及算力資源,也包括算法設(shè)計(jì)、訓(xùn)練數(shù)據(jù)與基礎(chǔ)設(shè)施建設(shè)。為此,研究者們認(rèn)為此時(shí)有必要回顧這一領(lǐng)域的發(fā)展歷程,重新審視其未來方向,并探索提升 RL 可擴(kuò)展性以邁向通用人工超級智能(Artificial SuperIntelligence, ASI)的策略。
本文重點(diǎn)梳理了自 DeepSeek-R1 發(fā)布以來,RL 在 LLM 與 LRM 推理能力上的應(yīng)用研究,涵蓋其基礎(chǔ)組件、核心問題、訓(xùn)練資源及下游應(yīng)用,以此識別未來的研究機(jī)遇與發(fā)展路徑。本文綜述或許能夠推動(dòng) RL 在更廣泛推理模型中的研究與應(yīng)用。

綜述概覽
本文介紹了面向大推理模型的強(qiáng)化學(xué)習(xí)的基礎(chǔ)組件,以及尚待解決的問題、訓(xùn)練資源和應(yīng)用場景。本綜述的核心重點(diǎn)在于:聚焦語言智能體(language agents)與環(huán)境之間的大規(guī)模交互,以及這一過程在長期演化中的關(guān)鍵作用。

大模型發(fā)展時(shí)間線。展示了采用強(qiáng)化學(xué)習(xí)訓(xùn)練的具有代表性的推理模型的發(fā)展歷程,其中包括開源和閉源的語言模型、多模態(tài)模型以及智能體模型。
推理模型的兩個(gè)重要里程碑(OpenAI o1 和 DeepSeek-R1 )表明,通過帶有可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)的訓(xùn)練,例如數(shù)學(xué)題答案正確率或代碼單元測試通過率,可以讓模型掌握長鏈推理能力,包括規(guī)劃、反思和自我糾錯(cuò)。
OpenAI 報(bào)告指出,o1 的性能會(huì)隨著額外的 RL 訓(xùn)練(訓(xùn)練時(shí)算力增加)以及推理階段投入更多 “思考時(shí)間”(推理時(shí)算力增加)而持續(xù)提升 ,揭示了除了預(yù)訓(xùn)練之外的一條全新擴(kuò)展路徑。DeepSeek-R1 則在數(shù)學(xué)任務(wù)中采用基于規(guī)則的顯式準(zhǔn)確率獎(jiǎng)勵(lì),在編程任務(wù)中采用編譯器 / 測試驅(qū)動(dòng)的獎(jiǎng)勵(lì),展示了大規(guī)模 RL(尤其是 Group Relative Policy Optimization, GRPO)在基礎(chǔ)模型上即可引導(dǎo)復(fù)雜推理能力的可能性。

語言模型中 RL 方法的演變,展示了從 RLHF (2022) 到 DPO (2023) 再到 RLVR (2025) 以及未來開放式 RL 系統(tǒng)的進(jìn)展。每個(gè)階段都展示了任務(wù)解決能力和能力提升的增加。
這種轉(zhuǎn)變將推理重新定位為一種可以顯式訓(xùn)練和擴(kuò)展的能力。LRMs 在推理過程中會(huì)分配大量計(jì)算資源去生成、評估和修正中間推理鏈 ,且其性能隨著計(jì)算預(yù)算增加而提升。這種動(dòng)態(tài)機(jī)制提供了一條與預(yù)訓(xùn)練時(shí)的數(shù)據(jù)規(guī)模和參數(shù)規(guī)模擴(kuò)展互補(bǔ)的能力增長路徑,同時(shí)利用獎(jiǎng)勵(lì)最大化目標(biāo),在存在可靠驗(yàn)證器的領(lǐng)域中實(shí)現(xiàn)自動(dòng)可檢驗(yàn)獎(jiǎng)勵(lì)。此外,RL 還能通過生成自監(jiān)督訓(xùn)練數(shù)據(jù)來克服數(shù)據(jù)限制。因此,RL 越來越被視為在更廣泛任務(wù)上實(shí)現(xiàn)通用人工超級智能(ASI)的潛在技術(shù)路徑。
然而,面向 LRMs 的 RL 擴(kuò)展也帶來了新的挑戰(zhàn),不僅限于計(jì)算資源,還涉及算法設(shè)計(jì)、訓(xùn)練數(shù)據(jù)和基礎(chǔ)設(shè)施。如何以及在哪些方面擴(kuò)展 RL 才能實(shí)現(xiàn)更高水平的智能并產(chǎn)生現(xiàn)實(shí)價(jià)值,仍是懸而未決的問題。因此,研究者們認(rèn)為,現(xiàn)在正是重新審視這一領(lǐng)域發(fā)展、探索增強(qiáng) RL 可擴(kuò)展性策略的關(guān)鍵時(shí)機(jī)。
本文的綜述工作如下:
- 在 LRM 語境下引入 RL 建模的基本定義,并梳理自 OpenAI o1 發(fā)布以來的前沿推理模型發(fā)展。
- 回顧 RL for LRM 的核心組成部分,包括獎(jiǎng)勵(lì)設(shè)計(jì)、策略優(yōu)化和采樣策略,并對不同研究方向和技術(shù)方案進(jìn)行比較。
- 討論 LRM 強(qiáng)化學(xué)習(xí)中的基礎(chǔ)性與爭議性問題,例如 RL 的角色、RL vs. SFT、模型先驗(yàn)、訓(xùn)練方法以及獎(jiǎng)勵(lì)定義,并指出這些問題需要深入探索以推動(dòng) RL 的持續(xù)擴(kuò)展。
- 總結(jié) RL 的訓(xùn)練資源,包括靜態(tài)語料庫、動(dòng)態(tài)環(huán)境和訓(xùn)練基礎(chǔ)設(shè)施,并指出這些資源盡管可復(fù)用,但仍需進(jìn)一步標(biāo)準(zhǔn)化和發(fā)展。
- 綜述 RL 在廣泛任務(wù)中的應(yīng)用,涵蓋編程任務(wù)、智能體任務(wù)、多模態(tài)任務(wù)、多智能體系統(tǒng)、機(jī)器人任務(wù)以及醫(yī)學(xué)應(yīng)用。
- 最后,探討未來 RL for LLM 的研究方向,包括新算法、新機(jī)制、新功能以及其他潛在研究路徑。


綜述目錄
強(qiáng)化學(xué)習(xí)在大推理模型上的應(yīng)用,標(biāo)志著人工智能發(fā)展的一次重要轉(zhuǎn)折。它不僅僅是讓語言模型「對齊」人類的偏好,更是在推動(dòng)它們真正掌握推理和邏輯思考的能力。通過可驗(yàn)證的獎(jiǎng)勵(lì)機(jī)制、先進(jìn)的優(yōu)化算法以及大規(guī)模的訓(xùn)練基礎(chǔ)設(shè)施,研究者們正在打造能夠進(jìn)行多步推理、跨領(lǐng)域解決問題的智能系統(tǒng)。
當(dāng)然,這一方向仍面臨不少挑戰(zhàn):如何設(shè)計(jì)合適的獎(jiǎng)勵(lì)信號、如何在龐大的算力和數(shù)據(jù)需求下實(shí)現(xiàn)高效擴(kuò)展、以及如何確保這些模型在實(shí)際應(yīng)用中可靠。盡管如此,近年的快速進(jìn)展已經(jīng)證明了這一方法的潛力??梢灶A(yù)見,未來基于 強(qiáng)化學(xué)習(xí)的推理能力還將持續(xù)提升,并有望孕育出能夠真正理解和解決復(fù)雜問題的智能系統(tǒng),從而在科學(xué)研究、工程應(yīng)用乃至日常生活的方方面面,帶來深遠(yuǎn)的影響。
更多詳細(xì)信息請參閱原論文。




































