偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

僅需一萬(wàn)塊錢(qián)!清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓7B模型數(shù)學(xué)打敗GPT-4o

人工智能 新聞
近日,清華大學(xué)NLP實(shí)驗(yàn)室、上海AI Lab、清華大學(xué)電子系、OpenBMB社區(qū)等團(tuán)隊(duì)提出一種新的結(jié)合過(guò)程獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法——PRIME(Process Reinforcement through IMplicit REwards)。

OpenAI o1和o3模型的發(fā)布證明了強(qiáng)化學(xué)習(xí)能夠讓大模型擁有像人一樣的快速迭代試錯(cuò)、深度思考的高階推理能力,在基于模仿學(xué)習(xí)的Scaling Law逐漸受到質(zhì)疑的今天,基于探索的強(qiáng)化學(xué)習(xí)有望帶來(lái)新的Scaling Law。

近日,清華大學(xué)NLP實(shí)驗(yàn)室、上海AI Lab、清華大學(xué)電子系、OpenBMB社區(qū)等團(tuán)隊(duì)提出一種新的結(jié)合過(guò)程獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法——PRIME(Process Reinforcement through IMplicit REwards)

圖片

采用PRIME方法,研究人員不依賴(lài)任何蒸餾數(shù)據(jù)和模仿學(xué)習(xí),僅用8張A100,花費(fèi)一萬(wàn)塊錢(qián)左右,不到10天時(shí)間,就能高效訓(xùn)練出一個(gè)數(shù)學(xué)能力超過(guò) GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

具體而言,研究人員利用Qwen2.5-Math-7B-Base作為基座模型,訓(xùn)練出了新模型Eurus-2-7B-PRIME,并在美國(guó)IMO選拔考試AIME 2024上的準(zhǔn)確率達(dá)到26.7%,大幅超越GPT-4o,Llama3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數(shù)據(jù)的 1/10。其中,強(qiáng)化學(xué)習(xí)方法PRIME為模型帶來(lái)了16.7%的絕對(duì)提升,遠(yuǎn)超已知的任何開(kāi)源方案。

圖片
圖片

該項(xiàng)目一經(jīng)開(kāi)源就在海外AI社區(qū)爆火,短短幾天Github取得近300star。

未來(lái),基于PRIME方法和更強(qiáng)的基座模型有潛力訓(xùn)練出接近OpenAI o1的模型。

PRIME方法介紹

長(zhǎng)久以來(lái),開(kāi)源社區(qū)嚴(yán)重依賴(lài)數(shù)據(jù)驅(qū)動(dòng)的模仿學(xué)習(xí)來(lái)增強(qiáng)模型推理能力,但這種方法的局限也顯而易見(jiàn)——更強(qiáng)的推理能力需要更高質(zhì)量的數(shù)據(jù),但高質(zhì)量數(shù)據(jù)總是稀缺,使得模仿和蒸餾難以持續(xù)。

雖然OpenAI o1和o3的成功證明了強(qiáng)化學(xué)習(xí)有著更高的上限,但強(qiáng)化學(xué)習(xí)有著兩個(gè)關(guān)鍵挑戰(zhàn):(1)如何獲得精準(zhǔn)且可擴(kuò)展的密集獎(jiǎng)勵(lì);(2)如何設(shè)計(jì)可以充分利用這些獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法。

PRIME算法從隱式過(guò)程獎(jiǎng)勵(lì)(implicit process reward)的思想出發(fā)解決這兩個(gè)問(wèn)題。隱式過(guò)程獎(jiǎng)勵(lì)模型可以?xún)H在輸出獎(jiǎng)勵(lì)模型(outcome reward model, ORM)的數(shù)據(jù),即答案的最終對(duì)錯(cuò)上進(jìn)行訓(xùn)練,而隱式地建模過(guò)程獎(jiǎng)勵(lì),最終自動(dòng)訓(xùn)練出一個(gè)過(guò)程獎(jiǎng)勵(lì)模型,這整個(gè)過(guò)程都有嚴(yán)格的理論保證。

詳細(xì)推導(dǎo)見(jiàn):https://huggingface.co/papers/2412.01981

圖片

基于隱式過(guò)程獎(jiǎng)勵(lì)模型的這種性質(zhì),研究人員指出將其應(yīng)用于強(qiáng)化學(xué)習(xí)有三大優(yōu)勢(shì):

  • 過(guò)程獎(jiǎng)勵(lì):隱式過(guò)程獎(jiǎng)勵(lì)模型能夠?yàn)槊總€(gè) token 提供價(jià)值估計(jì),在提供過(guò)程獎(jiǎng)勵(lì)的同時(shí)無(wú)需訓(xùn)練額外的價(jià)值模型(value model)
  • 可擴(kuò)展性:隱式過(guò)程獎(jiǎng)勵(lì)模型只需結(jié)果標(biāo)簽即可在線更新。所以,我們可以結(jié)合策略模型采樣與結(jié)果驗(yàn)證器來(lái)直接更新PRM,有效緩解分布偏移與可擴(kuò)展性問(wèn)題。
  • 簡(jiǎn)潔性:隱式過(guò)程獎(jiǎng)勵(lì)模型本質(zhì)上就是一種語(yǔ)言模型。在實(shí)踐中,研究人員發(fā)現(xiàn)可以直接用初始的策略模型初始化PRM。

隱式過(guò)程獎(jiǎng)勵(lì)解決了PRM在大模型強(qiáng)化學(xué)習(xí)中怎么用,怎么訓(xùn),怎么擴(kuò)展的三大問(wèn)題,甚至不需要訓(xùn)練額外的獎(jiǎng)勵(lì)模型就可以開(kāi)始強(qiáng)化學(xué)習(xí),易用性和可擴(kuò)展性極佳。

具體的PRIME算法流程如下圖所示,它是一種在線強(qiáng)化學(xué)習(xí)算法,能夠?qū)⒚總€(gè)token的過(guò)程獎(jiǎng)勵(lì)無(wú)縫應(yīng)用于強(qiáng)化學(xué)習(xí)流程中。

圖片

實(shí)驗(yàn)結(jié)果

研究人員詳細(xì)比較了PRIME算法和基線方法。

相比于僅用結(jié)果監(jiān)督,PRIME有著2.5倍的采樣效率提升,在下游任務(wù)上也有著顯著提升。

圖片
圖片

研究人員還驗(yàn)證了PRM在線更新的重要性,可以看到,在線的PRM更新要顯著優(yōu)于固定不更新的PRM,這也證明了PRIME算法設(shè)計(jì)和合理性。

圖片

此外,研究人員還額外收集數(shù)據(jù),基于Qwen2.5-Math-Instruct訓(xùn)練了SOTA水平的EurusPRM,能夠在Best-of-N采樣中達(dá)到開(kāi)源領(lǐng)先水平。

圖片

Showcase演示

Question (AIME 2024試題,Claude-3.5-Sonnet做錯(cuò))

圖片

Answer

圖片

Question

Which number is larger? 9.11 or 9.9?

Answer

圖片

強(qiáng)化學(xué)習(xí)是連接已有智能體(大模型)和現(xiàn)實(shí)世界(世界模型,具身智能)的橋梁,以及將世界反饋內(nèi)化為模型智能的路徑,將在下一代人工智能的發(fā)展中起到重要作用。PRIME 算法創(chuàng)新性地將隱式過(guò)程獎(jiǎng)勵(lì)與強(qiáng)化學(xué)習(xí)結(jié)合,解決了大模型強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)稀疏問(wèn)題,有望推動(dòng)大模型復(fù)雜推理能力的進(jìn)一步提升。

blog鏈接:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896fGitHub鏈接:https://github.com/PRIME-RL/PRIME

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-09-24 08:53:10

2025-10-24 12:07:12

2024-02-07 12:39:00

AI數(shù)據(jù)

2025-07-14 09:00:00

2025-08-14 10:25:11

2025-06-10 09:07:00

2025-02-25 12:30:00

2025-09-28 15:35:32

AI模型強(qiáng)化學(xué)習(xí)

2024-09-23 15:04:16

2025-03-11 13:07:58

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2025-04-11 09:10:00

模型開(kāi)源AI

2025-03-10 01:00:00

2025-10-10 01:00:00

8B模型GPT-4oAgent

2025-01-02 13:00:00

2024-05-09 08:33:33

2024-09-23 15:10:00

2025-08-21 16:01:58

2025-02-27 13:45:00

2024-06-11 14:30:18

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)