偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

過(guò)程獎(jiǎng)勵(lì)模型PRM成版本答案!谷歌DeepMind全自動(dòng)標(biāo)注逐步驟獎(jiǎng)勵(lì)PAV,準(zhǔn)確率提升8%

人工智能 新聞
通過(guò)過(guò)程獎(jiǎng)勵(lì)模型(PRM)在每一步提供反饋,并使用過(guò)程優(yōu)勢(shì)驗(yàn)證器(PAV)來(lái)預(yù)測(cè)進(jìn)展,從而優(yōu)化基礎(chǔ)策略,該方法在測(cè)試時(shí)搜索和在線(xiàn)強(qiáng)化學(xué)習(xí)中顯示出比傳統(tǒng)方法更高的準(zhǔn)確性和計(jì)算效率,顯著提升了解決復(fù)雜問(wèn)題的能力。

在提升大型語(yǔ)言模型(LLM)在數(shù)學(xué)推理方面的能力時(shí),一個(gè)常用的方法是訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(reward model)或驗(yàn)證器(verifier),也可以利用強(qiáng)化學(xué)習(xí)在測(cè)試階段(test-time)對(duì)所有解決方案進(jìn)行重排序。

通常情況下,驗(yàn)證器的預(yù)測(cè)是整個(gè)推理過(guò)程的結(jié)果,即結(jié)果獎(jiǎng)勵(lì)模型(ORM,outcome reward models),但這種獎(jiǎng)勵(lì)信號(hào)過(guò)于稀疏,模型難以從中學(xué)習(xí),并且搜索過(guò)程的效率也不高;理論上,通過(guò)細(xì)粒度的監(jiān)督數(shù)據(jù)可以緩解這一問(wèn)題。

在推理方面,先前有研究已經(jīng)訓(xùn)練了過(guò)程獎(jiǎng)勵(lì)模型(PRMs,process reward models),在搜索的每一步或在強(qiáng)化學(xué)習(xí)期間分配中間獎(jiǎng)勵(lì),不過(guò)PRM數(shù)據(jù)都來(lái)源于人工標(biāo)注,不具備可擴(kuò)展性。

雖然也有研究者訓(xùn)練PRMs來(lái)預(yù)測(cè)自動(dòng)生成的標(biāo)注,類(lèi)似于強(qiáng)化學(xué)習(xí)中的價(jià)值函數(shù),但到目前為止,自動(dòng)化的PRMs與ORMs相比,性能僅僅提高了1-2%,引發(fā)了業(yè)界對(duì)該技術(shù)的質(zhì)疑。

PRM可以用來(lái)執(zhí)行搜索,或者作為密集獎(jiǎng)勵(lì)(dense rewards)來(lái)提升基礎(chǔ)策略,所以問(wèn)題的核心變成了:到底該「如何設(shè)計(jì)流程獎(jiǎng)勵(lì)」?

最近,Google Research、Google DeepMind和卡內(nèi)基梅隆大學(xué)的研究人員聯(lián)合發(fā)布了一篇論文,主要思路是,每一步的過(guò)程獎(jiǎng)勵(lì)都應(yīng)該對(duì)整個(gè)過(guò)程進(jìn)行度量:在采取該步驟「之前」和「之后」,模型在生成正確回復(fù)概率(likelihood)的變化程度,對(duì)應(yīng)于強(qiáng)化學(xué)習(xí)中步驟級(jí)別優(yōu)勢(shì)(step-level advantages)的概念;最重要的是,該過(guò)程應(yīng)該根據(jù)與基本策略(basic policy)不同的證明政策(prover policy)來(lái)度量。

圖片

論文鏈接:https://arxiv.org/pdf/2410.08146

研究人員從理論上描述了一組好的證明器,并用實(shí)驗(yàn)證明了,優(yōu)化來(lái)自證明器的過(guò)程獎(jiǎng)勵(lì)可以改善測(cè)試時(shí)搜索和在線(xiàn)強(qiáng)化學(xué)習(xí)期間的探索,并且可以通過(guò)經(jīng)驗(yàn)觀察到,弱證明器策略可以顯著改善更強(qiáng)的基礎(chǔ)策略。

通過(guò)訓(xùn)練過(guò)程優(yōu)勢(shì)驗(yàn)證器 (PAV,process advantage verifiers) 來(lái)預(yù)測(cè)證明器的過(guò)程,結(jié)果表明,與 ORM 相比,針對(duì) PAV 的測(cè)試時(shí)搜索準(zhǔn)確率提升了8%,計(jì)算效率提升了1.5到5倍;使用PAV的密集獎(jiǎng)勵(lì)進(jìn)行在線(xiàn)RL,實(shí)現(xiàn)了在樣本效率上5-6倍的提升,比ORM的準(zhǔn)確率提升了6%

定義過(guò)程獎(jiǎng)勵(lì)

為了解決前面提到的獎(jiǎng)勵(lì)不確定性,研究人員訓(xùn)練了帶有自動(dòng)標(biāo)注的過(guò)程獎(jiǎng)勵(lì)模型(PRMs),以便在測(cè)試時(shí)搜索和在線(xiàn)強(qiáng)化學(xué)習(xí)(RL)期間,通過(guò)優(yōu)化訓(xùn)練后的PRMs提供的密集獎(jiǎng)勵(lì)來(lái)提高基礎(chǔ)策略的計(jì)算和樣本效率。

為此,文中主要解決了兩個(gè)問(wèn)題:

1. 每一步的過(guò)程獎(jiǎng)勵(lì)應(yīng)該度量(measure)什么?

2. 應(yīng)該使用什么樣的自動(dòng)數(shù)據(jù)收集策略來(lái)訓(xùn)練預(yù)測(cè)PRMs?

傳統(tǒng)的方法主要通過(guò)度量數(shù)學(xué)正確性或步驟的相關(guān)性來(lái)實(shí)現(xiàn)的,但這種監(jiān)督信號(hào)是否能夠最大程度地改進(jìn)基礎(chǔ)策略尚不清楚,例如策略可能需要生成重復(fù)的,在測(cè)試時(shí)搜索和RL期間不正確的步驟來(lái)探索和發(fā)現(xiàn)最終答案。

研究人員的關(guān)鍵想法是,衡量逐步驟過(guò)程獎(jiǎng)勵(lì)(在采取步驟之前和之后到達(dá)正確最終答案的可能性的變化),對(duì)于測(cè)試時(shí)的beam search和在線(xiàn)強(qiáng)化學(xué)習(xí)都是有效的。

強(qiáng)化那些不管是在正確或錯(cuò)誤軌跡中出現(xiàn)都取得進(jìn)展的步驟,可以在最初步驟中多樣化可能答案的探索(exploration),在解決問(wèn)題方法不明確時(shí)可以起到很重要的作用。

從形式上來(lái)講,這種獎(jiǎng)勵(lì)對(duì)應(yīng)于強(qiáng)化學(xué)習(xí)中的逐步驟優(yōu)勢(shì)( per-step advantages),經(jīng)驗(yàn)表明,使用優(yōu)勢(shì)以及ORM獎(jiǎng)勵(lì)比常見(jiàn)的使用未來(lái)成功概率(future probabilities of success)或??值來(lái)搜索和強(qiáng)化學(xué)習(xí)都表現(xiàn)得更好,主要是因?yàn)?,在有限的?jì)算和采樣約束下,??值主要「利用」(exploit)狀態(tài),而優(yōu)勢(shì)也「探索」(explore)對(duì)最終答案最有貢獻(xiàn)的步驟。

圖片

在回答第二個(gè)問(wèn)題時(shí),研究人員首先注意到,在大多數(shù)步驟中,基礎(chǔ)策略下的優(yōu)勢(shì)接近于0,因此對(duì)搜索或RL沒(méi)有信息量。

此外,無(wú)論基礎(chǔ)策略的強(qiáng)度如何,使用其自身的逐步驟優(yōu)勢(shì)作為RL中的過(guò)程獎(jiǎng)勵(lì),會(huì)導(dǎo)致與僅使用結(jié)果獎(jiǎng)勵(lì)進(jìn)行RL相同的基礎(chǔ)策略更新(因?yàn)闃?biāo)準(zhǔn)策略梯度算法已經(jīng)計(jì)算了優(yōu)勢(shì))。

因此,研究人員提出使用在不同的證明策略下通過(guò)滾動(dòng)估計(jì)的優(yōu)勢(shì)作為過(guò)程獎(jiǎng)勵(lì)。

圖片

然后應(yīng)該如何選擇證明策略?

一個(gè)很自然的想法/猜測(cè)是使用一個(gè)非常強(qiáng)大的證明策略,但研究人員發(fā)現(xiàn),在過(guò)于強(qiáng)大的證明策略下,模型可以從任意步驟中走向成功,無(wú)法區(qū)分出好和壞的步驟;而對(duì)于非常弱的證明策略來(lái)說(shuō),也有類(lèi)似的結(jié)果。

在理論上,研究人員在文中將上述直覺(jué)給形式化為,與基礎(chǔ)策略互補(bǔ)的策略即為好的證明器,能夠充分對(duì)比基礎(chǔ)策略生成的步驟優(yōu)勢(shì),同時(shí)仍然生成與基礎(chǔ)策略?xún)?yōu)勢(shì)相關(guān)的步驟級(jí)優(yōu)勢(shì)的策略。

例如,對(duì)于對(duì)應(yīng)于基礎(chǔ)策略的Best-of-??策略,經(jīng)驗(yàn)發(fā)現(xiàn),對(duì)應(yīng)于??>1的證明策略更能夠改進(jìn)基礎(chǔ)策略;與直覺(jué)相反,互補(bǔ)證明策略的集合也包含了比基礎(chǔ)策略更差的策略。

為了預(yù)測(cè)這些證明策略的優(yōu)勢(shì),研究人員訓(xùn)練了密集的驗(yàn)證器,即過(guò)程優(yōu)勢(shì)驗(yàn)證器(PAV,process advantage verifiers),加速了RL和搜索的樣本和計(jì)算效率;文中為訓(xùn)練PAV規(guī)定了實(shí)際的工作流程,并在一系列2B、9B和27B Gemma2模型上展示了有效性。

圖片

通過(guò)從證明策略中采樣「種子」解決方案軌跡,以估計(jì)種子軌跡的每個(gè)前綴的??值,并從同一策略中進(jìn)行部分滾動(dòng)(partial rollouts)來(lái)收集PAV訓(xùn)練數(shù)據(jù),工作流程規(guī)定了種子和部分滾動(dòng)的有利比例。

實(shí)證結(jié)果顯示,對(duì)于相同的測(cè)試時(shí)計(jì)算預(yù)算,針對(duì)訓(xùn)練有素的PAV的beam search在準(zhǔn)確性上比針對(duì)ORM重新排序完整軌跡高出>8%,計(jì)算效率提高了1.5-5倍。

圖片

PAV的密集獎(jiǎng)勵(lì)通過(guò)積極修剪解決方案的組合空間,并專(zhuān)注于多樣化的可能序列集,提高了搜索期間步驟級(jí)探索的效率。

此外,文中首次展示了使用PAV作為強(qiáng)化學(xué)習(xí)中的密集獎(jiǎng)勵(lì),與僅使用結(jié)果獎(jiǎng)勵(lì)相比,數(shù)據(jù)效率提高了6倍;使用PAV訓(xùn)練的基礎(chǔ)策略也實(shí)現(xiàn)了8倍更好的Pass @??性能(在??次嘗試中采樣正確解決方案的概率),從而為任何測(cè)試時(shí)重新排序器的性能提供了更高的上限。

最后,使用PAV進(jìn)行強(qiáng)化學(xué)習(xí),可以發(fā)現(xiàn)SFT策略在非常大的預(yù)算下也無(wú)法應(yīng)對(duì)的難題解決方案。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-08-02 13:14:51

2023-10-14 17:24:49

2024-12-09 12:10:07

2025-05-30 02:00:00

獎(jiǎng)勵(lì)模型RRMAI

2023-12-01 10:20:00

谷歌技術(shù)

2016-03-17 11:44:34

漏洞掃描全自動(dòng)安全漏洞掃描器

2018-11-14 10:01:30

谷歌開(kāi)源機(jī)器學(xué)習(xí)

2023-03-03 18:31:23

網(wǎng)絡(luò)承運(yùn)商路由

2021-05-23 09:51:29

代碼開(kāi)發(fā)Facebook

2023-10-14 13:09:53

谷歌模型

2021-12-20 16:17:35

數(shù)據(jù)模型技術(shù)

2024-03-01 13:31:21

2023-10-19 08:30:56

模型搜索

2009-03-04 08:08:54

谷歌高管花紅獎(jiǎng)勵(lì)

2023-05-10 09:47:01

模型開(kāi)源

2019-01-03 09:04:04

谷歌系統(tǒng)機(jī)器

2022-04-13 10:31:04

微軟Jigsaw大型語(yǔ)言模型

2025-05-21 13:56:37

模型圖像AI

2023-10-26 08:40:15

模型隱私推理

2019-11-20 15:01:55

開(kāi)源技術(shù) 趨勢(shì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)