偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI | Let’s Verify Step by Step詳細(xì)解讀

發(fā)布于 2024-7-12 11:00
瀏覽
0收藏

一、概述

title:Let’s Verify Step by Step

論文地址:https://arxiv.org/abs/2305.20050

代碼:https://github.com/openai/prm800k

1.1 Motivation

  • 近期大模型的出現(xiàn)極大的提升了復(fù)雜問題的多步推理能力,例如可以通過逐步思考(CoT)改善推理任務(wù),但是即使最先進(jìn)的模型也會產(chǎn)生邏輯錯誤。
  • 如何訓(xùn)練一個更好的reward model,來做大模型的alignment對齊研究也是一個具有挑戰(zhàn)的問題。
  • 結(jié)果監(jiān)督(只提供最終的結(jié)果作為監(jiān)督信號)和過程監(jiān)督(提供每一個中間推理結(jié)果的反饋)哪個好,還有待詳細(xì)對比和研究。

1.2 Methods

  1. 實驗步驟和方法:
  • 訓(xùn)練最可靠的reward model:對GPT-4模型進(jìn)行微調(diào),拿到最可靠的ORM和PRM。
  • 生成器:通過GPT-4生成所有候選解決方法,此步GPT-4沒經(jīng)過RL來alignment優(yōu)化。
  • 評價:對生成的結(jié)果進(jìn)行N選1,最終根據(jù)答案來評分。
  • 兩種不同規(guī)模的模型:所有大模型是通過GPT-4微調(diào),沒有經(jīng)過RL訓(xùn)練,小規(guī)模模型和GPT4類似,但是計算量少200倍,模型在15億數(shù)學(xué)相關(guān)的數(shù)據(jù)集MathMix上進(jìn)行了微調(diào)。
  1. 過程反饋數(shù)據(jù)收集方法:

OpenAI | Let’s Verify Step by Step詳細(xì)解讀-AI.x社區(qū)

  • 數(shù)據(jù)收集方案【基礎(chǔ)方案】:對于每一步收集人類反饋結(jié)果
  • 優(yōu)化策略【高價值負(fù)樣本挖掘】:標(biāo)注數(shù)據(jù)的時候,盡可能對更有可能欺騙reward模型的數(shù)據(jù)來進(jìn)行標(biāo)注,如果展示明顯錯誤的解決方案,獲得的反饋價值沒那么大
  • 迭代訓(xùn)練獎勵模型【高價值負(fù)樣本挖掘】:在每次迭代中,對每個問題生成N個解決方案,并僅向數(shù)據(jù)標(biāo)注者展示得分最高的K個具有說服力的錯誤答案解決方案。作者嘗試將此top-K過濾應(yīng)用于問題級別(每個問題K個解決方案)或全局級別(總共K個解決方案,在問題之間不均勻分布)
  1. ORM以及PRM建模方法
  • Outcome-supervised Reward Models (ORMs):直接判斷一個solution最終結(jié)果是正確還是錯誤的【有可能中間推理錯誤,最終結(jié)果正確的現(xiàn)象】。
  • Process-supervised Reward Models (PRMs):在每一步都加入監(jiān)督信號,訓(xùn)練PRMs去預(yù)測每一step是否正確。同時加入了每一步step的標(biāo)記,這樣可以直接在自回歸模型進(jìn)行訓(xùn)練,也方便在遇到結(jié)束位置標(biāo)記時來進(jìn)行監(jiān)督反饋。
  • 如何解決ORM和PRM監(jiān)督信號不對等的問題:在提供過程監(jiān)督時,他們有意選擇只監(jiān)督到第一個錯誤的步驟。這樣做使得結(jié)果監(jiān)督和過程監(jiān)督之間的比較更加簡單明了。對于正確的解決方案,兩種方法提供相同的信息,即每個步驟都是正確的。對于不正確的解決方案,兩種方法都揭示了至少存在一個錯誤,而過程監(jiān)督還揭示了該錯誤的具體位置。如果他們在第一個錯誤之后提供額外的過程監(jiān)督,那么過程監(jiān)督將具有更大的信息優(yōu)勢。這個決策還保持了對人類的標(biāo)注成本相似:在不依賴于易于檢查的最終答案的情況下,確定解決方案的正確性等價于確定其第一個錯誤。

OpenAI | Let’s Verify Step by Step詳細(xì)解讀-AI.x社區(qū)

說明:左邊是正確的slutions,右邊有部分推理是錯誤的,PRM(過程監(jiān)督)正確地指出了錯誤答案中的錯誤

1.3 Conclusion

OpenAI | Let’s Verify Step by Step詳細(xì)解讀-AI.x社區(qū)

  • 過程監(jiān)督比結(jié)果監(jiān)督好很多,在數(shù)學(xué)領(lǐng)域,能極大的提升performance,訓(xùn)練更可靠的reward model,本文訓(xùn)練的過程監(jiān)督模型在MATH子數(shù)據(jù)集解決了78%的問題,消除這一重大進(jìn)入障礙將促進(jìn)對大型語言模型對齊的相關(guān)研究。
  • 主動學(xué)習(xí)(active learning)可以極大提升過程監(jiān)督的效率(data efficiency提升2.6倍)。
  • 放出了PRM800K數(shù)據(jù)集:80萬 step-level人類反饋的標(biāo)簽(本文訓(xùn)練reward model的數(shù)據(jù)集)

二、詳細(xì)內(nèi)容

1 大規(guī)模監(jiān)督學(xué)習(xí)

目的:比較PRM(過程監(jiān)督) vs ORM(結(jié)果監(jiān)督)最佳表現(xiàn)與N(每個問題N個solution的數(shù)量選一個最終的結(jié)果)的關(guān)系

OpenAI | Let’s Verify Step by Step詳細(xì)解讀-AI.x社區(qū)

  • N:每個問題solution的個數(shù)
  • ORM:結(jié)果監(jiān)督,解決72.4%,比投票好一點,說明加上監(jiān)督信號的reward 模型還是有用的。
  • PRM:過程監(jiān)督,解決78.2%的問題,比ORM好不少。
  • Majority Voting:投票,感覺也不錯,需要產(chǎn)生多個結(jié)果來投票,有點類似模型融合。
  • 與N的關(guān)系:隨著N的增大,PRM和ORM的gap越來越大,說明相對于ORM和Majority Voting,PRM能更有效的在眾多答案中找到正確的答案。

2 小規(guī)模合成監(jiān)督學(xué)習(xí)【公平對比ORM和PRM】

背景:由于數(shù)據(jù)集構(gòu)建,監(jiān)督方法的不同,以及結(jié)果評判方法的不同,直接對比ORM和PRM有點不太好比較

原因:(1)ORM和PRM的訓(xùn)練集無法直接進(jìn)行比較:PRM訓(xùn)練集是通過主動學(xué)習(xí)構(gòu)建的,偏向于錯誤答案的解決方案,并且規(guī)模小了一個數(shù)量級。(2)ORM最終答案的評分正確但可能推理過程錯誤帶來評判不公平。(3)收集人工反饋的成本很高,無法輕易地通過人工標(biāo)注者去除這些因素

解決方法:使用大規(guī)模的PRM(PRMlarge)來監(jiān)督較小的模型來進(jìn)行相關(guān)的消融實驗。這個設(shè)置可以以較低的成本模擬大量的數(shù)據(jù)收集。

OpenAI | Let’s Verify Step by Step詳細(xì)解讀-AI.x社區(qū)

  • solution生成:從一個小規(guī)模的生成器中隨機(jī)選取每個問題1到200個解決方案。
  • 三種監(jiān)督方式:相當(dāng)于利用大的PRMlarge來做小模型的PRM或者ORM,控制PRM或者ORM作為變量,監(jiān)督模型PRMlarge保持不變的:

PRM(PRMlarge supervised):利用PRMlarge(即大規(guī)模PRM,以下簡稱PRMlarge)來做過程監(jiān)督

ORM(PRMlarge supervised):利用PRMlarge(即大規(guī)模PRM,以下簡稱PRMlarge)來做結(jié)果監(jiān)督

ORM(final-answer supervised):不看過程,只看最終結(jié)果,相當(dāng)于只拿最終結(jié)果來進(jìn)行監(jiān)督

OpenAI | Let’s Verify Step by Step詳細(xì)解讀-AI.x社區(qū)

  • 結(jié)論:

圖(a)根據(jù)500個最佳選擇來評估每個獎勵模型。我們看到,在所有數(shù)據(jù)收集規(guī)模上,PRM過程監(jiān)督的表現(xiàn)都大大優(yōu)于兩種形式的結(jié)果監(jiān)督(ORM(PRMlarge supervised)和 ORM(final-answer supervised))。

圖(b)通過其在N個不同值中的最佳表現(xiàn)來評估每個系列的最佳獎勵模型。我們看到,使用PRMlarge進(jìn)行結(jié)果監(jiān)督明顯比最終答案檢查更有效。這可以解釋為,PRMlarge為使用不正確的推理得出正確最終答案【結(jié)果正確,推理錯誤】的解決方案提供了更好的監(jiān)督。

3 主動學(xué)習(xí)

  • 背景:主動學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),它可以通過選擇最具價值的樣本來優(yōu)化模型訓(xùn)練過程。
  • 方法步驟:

使用一種小規(guī)模的獎勵模型PRMselector,每個問題評分1000個樣本。

從每個問題選擇N個樣本,其中80%是最令人信服的錯誤答案樣本,20%是剩下的最令人信服的樣本(正確或錯誤答案)

使用PRMlarge對所選樣本進(jìn)行評分并基于這些評分并進(jìn)行訓(xùn)練

  • 結(jié)論:

性能如圖4a所示。通過比較具有和不具有主動學(xué)習(xí)的最佳擬合線的斜率,這種數(shù)據(jù)標(biāo)記方案的性能比均勻數(shù)據(jù)標(biāo)記大約高效2.6倍。

當(dāng)使用最大主動學(xué)習(xí)數(shù)據(jù)集(每個問題200個樣本)訓(xùn)練模型時,結(jié)果略低于預(yù)期的趨勢線,可能是因為200個樣本代表了整體選擇池(1000個樣本)的相當(dāng)大比例,導(dǎo)致相對缺乏多樣性限制了主動學(xué)習(xí)的潛在優(yōu)勢。

4 泛化能力

OpenAI | Let’s Verify Step by Step詳細(xì)解讀-AI.x社區(qū)

OpenAI | Let’s Verify Step by Step詳細(xì)解讀-AI.x社區(qū)

  • 方法:一個包含224個STEM問題的保留集上評估了大規(guī)模ORM和PRM,這些問題來自最近的AP物理學(xué)、AP微積分、AP化學(xué)、AMC10和AMC12考試。這些測試是在預(yù)訓(xùn)練數(shù)據(jù)集編制之后發(fā)布的,因此可以高度確信模型沒有見過這些問題。
  • 結(jié)論:PRM的泛化能力表現(xiàn)優(yōu)于ORM和多數(shù)投票。這向我們表明,PRM可以容忍適度的distribution shift,其強勁的表現(xiàn)在新的測試問題上保持不變。

三、參考文獻(xiàn)

  1. OpenAI最新研究Let's verify step-by-step,過程勝于結(jié)果?。??https://mp.weixin.qq.com/s/bvrJKy8dufRF0KfC90PDMA??
  2. Let's Verify Step by Step:??https://mp.weixin.qq.com/s/6ELuM8gkrp1RP1wE47hi0Q???

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者: 胡翔 

標(biāo)簽
已于2024-7-13 00:32:36修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦