偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="evg9r"></u>

<tt id="evg9r"><mark id="evg9r"></mark></tt>
<form id="evg9r"><strong id="evg9r"><sup id="evg9r"></sup></strong></form>

<p id="evg9r"><li id="evg9r"></li></p>

^{<blockquote id="evg9r"></blockquote>}

<blockquote id="evg9r"><p id="evg9r"><th id="evg9r"></th></p></blockquote><p id="evg9r"><li id="evg9r"><sup id="evg9r"></sup></li></p>

<tfoot id="evg9r"></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！

快手技術(shù)

發(fā)布于 2025-5-14 19:53

瀏覽

0收藏

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)模型（MRMs）在提升多模態(tài)大語言模型（MLLMs）的表現(xiàn)中起著至關(guān)重要的作用，在訓(xùn)練階段可以提供穩(wěn)定的 reward，評(píng)估階段可以選擇更好的 sample 結(jié)果，甚至單獨(dú)作為 evaluator。盡管近期強(qiáng)化學(xué)習(xí)（RL）在傳統(tǒng)視覺任務(wù)和多模態(tài)推理任務(wù)中取得了顯著進(jìn)展，但其在獎(jiǎng)勵(lì)建模中的應(yīng)用仍然受到挑戰(zhàn)，尤其是如何通過強(qiáng)化學(xué)習(xí)對(duì)獎(jiǎng)勵(lì)模型引入長(zhǎng)期推理能力。

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

快手、中科院、清華、南大的研究團(tuán)隊(duì)發(fā)現(xiàn)，直接把現(xiàn)有的 RL 算法（比如 Reinforce++）用到訓(xùn)練 MRM 上，會(huì)遇到很多問題，比如訓(xùn)練過程很不穩(wěn)定，甚至直接崩掉。本文的出發(fā)點(diǎn)就是要解決這些問題，探索如何利用強(qiáng)化學(xué)習(xí)來穩(wěn)定、有效地提升多模態(tài)獎(jiǎng)勵(lì)模型的長(zhǎng)時(shí)推理能力?；趫F(tuán)隊(duì)在多模態(tài)強(qiáng)化學(xué)習(xí)的工作 MM-RLHF (ICML 2025)，本文進(jìn)一步提出了 R1-Reward，在現(xiàn)有的多模態(tài)獎(jiǎng)勵(lì)模型 benchmark 上相比于 SOTA 模型有 5%-15%的提升，且隨著 inference sampleing 的數(shù)目增多還能進(jìn)一步增長(zhǎng)。

R1-Reward 不僅在學(xué)術(shù)上展現(xiàn)了巨大價(jià)值，還在快手的實(shí)際業(yè)務(wù)場(chǎng)景中得到了成功應(yīng)用。例如，在短視頻、電商和直播等場(chǎng)景中，該方法已用于標(biāo)簽識(shí)別、多圖/多視頻相關(guān)性判斷以及短視頻推薦，并取得了顯著的性能提升，展示了較強(qiáng)的工業(yè)化潛力。

[?? arXiv Paper]：??https://arxiv.org/abs/2505.02835??

[?? Training Code]：??https://github.com/yfzhang114/r1_reward??

[?? R1-Reward Model]：??https://huggingface.co/yifanzhang114/R1-Reward??

「一分鐘速看全文內(nèi)容」

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

1. 重新定義問題：將訓(xùn)練獎(jiǎng)勵(lì)模型這個(gè)問題，看成是一個(gè)基于規(guī)則的強(qiáng)化學(xué)習(xí)任務(wù)。簡(jiǎn)單說，就是給獎(jiǎng)勵(lì)模型一個(gè)問題和兩個(gè)答案，讓它通過學(xué)習(xí)來判斷哪個(gè)答案更好，并且能給出合理的分析。

2. 提出新算法 StableReinforce：針對(duì)現(xiàn)有 RL 算法的不足，提出一個(gè)改進(jìn)版的算法叫 StableReinforce。這個(gè)算法主要在幾個(gè)方面做了優(yōu)化：

改進(jìn)了損失函數(shù)里的裁剪操作，提出 Pre-Clip，防止數(shù)值計(jì)算不穩(wěn)定。
提出了一種更穩(wěn)健的優(yōu)勢(shì)值（advantage）處理方法（叫做優(yōu)勢(shì)過濾器 Advantage Filter），不容易被極端值帶偏。
設(shè)計(jì)了一個(gè)新穎的“一致性獎(jiǎng)勵(lì)” (Consistency Reward)。它引入了另一個(gè)大模型作為“裁判”，專門檢查獎(jiǎng)勵(lì)模型自己的分析過程和它最終給出的答案是不是一致的。如果一致，就給獎(jiǎng)勵(lì)，這樣能促使模型做出更符合邏輯的判斷。

3. 漸進(jìn)式的訓(xùn)練策略：

團(tuán)隊(duì)從各種公開數(shù)據(jù)集中收集了 20 萬條偏好數(shù)據(jù)，構(gòu)建了一個(gè)名為 R1-Reward-200k 的數(shù)據(jù)集用于訓(xùn)練。
采用了一種 “漸進(jìn)式難度” 的訓(xùn)練策略。因?yàn)橹苯佑?RL 訓(xùn)練模型效果不好（冷啟動(dòng)問題），團(tuán)隊(duì)先用 GPT-4o 對(duì)這些數(shù)據(jù)生成了詳細(xì)的思考過程，作為監(jiān)督微調(diào)（SFT）的數(shù)據(jù)，讓模型先“入門”。同時(shí)記錄了 GPT-4o 判斷每個(gè)樣本的難度（需要嘗試幾次才能判斷對(duì)）。
在后續(xù)的強(qiáng)化學(xué)習(xí)階段，專門挑選那些 GPT-4o 都覺得比較難（需要嘗試多次或者干脆判斷錯(cuò)誤）的樣本進(jìn)行訓(xùn)練，讓模型在難題上得到鍛煉。

4. 效果顯著：

實(shí)驗(yàn)結(jié)果表明，這個(gè) R1-Reward 模型在幾個(gè)主流的多模態(tài)獎(jiǎng)勵(lì)模型測(cè)評(píng)基準(zhǔn)（如 VL Reward-Bench, Multimodal Reward Bench）上表現(xiàn)非常出色，顯著超過了之前的最佳模型 (SOTA)。比如在一個(gè)榜單上提升了 8.4%，在另一個(gè)榜單上提升了 14.3%。
更有趣的是，團(tuán)隊(duì)發(fā)現(xiàn)通過在推理時(shí)多做幾次計(jì)算（比如采樣 5 次或 15 次，然后投票選最多的答案），R1-Reward 的性能還能進(jìn)一步大幅提升，這說明 RL 方法在優(yōu)化獎(jiǎng)勵(lì)模型方面潛力巨大。
團(tuán)隊(duì)還觀察到，經(jīng)過 StableReinforce 的 RL 訓(xùn)練后，模型輸出的平均長(zhǎng)度減少了大約 15%，這意味著模型可能變得更有效率了。

一、現(xiàn)有強(qiáng)化學(xué)習(xí)方法的局限性

什么是獎(jiǎng)勵(lì)模型

首先得知道，獎(jiǎng)勵(lì)模型（Reward Model）是干嘛的。簡(jiǎn)單說，它就是用來判斷兩個(gè)模型的回答，哪一個(gè)更符合人類喜好。

具體的優(yōu)化公式大概是這樣：

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

這里的 r(y|x) 就是模型打的分?jǐn)?shù)，σ 是個(gè) sigmoid 函數(shù)，E 表示求期望（平均）。意思就是，模型要盡量讓好答案的分比壞答案的分高，差距越大越好，然后通過 log 和 sigmoid 函數(shù)來計(jì)算損失。

PPO 和 Reinforce++算法簡(jiǎn)介

PPO (Proximal Policy Optimization)

PPO 是一種很常用的強(qiáng)化學(xué)習(xí)算法，屬于策略梯度方法，目標(biāo)是直接優(yōu)化模型（策略）來獲得最大的累積獎(jiǎng)勵(lì)。它的厲害之處在于，它不像傳統(tǒng)的策略梯度方法那樣容易因?yàn)椴阶舆~太大而導(dǎo)致訓(xùn)練不穩(wěn)定。PPO 通過一種特殊的方式來限制每次策略更新的幅度。

它的目標(biāo)函數(shù)為：

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

這個(gè)公式的核心思想在于 min 和 clip 操作。它確保了就算 ratio * A_t （標(biāo)準(zhǔn)的策略梯度目標(biāo)）很大，也會(huì)被 clip 后的項(xiàng)限制住，防止策略更新過猛導(dǎo)致訓(xùn)練不穩(wěn)定。PPO 因?yàn)閷?shí)現(xiàn)簡(jiǎn)單、效果好，所以在很多地方（比如機(jī)器人控制、玩游戲）都用得很廣。

Reinforc++

Reinforce++ 是在 PPO 基礎(chǔ)上做了一些優(yōu)化的版本，目的是讓訓(xùn)練更穩(wěn)定、更高效。主要改進(jìn)有：

1、在 reward 中增加了 KL 散度懲罰：在獎(jiǎng)勵(lì)函數(shù)里加入了一項(xiàng)用來懲罰強(qiáng)化學(xué)習(xí)模型（RL model）和監(jiān)督微調(diào)模型（SFT model）在每個(gè)詞（token）上的輸出概率分布差異過大。獎(jiǎng)勵(lì)函數(shù)變成了：

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

這里表示只有在生成結(jié)束符時(shí)才加上原始的任務(wù)獎(jiǎng)勵(lì)r( x, y)，β K L( t)是那個(gè) KL 懲罰項(xiàng)。

2、獎(jiǎng)勵(lì)和優(yōu)勢(shì)的歸一化：它會(huì)對(duì)整個(gè)批次（batch）的獎(jiǎng)勵(lì)進(jìn)行歸一化、裁剪和縮放，還對(duì)優(yōu)勢(shì)值 A 進(jìn)行歸一化：

（減去均值μ A?，再除以標(biāo)準(zhǔn)差σ A?）。

在很多研究中 Reinforce++ 比 GRPO 更穩(wěn)定，比 PPO 收斂更快。

?

PPO 和 Reinforce++的問題在哪？

雖然 PPO 和 Reinforce++ 不錯(cuò)，但在實(shí)際訓(xùn)練中，尤其是在訓(xùn)練獎(jiǎng)勵(lì)模型的時(shí)候，研究者們發(fā)現(xiàn)它們有兩個(gè)核心問題，很容易讓模型訓(xùn)練不穩(wěn)定甚至失敗：

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

1. 訓(xùn)練損失導(dǎo)致的不穩(wěn)定：

計(jì)算 PPO 損失時(shí)，需要算概率比值 ratio。如果新舊策略差別很大，這個(gè) ratio 可能會(huì)變得非常大或非常小。
在代碼實(shí)現(xiàn)里（比如用 PyTorch），通常是算 ratio = torch.exp(log_probs - old_log_probs)。如果 log_probs - old_log_probs 這個(gè)差值很大，exp() 運(yùn)算可能會(huì)導(dǎo)致數(shù)值溢出，直接讓程序崩潰。
就算沒崩潰，如果算出來的 ratio 很大，并且優(yōu)勢(shì)是負(fù)的（表示這個(gè)動(dòng)作不好），那么根據(jù) PPO 的損失公式，這個(gè)損失值可能會(huì)變得異常大。這么大的損失會(huì)讓模型的參數(shù)更新變得極其不穩(wěn)定。

2. 優(yōu)勢(shì)歸一化導(dǎo)致的不穩(wěn)定：

獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)標(biāo)簽通常很簡(jiǎn)單，比如就兩個(gè)標(biāo)簽：1 和 2（1 好還是 2 更好）。模型比較容易學(xué)會(huì)區(qū)分。
這就導(dǎo)致在訓(xùn)練后期，一個(gè)批次（batch）里的數(shù)據(jù)，模型可能大部分都能預(yù)測(cè)對(duì)。比如一個(gè) batch 里有 255 個(gè)樣本的真實(shí)獎(jiǎng)勵(lì)是 1，只有 1 個(gè)是 0。
在這種情況下，獎(jiǎng)勵(lì)的方差會(huì)非常小。如果這時(shí)候還用標(biāo)準(zhǔn)的優(yōu)勢(shì)歸一化方法（減均值除以標(biāo)準(zhǔn)差），那個(gè)獎(jiǎng)勵(lì)為 0 的樣本對(duì)應(yīng)的優(yōu)勢(shì)值，在歸一化之后可能會(huì)變成一個(gè)絕對(duì)值非常大的數(shù)（例子中是 -15.96）。
這么大的優(yōu)勢(shì)值同樣會(huì)干擾模型的更新，導(dǎo)致訓(xùn)練不穩(wěn)定。

總的來說，就是直接把 PPO 或者 Reinforce++ 用在獎(jiǎng)勵(lì)模型訓(xùn)練上，會(huì)因?yàn)閾p失計(jì)算和優(yōu)勢(shì)歸一化這兩個(gè)環(huán)節(jié)內(nèi)在的問題，在高效率訓(xùn)練或者訓(xùn)練后期特定數(shù)據(jù)分布下，引發(fā)數(shù)值不穩(wěn)定，最終影響模型效果。

二、StableReinforce 提升訓(xùn)練穩(wěn)定性

Pre-CLP 策略

為了減小大比例差異的影響，Pre-CLIP 策略會(huì)在計(jì)算對(duì)數(shù)概率的指數(shù)值之前對(duì)比例進(jìn)行裁剪。通過在應(yīng)用指數(shù)函數(shù)前裁剪 log-πθ/πθold 的比例，可以避免由于比例差異過大而導(dǎo)致的溢出問題，并緩解負(fù)優(yōu)勢(shì)情況下的大對(duì)數(shù)差異。裁剪后的公式為：

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

其中和分別為允許的最小和最大比例限制（上面的偽代碼會(huì)更清晰一些（algorithm 1））。

Advantage Filter 策略

為了避免由于優(yōu)勢(shì)分布的極端不平衡對(duì)訓(xùn)練帶來的影響，文章采用了 3-sigma 規(guī)則（即保留標(biāo)準(zhǔn)化優(yōu)勢(shì)在范圍內(nèi)的樣本）。公式為：

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

標(biāo)準(zhǔn)化后的優(yōu)勢(shì)通過公式計(jì)算，其中μ A?和σ A?分別為優(yōu)勢(shì)分布的均值和標(biāo)準(zhǔn)差。

結(jié)合了 Pre-CLIP 和優(yōu)勢(shì)過濾器，最終用來優(yōu)化的目標(biāo)函數(shù)長(zhǎng)得有點(diǎn)像常用的 PPO 算法的目標(biāo)函數(shù)，但有所修改：

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

三、R1-Reward

將 MRM 轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)問題

首先使用下面的 prompt，將獎(jiǎng)勵(lì)建模問題轉(zhuǎn)化為 rule-based 的強(qiáng)化學(xué)習(xí)問題。

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

近期 follow deepseek-r1 工作的方法基本上都是格式獎(jiǎng)勵(lì)+結(jié)果獎(jiǎng)勵(lì)，但是在獎(jiǎng)勵(lì)模型訓(xùn)練過程中，這存在著一致性問題：即只用上面兩個(gè)獎(jiǎng)勵(lì)時(shí)，模型有時(shí)會(huì)“精神分裂”：分析部分（<analysis>）明明說回答 2 更好，但最后卻輸出 <answer>1</answer>。因此本文引入了一個(gè)額外的“裁判”模型（文中用了 Qwen2.5-VL-7B-Instruct）。這個(gè)裁判專門負(fù)責(zé)檢查獎(jiǎng)勵(lì)模型自己輸出的分析內(nèi)容，看它是不是真的支持最終給出的那個(gè)答案。

1. 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)：文章提出了三種獎(jiǎng)勵(lì)函數(shù)：

格式獎(jiǎng)勵(lì)：要求模型的輸出符合指定的格式，即‘<think> </think><answer> </answer> ’，鼓勵(lì)模型在給出最終答案之前先進(jìn)行推理，以提高內(nèi)容的質(zhì)量和可解釋性。
結(jié)果獎(jiǎng)勵(lì)：模型最終生成的答案必須與人類專家的偏好一致。
一致性獎(jiǎng)勵(lì)：確保推理過程與最終答案一致，即模型的最終結(jié)果應(yīng)當(dāng)直接源自其推理過程，而不是與推理步驟無關(guān)的生成內(nèi)容。

2. 最終獎(jiǎng)勵(lì)計(jì)算：為了解決可能出現(xiàn)的一致性獎(jiǎng)勵(lì)過度偏重的問題，最終的獎(jiǎng)勵(lì)計(jì)算公式為：

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

這樣的設(shè)計(jì)好在 Consistency Reward 的加成效果（乘以 0.5 再加 1）只有在 Result Reward 大于 0（也就是答案選對(duì)）的時(shí)候才能真正起作用。如果答案選錯(cuò)了，Result Reward 通常是 0 或者負(fù)數(shù)，那么一致性獎(jiǎng)勵(lì)就不會(huì)帶來正向激勵(lì)（或者激勵(lì)很?。瑥亩_保模型首要目標(biāo)還是把答案選對(duì)。格式獎(jiǎng)勵(lì)作為一個(gè)基礎(chǔ)分被加上去.

"長(zhǎng)思考鏈”的冷啟動(dòng)問題（Long-CoT Cold Start）

多模態(tài)大模型（MLLMs）本身并不是為做獎(jiǎng)勵(lì)模型這種“評(píng)價(jià)比較”任務(wù)而設(shè)計(jì)的，所以直接用強(qiáng)化學(xué)習(xí)去訓(xùn)練它們，效果通常很差而且不穩(wěn)定，因此本文先進(jìn)行了一輪監(jiān)督微調(diào)。

做法：讓 GPT-4o 對(duì) R1-Reward-200k 數(shù)據(jù)集里的每一條數(shù)據(jù)，都按照 Table 1 里的提示模板，生成標(biāo)準(zhǔn)的“分析過程”和“最終答案”。生成時(shí)設(shè)置 temperature=1（讓輸出更發(fā)散），并且最多嘗試 3 次，直到生成的答案和真實(shí)標(biāo)簽一致。

記錄難度：同時(shí)，他們還記錄了 GPT-4o 需要嘗試幾次才能生成正確答案，把這個(gè)次數(shù)作為樣本“難度”的指標(biāo)。

目的：這個(gè) SFT 階段就像是給模型“預(yù)習(xí)”。通過模仿 GPT-4o 的輸出，先讓模型學(xué)會(huì)任務(wù)的基本格式和流程，熟悉這個(gè)獎(jiǎng)勵(lì)建模任務(wù)應(yīng)該怎么做。

強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練數(shù)據(jù)的篩選

篩選標(biāo)準(zhǔn)：在進(jìn)行真正的強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)，并不是用 SFT 階段的所有數(shù)據(jù)。研究人員專門挑選了那些被認(rèn)為是“更難”的樣本。

具體來源：

在 SFT 階段，哪些 GPT-4o 需要嘗試 2 次或 3 次才能給出正確答案的樣本。
以及哪些 GPT-4o 嘗試了 3 次仍然沒能給出正確答案的樣本。

研究人員認(rèn)為，這些樣本通常意味著兩個(gè)回答之間的差別更小，更難判斷優(yōu)劣。用這些“硬骨頭”來訓(xùn)練模型進(jìn)行強(qiáng)化學(xué)習(xí)，可以更有效地提升模型辨別細(xì)微差異的能力。

四、有趣的實(shí)驗(yàn)發(fā)現(xiàn)

研究人員通過一系列實(shí)驗(yàn)來驗(yàn)證他們提出的 R1-Reward 模型和 StableReinforce 算法的效果，得到了一些挺有意思的結(jié)果：

R1-Reward 效果拔群

在好幾個(gè)主流的多模態(tài)獎(jiǎng)勵(lì)模型排行榜（比如 VLReward Bench, Multimodal Reward Bench, MM-RLHF-Reward Bench）上，R1-Reward 的表現(xiàn)都非常亮眼，平均準(zhǔn)確率顯著超過了之前最好的開源模型（比如 IXC-2.5-Reward）。

?

Test-Time Scaling

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

他們嘗試在評(píng)價(jià)的時(shí)候，讓 R1-Reward 模型對(duì)同一個(gè)問題輸出好幾個(gè)判斷結(jié)果（比如輸出 5 次或 15 次），然后采取少數(shù)服從多數(shù)（投票）的方式來決定最終哪個(gè)答案更好。

結(jié)果發(fā)現(xiàn)，這種簡(jiǎn)單的“投票”策略能大幅提升 R1-Reward 的準(zhǔn)確率。比如在 MM-RLHF 這個(gè)比較難的榜單上，投票 5 次就能把準(zhǔn)確率從大約 71% 提升到 85.3%，投票 15 次更是達(dá)到 86.47%，遠(yuǎn)超其他模型。

更有意思的是，他們還試了另一種策略叫 “Any Correct”，就是只要模型輸出的 K 次結(jié)果里有一次是正確的，就算對(duì)。結(jié)果發(fā)現(xiàn)，當(dāng) K=15 時(shí)，這種策略的準(zhǔn)確率幾乎接近 100%！這暗示 R1-Reward 其實(shí)有潛力完美區(qū)分所有樣本，只是需要更多的數(shù)據(jù)或更好的訓(xùn)練策略來完全激發(fā)出來。

aha Moment

破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎(jiǎng)勵(lì)模型 R1-Reward！-AI.x社區(qū)

通過 SFT 和 RL 訓(xùn)練，R1-Reward 不僅學(xué)會(huì)了如何評(píng)價(jià)兩個(gè)回答，還自主地學(xué)習(xí)到了一套分析流程：先明確目標(biāo)、分析圖像、嘗試解決問題、給出答案，然后基于這個(gè)過程去評(píng)價(jià)兩個(gè)外部給定的回答。

更有趣的是，模型展示出了類似人類的反思和糾錯(cuò)能力。比如在上圖中，模型自己計(jì)算時(shí)出錯(cuò)了，但在檢查圖表后，意識(shí)到了錯(cuò)誤并重新計(jì)算得到了正確結(jié)果。這說明模型不僅僅是在模仿，還在學(xué)習(xí)某種程度的自我檢查和修正機(jī)制。

經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后，模型輸出的分析內(nèi)容的平均長(zhǎng)度還減少了約 15%，說明模型可能變得更“言簡(jiǎn)意賅”，推理效率提高了。

五、結(jié)論

本文介紹了 R1-Reward，這是一種使用 StableReinforce 算法訓(xùn)練的多模態(tài)獎(jiǎng)勵(lì)模型（MRM）。通過實(shí)驗(yàn)，本文證明了強(qiáng)化學(xué)習(xí)（RL）在獎(jiǎng)勵(lì)建模中的有效應(yīng)用，顯著提升了模型的表現(xiàn)。R1-Reward 解決了多個(gè)關(guān)鍵問題，包括訓(xùn)練不穩(wěn)定、優(yōu)勢(shì)歸一化限制以及推理和結(jié)果之間的不一致性。通過引入 Pre-Clipping、優(yōu)勢(shì)過濾、一致性獎(jiǎng)勵(lì)以及漸進(jìn)式訓(xùn)練策略，StableReinforce 算法有效穩(wěn)定了訓(xùn)練過程并提升了模型性能。

實(shí)驗(yàn)結(jié)果表明，R1-Reward 在多個(gè)多模態(tài)獎(jiǎng)勵(lì)模型基準(zhǔn)上超越了現(xiàn)有最先進(jìn)的模型（SOTA），在準(zhǔn)確率和數(shù)據(jù)效率方面取得了顯著進(jìn)展。此外，R1-Reward 還展示了優(yōu)秀的推理時(shí)擴(kuò)展能力，為未來將強(qiáng)化學(xué)習(xí)融入多模態(tài)獎(jiǎng)勵(lì)模型（MRM）的研究奠定了基礎(chǔ)。

展望未來，RL 在獎(jiǎng)勵(lì)建模中的應(yīng)用仍有許多值得探索的方向。例如，本文僅測(cè)試了簡(jiǎn)單的多數(shù)投票策略用于推理時(shí)擴(kuò)展，未來可能通過更先進(jìn)的方法進(jìn)一步提升性能。此外，改進(jìn)訓(xùn)練策略以進(jìn)一步增強(qiáng)獎(jiǎng)勵(lì)模型的基礎(chǔ)能力，也是一個(gè)有意義的開放性問題。

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)？！中科院等：8項(xiàng)測(cè)試第一，遠(yuǎn)超知乎豆瓣小紅書

Crystalcxt ? 4239瀏覽 ? 0回復(fù)
極佳、中科院等9機(jī)構(gòu)聯(lián)合首發(fā) | 3萬字長(zhǎng)文全面解析世界模型(內(nèi)容生成/自動(dòng)駕駛等)

angel ? 6301瀏覽 ? 0回復(fù)
全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院

Crystalcxt ? 2985瀏覽 ? 0回復(fù)
考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架

Crystalcxt ? 2780瀏覽 ? 0回復(fù)
中科大聯(lián)合華為諾亞提出Entropy Law，揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系

輕薄滴假象 ? 2909瀏覽 ? 0回復(fù)
中科大提出UniMEL框架 | 革新知識(shí)圖譜，引領(lǐng)多模態(tài)實(shí)體鏈接新紀(jì)元

AI論文解讀 ? 4677瀏覽 ? 0回復(fù)
破解AI多模態(tài)理解難題：浙江大學(xué)與字節(jié)跳動(dòng)聯(lián)手推出Molecule-Space新方法

AI論文解讀 ? 3037瀏覽 ? 0回復(fù)
斯坦福大學(xué)研究團(tuán)隊(duì)破解小規(guī)模語料庫知識(shí)獲取難題，提出創(chuàng)新的合成持續(xù)預(yù)訓(xùn)練方法

AI論文解讀 ? 4143瀏覽 ? 0回復(fù)
清華大學(xué)提出1-Bit FQT：將全量化訓(xùn)練極限推到極致,訓(xùn)練速度提升5倍！

AI論文解讀 ? 2881瀏覽 ? 0回復(fù)
南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題

海因斯DK ? 3346瀏覽 ? 0回復(fù)
codebook從崩潰到高效利用！南大&清華&騰訊聯(lián)合打造IBQ：自回歸生成最強(qiáng)視覺分詞器

angel ? 3594瀏覽 ? 0回復(fù)
南大聯(lián)合中移動(dòng)發(fā)布高效多模態(tài)大模型新范式—— p-MoD

angel ? 2409瀏覽 ? 0回復(fù)
RAG圈的DeepSeek，中科院DeepRAG讓大模型帶著“思考”檢索，性能提升21.99%

PaperAgent ? 3699瀏覽 ? 0回復(fù)
8卡32B模型超越o1預(yù)覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式

輕薄滴假象 ? 2226瀏覽 ? 0回復(fù)
中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理

Aceryt ? 1925瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎(jiǎng)勵(lì)模型；將獎(jiǎng)勵(lì)模型多模態(tài)情緒識(shí)別上

AI研究前瞻 ? 2273瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 2429瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語言處理 ? 2516瀏覽 ? 0回復(fù)
深度強(qiáng)化學(xué)習(xí)賦能城市消防優(yōu)化，中科院團(tuán)隊(duì)提出DRL新方法破解設(shè)施配置難題

HyperAI超神經(jīng) ? 1203瀏覽 ? 0回復(fù)

快手技術(shù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：行業(yè)首創(chuàng)！快手開源短視頻內(nèi)容質(zhì)量評(píng)測(cè)標(biāo)準(zhǔn)KuaiMod！

下一篇： SIGGRAPH 2025 | 快手可靈團(tuán)隊(duì)提出3D感知的電影級(jí)文本到視頻生成框架CineMaster

社區(qū)精華內(nèi)容

目錄

<blockquote id="xflnt"></blockquote>

<p id="xflnt"><rp id="xflnt"></rp></p>

<p id="xflnt"><li id="xflnt"></li></p>