偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

突破通用領(lǐng)域推理的瓶頸！清華NLP實驗室強(qiáng)化學(xué)習(xí)新研究RLPR

2025-06-27 10:10:43

人工智能新聞

清華大學(xué)自然語言處理實驗室提出了一項關(guān)鍵性技術(shù) —— 基于參考概率獎勵的強(qiáng)化學(xué)習(xí)（Reinforcement Learning with Reference Probability Reward，RLPR）。

余天予，清華大學(xué)計算機(jī)系一年級博士生，導(dǎo)師為清華大學(xué)自然語言處理實驗室劉知遠(yuǎn)副教授。研究興趣主要包括高效多模態(tài)大模型、多模態(tài)大模型對齊和強(qiáng)化學(xué)習(xí)，在 CVPR、AAAI等人工智能領(lǐng)域的著名國際會議和期刊發(fā)表多篇學(xué)術(shù)論文，谷歌學(xué)術(shù)引用1000余次。

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表現(xiàn)充分展現(xiàn)了 RLVR（Reinforcement Learning with Verifiable Reward，基于可驗證獎勵的強(qiáng)化學(xué)習(xí)）的巨大潛力。

然而，現(xiàn)有方法的應(yīng)用范圍局限于數(shù)學(xué)和代碼等少數(shù)領(lǐng)域。面對自然語言固有的豐富多樣性，依賴規(guī)則驗證器的方法難以拓展到通用領(lǐng)域上。

針對這一關(guān)鍵挑戰(zhàn)，清華大學(xué)自然語言處理實驗室提出了一項關(guān)鍵性技術(shù) —— 基于參考概率獎勵的強(qiáng)化學(xué)習(xí)（Reinforcement Learning with Reference Probability Reward，RLPR）。

論文標(biāo)題：RLPR: Extrapolating RLVR to General Domains without Verifiers
論文地址：https://github.com/OpenBMB/RLPR/blob/main/RLPR_paper.pdf
GitHub 倉庫：https://github.com/OpenBMB/RLPR

這項技術(shù)通過 Prob-to-Reward 方法顯著提高了概率獎勵（Probability-based Reward, PR）的質(zhì)量，相比基于似然度的基線方法取得了明顯更佳的性能優(yōu)勢和訓(xùn)練穩(wěn)定性。

同時，RLPR 提出基于獎勵標(biāo)準(zhǔn)差的動態(tài)過濾機(jī)制，進(jìn)一步提升強(qiáng)化學(xué)習(xí)的穩(wěn)定性和性能提升。目前 RLPR 相關(guān)代碼、模型、數(shù)據(jù)、論文均已開源。

PR 為何有效？挖掘模型的內(nèi)在評估

研究團(tuán)隊觀察到，大語言模型（LLM）在推理過程中對于參考答案的生成概率直接反映了模型對于本次推理的質(zhì)量評估。也就是說，模型的推理越正確，其生成參考答案的概率通常就越高。

在論文中，研究團(tuán)隊給出了一個具體示例：當(dāng)模型在輸出 o2 中錯誤地把選項 A 排在了第二位時，可以觀察到參考答案在第二個正確選項位置上的生成概率出現(xiàn)了顯著下降。這一現(xiàn)象清晰地表明，PR 能夠精準(zhǔn)捕捉模型對于自身推理質(zhì)量的判斷，并且與模型推理的正確性表現(xiàn)出高度相關(guān)性。

PR 示例，更深的顏色代表更大的輸出概率

RLPR 核心特點

領(lǐng)域無關(guān)的高效獎勵生成

現(xiàn)有 RLVR 方法通常需要投入大量的人力和工程資源，為每個領(lǐng)域編寫特定的驗證規(guī)則，相比之下，RLPR 僅需要簡單的一次前向傳播（forward pass）就可以生成獎勵分?jǐn)?shù)。通過使用參考答案的生成概率均值作為獎勵。這種方法能夠有效地應(yīng)對自然語言固有的復(fù)雜多樣性。

如下圖所示（右側(cè)示例），基于規(guī)則匹配的方式無法識別出 y2 和 y3 和參考答案語義等價，而 RLPR 的 PR 機(jī)制準(zhǔn)確地給予了這兩個答案更高的分?jǐn)?shù)。

RLPR 與現(xiàn)有 RLVR 范式的對比

獎勵糾偏和動態(tài)過濾

基礎(chǔ)的 PR 已經(jīng)呈現(xiàn)出和回答質(zhì)量很高的相關(guān)性，但是仍然受到問題和參考答案風(fēng)格等無關(guān)因素的干擾（即存在偏差）。為此，研究團(tuán)隊提出構(gòu)建一個不包含思維鏈過程（z）的對照獎勵，并通過做差的方式去除無關(guān)因素對于分?jǐn)?shù)的影響，實現(xiàn)獎勵糾偏。

傳統(tǒng)基于準(zhǔn)確率（Accuracy Filtering）的樣本過濾方法難以適用于連續(xù)的 PR 值。RLPR 提出基于獎勵標(biāo)準(zhǔn)差的動態(tài)過濾機(jī)制，保留那些取得較高獎勵標(biāo)準(zhǔn)差的樣本用于訓(xùn)練，有效提升了訓(xùn)練的穩(wěn)定性和效果?？紤]到訓(xùn)練過程中獎勵的標(biāo)準(zhǔn)差會持續(xù)變化，RLPR 進(jìn)一步采用指數(shù)移動平均（EMA）的方式持續(xù)動態(tài)更新過濾閾值。

可靠的獎勵質(zhì)量和框架魯棒性

研究團(tuán)隊通過 ROC-AUC 指標(biāo)定量評估了不同來源獎勵的質(zhì)量。結(jié)果表明，PR 在 0.5B 規(guī)模即取得了顯著優(yōu)于規(guī)則獎勵和驗證器模型獎勵的質(zhì)量。同時，通用領(lǐng)域獎勵質(zhì)量隨著模型能力的增強(qiáng)可以進(jìn)一步提高到 0.91 水平。

PR 獎勵質(zhì)量優(yōu)于規(guī)則獎勵和驗證器模型獎勵

為了驗證框架的魯棒性，研究團(tuán)隊使用多種不同的訓(xùn)練模板結(jié)合 RLPR 訓(xùn)練 Qwen2.5 3B 模型，并觀察到 RLPR 在不同訓(xùn)練模板上都可以取得穩(wěn)定的性能提升。

RLPR 對不同訓(xùn)練模板的魯棒性

研究團(tuán)隊還進(jìn)一步在 Gemma、Llama 等更多系列的基座模型上進(jìn)行實驗，驗證 RLPR 框架對于不同基座模型均可以穩(wěn)定提升模型的推理能力，并超過了使用規(guī)則獎勵的 RLVR 基線。

RLPR 在 Gemma、Llama、Qwen 等不同基座模型上均穩(wěn)定提升推理能力

總結(jié)

RLPR 提出了創(chuàng)新的 Prob-to-Reward 獎勵機(jī)制，解決了現(xiàn)有 RLVR 范式的領(lǐng)域依賴問題。通過在 Gemma、Llama、Qwen 等主流模型系列上的廣泛驗證，RLPR 不僅證明了其卓越的有效性和相對于傳統(tǒng)規(guī)則獎勵的顯著優(yōu)勢，更在推動強(qiáng)化學(xué)習(xí)（RL）向更大規(guī)模（scaling）發(fā)展的道路上，邁出了堅實而有力的一步。

更多研究細(xì)節(jié)，可參考原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="kzqu0"><rp id="kzqu0"></rp></cite>

<sub id="kzqu0"><p id="kzqu0"></p></sub>

^{<blockquote id="kzqu0"></blockquote>}