偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

均值至上假繁榮!北大新作專挑難題,逼出AI模型真本事

人工智能 新聞
大模型后訓(xùn)練的痛點(diǎn):均值優(yōu)化忽略低概率高信息路徑,導(dǎo)致推理能力停滯。RiskPO雙管齊下,MVaR目標(biāo)函數(shù)推導(dǎo)梯度估計(jì),多問題捆綁轉(zhuǎn)化反饋,實(shí)驗(yàn)中Geo3K準(zhǔn)確率54.5%,LiveCodeBench Pass@1提升1%,泛化能力強(qiáng)悍。

當(dāng)強(qiáng)化學(xué)習(xí)(RL)成為大模型后訓(xùn)練的核心工具,「帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)」憑借客觀的二元反饋(如解題對(duì)錯(cuò)),迅速成為提升推理能力的主流范式。

從數(shù)學(xué)解題到代碼生成,RLVR本應(yīng)推動(dòng)模型突破「已知答案采樣」的局限,真正掌握深度推理邏輯——

但現(xiàn)實(shí)是,以GRPO為代表的主流方法正陷入「均值優(yōu)化陷阱」。

這些基于均值的優(yōu)化策略,過度聚焦高概率輸出序列,卻忽略了「低概率但高信息密度」的推理路徑:

模型訓(xùn)練早期就會(huì)出現(xiàn)熵坍縮,過早喪失探索能力;

面對(duì)全錯(cuò)的難題時(shí),優(yōu)勢(shì)函數(shù)直接歸零,模型在薄弱環(huán)節(jié)完全無法學(xué)習(xí)。

最終結(jié)果是,大模型看似在Pass@1等短視指標(biāo)上有提升,實(shí)則推理邊界從未拓寬,更無法應(yīng)對(duì)AIME競賽題、復(fù)雜代碼生成這類高難度任務(wù)。

如何讓模型主動(dòng)「啃硬骨頭」,成為大模型后訓(xùn)練的關(guān)鍵瓶頸。

AIME2024上的學(xué)習(xí)表現(xiàn)

用「風(fēng)險(xiǎn)度量」破局,MVaR+捆綁策略雙管齊下

為解決傳統(tǒng)均值優(yōu)化的缺陷,北大團(tuán)隊(duì)提出的RiskPO,核心突破在于將風(fēng)險(xiǎn)規(guī)避(risk-averse)理念融入優(yōu)化目標(biāo),用「關(guān)注獎(jiǎng)勵(lì)分布左尾(難任務(wù))」替代「追求整體均值」,從根本上引導(dǎo)模型突破推理短板。

論文鏈接:https://arxiv.org/abs/2510.00911v1

代碼鏈接:https://github.com/RTkenny/RiskPO

單位:由北京大學(xué)彭一杰教授課題組完成

作者:第一作者為任韜,共一作者為江金陽,其他作者包括楊暉等。

這一思路的核心載體是「混合風(fēng)險(xiǎn)價(jià)值(MVaR)」目標(biāo)函數(shù)。

團(tuán)隊(duì)首先基于區(qū)間風(fēng)險(xiǎn)價(jià)值(RVaR)構(gòu)建基礎(chǔ)——對(duì)于獎(jiǎng)勵(lì)分布,其α/β分位數(shù)區(qū)間內(nèi)的RVaR定義為該區(qū)間內(nèi)獎(jiǎng)勵(lì)的條件期望,公式為:

在此基礎(chǔ)上,MVaR通過引入權(quán)重參數(shù),進(jìn)一步放大左尾(低獎(jiǎng)勵(lì)、難任務(wù))的梯度信號(hào),形成最終目標(biāo):

其中即為對(duì)左尾區(qū)間的額外關(guān)注權(quán)重,確保模型優(yōu)先優(yōu)化難任務(wù)。

為讓該目標(biāo)可落地,團(tuán)隊(duì)還嚴(yán)謹(jǐn)推導(dǎo)了MVaR的梯度估計(jì)式子——基于策略梯度的似然比求導(dǎo)方法,最終得到(式中為捆綁后的總獎(jiǎng)勵(lì)):

為配合MVaR目標(biāo),團(tuán)隊(duì)提出「多問題捆綁」策略,將多個(gè)問題打包成bundle計(jì)算獎(jiǎng)勵(lì),把稀疏的二進(jìn)制反饋轉(zhuǎn)化為更豐富的分布信號(hào),徹底解決「難題零梯度」問題——比如將5個(gè)數(shù)學(xué)題打包后,模型能從整體得分中捕捉到「部分正確」的學(xué)習(xí)信號(hào),而非單個(gè)題目非對(duì)即錯(cuò)的極端反饋。

算法架構(gòu)圖

三大任務(wù)全面碾壓,難問題上優(yōu)勢(shì)更顯著

好的技術(shù)方案,終要靠硬指標(biāo)說話。

北大團(tuán)隊(duì)在數(shù)學(xué)推理、代碼生成、多模態(tài)推理三大領(lǐng)域的10余個(gè)數(shù)據(jù)集上,用數(shù)據(jù)證明了RiskPO的突破性——

尤其在最能體現(xiàn)推理能力的「硬任務(wù)」上,優(yōu)勢(shì)遠(yuǎn)超GRPO及其變體。

在數(shù)學(xué)推理領(lǐng)域,RiskPO在AIME24(美國數(shù)學(xué)邀請(qǐng)賽)任務(wù)上表現(xiàn)驚艷:

Pass@32得分比GRPO高出近7個(gè)百分點(diǎn),比最強(qiáng)基線DAPO提升6.7個(gè)百分點(diǎn);

即便是相對(duì)簡單的MATH500數(shù)據(jù)集,其Pass@1也達(dá)到81.8%,超出GRPO2.6個(gè)百分點(diǎn)。

更關(guān)鍵的是,隨著評(píng)估指標(biāo)從Pass@1轉(zhuǎn)向Pass@8、Pass@16,RiskPO的優(yōu)勢(shì)持續(xù)擴(kuò)大——

這意味著模型不僅能給出更優(yōu)的單條答案,還能探索更多有效推理路徑,真正突破了「采樣效率優(yōu)化」的局限。

數(shù)學(xué)推理任務(wù)

Pass@k學(xué)習(xí)曲線

在跨領(lǐng)域任務(wù)中,RiskPO同樣穩(wěn)定領(lǐng)先:代碼生成任務(wù)LiveCodeBench上,Pass@1比GRPO提升1個(gè)百分點(diǎn);多模態(tài)幾何推理任務(wù)Geo3K上,準(zhǔn)確率達(dá)到54.5%,優(yōu)于DAPO的54.3%。這種「全場(chǎng)景增益」,證明了風(fēng)險(xiǎn)度量優(yōu)化的泛化能力。

其他任務(wù)

熵坍縮緩解有依據(jù)

參數(shù)設(shè)計(jì)有章法

RiskPO的性能突破,并非依賴工程調(diào)參,而是有扎實(shí)的理論支撐和嚴(yán)謹(jǐn)?shù)南趯?shí)驗(yàn)驗(yàn)證。

高熵更新定理:

從理論層面,團(tuán)隊(duì)證明了「風(fēng)險(xiǎn)規(guī)避更新」能有效緩解熵坍縮:通過分析策略熵的變化機(jī)制,發(fā)現(xiàn)RiskPO的MVaR目標(biāo)函數(shù)能降低「優(yōu)勢(shì)-對(duì)數(shù)概率」的相關(guān)性——相比GRPO,模型不會(huì)過度強(qiáng)化已掌握的易任務(wù),從而保持更高的熵值和探索能力。實(shí)驗(yàn)中也能清晰看到:訓(xùn)練500步后,GRPO的熵值已趨近于0,而RiskPO仍能維持0.2以上的熵水平,確保對(duì)難任務(wù)的持續(xù)探索。

訓(xùn)練集DAPOMATH-17k上的各項(xiàng)指標(biāo)

值得注意的是,在訓(xùn)練過程中,若僅觀察以均值為核心的指標(biāo)曲線(如平均獎(jiǎng)勵(lì)),GRPO與RiskPO的表現(xiàn)幾乎難分伯仲,甚至RiskPO因更高的探索性還伴隨輕微波動(dòng);但切換到風(fēng)險(xiǎn)敏感指標(biāo)(如下尾RVaR、MVaR獎(jiǎng)勵(lì))時(shí),兩者差距立刻凸顯——RiskPO的曲線始終保持顯著領(lǐng)先,且隨訓(xùn)練推進(jìn)持續(xù)攀升。

這種「均值相近、風(fēng)險(xiǎn)指標(biāo)懸殊」的現(xiàn)象,再結(jié)合最終測(cè)試集上RiskPO在Pass@k(尤其是高k值)、難任務(wù)(如AIME競賽題)上的優(yōu)勢(shì),進(jìn)一步印證了:均值目標(biāo)只能讓模型在「已知能力范圍內(nèi)優(yōu)化采樣效率」,而風(fēng)險(xiǎn)度量目標(biāo)才是推動(dòng)模型突破推理邊界、真正提升核心能力的理想方向。

不同風(fēng)險(xiǎn)偏好對(duì)比實(shí)驗(yàn)

為進(jìn)一步驗(yàn)證風(fēng)險(xiǎn)規(guī)避目標(biāo)的必要性,團(tuán)隊(duì)還設(shè)計(jì)了「風(fēng)險(xiǎn)尋求(risk-seeking)」對(duì)比實(shí)驗(yàn):采用與MVaR結(jié)構(gòu)對(duì)稱的風(fēng)險(xiǎn)尋求目標(biāo),即

,

重點(diǎn)關(guān)注獎(jiǎng)勵(lì)分布的右尾(易任務(wù))。結(jié)果顯示,風(fēng)險(xiǎn)尋求模型的熵值在訓(xùn)練早期就劇烈坍縮——訓(xùn)練150步后熵值已降至0.1以下,遠(yuǎn)低于RiskPO的0.2;性能上,風(fēng)險(xiǎn)尋求模型在訓(xùn)練50步后便進(jìn)入平臺(tái)期,MATH數(shù)據(jù)集Pass@1僅從52%提升至54%,而RiskPO則持續(xù)優(yōu)化至56%,實(shí)現(xiàn)1.5倍的提升幅度。

這一對(duì)比清晰證明,聚焦易任務(wù)的風(fēng)險(xiǎn)尋求策略會(huì)加速模型「固步自封」,只有風(fēng)險(xiǎn)規(guī)避才能驅(qū)動(dòng)模型突破推理邊界。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2016-09-27 10:59:34

存儲(chǔ)

2019-08-16 01:30:34

AI 數(shù)據(jù)人工智能

2024-12-02 11:45:48

2025-06-16 09:10:00

2019-10-17 08:50:25

人工智能AI

2023-06-16 09:45:36

AI視頻

2020-01-07 14:14:57

AI 數(shù)據(jù)人工智能

2021-12-07 09:46:39

AI 模型人工智能

2014-06-06 09:37:34

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2024-07-26 08:22:41

2021-07-14 17:25:59

AI/網(wǎng)絡(luò)/體驗(yàn)至上

2025-07-22 10:45:55

2023-09-18 15:25:12

昇騰AI

2017-03-22 12:13:36

AI神經(jīng)網(wǎng)絡(luò)模型算法

2025-08-29 16:10:24

2025-01-14 13:59:59

2023-04-10 15:37:18

AI代碼

2024-12-09 07:15:00

世界模型AILLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)