偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型訓(xùn)練新突破!“不對(duì)稱”訓(xùn)練讓AI學(xué)會(huì)自我反思,推理零開銷

人工智能 新聞
在訓(xùn)練時(shí)讓模型對(duì)自己的輸出結(jié)果進(jìn)行反思和評(píng)估,推理時(shí)卻僅輸出答案,將反思能力完全內(nèi)化。

首次實(shí)現(xiàn)“訓(xùn)練-推理不對(duì)稱”,字節(jié)團(tuán)隊(duì)提出全新的語言模型訓(xùn)練方法:Post-Completion Learning (PCL)。

在訓(xùn)練時(shí)讓模型對(duì)自己的輸出結(jié)果進(jìn)行反思和評(píng)估,推理時(shí)卻僅輸出答案,將反思能力完全內(nèi)化。

與目前主流的訓(xùn)練方式相比,這一創(chuàng)新方法不僅實(shí)現(xiàn)了模型能力的顯著提升,更重要的是推理時(shí)完全零額外開銷。

測試結(jié)果顯示,PCL方法在保持推理效率的同時(shí),顯著提升了模型的輸出質(zhì)量和自我評(píng)估能力,為大語言模型訓(xùn)練開辟了全新技術(shù)路徑。

圖片

下面通過實(shí)際的對(duì)話案例,直觀展示PCL的訓(xùn)練和推理效果。例如,對(duì)于如下問題:

小明手里有50塊錢,巧克力7塊錢一顆,小明買了5顆,還剩多少錢?

模型在訓(xùn)練時(shí),會(huì)完整輸出以下內(nèi)容,并通過多目標(biāo)優(yōu)化同時(shí)提升其推理、評(píng)估能力:  

think: 小明買了五顆巧克力,一共花費(fèi) 5*7=35 元;因此,小明還剩下 50-35=15 元。
answer: 15
<post>
evaluation: 讓我重新檢查一下我的回答過程。首先,我的兩步計(jì)算過程:5*7=35,50-35=15 都是準(zhǔn)確的,因此我的最終答案應(yīng)該是正確的,可以獲得 accuracy reward。其次,我的輸出也符合正確的格式,包含了 think + answer 兩部分內(nèi)容,因此也可以獲得 format reward。
reward: {accuracy reward:1, format reward: 1}

在推理時(shí),模型以<post>作為新的結(jié)束符,只需要輸出推理部分的內(nèi)容:

think: 小明買了五顆巧克力,一共花費(fèi) 5*7=35 元;因此,小明還剩下 50-35=15 元。 answer: 15

可以看到,模型在推理時(shí)完全不輸出evaluation部分,從而無需任何額外的推理開銷。而通過在訓(xùn)練時(shí)進(jìn)行自我反思和評(píng)估,模型的實(shí)際能力也得到了提升,這一點(diǎn)在實(shí)驗(yàn)中得到了驗(yàn)證。

方法

1 突破性的“不對(duì)稱訓(xùn)練”范式

傳統(tǒng)語言模型訓(xùn)練存在一個(gè)根本性限制:訓(xùn)練和推理必須完全對(duì)稱。

現(xiàn)有方法通常以結(jié)束符(EOS)作為序列終止點(diǎn),模型的學(xué)習(xí)目標(biāo)也僅限于預(yù)測到結(jié)束符為止的內(nèi)容,形成了“訓(xùn)練什么就輸出什么”的對(duì)稱約束,就像學(xué)生考試時(shí)必須把所有思考過程都寫在答卷上。然而,人類在完成答題后往往會(huì)進(jìn)行檢查,反思和評(píng)估自己的回答質(zhì)量,而大模型卻缺少了這個(gè)關(guān)鍵的自我反思環(huán)節(jié)。

PCL方法首次打破了這種對(duì)稱性約束,實(shí)現(xiàn)了訓(xùn)練的創(chuàng)新,其核心思路簡單而巧妙

  • 訓(xùn)練時(shí):將原始的EOS替換為臨時(shí)結(jié)束符,讓模型繼續(xù)輸出自我評(píng)估和質(zhì)量預(yù)測
  • 推理時(shí):模型在處直接停止,無需輸出后續(xù)的評(píng)估部分

這樣一來,模型在訓(xùn)練階段學(xué)會(huì)了”內(nèi)省”的能力,但部署時(shí)保持原有計(jì)算效率。實(shí)驗(yàn)結(jié)果表明,通過在訓(xùn)練時(shí)評(píng)估自己的答案,模型本身的回答能力也得到了提升。

圖片

PCL 方法示意圖:(a) 傳統(tǒng)方法以結(jié)束符作為訓(xùn)練的終點(diǎn);(b) 方法在訓(xùn)練時(shí),首先將其替換為臨時(shí)結(jié)束符 ,然后在后面繼續(xù)加入自我反思、自我評(píng)估的部分;(c) 在推理時(shí),將臨時(shí)結(jié)束符 作為新的結(jié)束符,作為輸出的終止,從而避免了額外的推理開銷。

2 白盒化強(qiáng)化學(xué)習(xí):讓AI學(xué)會(huì)“自我評(píng)價(jià)”

為了有效利用這一點(diǎn),研究團(tuán)隊(duì)提出了另一項(xiàng)創(chuàng)新:實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)過程的白盒化。

這一點(diǎn)也是基于目前對(duì)強(qiáng)化學(xué)習(xí)的普遍認(rèn)知:大模型依賴并被動(dòng)接受外部的獎(jiǎng)勵(lì)信號(hào),難以理解獎(jiǎng)勵(lì)函數(shù)的機(jī)制,其優(yōu)化過程更像是一個(gè)黑盒,優(yōu)化效果較差。

PCL的白盒化設(shè)計(jì)則截然不同:直接教會(huì)模型如何計(jì)算獎(jiǎng)勵(lì),讓模型主動(dòng)進(jìn)行自我評(píng)估,因此其訓(xùn)練過程完全透明可解釋。利用模型自己輸出的評(píng)估結(jié)果,與外部獎(jiǎng)勵(lì)函數(shù)的結(jié)果進(jìn)行對(duì)齊,從而監(jiān)督模型的評(píng)估能力。

就像從“老師打分”變成了“學(xué)生自己會(huì)打分”,模型不僅學(xué)會(huì)了做題,還學(xué)會(huì)了評(píng)分標(biāo)準(zhǔn),知道應(yīng)該從哪些角度去得分,從而實(shí)現(xiàn)更高效的優(yōu)化。

圖片

白盒化強(qiáng)化學(xué)習(xí)的對(duì)話示意圖,教會(huì)模型如何計(jì)算獎(jiǎng)勵(lì),并設(shè)計(jì)一致性獎(jiǎng)勵(lì)函數(shù)用于對(duì)齊

3 統(tǒng)一混合訓(xùn)練框架

在具體實(shí)現(xiàn)上,PCL 實(shí)現(xiàn)了統(tǒng)一 SFT + RL 訓(xùn)練框架,進(jìn)行多目標(biāo)的聯(lián)合優(yōu)化。這種混合訓(xùn)練范式也在最近的不少工作中得到驗(yàn)證。

圖片

  • 推理能力 SFT:使用推理數(shù)據(jù)集,專注于 think + answer 部分,訓(xùn)練模型回答問題的能力
  • 評(píng)估能力 SFT:使用教師輸出進(jìn)行蒸餾,專注于 evaluation + reward 部分,讓模型基于完整推理過程進(jìn)行評(píng)估
  • 推理能力 GRPO:使用 accuracy + format 獎(jiǎng)勵(lì)函數(shù),驗(yàn)證答案與格式的正確性。獎(jiǎng)勵(lì)函數(shù)因任務(wù)而異,可以拓展到更多的場景
  • 評(píng)估能力 GRPO:設(shè)計(jì)了一致性獎(jiǎng)勵(lì)函數(shù),指導(dǎo)模型預(yù)測出準(zhǔn)確的獎(jiǎng)勵(lì)得分

各優(yōu)化目標(biāo)在統(tǒng)一框架中混合訓(xùn)練,將監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)優(yōu)化(GRPO)完美融合,實(shí)現(xiàn)多目標(biāo)協(xié)同優(yōu)化。

實(shí)驗(yàn)結(jié)果

作者設(shè)置了多種實(shí)驗(yàn),驗(yàn)證了PCL的各組成部分的效果:

  • 對(duì)比 SFT, RL 等經(jīng)典訓(xùn)練方法,對(duì)比混合訓(xùn)練策略
  • 消融驗(yàn)證 PCL 中的評(píng)估 SFT、一致性獎(jiǎng)勵(lì)函數(shù)的效果

圖片

實(shí)驗(yàn)結(jié)果上,論文在數(shù)學(xué)推理、邏輯推理兩個(gè)領(lǐng)域的數(shù)據(jù)集,分別在 Qwen-2.5 和 Llama-3.2 不同尺寸的模型上都取得了普遍正向的指標(biāo)提升,消融實(shí)驗(yàn)也驗(yàn)證了方法并非完全依賴蒸餾或強(qiáng)化學(xué)習(xí)策略,而是有效利用了自我評(píng)估,提升了模型的內(nèi)在推理能力。

圖片

圖片圖片

結(jié)論

PCL方法的提出,為語言模型訓(xùn)練領(lǐng)域帶來了三個(gè)重要啟示:

  • EOS后空間的價(jià)值:被忽視的訓(xùn)練空間蘊(yùn)含巨大潛力,自我評(píng)估能夠提升推理能力
  • 白盒化RL的可能:強(qiáng)化學(xué)習(xí)不必是“黑盒子”,提升可解釋性可以學(xué)得更好
  • 訓(xùn)練推理解耦:復(fù)雜訓(xùn)練+簡潔推理的平衡,“不對(duì)稱”的訓(xùn)練+推理過程

這種不對(duì)稱訓(xùn)練的新范式,既能顯著提升訓(xùn)練效果,又無需額外推理開銷,有望成為未來大模型訓(xùn)練的標(biāo)準(zhǔn)做法。

論文鏈接:https://arxiv.org/abs/2507.20252

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-10-17 09:00:00

AI模型代碼

2023-10-11 12:32:53

AI模型

2025-05-12 14:29:16

絕對(duì)零外部數(shù)據(jù)訓(xùn)練法

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-09-24 09:10:24

2025-06-18 09:03:07

2025-04-01 09:54:09

AI算法大模型AI

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2025-05-16 08:58:09

2025-06-13 09:29:51

2025-01-09 08:01:10

2023-06-09 07:29:03

模型文本document

2025-06-09 09:32:35

2015-08-03 15:06:13

2024-07-01 20:45:55

2025-08-08 06:00:00

大模型AI推理AI大模型

2023-09-25 07:31:19

算力AI框架

2010-02-22 16:02:01

不對(duì)稱交換機(jī)

2024-02-19 00:21:45

開源圖片

2010-03-22 18:01:17

對(duì)稱交換機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)