獎勵驅(qū)動學(xué)習(xí):LLM后訓(xùn)練與推理時代的全景綜述
在大語言模型(LLMs)的后訓(xùn)練與推理Scaling時代,一個革命性范式正在崛起:Learning from Rewards(獎勵驅(qū)動學(xué)習(xí))。 從 OpenAI-o1和DeepSeek-R1中的強化學(xué)習(xí),到測試時的Best-of-N采樣,獎勵信號不再只是訓(xùn)練噪聲的附屬,而是引領(lǐng)模型走向主動學(xué)習(xí)的導(dǎo)航星標(biāo)。它使模型更貼近人類偏好、具備復(fù)雜推理能力,推動邁向更通用、更智能、更可控的AI系統(tǒng)!
本文是當(dāng)前最系統(tǒng)的Learning from Rewards綜述之一,全面梳理該范式在 LLMs 后訓(xùn)練(Post-Training)與測試時(Test-Time) 的研究趨勢,覆蓋訓(xùn)練策略、推理機制、輸出糾錯、多模態(tài)場景與獎勵模型評測。
論文:Sailing AI by the Stars A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
鏈接:https://arxiv.org/abs/2406.06852
項目主頁:https://github.com/bobxwu/learning-from-rewards-llm-papers
全文導(dǎo)航
核心范式:Learning from Rewards
從 RLHF 到 GRPO,從 Generate-then-Rank 到 Post-Hoc Correction,我們構(gòu)建了一個統(tǒng)一的理論框架,全面拆解四大核心組成:
- ?? 語言模型(Language Model):基礎(chǔ)生成引擎
- ?? 獎勵模型(Reward Model):行為評估與反饋機制
- ?? 獎勵信號(Rewards):引導(dǎo)模型學(xué)習(xí)的價值標(biāo)尺
- ??? 學(xué)習(xí)策略(Learning Strategy):如何利用獎勵調(diào)整模型行為
獎勵模型的設(shè)計:
- 模型架構(gòu)(Model-based and Model-free)
- 獎勵信號的形式(Scalar, Critique, and Implicit Rewards)
- 評價方式(Pointwise and Pairwise)
- 獎勵的顆粒度(Outcome and Process)
Training with Rewards — 后訓(xùn)練時代的對齊引擎
后訓(xùn)練階段,獎勵信號已成為對齊人類偏好與深度推理能力的核心驅(qū)動力。
- 訓(xùn)練策略全景對比:REINFORCE / REINFORCE++ / PPO / DPO / GRPO
- 獎勵類型多樣化:Scalar(數(shù)值型)/ Critique(評語型)/ Implicit(隱式)/ Rule-based(規(guī)則)/ Process(過程級)
- 獎勵來源廣泛:人類反饋 vs 自動反饋(如 LLM-as-a-Judge、自評機制、知識庫、工具)
?? Inference with Rewards — 推理階段的智能放大器
無需微調(diào),基于獎勵動態(tài)調(diào)控輸出,輕量高效地釋放LLMs潛能!
- Generate-then-Rank:基于獎勵的候選采樣排序,Best-of-N(Outcome vs Process)
- Reward-Guided Decoding:Token-level與Step-level獎勵引導(dǎo)搜索(支持MCTS、Beam Search等),提升推理路徑的智能探索能力
Post-Inference with Rewards — 輸出后的智能修正器
模型輸出不是終點,獎勵引導(dǎo)的后處理成為提升質(zhì)量的關(guān)鍵手段!
- Self-Correction:模型自我反思與改寫(如Self-Refine、Reflexion)
- External Feedback:外部評審模型、知識庫、工具反饋等提供稀疏/密集獎勵信號
?? Reward Model Benchmarking — 獎勵模型該如何評測?
作為Learning from Rewards 的核心引擎,獎勵模型的評估標(biāo)準(zhǔn)必須科學(xué)、全面,才能真正保障對齊效果與泛化能力。
- 評測維度:準(zhǔn)確性、穩(wěn)定性、一致性、泛化能力
- 標(biāo)注來源:人類專家 ?? vs LLM 判官 ??(如 LLM-as-a-Judge)
- 標(biāo)注形式:Pointwise(逐項評分)vs Pairwise(兩兩對比)
- 任務(wù)覆蓋:Chat / Reasoning / Safety / Multimodal 等多任務(wù)評估場景
挑戰(zhàn)與機遇
在邁向更智能、更對齊的大語言模型過程中,Learning from Rewards 仍面臨多項關(guān)鍵科學(xué)問題:
- ?? 獎勵模型的可解釋性:如何讓獎勵決策更透明、更可信
- ?? 通用獎勵模型:能否跨任務(wù)、跨模態(tài)構(gòu)建通用型獎勵系統(tǒng)
- ?? Reward Hacking:如何防止模型“投機取巧”以規(guī)避獎勵目標(biāo)
- ?? 真實交互中的獎勵獲?。耗芊裨陂_放環(huán)境中高效獲取有效反饋
- ?? 持續(xù)優(yōu)化與適應(yīng)性學(xué)習(xí):如何實現(xiàn)長期學(xué)習(xí)與動態(tài)適應(yīng)機制
為什么值得關(guān)注?
- ?? 全面梳理:系統(tǒng)回顧獎勵驅(qū)動學(xué)習(xí)的最新研究方法與發(fā)展趨勢
- ?? 統(tǒng)一框架:構(gòu)建覆蓋訓(xùn)練、推理、糾錯的概念性技術(shù)圖譜
- ?? 方法集錦:涵蓋 200+ 代表性技術(shù)與系統(tǒng)化對比分析
- ?? 前瞻視角:聚焦未來挑戰(zhàn),提出關(guān)鍵研究方向與機遇
?? 如果你關(guān)注 LLM 的對齊性、推理能力、強化機制或安全保障,或正從事 RLHF / DPO / test-time scaling 等相關(guān)研究,本 Survey 將成為你不可或缺的核心參考。
本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily
