偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="3x0dn"><source id="3x0dn"></source></rt>

<thead id="3x0dn"><span id="3x0dn"></span></thead>

<tt id="3x0dn"><b id="3x0dn"></b></tt>

<wbr id="3x0dn"><fieldset id="3x0dn"></fieldset></wbr>

<tfoot id="3x0dn"><form id="3x0dn"></form></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

為什么它能成為強(qiáng)化學(xué)習(xí)的“黃金標(biāo)準(zhǔn)”？深扒 Proximal Policy Optimization (PPO) 的核心奧秘原創(chuàng)

發(fā)布于 2025-10-22 08:49

瀏覽

0收藏

Proximal Policy Optimization (PPO)，這個(gè)名字在近幾年的 強(qiáng)化學(xué)習(xí) (Reinforcement Learning, RL) 領(lǐng)域中，幾乎等同于“默認(rèn)選項(xiàng)”和“黃金標(biāo)準(zhǔn)”。

無(wú)論是訓(xùn)練機(jī)械臂完成復(fù)雜操作，讓 AI 智能體在游戲中橫掃千軍，還是為 ChatGPT 這樣的 大型語(yǔ)言模型 (LLM) 進(jìn)行 RLHF（基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)）微調(diào)，你都繞不開(kāi)它。

OpenAI 開(kāi)發(fā)的 PPO，巧妙地在 策略梯度 方法的框架上進(jìn)行了升級(jí)，解決了經(jīng)典策略梯度算法最大的痛點(diǎn)——不穩(wěn)定性。它如何做到既高效又穩(wěn)定？它最核心的創(chuàng)新點(diǎn)又是什么？

今天，我們就來(lái)深度剖析 PPO 的工作原理、架構(gòu)，以及在實(shí)際應(yīng)用中如何避開(kāi)那些隱藏的“坑”。讀完這一篇，你就掌握了 PPO 成功的底層邏輯。

一、PPO 誕生的背景：策略梯度的“不穩(wěn)定”困境

強(qiáng)化學(xué)習(xí) 的核心是讓智能體通過(guò)與環(huán)境交互來(lái)學(xué)習(xí)決策，目標(biāo)是最大化累積獎(jiǎng)勵(lì)。與監(jiān)督學(xué)習(xí)不同，RL 依靠的是稀疏的標(biāo)量獎(jiǎng)勵(lì)信號(hào)。

在 RL 算法體系中，策略梯度 方法試圖直接學(xué)習(xí)一個(gè)從狀態(tài)到動(dòng)作的策略函數(shù)，非常適合高維或連續(xù)的動(dòng)作空間。但這類(lèi)經(jīng)典算法有個(gè)致命缺陷：

不穩(wěn)定，容易“跑偏”。

想象一下，智能體收集了一批經(jīng)驗(yàn)數(shù)據(jù)，基于這批數(shù)據(jù)進(jìn)行一次梯度更新，如果這次更新幅度過(guò)大，策略就可能瞬間被推到一個(gè)遠(yuǎn)離最優(yōu)區(qū)域的地方，導(dǎo)致性能災(zāi)難性地崩潰，而且很難恢復(fù)。

早期的穩(wěn)定化嘗試，比如信賴(lài)域策略?xún)?yōu)化 (TRPO)，通過(guò)對(duì)新舊策略之間的 KL 散度施加“硬約束”來(lái)限制更新幅度。TRPO 在理論上很優(yōu)雅，但在工程實(shí)現(xiàn)上非常復(fù)雜，尤其不兼容那些策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)共享參數(shù)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。

PPO 正是為了解決 TRPO 的復(fù)雜性，同時(shí)保留其穩(wěn)定性?xún)?yōu)勢(shì)而誕生的。

二、PPO 的核心魔法：剪輯替代目標(biāo)函數(shù)

PPO 的設(shè)計(jì)哲學(xué)很簡(jiǎn)單：與其大幅度跳躍，不如小步快跑，溫和訓(xùn)練。

它通過(guò)引入一個(gè)“剪輯”機(jī)制，確保每次策略更新時(shí)，新的策略不會(huì)距離舊策略太遠(yuǎn)，從而避免不穩(wěn)定的災(zāi)難性更新。

1. 策略比例與優(yōu)勢(shì)函數(shù)

在 PPO 的目標(biāo)函數(shù)中，有兩個(gè)關(guān)鍵元素：

策略比例（Ratio）：它衡量了當(dāng)前策略對(duì)某個(gè)動(dòng)作的概率與舊策略相比的變化程度。
優(yōu)勢(shì)函數(shù)（Advantage）：它衡量了在狀態(tài) 下采取動(dòng)作比平均情況好多少。如果，說(shuō)明這個(gè)動(dòng)作是好的；如果，說(shuō)明這個(gè)動(dòng)作是壞的。

經(jīng)典的 策略梯度 目標(biāo)函數(shù)是。PPO 的巧妙之處在于，它在這個(gè)目標(biāo)函數(shù)上增加了“保險(xiǎn)栓”。

2. 剪輯替代目標(biāo)函數(shù)（Clipped Surrogate Objective）

PPO 的核心目標(biāo)函數(shù)是：

這里，是一個(gè)超參數(shù)（典型值在 0.1 到 0.3 之間），定義了策略比例的“安全區(qū)”：。

這個(gè)目標(biāo)函數(shù) 的邏輯非常精妙：

當(dāng)優(yōu)勢(shì) （好動(dòng)作）時(shí)：我們希望提高，但一旦超過(guò) ，剪輯替代目標(biāo)函數(shù)就會(huì)截?cái)嗍找妫屘荻炔辉僭黾?。這意味著，智能體不會(huì)因?yàn)橐粋€(gè)特別好的動(dòng)作而過(guò)度自信，從而導(dǎo)致策略劇烈變化。
當(dāng)優(yōu)勢(shì) （壞動(dòng)作）時(shí)：我們希望降低，但一旦低于，目標(biāo)函數(shù)也會(huì)截?cái)鄵p失，讓梯度不再下降。這意味著，智能體不會(huì)因?yàn)橐粋€(gè)特別壞的動(dòng)作而“矯枉過(guò)正”，從而導(dǎo)致策略崩潰。

簡(jiǎn)而言之，剪輯替代目標(biāo)函數(shù) 像一個(gè)“保守的家長(zhǎng)”，它獎(jiǎng)勵(lì)適度的進(jìn)步，但懲罰任何“出格”的行為，確保了策略更新的穩(wěn)定性和安全性。

三、PPO 的黃金搭檔：Actor-Critic 與 GAE

PPO 算法通常運(yùn)行在一個(gè) Actor-Critic 架構(gòu)上，并結(jié)合 廣義優(yōu)勢(shì)估計(jì) (GAE) 技術(shù)來(lái)獲取更高質(zhì)量的訓(xùn)練信號(hào)。

1. Actor-Critic 架構(gòu)：分工協(xié)作

Actor（策略網(wǎng)絡(luò)）：負(fù)責(zé)根據(jù)當(dāng)前狀態(tài)選擇動(dòng)作。它輸出動(dòng)作的概率分布。
Critic（價(jià)值網(wǎng)絡(luò)）：負(fù)責(zé)根據(jù)當(dāng)前狀態(tài)評(píng)估價(jià)值，即預(yù)測(cè)從該狀態(tài)開(kāi)始能獲得的期望總回報(bào)。

這兩個(gè)網(wǎng)絡(luò)通常共享底層神經(jīng)網(wǎng)絡(luò)參數(shù)，策略梯度 損失由 Actor 計(jì)算，而 Critic 則通過(guò)最小化均方誤差 (MSE) 來(lái)學(xué)習(xí)其價(jià)值函數(shù)。

2. 廣義優(yōu)勢(shì)估計(jì) (GAE)：平衡偏差與方差

在 Actor-Critic 框架中，優(yōu)勢(shì)函數(shù) 的精確估計(jì)至關(guān)重要。經(jīng)典的估計(jì)方法要么方差太高（如蒙特卡洛回報(bào)），要么偏差太大（如單步時(shí)序差分 TD 誤差）。

廣義優(yōu)勢(shì)估計(jì) (GAE) 引入了參數(shù)，通過(guò)融合多步 TD 誤差，在偏差和方差之間找到了一個(gè)優(yōu)雅的平衡點(diǎn)。它為 策略梯度 提供了更有效、更可靠的 優(yōu)勢(shì)函數(shù) 估計(jì)，進(jìn)一步提升了 PPO 的性能。

3. PPO 的完整損失函數(shù)

PPO 的總損失函數(shù)由三部分構(gòu)成：

剪輯替代目標(biāo)函數(shù)（用于更新 Actor，最大化）
價(jià)值網(wǎng)絡(luò)損失（如，用于更新 Critic，最小化）
熵獎(jiǎng)勵(lì)項(xiàng)（鼓勵(lì)探索，最大化，所以前面是負(fù)號(hào)）

四、從理論到實(shí)戰(zhàn)：PPO 的 PyTorch 實(shí)現(xiàn)精要

理解 PPO 的最好方式是看它的實(shí)現(xiàn)流程。PPO 是一個(gè) On-Policy（在線策略）算法，這意味著它只能使用當(dāng)前策略產(chǎn)生的數(shù)據(jù)進(jìn)行訓(xùn)練，并且會(huì)多次重復(fù)利用同一批次數(shù)據(jù)（個(gè) 更新輪次）。

1、PPO 的訓(xùn)練循環(huán)（單次迭代）

數(shù)據(jù)收集 (Rollout)：使用當(dāng)前策略與環(huán)境交互，收集一批軌跡數(shù)據(jù)（例如 2048 個(gè)時(shí)間步）。記錄觀測(cè)值、動(dòng)作、獎(jiǎng)勵(lì)、價(jià)值和動(dòng)作的。
優(yōu)勢(shì)與回報(bào)估計(jì)：使用廣義優(yōu)勢(shì)估計(jì) (GAE)，結(jié)合價(jià)值網(wǎng)絡(luò)預(yù)測(cè)的和折扣獎(jiǎng)勵(lì) ，計(jì)算每一步的優(yōu)勢(shì)函數(shù)和目標(biāo)回報(bào) 。
優(yōu)勢(shì)歸一化：為了提高訓(xùn)練的數(shù)值穩(wěn)定性，對(duì) 進(jìn)行歸一化（零均值、單位標(biāo)準(zhǔn)差）。
策略與價(jià)值更新：對(duì)收集到的數(shù)據(jù)進(jìn)行個(gè)更新輪次（例如）。在每個(gè)輪次中，計(jì)算剪輯替代目標(biāo)函數(shù)和價(jià)值損失，然后通過(guò)梯度下降更新 Actor 和 Critic 的共享參數(shù)。
重復(fù)：使用新的策略重新收集數(shù)據(jù)，重復(fù)以上步驟直到收斂。

2、核心代碼邏輯（基于 PyTorch 示例）

在實(shí)現(xiàn) PPO 時(shí)，有幾個(gè)關(guān)鍵的 PyTorch 技巧：

關(guān)鍵邏輯	PyTorch 實(shí)現(xiàn)要點(diǎn)	說(shuō)明
策略比例	?`?ratio = torch.exp(new_log_probs - old_log_probs)?`?	利用避免數(shù)值溢出，保持穩(wěn)定性。
剪輯	?`?surr2 = torch.clamp(ratio, 1 - clip_e, 1 + clip_e) * adv_tensor?`?	使用 ?`?torch.clamp?`? 實(shí)現(xiàn)剪輯操作。
最終目標(biāo)函數(shù)	?`?policy_loss = -torch.min(surr1, surr2).mean()?`?	取兩者，然后取負(fù)號(hào)（目標(biāo)是最大化，但優(yōu)化器做最小化）。
價(jià)值損失	?`?value_loss = nn.functional.mse_loss(value_pred.squeeze(-1), ret_tensor)?`?	Critic 的訓(xùn)練目標(biāo)是最小化預(yù)測(cè)價(jià)值和實(shí)際回報(bào)（GAE 計(jì)算的）之間的 MSE。

輔關(guān)鍵詞：策略梯度、Actor-Critic

五、PPO vs. 其它算法：為什么 PPO 贏了？

PPO 的成功，在于它在 性能、復(fù)雜度和穩(wěn)定性 之間找到了幾乎完美的平衡點(diǎn)。

對(duì)比對(duì)象	核心思路	PPO 的優(yōu)勢(shì)	為什么不選它？
TRPO	KL 散度硬約束，二階優(yōu)化。	性能相似，但 PPO 是一階優(yōu)化，實(shí)現(xiàn)更簡(jiǎn)單，計(jì)算開(kāi)銷(xiāo)更低。	實(shí)現(xiàn)復(fù)雜，不兼容參數(shù)共享網(wǎng)絡(luò)。
A2C/A3C	純 Actor-Critic，無(wú)剪輯。	剪輯替代目標(biāo)函數(shù) 帶來(lái)了更高的穩(wěn)定性，對(duì)超參數(shù)不那么敏感，平均性能更優(yōu)。	對(duì)學(xué)習(xí)率和超參數(shù)敏感。
DQN	價(jià)值函數(shù)方法，Off-Policy。	PPO 可處理連續(xù)動(dòng)作空間；DQN 僅限離散動(dòng)作，且難以處理隨機(jī)策略。	On-policy 樣本效率低于 DQN 的經(jīng)驗(yàn)回放。
SAC/TD3	Off-Policy，連續(xù)控制。	PPO 結(jié)構(gòu)更簡(jiǎn)單，Actor-Critic 循環(huán)更清晰，調(diào)試更容易，適合作為快速基線。	峰值樣本效率可能低于 SAC/TD3。

正如業(yè)內(nèi)所說(shuō)，如果你不知道在某個(gè) 強(qiáng)化學(xué)習(xí) 任務(wù)中該選哪個(gè)算法，Proximal Policy Optimization (PPO) 往往是最穩(wěn)妥的選擇。它能提供穩(wěn)定、平滑的學(xué)習(xí)曲線，而且對(duì)環(huán)境類(lèi)型（離散/連續(xù)）有很強(qiáng)的通用性。

# --- compatibility shim for NumPy>=2.0 ---
import numpy as np
if not hasattr(np, "bool8"):
    np.bool8 = np.bool_

# --- imports ---
import gymnasium as gym   # use gymnasium; if you must keep gym
import torch
import torch.nn as nn
import torch.optim as optim

# Actor-Critic network definition
class ActorCritic(nn.Module):
    def __init__(self, state_dim, action_dim):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, 64)
        self.fc2 = nn.Linear(64, 64)
        self.policy_logits = nn.Linear(64, action_dim)  # unnormalized action logits
        self.value = nn.Linear(64, 1)

    def forward(self, state):
        # state can be 1D (obs_dim,) or 2D (batch, obs_dim)
        x = torch.relu(self.fc1(state))
        x = torch.relu(self.fc2(x))
        return self.policy_logits(x), self.value(x)

# Initialize environment and model
env = gym.make("CartPole-v1")
obs_space = env.observation_space
act_space = env.action_space

obs_dim = obs_space.shape[0]
act_dim = act_space.n

model = ActorCritic(obs_dim, act_dim)
optimizer = optim.Adam(model.parameters(), lr=3e-4)

# PPO hyperparameters
epochs = 50               # number of training iterations
steps_per_epoch = 1000    # timesteps per epoch (per update batch)
gamma = 0.99              # discount factor
lam = 0.95                # GAE lambda
clip_epsilon = 0.2        # PPO clip parameter
K_epochs = 4              # update epochs per batch
ent_coef = 0.01
vf_coef = 0.5

for epoch in range(epochs):
    # Storage buffers for this epoch
    observations, actions = [], []
    rewards, dones = [], []
    values, log_probs = [], []

    # Reset env (Gymnasium returns (obs, info))
    obs, _ = env.reset()

    for t in range(steps_per_epoch):
        obs_tensor = torch.tensor(obs, dtype=torch.float32)

        with torch.no_grad():
            logits, value = model(obs_tensor)
            dist = torch.distributions.Categorical(logits=logits)
            action = dist.sample()
            log_prob = dist.log_prob(action)

        # Step env (Gymnasium returns 5-tuple)
        next_obs, reward, terminated, truncated, _ = env.step(action.item())
        done = terminated or truncated

        # Store transition
        observations.append(obs_tensor)
        actions.append(action)
        rewards.append(float(reward))
        dones.append(done)
        values.append(float(value.item()))
        log_probs.append(float(log_prob.item()))

        obs = next_obs
        ifdone:
            obs, _ = env.reset()

    # Bootstrap last value for GAE (from final obs of the epoch)
    with torch.no_grad():
        last_v = model(torch.tensor(obs, dtype=torch.float32))[1].item()

    # Compute GAE advantages and returns
    advantages = []
    gae = 0.0
    # Append bootstrap to values (so values[t+1] is valid)
    values_plus = values + [last_v]
    for t in reversed(range(len(rewards))):
        nonterminal = 0.0 if dones[t] else 1.0
        delta = rewards[t] + gamma * values_plus[t + 1] * nonterminal - values_plus[t]
        gae = delta + gamma * lam * nonterminal * gae
        advantages.insert(0, gae)

    returns = [adv + v for adv, v in zip(advantages, values)]

    # Convert buffers to tensors
    obs_tensor = torch.stack(observations)  # (N, obs_dim)
    act_tensor = torch.tensor([a.item() for a in actions], dtype=torch.long)
    adv_tensor = torch.tensor(advantages, dtype=torch.float32)
    ret_tensor = torch.tensor(returns, dtype=torch.float32)
    old_log_probs = torch.tensor(log_probs, dtype=torch.float32)

    # Normalize advantages
    adv_tensor = (adv_tensor - adv_tensor.mean()) / (adv_tensor.std() + 1e-8)

    # PPO policy and value update
    for _ in range(K_epochs):
        logits, value_pred = model(obs_tensor)
        dist = torch.distributions.Categorical(logits=logits)
        new_log_probs = dist.log_prob(act_tensor)
        entropy = dist.entropy().mean()

        # Probability ratio r_t(theta)
        ratio = torch.exp(new_log_probs - old_log_probs)

        # Clipped objective
        surr1 = ratio * adv_tensor
        surr2 = torch.clamp(ratio, 1 - clip_epsilon, 1 + clip_epsilon) * adv_tensor
        policy_loss = -torch.min(surr1, surr2).mean()

        # Value loss
        value_loss = nn.functional.mse_loss(value_pred.squeeze(-1), ret_tensor)

        # Total loss
        loss = policy_loss + vf_coef * value_loss - ent_coef * entropy

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

六、PPO 的超廣應(yīng)用：從機(jī)器人到 RLHF

Proximal Policy Optimization (PPO) 的通用性和穩(wěn)定性使其應(yīng)用領(lǐng)域非常廣泛：

領(lǐng)域 / 用例	核心任務(wù)與動(dòng)作空間	為什么選擇 PPO？
連續(xù)控制與機(jī)器人	機(jī)械臂操控、無(wú)人機(jī)飛行、模擬生物行走。連續(xù)動(dòng)作空間。	剪輯替代目標(biāo)函數(shù) 確保了在連續(xù)、高維空間中的穩(wěn)定更新，是機(jī)器人任務(wù)的默認(rèn)首選。
游戲 AI (Atari/Unity)	街機(jī)游戲、3D 游戲 NPC 行為。離散/混合動(dòng)作。	學(xué)習(xí)穩(wěn)定，適用于長(zhǎng)時(shí)間訓(xùn)練；能輕松處理視覺(jué)輸入。
LLM 微調(diào) (RLHF)	基于人類(lèi)偏好對(duì) ChatGPT 等大型語(yǔ)言模型進(jìn)行對(duì)齊訓(xùn)練。	PPO 能在不大幅偏離預(yù)訓(xùn)練模型（舊策略）的前提下，最大化獎(jiǎng)勵(lì)模型（RLHF）給出的獎(jiǎng)勵(lì)。保持 Proximal (臨近) 是成功的關(guān)鍵。
多智能體 RL (MARL)	多智能體協(xié)作與競(jìng)爭(zhēng)。	剪輯替代目標(biāo)函數(shù) 能夠緩和智能體之間不穩(wěn)定的交互更新，避免系統(tǒng)崩潰。

主關(guān)鍵詞：Proximal Policy Optimization (PPO)輔關(guān)鍵詞：RLHF

七、PPO 的常見(jiàn)陷阱與調(diào)優(yōu)指南

盡管 PPO 強(qiáng)化學(xué)習(xí) 算法很穩(wěn)定，但它仍然需要仔細(xì)調(diào)優(yōu)，尤其是以下幾個(gè)關(guān)鍵超參數(shù)和容易踩的“坑”：

陷阱 / 設(shè)置	癥狀與影響	調(diào)優(yōu)建議（經(jīng)驗(yàn)值）
學(xué)習(xí)率 (LR) 過(guò)高	價(jià)值損失發(fā)散，策略崩潰，獎(jiǎng)勵(lì)驟降。	Adam LR 是最常見(jiàn)的穩(wěn)定默認(rèn)值。
剪輯范圍	過(guò)大 (): 剪輯失效，不穩(wěn)定；過(guò)小 (): 策略更新太慢。	****，默認(rèn)從開(kāi)始。
優(yōu)勢(shì)歸一化	廣義優(yōu)勢(shì)估計(jì) (GAE) 差異過(guò)大，梯度被少數(shù)極端值主導(dǎo)。	必須對(duì)進(jìn)行歸一化（均值 0，方差 1）。
批次大小 (Batch Size)	過(guò)小導(dǎo)致策略梯度估計(jì)噪聲過(guò)大；過(guò)大導(dǎo)致訓(xùn)練周期變慢。	每次更新的 Timesteps ，更新輪次。
熵系數(shù)	過(guò)低：探索不足，易陷入局部最優(yōu)；過(guò)高：Agent 行為過(guò)于隨機(jī)。	****。如果學(xué)習(xí)困難，可調(diào)高熵系數(shù)以鼓勵(lì)探索。

輔關(guān)鍵詞：剪輯替代目標(biāo)函數(shù), 廣義優(yōu)勢(shì)估計(jì) (GAE)

總結(jié)與展望

Proximal Policy Optimization (PPO) 憑一己之力，成為了 強(qiáng)化學(xué)習(xí) 領(lǐng)域的“萬(wàn)金油”算法。它繼承了 策略梯度 方法處理連續(xù)和高維動(dòng)作的優(yōu)勢(shì)，又通過(guò) 剪輯替代目標(biāo)函數(shù) 解決了困擾已久的不穩(wěn)定問(wèn)題。

PPO 簡(jiǎn)單、可靠、易于實(shí)現(xiàn)，無(wú)論你是想嘗試機(jī)器人控制，還是想深入了解 RLHF 如何微調(diào) 大型語(yǔ)言模型，PPO 都是你繞不開(kāi)的第一步。

盡管它不是最“樣本高效”的算法（因?yàn)樗枰匦率占瘮?shù)據(jù)），但它的穩(wěn)定性、可預(yù)測(cè)性和通用性，讓它成為工業(yè)界和學(xué)術(shù)界的首選基線。掌握 PPO，就是掌握了進(jìn)入現(xiàn)代 強(qiáng)化學(xué)習(xí) 大門(mén)的鑰匙。

互動(dòng)提問(wèn)： 你在自己的項(xiàng)目中遇到過(guò) PPO 的哪些“坑”？你認(rèn)為在 RLHF 中，PPO 的 剪輯替代目標(biāo)函數(shù) 還能有哪些創(chuàng)新的應(yīng)用？

本文轉(zhuǎn)載自??Halo咯咯?? 作者：基咯咯

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

強(qiáng)化學(xué)習(xí)

大型語(yǔ)言模型

已于2025-10-22 09:44:41修改

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

熱門(mén)內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

擴(kuò)散模型如何幫助創(chuàng)建更好的強(qiáng)化學(xué)習(xí)系統(tǒng)

51CTO內(nèi)容精選 ? 3870瀏覽 ? 0回復(fù)
Nature：最大擴(kuò)散強(qiáng)化學(xué)習(xí)

ceesoft ? 5220瀏覽 ? 0回復(fù)
Alphafold可能成為第一個(gè)獲諾貝爾獎(jiǎng)的深度學(xué)習(xí)模型？

魚(yú)蟲(chóng)子 ? 3981瀏覽 ? 0回復(fù)
Transformers學(xué)習(xí)上下文強(qiáng)化學(xué)習(xí)的時(shí)間差分方法

AIGC最前線 ? 3617瀏覽 ? 0回復(fù)
深扒Ilya Sutskever：AI界的隱士大佬，但他究竟看到了什么？

InfonityAI智推星 ? 4762瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 1.0w瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 1.2w瀏覽 ? 0回復(fù)
從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景

AI探索時(shí)代 ? 4471瀏覽 ? 0回復(fù)
AI助手Tutor CoPilot：讓每個(gè)教師都能成為優(yōu)秀導(dǎo)師 | Mamba模型：醫(yī)學(xué)影像分析的新紀(jì)元

sbf_2000 ? 3472瀏覽 ? 0回復(fù)
OpenAI能成為王牌級(jí)辦公套件嗎？

51CTO技術(shù)棧 ? 3324瀏覽 ? 0回復(fù)
為啥強(qiáng)化學(xué)習(xí)開(kāi)始成為了大語(yǔ)言模型（LLM）的新寵？

智駐未來(lái) ? 4210瀏覽 ? 0回復(fù)
基于多模態(tài)深度強(qiáng)化學(xué)習(xí)的投資組合優(yōu)化

靈度智能 ? 5008瀏覽 ? 0回復(fù)
基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化

靈度智能 ? 5720瀏覽 ? 0回復(fù)
深度學(xué)習(xí)的‘黃金法則’：為什么選擇ReLU？

人工智能訓(xùn)練營(yíng) ? 4678瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與軟件工程：開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 3331瀏覽 ? 0回復(fù)
Logic-RL：基于規(guī)則強(qiáng)化學(xué)習(xí)的推理釋放

頓數(shù)AI ? 3448瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)強(qiáng)在哪里？基礎(chǔ)探索

柏企閱文 ? 2517瀏覽 ? 0回復(fù)
智能體強(qiáng)化學(xué)習(xí)綜述；強(qiáng)化學(xué)習(xí)原生GUI智能體；多輪工具交互強(qiáng)化學(xué)習(xí)；模塊化多輪工具強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 3510瀏覽 ? 0回復(fù)
早期經(jīng)驗(yàn)監(jiān)督的智能體強(qiáng)化學(xué)習(xí)；推理元信息感知的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)；安全與有效聯(lián)合訓(xùn)練智能體框架

AI研究前瞻 ? 1969瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Glyph：智譜AI用“視覺(jué)壓縮”讓上下文延長(zhǎng)到100萬(wàn)Token的新思路 2天前發(fā)布
MiniMax M2：2300 億參數(shù)的“小巨人”，正改寫(xiě)大模型競(jìng)爭(zhēng)邏輯 2天前發(fā)布

熱門(mén)推薦

微軟開(kāi)源 VibeVoice-1.5B：90分鐘多角色語(yǔ)音合成，讓TTS進(jìn)入“長(zhǎng)音頻時(shí)代” 0回復(fù)

GPU vs TPU：誰(shuí)才是2025年大模型訓(xùn)練的最優(yōu)解？最新性能榜單揭曉 0回復(fù)

不止能切文本：多向量檢索如何讓RAG搞定復(fù)雜PDF 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

上一篇： Claude Haiku 4.5 來(lái)了！性能追平 Sonnet 4，速度快 2 倍，成本效益炸裂

下一篇： DeepSeek 再出爆款：3B OCR 模型，讓文檔解析提速 10 倍的秘密

社區(qū)精華內(nèi)容

目錄

<blockquote id="eag6n"><sup id="eag6n"><center id="eag6n"></center></sup></blockquote>

<bdo id="eag6n"></bdo>

<pre id="eag6n"><tfoot id="eag6n"></tfoot></pre>

<pre id="eag6n"><dfn id="eag6n"></dfn></pre><rt id="eag6n"><menu id="eag6n"></menu></rt>