偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

人工智能 新聞
Verlog 針對在構(gòu)建長時程、多回合任務(wù)的 LLM Agent 時面臨的若干核心工程挑戰(zhàn),提出了系統(tǒng)性的解決方案

AI 時代,智能體對短期對話的處理能力已不再是難題。真正的挑戰(zhàn)是讓智能體在數(shù)百步的探索中依然保持清晰的推理與穩(wěn)健的決策。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架在幾十步內(nèi)尚能應(yīng)付,但一旦任務(wù)延展至數(shù)百步,獎勵稀疏、歷史冗長、策略崩塌便接踵而至。

為了應(yīng)對這些挑戰(zhàn),來自卡內(nèi)基梅隆大學(xué)、香港大學(xué)等機(jī)構(gòu)的研究者提出了 Verlog ,試圖打破這一困境。

具體而言,Verlog 是一個多輪強(qiáng)化學(xué)習(xí)框架,專為具有高度可變回合(episode)長度的長時程(long-horizon) LLM-Agent 任務(wù)而設(shè)計。

它在繼承 VeRL 和 BALROG 的基礎(chǔ)上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設(shè)計原則,引入了一系列專門優(yōu)化手段,從而在任務(wù)跨度從短暫交互到數(shù)百回合時,依然能夠?qū)崿F(xiàn)穩(wěn)定而高效的訓(xùn)練。

以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務(wù),verl-agent 則可擴(kuò)展至 50 回合。而 Verlog 則被設(shè)計用于超過 400 回合的環(huán)境,使其在復(fù)雜的長期決策任務(wù)中具備獨特優(yōu)勢。

這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領(lǐng)域得到驗證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰(zhàn)的環(huán)境中,Verlog 都能夠開箱即用地展現(xiàn)出強(qiáng)勁的性能。

  • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
  • 項目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html

方法介紹

基礎(chǔ)模型

在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構(gòu)建。

這樣做主要有兩個原因:

一是,它可以與 BALROG 無縫集成(BALROG 是一個旨在評估 Instruct 模型在一系列基準(zhǔn)測試中零樣本性能的框架);

其次,它允許研究者可以直接使用基準(zhǔn)測試提示,而無需太多修改。

BabyAI 使用的提示模板

記憶機(jī)制

本文不是將整個軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個回合。

這樣做帶來的影響是,對于 3B 參數(shù)的 Qwen 模型,性能在 n = 1 或 2 時達(dá)到峰值,而當(dāng) n 增加到 4 或 8 時性能下降。

作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當(dāng) n = 8 時,提示詞長度約為 4600 個 token。

不過,這一趨勢是否適用于更大規(guī)模的模型,仍待研究。

Dual Discounting GAE 算法

為了鼓勵智能體在更少的環(huán)境步數(shù)內(nèi)完成任務(wù),本文將 token 與 step 進(jìn)行了解耦。并設(shè)置如下參數(shù):

此外,本文 GAE 是遞歸計算的:

其中,

遞歸從最后一輪的最后一個 token 開始,向后進(jìn)行。處理完最后一輪的所有 token 后,移至倒數(shù)第二輪的最后一個 token,并繼續(xù)遞歸執(zhí)行此過程。在此過程中,所有狀態(tài) token 都會被跳過。

實驗結(jié)果

該研究在三個頗具挑戰(zhàn)性的基準(zhǔn)上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實驗?zāi)P桶?Qwen2.5-Instruct 。

在 Crafter 環(huán)境中,本文使用 8 張 H100(82GB 顯存)GPU 對 Qwen2.5-7B-Instruct 模型訓(xùn)練了大約 36 小時。此外,針對 BabyAI 與 BabaIsAI 環(huán)境,本文采用 4 張 A40(48GB 顯存)GPU 對 Qwen2.5-3B-Instruct 模型訓(xùn)練約 24 小時。

三個實驗環(huán)境表明,Verlog 展現(xiàn)出穩(wěn)定的訓(xùn)練能力,不管是在長周期、稀疏獎勵,還是在可變 episode 長度條件下。這也證明了該框架能自然適應(yīng)從短周期到超長周期多回合任務(wù)的規(guī)?;?xùn)練。

總結(jié)

Verlog 針對在構(gòu)建長時程、多回合任務(wù)的 LLM Agent 時面臨的若干核心工程挑戰(zhàn),提出了系統(tǒng)性的解決方案,包括:

  • 長交互歷史的處理:通過記憶機(jī)制和回合級抽象來管理歷史信息。
  • 稀疏獎勵下的訓(xùn)練穩(wěn)定性:結(jié)合 dual-discounting GAE 和價值函數(shù)預(yù)訓(xùn)練來增強(qiáng)穩(wěn)定性。
  • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價值估計來處理變長軌跡。
  • 提升動作有效性:利用針對性的提示工程和默認(rèn)動作替換,使訓(xùn)練過程中 >95% 的動作均為有效動作。

作者表示,Verlog 的定位是一個靈活的研究平臺,目的是推動長時程 LLM-Agent 強(qiáng)化學(xué)習(xí)的發(fā)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-12-31 13:55:28

模型訓(xùn)練

2021-06-07 22:31:22

分布式區(qū)域平臺

2025-09-15 08:42:00

AI模型系統(tǒng)

2025-06-10 04:00:00

2023-09-22 07:23:50

Alice模型任務(wù)

2017-12-07 08:41:34

高密度數(shù)據(jù)中心HCI

2024-10-15 17:28:05

2024-03-25 00:30:00

AI框架

2010-08-12 16:01:59

私有云公共云

2009-02-20 10:16:00

路由器設(shè)置圖形界面

2025-06-03 08:09:00

AI智能體模型

2024-07-22 08:00:00

機(jī)器人虛擬

2020-06-04 15:24:33

微信蘋果虛擬支付

2025-05-12 02:50:00

2025-05-12 08:19:13

2019-10-22 15:27:58

前端開發(fā)技術(shù)

2022-12-11 13:04:39

ChatGPT實用性功能

2025-08-29 07:47:54

2025-08-08 09:15:00

點贊
收藏

51CTO技術(shù)棧公眾號