偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習

發(fā)布于 2025-9-5 00:17
瀏覽
0收藏

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

2025-09-02|Oxford U, Shanghai AI Lab, NUS, UCL, UIUC, Brown, USTC, Imperial College London, Bristol, CAS, CUHK, Fudan U, UGA, UCSD, DLUT, UCSB|??81

??http://arxiv.org/abs/2509.02547v1???
???https://huggingface.co/papers/2509.02547???
???https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers??

研究背景與意義

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

本論文聚焦于“Agentic Reinforcement Learning(Agentic RL)”這一新興范式,標志著大規(guī)模語言模型(LLMs)與強化學習(RL)結合的根本性轉變。傳統(tǒng)的LLM-RL多將語言模型視為被動的序列生成器,優(yōu)化單步輸出以符合人類偏好或基準測試,而Agentic RL則將LLMs重新定義為嵌入復雜動態(tài)環(huán)境中的自主決策智能體。該轉變不僅擴展了模型的功能邊界,也使其具備規(guī)劃、推理、工具調用、記憶維護和自我改進等多維度智能能力。論文通過對比傳統(tǒng)單步馬爾可夫決策過程(MDP)與部分可觀測、時間擴展的POMDP,系統(tǒng)闡釋了Agentic RL的理論基礎和實踐意義,填補了現(xiàn)有研究中對統(tǒng)一框架和跨領域通用性的缺失,推動了智能體范式的科學理解和工程實現(xiàn)。

研究方法與創(chuàng)新

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

論文提出了一套系統(tǒng)的雙重分類體系:一方面圍繞Agentic RL的核心能力模塊(規(guī)劃、工具使用、記憶、推理、自我提升、感知等)進行能力視角的深刻解析;另一方面從任務應用層面(搜索、代碼生成、數(shù)學推理、圖形界面操作、視覺和多智能體系統(tǒng)等)全面梳理了Agentic RL的多樣化實踐。創(chuàng)新點主要體現(xiàn)在:

  • 理論形式化:通過將Agentic RL建模為POMDP,明確了其與傳統(tǒng)LLM-RL的本質區(qū)別,支持多步交互和部分觀察的動態(tài)環(huán)境適應。
  • 能力模塊聯(lián)合優(yōu)化:將傳統(tǒng)靜態(tài)模塊轉化為可通過RL聯(lián)合優(yōu)化的策略體系,實現(xiàn)了規(guī)劃、工具調用與推理等能力的協(xié)同進化,突破了以往單一模塊優(yōu)化的局限。
  • 多樣化RL算法對比與改進:系統(tǒng)比較了REINFORCE、PPO、DPO、GRPO等多類RL算法及其變種,強調了GRPO在樣本效率和計算開銷上的優(yōu)勢,推動了Agentic RL訓練的穩(wěn)定性和性能提升。
  • 環(huán)境與框架整合:整合了豐富的開源環(huán)境、基準測試和RL框架,構建了支持Agentic RL訓練和評估的實用工具包,促進了研究的標準化和可復現(xiàn)性。

這一系統(tǒng)化方法不僅深化了Agentic RL的理論基礎,還為實際應用提供了堅實的技術支撐和方法論指導。

實驗設計與結果分析

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

論文通過對超過五百篇最新研究的綜合分析,展示了Agentic RL在多個任務域的廣泛適用性和優(yōu)越表現(xiàn)。實驗設計涵蓋了多種環(huán)境模擬,包括動態(tài)網(wǎng)頁、圖形界面、代碼編輯、數(shù)學推理及多智能體交互等,體現(xiàn)了Agentic RL對復雜、多模態(tài)任務的適應能力。結果表明:

  • Agentic RL通過引入部分可觀測環(huán)境和多步決策機制,顯著提升了LLM代理在長時序任務中的表現(xiàn)和魯棒性。
  • 采用GRPO及其衍生算法的訓練策略,較傳統(tǒng)PPO和DPO在樣本利用率和訓練穩(wěn)定性上表現(xiàn)出明顯優(yōu)勢。
  • 聯(lián)合優(yōu)化規(guī)劃、工具使用和記憶模塊的策略,增強了智能體的自適應能力和任務完成率,特別是在需要多輪交互和環(huán)境反饋的復雜場景中表現(xiàn)突出。
  • 通過引入動態(tài)獎勵和分層次反饋機制,Agentic RL有效解決了傳統(tǒng)RL在LLM訓練中的稀疏獎勵和長程依賴問題。

總體實驗結果驗證了理論框架的有效性和方法創(chuàng)新的實用價值,為未來Agentic RL的規(guī)?;瘧玫於嘶A。

結論與展望

論文總結了Agentic RL作為一種將大語言模型轉變?yōu)榫邆渥灾鳑Q策能力智能體的前沿范式,其在理論建模、能力模塊優(yōu)化及多任務適應性方面的貢獻。當前研究雖取得顯著進展,但仍面臨諸多挑戰(zhàn):

  • 可信度與安全性:如何確保Agentic RL智能體在復雜環(huán)境中的決策透明、可解釋且符合倫理標準,仍需深入研究。
  • 訓練與環(huán)境規(guī)模擴展:大規(guī)模、多樣化環(huán)境下的高效訓練機制亟待突破,以實現(xiàn)更廣泛的應用場景覆蓋。
  • 能力融合與元學習:未來Agentic RL需探索規(guī)劃、推理、工具調用等能力的深度融合機制,以及自我調節(jié)的元學習策略,提升智能體的泛化和自適應能力。

展望未來,Agentic RL有望推動通用人工智能的發(fā)展,實現(xiàn)具備長時序、多模態(tài)感知和復雜推理能力的智能體,廣泛應用于科研、工業(yè)、教育等領域,開啟智能體技術的新篇章。

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

2025-09-02|ByteDance, Tencent AI Lab|??75

??http://arxiv.org/abs/2509.02544v1???
???https://huggingface.co/papers/2509.02544???
???https://github.com/bytedance/ui-tars,https://github.com/bytedance/UI-TARS-desktop??

研究背景與意義

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  1. 問題定義與現(xiàn)狀概述圖形用戶界面(GUI)智能代理的發(fā)展是人工智能領域的核心挑戰(zhàn)。傳統(tǒng)模塊化設計依賴專家規(guī)則,難以擴展且易出錯。近年來,端到端的原生代理模型通過統(tǒng)一感知、推理、行動和記憶,展現(xiàn)出更強的適應性和可擴展性。
  2. 面臨的挑戰(zhàn)
  • 數(shù)據(jù)稀缺性:GUI交互數(shù)據(jù)難以大規(guī)模收集,限制了模型的訓練和泛化能力。
  • 多輪強化學習的穩(wěn)定性:長序列的獎勵稀疏且延遲,優(yōu)化過程不穩(wěn)定,難以實現(xiàn)復雜任務的有效學習。
  • 純GUI操作的局限:現(xiàn)實工作流涉及文件系統(tǒng)、終端等多種工具,單純GUI交互無法滿足復雜需求。
  • 環(huán)境的可擴展性與穩(wěn)定性:大規(guī)模訓練環(huán)境易崩潰,難以支持高并發(fā)和長時間訓練。
  1. 研究目標本文旨在提出UI-TARS-2,一個原生GUI中心的智能代理模型,針對上述挑戰(zhàn),構建系統(tǒng)化訓練框架,實現(xiàn)數(shù)據(jù)與模型的協(xié)同進化,多輪強化學習的穩(wěn)定訓練,混合環(huán)境的跨工具操作,以及高吞吐量的統(tǒng)一沙箱平臺。

研究方法與創(chuàng)新

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  1. 核心技術框架UI-TARS-2基于四大支柱:
  • 數(shù)據(jù)飛輪機制:通過持續(xù)預訓練、監(jiān)督微調和多輪強化學習,模型與訓練數(shù)據(jù)形成正反饋循環(huán),逐步提升數(shù)據(jù)質量和模型能力。
  • 穩(wěn)定的多輪強化學習框架:采用異步推理、狀態(tài)保持環(huán)境、獎勵塑形、解耦優(yōu)勢估計和價值預訓練等技術,解決長序列訓練中的不穩(wěn)定性問題。
  • 混合GUI環(huán)境:構建集成文件系統(tǒng)、終端和外部工具的統(tǒng)一沙箱,突破純GUI交互限制,拓展代理任務范圍。
  • 統(tǒng)一沙箱平臺:支持多種操作系統(tǒng)和瀏覽器環(huán)境,具備高并發(fā)、可復現(xiàn)和自動故障恢復能力,保障大規(guī)模訓練和評估的穩(wěn)定性。
  1. 創(chuàng)新點詳解
  • 原生代理建模:采用ReAct范式,將推理、行動和觀察交織,結合分層記憶(工作記憶與情節(jié)記憶),實現(xiàn)長時序上下文管理。
  • 數(shù)據(jù)采集創(chuàng)新:開發(fā)“就地部署”的思考語音同步標注系統(tǒng),結合專家與新手雙軌采集,捕獲真實且豐富的認知軌跡,填補多輪交互數(shù)據(jù)空白。
  • 人機交互式在線標注:構建四層架構的交互式標注平臺,支持標注者實時介入模型推理過程,生成嚴格的在線策略數(shù)據(jù),提升訓練數(shù)據(jù)的真實性和有效性。
  • 任務設計與獎勵機制:設計多條件模糊和多跳鏈式推理任務,結合自動驗證和LLM判定獎勵,確保訓練信號的準確性與多樣性。
  • 參數(shù)插值融合多領域專家模型:利用模型參數(shù)的線性連通性,將不同領域(瀏覽、游戲、終端等)專精模型通過插值合并,實現(xiàn)跨領域泛化,避免聯(lián)合訓練的復雜性。
  1. 理論基礎與優(yōu)勢本方法基于強化學習理論中的PPO算法,結合最新的優(yōu)勢估計改進(如Decoupled-GAE和Length-Adaptive GAE),提升長序列訓練的穩(wěn)定性和效率。異步推理和狀態(tài)保持環(huán)境設計解決了傳統(tǒng)批量訓練的瓶頸。參數(shù)插值策略則依托于深度學習模型的線性模式連通性理論,保證多任務融合的性能保留。

實驗設計與結果分析

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  1. 實驗設計
  • 模型架構:基于532M視覺編碼器與23B參數(shù)的MoE大模型,繼承Seed1.6預訓練權重。
  • 訓練流程:多輪迭代訓練,包含持續(xù)預訓練(CT)、監(jiān)督微調(SFT)及多輪強化學習(RL)和拒絕采樣(RFT)。
  • 評測基準:涵蓋計算機使用(OSWorld、WindowsAgentArena、TerminalBench、SWE-Bench)、移動設備(AndroidWorld)、瀏覽器任務(Online-Mind2Web、BrowseComp)及游戲環(huán)境(15款游戲集合和LMGame-Bench)。
  1. 結果
  • GUI任務表現(xiàn)顯著提升:UI-TARS-2在OSWorld、WindowsAgentArena、AndroidWorld和Online-Mind2Web上分別取得47.5%、50.6%、73.3%和88.2%的準確率,全面超越前代UI-TARS-1.5及主流商業(yè)模型(Claude 4、OpenAI-o3等)。
  • 擴展SDK帶來能力躍升:通過GUI-SDK擴展,模型在終端和軟件工程任務(TerminalBench、SWE-Bench)中表現(xiàn)優(yōu)異,證明跨工具操作能力顯著增強。
  • 強化學習促進泛化:RL訓練不僅提升了目標任務表現(xiàn),也帶來了對未見領域的強泛化能力,如OSWorld和AndroidWorld的準確率大幅提升。
  • 游戲環(huán)境表現(xiàn)競爭力強:在15款游戲中,模型達到約60%的人類水平,且在LMGame-Bench中與前沿專有模型相當,展現(xiàn)出良好的長時序控制和動態(tài)交互能力。
  1. 統(tǒng)計顯著性與多場景表現(xiàn)實驗涵蓋多操作系統(tǒng)、多設備和多任務類型,結果在多個基準上均顯著優(yōu)于對比模型,體現(xiàn)了方法的普適性和穩(wěn)定性。詳細訓練動態(tài)分析揭示了多輪RL框架在長序列任務中的收斂性和效率優(yōu)勢。

結論與展望

  1. 研究貢獻總結UI-TARS-2通過系統(tǒng)化的數(shù)據(jù)飛輪、穩(wěn)定的多輪強化學習框架、混合交互環(huán)境和統(tǒng)一沙箱平臺,成功構建了一個強大且泛化能力卓越的GUI中心智能代理,實現(xiàn)了跨領域、多任務的高效交互與推理能力。
  2. 局限分析
  • 當前模型對極端復雜的任務仍存在挑戰(zhàn),尤其是在極長時序和高度開放環(huán)境下的穩(wěn)定性有待提升。
  • 數(shù)據(jù)采集依賴人工標注和合成,規(guī)模和多樣性仍有限,未來需進一步擴展。
  • 跨領域參數(shù)插值雖然有效,但聯(lián)合訓練的潛力尚未完全挖掘。
  1. 未來方法展望
  • 探索更深層次的多模態(tài)融合與長期記憶管理,提高代理對復雜環(huán)境的適應能力。
  • 開發(fā)自動化且高效的數(shù)據(jù)生成與標注技術,降低人工成本,提升數(shù)據(jù)覆蓋。
  • 研究聯(lián)合多任務訓練與動態(tài)模型融合策略,進一步增強跨領域協(xié)同與泛化性能。
  • 拓展代理能力至更多實際應用場景,如智能助理、自動化運維和復雜軟件開發(fā)。

綜上,UI-TARS-2不僅推動了GUI智能代理的技術前沿,也為多領域交互智能體的構建提供了寶貴的理論與實踐經驗。

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

2025-09-02|NTU, TikTok|??64

??http://arxiv.org/abs/2509.02479v2???
???https://huggingface.co/papers/2509.02479???
???https://github.com/ltzheng/SimpleTIR/tree/main??

研究背景與意義

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 問題定義與現(xiàn)狀概述大型語言模型(LLMs)通過與外部工具交互實現(xiàn)工具集成推理(Tool-Integrated Reasoning,TIR),顯著提升推理能力。尤其是在多輪交互場景中,LLMs能夠迭代生成代碼、執(zhí)行并利用反饋進行下一步推理,解決了計算精度不足和知識截止等固有限制。
  • 挑戰(zhàn)與目標闡明多輪TIR的強化學習訓練面臨嚴重的不穩(wěn)定性和梯度爆炸問題,主要源于外部工具反饋引發(fā)的分布漂移,導致模型生成低概率token并累積放大,最終使訓練崩潰。傳統(tǒng)的“冷啟動”監(jiān)督微調雖能提升穩(wěn)定性,但限制了模型探索多樣推理策略的能力。本文旨在提出一種無需冷啟動、能穩(wěn)定訓練多輪TIR的強化學習方法,實現(xiàn)零監(jiān)督強化學習(Zero RL)下的端到端訓練。

研究方法與創(chuàng)新

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 技術描述與核心創(chuàng)新作者通過理論分析發(fā)現(xiàn),低概率token的出現(xiàn)是多輪TIR訓練不穩(wěn)定的根源,導致梯度范數(shù)爆炸和錯誤的信用分配?;诖?,提出了SimpleTIR算法——一種軌跡過濾機制。SimpleTIR定義“空洞回合”(void turn)為未生成完整代碼塊或最終答案的回合,通過剔除包含空洞回合的軌跡,阻斷了由低概率token引發(fā)的高幅度梯度傳播,從而穩(wěn)定訓練過程。
  • 優(yōu)勢解釋與現(xiàn)有方法對比SimpleTIR方法簡單易集成,適配性強,且不依賴額外的監(jiān)督數(shù)據(jù)或復雜的閾值調節(jié)。與傳統(tǒng)基于概率閾值或重要性比率的過濾不同,空洞回合的判定更直觀且效果顯著,避免了訓練中的梯度爆炸和信用分配誤差。此外,SimpleTIR保持了Zero RL的優(yōu)勢,鼓勵模型自發(fā)發(fā)現(xiàn)多樣化推理策略,如交叉驗證、漸進推理和自我糾錯,超越了依賴冷啟動的模型表現(xiàn)。
  • 理論基礎討論通過對策略梯度關于softmax logits的范數(shù)展開,揭示了低概率token如何放大梯度,特別是在未裁剪的PPO重要性比率和尖銳分布下,梯度爆炸尤為嚴重。該理論分析為SimpleTIR的軌跡過濾提供了堅實的數(shù)學依據(jù)。

實驗設計與結果分析

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 實驗設計采用Qwen-2.5系列基礎模型,在多個數(shù)學推理基準(如AIME24、Math500、AMC23等)上評估SimpleTIR。訓練采用Zero RL范式,批量512,最大響應長度逐步擴展,最多支持10輪代碼執(zhí)行。對比對象涵蓋無TIR的Zero RL方法、依賴冷啟動的TIR強化學習方法,以及現(xiàn)有的Zero RL TIR方法。
  • 結果分析與基準對比SimpleTIR顯著提升了多輪TIR訓練的穩(wěn)定性,梯度范數(shù)平穩(wěn)無爆炸,訓練曲線平滑且性能持續(xù)提升。在AIME24任務上,SimpleTIR將基線模型分數(shù)從22.1提升至50.5,遠超所有Zero RL及部分冷啟動方法。消融實驗證明,空洞回合過濾是穩(wěn)定訓練和性能提升的關鍵,而基于低概率token或高重要性比率的過濾效果不佳。此外,SimpleTIR在多輪交互次數(shù)增加時表現(xiàn)更優(yōu),響應長度和部分任務得分隨之提升。
  • 多樣化推理行為的出現(xiàn)SimpleTIR訓練出的模型展現(xiàn)出豐富的推理模式,包括交叉驗證、漸進推理和錯誤糾正,頻率明顯高于依賴冷啟動的ReTool模型,體現(xiàn)了Zero RL訓練鼓勵探索多樣策略的優(yōu)勢。

結論與展望

  • 貢獻總結本文提出的SimpleTIR通過過濾空洞回合軌跡,成功解決了多輪TIR強化學習中的訓練不穩(wěn)定和梯度爆炸難題,實現(xiàn)了端到端的Zero RL多輪工具集成推理訓練。其在多個數(shù)學推理基準上取得了領先性能,并促進了多樣化推理策略的自發(fā)形成。
  • 局限性分析當前方法依賴空洞回合作為低概率token的代理指標,可能難以直接推廣至非多輪TIR任務;最大交互輪次限制為10,復雜任務可能需更多輪次;訓練依賴高效的并行代碼執(zhí)行沙箱,實際部署中存在效率與穩(wěn)定性挑戰(zhàn)。
  • 未來研究方向包括探索更通用的低概率token檢測指標,擴展多輪交互次數(shù)以適應更復雜任務,優(yōu)化代碼執(zhí)行環(huán)境以提升訓練效率,以及實現(xiàn)完全異步的rollout和獎勵計算機制,進一步提升多輪TIR強化學習的可擴展性和實用性。

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

2025-09-01|U Waterloo, Sea AI Lab, U Toronto, SHU, HKUST, NUS, NetMind.AI|??48

??http://arxiv.org/abs/2509.01055v1???
???https://huggingface.co/papers/2509.01055???
???https://github.com/TIGER-AI-Lab/verl-tool??

研究背景與意義

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 背景現(xiàn)狀:近年來,大型語言模型(LLMs)通過強化學習與可驗證獎勵(RLVR)極大提升了推理能力,尤其在數(shù)學和編程領域表現(xiàn)優(yōu)異。然而,現(xiàn)有RLVR多限于單輪交互,缺乏與外部工具的深度集成,導致模型推理過程封閉,難以適應復雜環(huán)境。
  • 問題挑戰(zhàn):多輪、多工具交互的Agentic Reinforcement Learning with Tool use(ARLT)雖已興起,但現(xiàn)有系統(tǒng)多為任務定制,缺乏統(tǒng)一框架,存在代碼碎片化、同步執(zhí)行瓶頸和擴展性差等問題,阻礙了社區(qū)廣泛采用和算法創(chuàng)新。
  • 研究目標:本文提出VERLTOOL,一個統(tǒng)一且模塊化的ARLT訓練框架,旨在解決上述挑戰(zhàn),支持多模態(tài)工具管理與異步執(zhí)行,提升訓練效率和系統(tǒng)擴展性,促進工具增強型強化學習研究的發(fā)展。

研究方法與創(chuàng)新

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 技術描述

上游對齊:VERLTOOL基于VERL框架,確保與上游代碼兼容,簡化維護。

統(tǒng)一工具管理:設計標準化API,支持代碼執(zhí)行、搜索、SQL查詢和視覺處理等多模態(tài)工具,新增工具僅需輕量Python定義,極大降低開發(fā)門檻。

異步Rollout執(zhí)行:采用軌跡級異步調用工具服務器,避免傳統(tǒng)批處理同步等待,提升推理速度近2倍。

多任務支持:框架涵蓋數(shù)學推理、知識問答、SQL生成、視覺推理、網(wǎng)頁搜索和軟件工程六大任務,提供統(tǒng)一訓練基礎設施。

  • 創(chuàng)新優(yōu)勢

系統(tǒng)設計:模塊化插件架構實現(xiàn)工具與訓練流程解耦,支持多工具并行調用,提升擴展性和復用性。

異步執(zhí)行機制:突破傳統(tǒng)同步框架限制,實現(xiàn)高效資源利用,顯著加速訓練過程。

多模態(tài)支持:融合文本、圖像、視頻等多種數(shù)據(jù)形式,滿足復雜多樣的工具交互需求。

  • 理論基礎對比

相較于傳統(tǒng)RLVR僅支持單輪靜態(tài)交互,VERLTOOL擴展為多輪、多模態(tài)交互,結合GRPO算法優(yōu)化策略,解決了工具調用中觀測偏差和策略穩(wěn)定性問題,理論上更適合開放環(huán)境下的智能體訓練。

實驗設計與結果分析

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 實驗設計

在六大ARLT任務上進行訓練與評估,包括數(shù)學推理(VT-Math)、知識問答(VT-Search)、SQL生成(VT-SQL)、視覺推理(VT-VisualReasoner)、深度搜索(VT-DeepSearch)及軟件工程(VT-SWE)。

對比現(xiàn)有專用系統(tǒng),采用相同模型基線,驗證VERLTOOL的通用性與性能。

評估指標涵蓋準確率、通過率及任務特定性能指標,輔以訓練過程中的工具使用頻率和交互策略分析。

  • 結果分析

性能表現(xiàn):VERLTOOL訓練模型在所有任務上均達到或超越現(xiàn)有專用系統(tǒng),數(shù)學任務平均性能62.2%,知識問答提升至45.9%,SQL任務與SkyRL-SQL表現(xiàn)相當,視覺和搜索任務亦展現(xiàn)強勁競爭力。

工具支持與多模態(tài)表現(xiàn):框架成功整合文本、代碼、搜索、圖像和系統(tǒng)命令工具,支持復雜多模態(tài)交互,視覺推理任務中實現(xiàn)動態(tài)圖像處理與多步推理,體現(xiàn)出框架的靈活性與強大適應性。

訓練動態(tài)與策略演化:不同任務中工具調用次數(shù)表現(xiàn)差異,數(shù)學任務調用頻率較低且趨于穩(wěn)定,搜索任務調用頻率隨訓練增長顯著上升,反映出模型對工具依賴的任務特性。模型展現(xiàn)出自我糾錯、迭代優(yōu)化和策略選擇等高級智能體行為。

效率提升:異步執(zhí)行機制使Rollout階段速度提升近2倍,顯著提高GPU利用率,減少訓練時間。

結論與展望

  • 研究貢獻總結

提出VERLTOOL,首個統(tǒng)一、模塊化且高效的ARLT訓練框架,實現(xiàn)多模態(tài)工具集成與異步訓練。

通過廣泛任務驗證,證明框架具備優(yōu)異的性能和良好的擴展性,促進了多輪、多工具交互的Agentic RL研究。

開源代碼降低社區(qū)門檻,推動工具增強強化學習的普及與創(chuàng)新。

  • 局限性分析

當前工具種類雖豐富,但仍需擴展支持更多復雜工具和更大規(guī)模分布式訓練。

多模態(tài)數(shù)據(jù)處理和策略穩(wěn)定性仍有提升空間,尤其在極端復雜環(huán)境下的泛化能力待加強。

  • 未來展望

計劃引入更豐富的工具類型和多智能體協(xié)作機制,提升系統(tǒng)智能化水平。

探索更高效的異步調度策略和動態(tài)資源分配方案,進一步提升訓練效率。

深化理論研究,完善多模態(tài)Agentic RL的算法基礎,推動智能體在真實復雜環(huán)境中的廣泛應用。

Baichuan-M2: Scaling Medical Capability with Large Verifier System

2025-09-02|Baichuan-M2Team|??28

??http://arxiv.org/abs/2509.02208v1???
???https://huggingface.co/papers/2509.02208??

研究背景與意義

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 領域現(xiàn)狀與挑戰(zhàn):隨著大型語言模型(LLMs)在對話和推理能力上的進步,其在醫(yī)療領域的實際應用成為研究熱點。然而,當前醫(yī)療LLMs在靜態(tài)考試(如USMLE)中的表現(xiàn)與實際臨床決策中的效用存在顯著差距,主要因傳統(tǒng)考試無法反映醫(yī)療咨詢的動態(tài)交互和復雜性。
  • 研究目標:為彌補這一差距,論文提出構建一個大規(guī)模、高保真度的動態(tài)交互式強化學習驗證系統(tǒng),使模型能在模擬的臨床環(huán)境中“練習”和適應,提升其臨床推理和決策能力,實現(xiàn)醫(yī)療AI從靜態(tài)知識記憶向動態(tài)臨床思維的深度對齊。

研究方法與創(chuàng)新

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 動態(tài)驗證系統(tǒng)設計:系統(tǒng)由兩大核心模塊構成:

患者模擬器:基于脫敏醫(yī)療記錄和醫(yī)生-患者對話,結合心理和社會背景建模,模擬多樣化且行為一致的虛擬患者,實現(xiàn)多輪動態(tài)交互,突破以往靜態(tài)問答的局限。

臨床評分生成器:動態(tài)生成多維度評價指標(診斷準確性、咨詢邏輯、治療合理性、溝通同理心及醫(yī)學倫理等),實現(xiàn)對模型多輪表現(xiàn)的實時、量化評估,貼近臨床專家的綜合判斷。

  • 多階段強化學習訓練策略

輕量級中期訓練優(yōu)化醫(yī)學領域適應性,同時保留模型通用能力。

監(jiān)督微調階段建立基礎推理能力,過濾和精選高質量醫(yī)學對話數(shù)據(jù)。

基于改進的群體相對策略優(yōu)化(GRPO)算法,分階段進行規(guī)則驅動、評分驅動及多輪交互強化學習,逐步提升模型醫(yī)學知識整合、推理深度和動態(tài)交互能力。

  • 創(chuàng)新點詳解

患者模擬器通過結合心理模型(如MBTI)和社會屬性,實現(xiàn)個性化、多樣化且行為一致的模擬,解決信息泄露、事實不一致及對話終止控制等難題。

臨床評分生成器采用生成式方法結合專家篩選和權重標注,確保評分標準既全面又靈活,且在評估中達到92.7%的專家一致性,提升評價的可靠性和適應性。

引入條件長度懲罰機制,平衡醫(yī)學回答的專業(yè)性與簡潔性,避免冗余和“越短越好”的病態(tài)優(yōu)化。

采用親和機制優(yōu)化多維評分的計算效率,提升驗證系統(tǒng)的實時響應能力。

實驗設計與結果分析

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

智能體強化學習綜述;強化學習原生GUI智能體;多輪工具交互強化學習;模塊化多輪工具強化學習-AI.x社區(qū)

  • 實驗設計

采用OpenAI發(fā)布的HealthBench數(shù)據(jù)集,涵蓋5000個真實多輪醫(yī)療對話,使用超過4.8萬個由262名臨床醫(yī)生設計的評分標準進行多維評價。

對比對象包括最先進的開源模型(如gpt-oss-120B、Qwen3-235B-A22B)及閉源模型(如GPT-4.1、Grok 3等)。

評測指標覆蓋整體表現(xiàn)、難度較高任務和專家共識任務,細分核心醫(yī)療場景能力(急診轉診、上下文理解、溝通質量等)。

  • 結果分析

Baichuan-M2(32B參數(shù))在HealthBench整體及難度任務中均顯著優(yōu)于所有開源對手,且在難度最高的測試集上表現(xiàn)超過除GPT-5外的所有模型。

其性能在閉源模型中亦處于領先或持平水平,尤其在復雜醫(yī)療任務中展現(xiàn)出更強的推理和交互能力。

在模型規(guī)模與性能的權衡上,Baichuan-M2實現(xiàn)了Pareto最優(yōu),兼具高性能與較低部署成本,適合資源有限的醫(yī)療環(huán)境。

細分指標顯示,模型在急診轉診、醫(yī)療上下文理解、溝通能力和回答完整性等關鍵醫(yī)療能力上均排名第一,體現(xiàn)了其臨床應用的實用性和有效性。

結論與展望

  • 研究貢獻總結

提出并實現(xiàn)了一個動態(tài)交互式的醫(yī)療強化學習驗證系統(tǒng),突破了傳統(tǒng)靜態(tài)評測的局限,實現(xiàn)了臨床場景的高度仿真與多維度評價。

設計并優(yōu)化了患者模擬器與臨床評分生成器,提升了模擬真實性和評價準確性,為強化學習提供了堅實的環(huán)境和反饋機制。

采用多階段強化學習策略和改進的GRPO算法,顯著提升了模型的醫(yī)學推理和交互能力,實現(xiàn)了開源醫(yī)療AI模型的新標桿。

在公開醫(yī)療評測中取得領先成績,展示了高效且實用的模型訓練與驗證范式,推動醫(yī)療AI向更安全、精準和可部署方向發(fā)展。

  • 未來展望

計劃進一步完善患者模擬器和評分系統(tǒng),擴展強化學習訓練從對話片段到完整會話的優(yōu)化,提升模型的全局規(guī)劃和系統(tǒng)推理能力。

探索更細粒度的多模態(tài)醫(yī)療數(shù)據(jù)融合,增強模型對醫(yī)學影像、檢驗報告等多源信息的理解與推理。

推動模型在更廣泛臨床場景中的應用驗證,促進醫(yī)療AI技術的臨床落地和實際效益最大化。

本文轉載自??AI研究前瞻??,作者:胡耀淇

已于2025-9-5 10:02:39修改
收藏
回復
舉報
回復
相關推薦