偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

任意Agent皆可強(qiáng)化學(xué)習(xí)!微軟推出Agent Lightning框架,無需修改任何代碼

人工智能 新聞
AI Agent已逐漸從科幻走進(jìn)現(xiàn)實(shí)!不僅能夠執(zhí)行編寫代碼、調(diào)用工具、進(jìn)行多輪對話等復(fù)雜任務(wù),甚至還可以進(jìn)行端到端的軟件開發(fā),已經(jīng)在金融、游戲、軟件開發(fā)等諸多領(lǐng)域落地應(yīng)用。

當(dāng)前的AI Agent在訓(xùn)練與優(yōu)化環(huán)節(jié)卻面臨著嚴(yán)峻挑戰(zhàn),傳統(tǒng)強(qiáng)化學(xué)習(xí)方法也在復(fù)雜、動(dòng)態(tài)交互場景下表現(xiàn)不佳。

為此,微軟團(tuán)隊(duì)推出了一個(gè)靈活、可擴(kuò)展的框架Agent Lightning,其可對任何AI Agent進(jìn)行基于強(qiáng)化學(xué)習(xí)的LLM訓(xùn)練,有望重塑AI Agent的未來訓(xùn)練范式。相關(guān)研究論文已發(fā)表在預(yù)印本網(wǎng)站arXiv上。

論文鏈接:https://arxiv.org/abs/2508.03680

核心貢獻(xiàn)如下:

  • Agent Lightning是首個(gè)實(shí)現(xiàn) Agent 與強(qiáng)化學(xué)習(xí)訓(xùn)練完全解耦的框架,能夠無縫應(yīng)用于任何 AI Agent,無論其實(shí)現(xiàn)方式如何,幾乎無需進(jìn)行任何代碼修改。將訓(xùn)練與 Agent 的執(zhí)行邏輯對齊,提升了 Agent 在實(shí)際應(yīng)用中的性能。這使開發(fā)者能夠突破靜態(tài)預(yù)訓(xùn)練模型的局限,釋放自適應(yīng)學(xué)習(xí)型 Agent 的全部潛力。

  • 在算法層面,Agent Lightning基于 Agent 的馬爾可夫決策過程(MDP)建模,并引入統(tǒng)一數(shù)據(jù)接口。該接口抽象化了不同 Agent 執(zhí)行邏輯的復(fù)雜性,使 Agent 執(zhí)行過程中收集的數(shù)據(jù)可直接轉(zhuǎn)換為訓(xùn)練軌跡。此外,Agent Lightning 采用分層強(qiáng)化學(xué)習(xí)框架,并配備信用分配模塊,將軌跡級回報(bào)分配給每次調(diào)用生成的響應(yīng)。該設(shè)計(jì)與現(xiàn)有單輪強(qiáng)化學(xué)習(xí)算法無縫集成,實(shí)現(xiàn)高效且有效的訓(xùn)練。

  • 在系統(tǒng)層面,Agent Lightning引入了Training-Agent解耦架構(gòu),實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)訓(xùn)練與 Agent 執(zhí)行的清晰分離。該架構(gòu)通過 Lightning Server 和 Lightning Client 實(shí)現(xiàn),兩者共同提供適用于任何 Agent 的標(biāo)準(zhǔn)化模型訓(xùn)練服務(wù)。Lightning Client 作為 Agent 運(yùn)行時(shí),透明地管理 Agent 執(zhí)行并收集軌跡,無需進(jìn)行代碼修改。該設(shè)計(jì)使可觀察性基礎(chǔ)設(shè)施在訓(xùn)練場景中得以復(fù)用,確保了可擴(kuò)展性(extensibility)、可伸縮性(scalability)和與各種 Agent 框架的無縫集成。

Agent Lightning:

訓(xùn)練任意AI Agent

在真實(shí)世界中,AI Agent的運(yùn)行邏輯極為復(fù)雜,絕非簡單的一問一答模式。

它們常常需要多輪交互,像人類對話一樣循序漸進(jìn)推進(jìn)任務(wù),通過調(diào)用外部工具或API,與外部系統(tǒng)交互獲取更多信息,依據(jù)環(huán)境反饋和當(dāng)前狀態(tài)靈活做出動(dòng)態(tài)決策,甚至在復(fù)雜場景中,多個(gè)Agent需協(xié)同合作完成任務(wù)。

但現(xiàn)有強(qiáng)化學(xué)習(xí)訓(xùn)練框架,往往將強(qiáng)化學(xué)習(xí)訓(xùn)練過程與Agent的具體執(zhí)行邏輯緊密捆綁,導(dǎo)致一系列問題,嚴(yán)重阻礙了強(qiáng)化學(xué)習(xí)在AI Agent大規(guī)模訓(xùn)練和部署中的應(yīng)用。

例如:

  • 耦合度高:若想利用強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)已有的Agent,開發(fā)者往往不得不對 Agent 代碼進(jìn)行大規(guī)模修改,甚至重構(gòu),開發(fā)成本巨大;
  • 擴(kuò)展性差:針對特定任務(wù)設(shè)計(jì)的強(qiáng)化學(xué)習(xí)方法,很難直接遷移到其他類型的Agent;
  • 數(shù)據(jù)利用率低:Agent在真實(shí)環(huán)境中產(chǎn)生的豐富交互數(shù)據(jù),因與強(qiáng)化學(xué)習(xí)訓(xùn)練框架不兼容而難以被有效利用;
  • 多輪交互生成的上下文序列過于冗長:增加了LLM計(jì)算和內(nèi)存開銷。

微軟此次提出的Agent Lightning框架的核心創(chuàng)新點(diǎn),在于實(shí)現(xiàn)了AI Agent執(zhí)行與強(qiáng)化學(xué)習(xí)訓(xùn)練之間的徹底解耦。二者可獨(dú)立運(yùn)作,又能進(jìn)行信息交換。

Agent Lightning概述

除了上述提到的完全解耦和統(tǒng)一數(shù)據(jù)接口之外,Lightning RL也是該研究的主要亮點(diǎn)之一。

LightningRL是微軟為利用收集到的轉(zhuǎn)換數(shù)據(jù)優(yōu)化策略LLM,而提出的專為Agent訓(xùn)練設(shè)計(jì)的分層強(qiáng)化學(xué)習(xí)算法。

LightningRL示意圖

該算法包含信用分配模塊,能夠?qū)⑷魏蜛gent生成的軌跡分解為訓(xùn)練所需的轉(zhuǎn)換數(shù)據(jù),從而使強(qiáng)化學(xué)習(xí)能夠處理復(fù)雜的交互邏輯,如多Agent場景和動(dòng)態(tài)工作流。

在信用分配過程中,高層信用分配首先將整個(gè)任務(wù)的最終獎(jiǎng)勵(lì)合理分配到任務(wù)執(zhí)行過程中的每一步驟,例如在最簡單實(shí)現(xiàn)中,可讓每一次調(diào)用的獎(jiǎng)勵(lì)都等于最終獎(jiǎng)勵(lì)。

經(jīng)過高層信用分配后,低層策略更新將每一次LLM調(diào)用(input、output、reward)轉(zhuǎn)化為一個(gè)獨(dú)立的單次調(diào)用強(qiáng)化學(xué)習(xí)問題。

此時(shí)可直接套用任何現(xiàn)成的、成熟的單次調(diào)用強(qiáng)化學(xué)習(xí)算法(如PPO、DPO或GRPO),來更新模型參數(shù)。

這種設(shè)計(jì)不僅具備靈活性和復(fù)用性,可直接利用社區(qū)中SOTA單次調(diào)用強(qiáng)化學(xué)習(xí)算法,還從根本上解決了因上下文累積導(dǎo)致的序列過長問題,避免了復(fù)雜易錯(cuò)的掩碼操作。

Agent Lightning將計(jì)算密集型的LLM生成與傳統(tǒng)編程語言編寫、輕量級但多樣化且靈活的應(yīng)用邏輯和工具分離。

在系統(tǒng)設(shè)計(jì)方面,Agent Lightning引入了Training-Agent解耦架構(gòu),構(gòu)建了一個(gè)適用于任意Agent的標(biāo)準(zhǔn)化訓(xùn)練服務(wù)。

該架構(gòu)由Agent Lightning Server和Agent Lightning Client組成。

Training-Agent解耦架構(gòu)

Agent Lightning Server:作為強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)的大腦,承擔(dān)著管理訓(xùn)練流程的重任,并通過類OpenAI API向客戶端暴露更新后的模型。它負(fù)責(zé)運(yùn)行強(qiáng)化學(xué)習(xí)訓(xùn)練算法、分配GPU資源、管理模型版本等一系列復(fù)雜且計(jì)算密集型的任務(wù)。

Agent Lightning Client:包含兩個(gè)功能模塊:一個(gè)模塊負(fù)責(zé)與服務(wù)器通信,實(shí)現(xiàn)數(shù)據(jù)傳輸與接收;另一個(gè)模塊運(yùn)行Agent并執(zhí)行數(shù)據(jù)收集,充當(dāng)Agent的運(yùn)行時(shí)環(huán)境。

得益于統(tǒng)一數(shù)據(jù)接口,Agent運(yùn)行時(shí)能夠?qū)penTelemetry等全面的可觀測性框架集成到訓(xùn)練過程中,用于軌跡收集。

這一機(jī)制將監(jiān)控基礎(chǔ)設(shè)施與強(qiáng)化學(xué)習(xí)訓(xùn)練連接起來,使優(yōu)化算法能夠利用豐富的系統(tǒng)監(jiān)控?cái)?shù)據(jù),從而構(gòu)建更具可擴(kuò)展性與靈活性的訓(xùn)練基礎(chǔ)。

這種前后端分離式的架構(gòu)設(shè)計(jì),徹底將Agent開發(fā)者從復(fù)雜的強(qiáng)化學(xué)習(xí)系統(tǒng)配置中解放出來,讓他們得以專注于Agent本身的邏輯和創(chuàng)意,極大降低了AI Agent進(jìn)化的門檻。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個(gè)任務(wù)上對Agent Lightning框架進(jìn)行了實(shí)驗(yàn)驗(yàn)證,涵蓋Text-to-SQL、開放域問答、數(shù)學(xué)問答等。

在這些實(shí)驗(yàn)中,Agent Lightning均展示出穩(wěn)定且持續(xù)的性能提升。

實(shí)驗(yàn)中任務(wù)和設(shè)置的總結(jié)

通過LangChain實(shí)現(xiàn)Text-to-SQL

第一個(gè)任務(wù)采用LangChain實(shí)現(xiàn),設(shè)計(jì)為多Agent系統(tǒng)架構(gòu)。

系統(tǒng)包含三個(gè)Agent,工作流程如下:

SQL writing agent首先會(huì)生成SQL查詢語句并執(zhí)行。

若查詢正確,SQL executor會(huì)返回?cái)?shù)據(jù)庫信息;若出錯(cuò),則返回錯(cuò)誤提示。

隨后,checking agent評估SQL查詢的正確性及檢索信息的有效性和完整性,并決定是重寫查詢還是直接生成答案。

若需重寫,re-writing agent將根據(jù)checking agent的反饋修改查詢語句;若無需重寫,該agent同時(shí)承擔(dān)問答任務(wù),利用檢索到的信息和問題生成最終答案。

在此工作流程中,SQL寫入(writing)、校驗(yàn)(checking)和重寫(re-writing)均由同一LLM完成,但針對不同任務(wù)定制了專屬提示,從而實(shí)現(xiàn)三個(gè)Agent協(xié)同運(yùn)作。

在訓(xùn)練過程中,研究團(tuán)隊(duì)只對其中兩個(gè)進(jìn)行了優(yōu)化,即SQL writing agent和re-writing Agent,這兩個(gè)agent是同步進(jìn)行優(yōu)化的,說明Agent Lightning 可以在多Agent系統(tǒng)中選擇性地對一個(gè)或多個(gè)Agent進(jìn)行優(yōu)化。

如圖,Agent Lightning能夠穩(wěn)定地提高獎(jiǎng)勵(lì),展示了其優(yōu)化涉及代碼生成和工具使用的復(fù)雜多步?jīng)Q策的能力。

Text-to-SQL任務(wù)的獎(jiǎng)勵(lì)曲線

通過OpenAI Agent SDK實(shí)現(xiàn)檢索增強(qiáng)生成

第二個(gè)任務(wù)是典型的檢索增強(qiáng)生成(RAG)任務(wù)。

給定一個(gè)問題和文檔數(shù)據(jù)庫,Agent首先會(huì)生成自然語言查詢,通過現(xiàn)有檢索工具獲取支持性文檔。

該Agent是使用OpenAI Agent SDK實(shí)現(xiàn)的。與之前的Text-to-SQL任務(wù)相比,這里的Agent工作流程類似但更簡單。

策略LLM需要先生成查詢請求,然后根據(jù)檢索到的文檔決定是優(yōu)化查詢還是直接生成答案。

該圖展示了Agent Lightning在這一具有挑戰(zhàn)性的任務(wù)上實(shí)現(xiàn)了穩(wěn)定的性能提升,證明了其在更復(fù)雜和開放式RAG場景中的有效性。

通過AutoGen實(shí)現(xiàn)數(shù)學(xué)問答與工具使用

第三個(gè)任務(wù)是數(shù)學(xué)類問答任務(wù),旨在評估Agent調(diào)用工具(具體指計(jì)算器)解決算術(shù)和符號問題的能力。

最終的獎(jiǎng)勵(lì)取決于Agent是否正確回答了問題,模型的性能也通過測試集上的答案準(zhǔn)確度進(jìn)行評估。

如圖,Agent Lightning在訓(xùn)練過程中持續(xù)提高了性能。這證明了它在工具增強(qiáng)設(shè)置中的有效性,即需要精確的外部函數(shù)調(diào)用和推理。

未來方向:推動(dòng)Agent能力迭代升級

在論文的最后,研究團(tuán)隊(duì)也探討了未來的工作方向。

首先,除了強(qiáng)化學(xué)習(xí)外,Agent Lightning建模框架還很好地支持其他優(yōu)化方法,如自動(dòng)prompt優(yōu)化。

關(guān)注關(guān)鍵組件及其調(diào)用是Agent優(yōu)化的主要方法,而不僅僅局限于基于強(qiáng)化學(xué)習(xí)的方法。

為此,團(tuán)隊(duì)提出了Component of Interest(CoI)的概念,用于指定執(zhí)行軌跡中受優(yōu)化影響的組件子集。

例如,prompt模板渲染可視為工具調(diào)用,通過將該工具視為CoI,Agent Lightning可支持prompt優(yōu)化方法。

這種統(tǒng)一且可擴(kuò)展的數(shù)據(jù)結(jié)構(gòu)支持對Agent行為進(jìn)行全面的下游優(yōu)化與分析。

其次,研究團(tuán)隊(duì)認(rèn)為,開發(fā)更高效的強(qiáng)化學(xué)習(xí)算法是解決復(fù)雜Agent場景下模型優(yōu)化的關(guān)鍵,包括但不限于長程信用分配、探索算法、off-policy算法等。

Agent Lightning通過過渡來建模和組織數(shù)據(jù),使集成額外算法更加方便。

此外,支持LLM的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施持續(xù)演進(jìn),為與基于Agent的強(qiáng)化學(xué)習(xí)框架的協(xié)同開發(fā)提供了重大機(jī)會(huì)。

一個(gè)有前景的方向是進(jìn)一步分解系統(tǒng)組件,即將訓(xùn)練器、推斷引擎和Agent工作流程分離,以解決推斷瓶頸并提升大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的可擴(kuò)展性。

探索此類架構(gòu)改進(jìn)可帶來更高效且靈活的強(qiáng)化學(xué)習(xí)管道。

此外,針對長程任務(wù)的優(yōu)化將受益于強(qiáng)化學(xué)習(xí)算法與系統(tǒng)設(shè)計(jì)協(xié)同創(chuàng)新,從而實(shí)現(xiàn)復(fù)雜Agent更高效的訓(xùn)練。

最后,在LLM高效服務(wù)方面,研究團(tuán)隊(duì)建議采用更適合LLM的抽象方法,可以優(yōu)化資源利用率和響應(yīng)時(shí)間。

此外,通過優(yōu)化服務(wù)環(huán)境和工具的資源調(diào)度,還能進(jìn)一步簡化操作流程,提高在多樣化部署場景中的擴(kuò)展能力。

隨著Agent Lightning框架解決了強(qiáng)化學(xué)習(xí)與Agent耦合的難題,強(qiáng)化學(xué)習(xí)有望成為Agent訓(xùn)練的標(biāo)配。

同時(shí),Agent在真實(shí)世界中產(chǎn)生的海量交互數(shù)據(jù),將不再被閑置浪費(fèi)。

Agent Lightning的統(tǒng)一數(shù)據(jù)接口,能夠高效地將這些數(shù)據(jù)用于強(qiáng)化學(xué)習(xí)訓(xùn)練,推動(dòng)Agent能力迭代升級。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-08-22 09:56:18

2024-09-30 14:40:00

AI強(qiáng)化學(xué)習(xí)框架

2018-08-29 08:13:22

Google 學(xué)習(xí)框架技術(shù)

2024-01-30 09:00:28

框架BMRL模型

2025-09-11 06:57:11

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-08-21 09:10:00

2025-08-18 03:00:00

AI智能體微軟

2025-04-25 13:34:53

R1DeepSeekAgent

2025-02-17 10:36:00

微軟開源模型

2025-01-08 15:15:16

2020-06-05 08:09:01

Python強(qiáng)化學(xué)習(xí)框架

2025-05-30 14:59:36

GoogleAgent2AI

2025-07-24 09:05:00

2024-12-09 08:45:00

模型AI

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2025-05-15 09:04:00

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-11-16 08:54:05

Google 開源技術(shù)

2023-11-13 07:51:58

ChatGPT研究
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號