偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="pzscc"></rt>

<thead id="pzscc"></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

任意Agent皆可強(qiáng)化學(xué)習(xí)！微軟推出Agent Lightning框架，無需修改任何代碼

2025-10-11 09:02:40

人工智能新聞

AI Agent已逐漸從科幻走進(jìn)現(xiàn)實(shí)！不僅能夠執(zhí)行編寫代碼、調(diào)用工具、進(jìn)行多輪對話等復(fù)雜任務(wù)，甚至還可以進(jìn)行端到端的軟件開發(fā)，已經(jīng)在金融、游戲、軟件開發(fā)等諸多領(lǐng)域落地應(yīng)用。

當(dāng)前的AI Agent在訓(xùn)練與優(yōu)化環(huán)節(jié)卻面臨著嚴(yán)峻挑戰(zhàn)，傳統(tǒng)強(qiáng)化學(xué)習(xí)方法也在復(fù)雜、動(dòng)態(tài)交互場景下表現(xiàn)不佳。

為此，微軟團(tuán)隊(duì)推出了一個(gè)靈活、可擴(kuò)展的框架Agent Lightning，其可對任何AI Agent進(jìn)行基于強(qiáng)化學(xué)習(xí)的LLM訓(xùn)練，有望重塑AI Agent的未來訓(xùn)練范式。相關(guān)研究論文已發(fā)表在預(yù)印本網(wǎng)站arXiv上。

論文鏈接：https://arxiv.org/abs/2508.03680

核心貢獻(xiàn)如下：

Agent Lightning是首個(gè)實(shí)現(xiàn) Agent 與強(qiáng)化學(xué)習(xí)訓(xùn)練完全解耦的框架，能夠無縫應(yīng)用于任何 AI Agent，無論其實(shí)現(xiàn)方式如何，幾乎無需進(jìn)行任何代碼修改。將訓(xùn)練與 Agent 的執(zhí)行邏輯對齊，提升了 Agent 在實(shí)際應(yīng)用中的性能。這使開發(fā)者能夠突破靜態(tài)預(yù)訓(xùn)練模型的局限，釋放自適應(yīng)學(xué)習(xí)型 Agent 的全部潛力。
在算法層面，Agent Lightning基于 Agent 的馬爾可夫決策過程（MDP）建模，并引入統(tǒng)一數(shù)據(jù)接口。該接口抽象化了不同 Agent 執(zhí)行邏輯的復(fù)雜性，使 Agent 執(zhí)行過程中收集的數(shù)據(jù)可直接轉(zhuǎn)換為訓(xùn)練軌跡。此外，Agent Lightning 采用分層強(qiáng)化學(xué)習(xí)框架，并配備信用分配模塊，將軌跡級回報(bào)分配給每次調(diào)用生成的響應(yīng)。該設(shè)計(jì)與現(xiàn)有單輪強(qiáng)化學(xué)習(xí)算法無縫集成，實(shí)現(xiàn)高效且有效的訓(xùn)練。
在系統(tǒng)層面，Agent Lightning引入了Training-Agent解耦架構(gòu)，實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)訓(xùn)練與 Agent 執(zhí)行的清晰分離。該架構(gòu)通過 Lightning Server 和 Lightning Client 實(shí)現(xiàn)，兩者共同提供適用于任何 Agent 的標(biāo)準(zhǔn)化模型訓(xùn)練服務(wù)。Lightning Client 作為 Agent 運(yùn)行時(shí)，透明地管理 Agent 執(zhí)行并收集軌跡，無需進(jìn)行代碼修改。該設(shè)計(jì)使可觀察性基礎(chǔ)設(shè)施在訓(xùn)練場景中得以復(fù)用，確保了可擴(kuò)展性（extensibility）、可伸縮性（scalability）和與各種 Agent 框架的無縫集成。

Agent Lightning：

訓(xùn)練任意AI Agent

在真實(shí)世界中，AI Agent的運(yùn)行邏輯極為復(fù)雜，絕非簡單的一問一答模式。

它們常常需要多輪交互，像人類對話一樣循序漸進(jìn)推進(jìn)任務(wù)，通過調(diào)用外部工具或API，與外部系統(tǒng)交互獲取更多信息，依據(jù)環(huán)境反饋和當(dāng)前狀態(tài)靈活做出動(dòng)態(tài)決策，甚至在復(fù)雜場景中，多個(gè)Agent需協(xié)同合作完成任務(wù)。

但現(xiàn)有強(qiáng)化學(xué)習(xí)訓(xùn)練框架，往往將強(qiáng)化學(xué)習(xí)訓(xùn)練過程與Agent的具體執(zhí)行邏輯緊密捆綁，導(dǎo)致一系列問題，嚴(yán)重阻礙了強(qiáng)化學(xué)習(xí)在AI Agent大規(guī)模訓(xùn)練和部署中的應(yīng)用。

例如：

耦合度高：若想利用強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)已有的Agent，開發(fā)者往往不得不對 Agent 代碼進(jìn)行大規(guī)模修改，甚至重構(gòu)，開發(fā)成本巨大；
擴(kuò)展性差：針對特定任務(wù)設(shè)計(jì)的強(qiáng)化學(xué)習(xí)方法，很難直接遷移到其他類型的Agent；
數(shù)據(jù)利用率低：Agent在真實(shí)環(huán)境中產(chǎn)生的豐富交互數(shù)據(jù)，因與強(qiáng)化學(xué)習(xí)訓(xùn)練框架不兼容而難以被有效利用；
多輪交互生成的上下文序列過于冗長：增加了LLM計(jì)算和內(nèi)存開銷。

微軟此次提出的Agent Lightning框架的核心創(chuàng)新點(diǎn)，在于實(shí)現(xiàn)了AI Agent執(zhí)行與強(qiáng)化學(xué)習(xí)訓(xùn)練之間的徹底解耦。二者可獨(dú)立運(yùn)作，又能進(jìn)行信息交換。

Agent Lightning概述

除了上述提到的完全解耦和統(tǒng)一數(shù)據(jù)接口之外，Lightning RL也是該研究的主要亮點(diǎn)之一。

LightningRL是微軟為利用收集到的轉(zhuǎn)換數(shù)據(jù)優(yōu)化策略LLM，而提出的專為Agent訓(xùn)練設(shè)計(jì)的分層強(qiáng)化學(xué)習(xí)算法。

LightningRL示意圖

該算法包含信用分配模塊，能夠?qū)⑷魏蜛gent生成的軌跡分解為訓(xùn)練所需的轉(zhuǎn)換數(shù)據(jù)，從而使強(qiáng)化學(xué)習(xí)能夠處理復(fù)雜的交互邏輯，如多Agent場景和動(dòng)態(tài)工作流。

在信用分配過程中，高層信用分配首先將整個(gè)任務(wù)的最終獎(jiǎng)勵(lì)合理分配到任務(wù)執(zhí)行過程中的每一步驟，例如在最簡單實(shí)現(xiàn)中，可讓每一次調(diào)用的獎(jiǎng)勵(lì)都等于最終獎(jiǎng)勵(lì)。

經(jīng)過高層信用分配后，低層策略更新將每一次LLM調(diào)用（input、output、reward）轉(zhuǎn)化為一個(gè)獨(dú)立的單次調(diào)用強(qiáng)化學(xué)習(xí)問題。

此時(shí)可直接套用任何現(xiàn)成的、成熟的單次調(diào)用強(qiáng)化學(xué)習(xí)算法（如PPO、DPO或GRPO），來更新模型參數(shù)。

這種設(shè)計(jì)不僅具備靈活性和復(fù)用性，可直接利用社區(qū)中SOTA單次調(diào)用強(qiáng)化學(xué)習(xí)算法，還從根本上解決了因上下文累積導(dǎo)致的序列過長問題，避免了復(fù)雜易錯(cuò)的掩碼操作。

Agent Lightning將計(jì)算密集型的LLM生成與傳統(tǒng)編程語言編寫、輕量級但多樣化且靈活的應(yīng)用邏輯和工具分離。

在系統(tǒng)設(shè)計(jì)方面，Agent Lightning引入了Training-Agent解耦架構(gòu)，構(gòu)建了一個(gè)適用于任意Agent的標(biāo)準(zhǔn)化訓(xùn)練服務(wù)。

該架構(gòu)由Agent Lightning Server和Agent Lightning Client組成。

Training-Agent解耦架構(gòu)

Agent Lightning Server：作為強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)的大腦，承擔(dān)著管理訓(xùn)練流程的重任，并通過類OpenAI API向客戶端暴露更新后的模型。它負(fù)責(zé)運(yùn)行強(qiáng)化學(xué)習(xí)訓(xùn)練算法、分配GPU資源、管理模型版本等一系列復(fù)雜且計(jì)算密集型的任務(wù)。

Agent Lightning Client：包含兩個(gè)功能模塊：一個(gè)模塊負(fù)責(zé)與服務(wù)器通信，實(shí)現(xiàn)數(shù)據(jù)傳輸與接收；另一個(gè)模塊運(yùn)行Agent并執(zhí)行數(shù)據(jù)收集，充當(dāng)Agent的運(yùn)行時(shí)環(huán)境。

得益于統(tǒng)一數(shù)據(jù)接口，Agent運(yùn)行時(shí)能夠?qū)penTelemetry等全面的可觀測性框架集成到訓(xùn)練過程中，用于軌跡收集。

這一機(jī)制將監(jiān)控基礎(chǔ)設(shè)施與強(qiáng)化學(xué)習(xí)訓(xùn)練連接起來，使優(yōu)化算法能夠利用豐富的系統(tǒng)監(jiān)控?cái)?shù)據(jù)，從而構(gòu)建更具可擴(kuò)展性與靈活性的訓(xùn)練基礎(chǔ)。

這種前后端分離式的架構(gòu)設(shè)計(jì)，徹底將Agent開發(fā)者從復(fù)雜的強(qiáng)化學(xué)習(xí)系統(tǒng)配置中解放出來，讓他們得以專注于Agent本身的邏輯和創(chuàng)意，極大降低了AI Agent進(jìn)化的門檻。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個(gè)任務(wù)上對Agent Lightning框架進(jìn)行了實(shí)驗(yàn)驗(yàn)證，涵蓋Text-to-SQL、開放域問答、數(shù)學(xué)問答等。

在這些實(shí)驗(yàn)中，Agent Lightning均展示出穩(wěn)定且持續(xù)的性能提升。

實(shí)驗(yàn)中任務(wù)和設(shè)置的總結(jié)

通過LangChain實(shí)現(xiàn)Text-to-SQL

第一個(gè)任務(wù)采用LangChain實(shí)現(xiàn)，設(shè)計(jì)為多Agent系統(tǒng)架構(gòu)。

系統(tǒng)包含三個(gè)Agent，工作流程如下：

SQL writing agent首先會(huì)生成SQL查詢語句并執(zhí)行。

若查詢正確，SQL executor會(huì)返回?cái)?shù)據(jù)庫信息；若出錯(cuò)，則返回錯(cuò)誤提示。

隨后，checking agent評估SQL查詢的正確性及檢索信息的有效性和完整性，并決定是重寫查詢還是直接生成答案。

若需重寫，re-writing agent將根據(jù)checking agent的反饋修改查詢語句；若無需重寫，該agent同時(shí)承擔(dān)問答任務(wù)，利用檢索到的信息和問題生成最終答案。

在此工作流程中，SQL寫入（writing）、校驗(yàn)（checking）和重寫（re-writing）均由同一LLM完成，但針對不同任務(wù)定制了專屬提示，從而實(shí)現(xiàn)三個(gè)Agent協(xié)同運(yùn)作。

在訓(xùn)練過程中，研究團(tuán)隊(duì)只對其中兩個(gè)進(jìn)行了優(yōu)化，即SQL writing agent和re-writing Agent，這兩個(gè)agent是同步進(jìn)行優(yōu)化的，說明Agent Lightning 可以在多Agent系統(tǒng)中選擇性地對一個(gè)或多個(gè)Agent進(jìn)行優(yōu)化。

如圖，Agent Lightning能夠穩(wěn)定地提高獎(jiǎng)勵(lì)，展示了其優(yōu)化涉及代碼生成和工具使用的復(fù)雜多步?jīng)Q策的能力。

Text-to-SQL任務(wù)的獎(jiǎng)勵(lì)曲線

通過OpenAI Agent SDK實(shí)現(xiàn)檢索增強(qiáng)生成

第二個(gè)任務(wù)是典型的檢索增強(qiáng)生成（RAG）任務(wù)。

給定一個(gè)問題和文檔數(shù)據(jù)庫，Agent首先會(huì)生成自然語言查詢，通過現(xiàn)有檢索工具獲取支持性文檔。

該Agent是使用OpenAI Agent SDK實(shí)現(xiàn)的。與之前的Text-to-SQL任務(wù)相比，這里的Agent工作流程類似但更簡單。

策略LLM需要先生成查詢請求，然后根據(jù)檢索到的文檔決定是優(yōu)化查詢還是直接生成答案。

該圖展示了Agent Lightning在這一具有挑戰(zhàn)性的任務(wù)上實(shí)現(xiàn)了穩(wěn)定的性能提升，證明了其在更復(fù)雜和開放式RAG場景中的有效性。

通過AutoGen實(shí)現(xiàn)數(shù)學(xué)問答與工具使用

第三個(gè)任務(wù)是數(shù)學(xué)類問答任務(wù)，旨在評估Agent調(diào)用工具（具體指計(jì)算器）解決算術(shù)和符號問題的能力。

最終的獎(jiǎng)勵(lì)取決于Agent是否正確回答了問題，模型的性能也通過測試集上的答案準(zhǔn)確度進(jìn)行評估。

如圖，Agent Lightning在訓(xùn)練過程中持續(xù)提高了性能。這證明了它在工具增強(qiáng)設(shè)置中的有效性，即需要精確的外部函數(shù)調(diào)用和推理。

未來方向：推動(dòng)Agent能力迭代升級

在論文的最后，研究團(tuán)隊(duì)也探討了未來的工作方向。

首先，除了強(qiáng)化學(xué)習(xí)外，Agent Lightning建模框架還很好地支持其他優(yōu)化方法，如自動(dòng)prompt優(yōu)化。

關(guān)注關(guān)鍵組件及其調(diào)用是Agent優(yōu)化的主要方法，而不僅僅局限于基于強(qiáng)化學(xué)習(xí)的方法。

為此，團(tuán)隊(duì)提出了Component of Interest（CoI）的概念，用于指定執(zhí)行軌跡中受優(yōu)化影響的組件子集。

例如，prompt模板渲染可視為工具調(diào)用，通過將該工具視為CoI，Agent Lightning可支持prompt優(yōu)化方法。

這種統(tǒng)一且可擴(kuò)展的數(shù)據(jù)結(jié)構(gòu)支持對Agent行為進(jìn)行全面的下游優(yōu)化與分析。

其次，研究團(tuán)隊(duì)認(rèn)為，開發(fā)更高效的強(qiáng)化學(xué)習(xí)算法是解決復(fù)雜Agent場景下模型優(yōu)化的關(guān)鍵，包括但不限于長程信用分配、探索算法、off-policy算法等。

Agent Lightning通過過渡來建模和組織數(shù)據(jù)，使集成額外算法更加方便。

此外，支持LLM的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施持續(xù)演進(jìn)，為與基于Agent的強(qiáng)化學(xué)習(xí)框架的協(xié)同開發(fā)提供了重大機(jī)會(huì)。

一個(gè)有前景的方向是進(jìn)一步分解系統(tǒng)組件，即將訓(xùn)練器、推斷引擎和Agent工作流程分離，以解決推斷瓶頸并提升大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的可擴(kuò)展性。

探索此類架構(gòu)改進(jìn)可帶來更高效且靈活的強(qiáng)化學(xué)習(xí)管道。

此外，針對長程任務(wù)的優(yōu)化將受益于強(qiáng)化學(xué)習(xí)算法與系統(tǒng)設(shè)計(jì)協(xié)同創(chuàng)新，從而實(shí)現(xiàn)復(fù)雜Agent更高效的訓(xùn)練。

最后，在LLM高效服務(wù)方面，研究團(tuán)隊(duì)建議采用更適合LLM的抽象方法，可以優(yōu)化資源利用率和響應(yīng)時(shí)間。

此外，通過優(yōu)化服務(wù)環(huán)境和工具的資源調(diào)度，還能進(jìn)一步簡化操作流程，提高在多樣化部署場景中的擴(kuò)展能力。

隨著Agent Lightning框架解決了強(qiáng)化學(xué)習(xí)與Agent耦合的難題，強(qiáng)化學(xué)習(xí)有望成為Agent訓(xùn)練的標(biāo)配。

同時(shí)，Agent在真實(shí)世界中產(chǎn)生的海量交互數(shù)據(jù)，將不再被閑置浪費(fèi)。

Agent Lightning的統(tǒng)一數(shù)據(jù)接口，能夠高效地將這些數(shù)據(jù)用于強(qiáng)化學(xué)習(xí)訓(xùn)練，推動(dòng)Agent能力迭代升級。

責(zé)任編輯：張燕妮來源：新智元

AI 軟件開發(fā)代碼

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<menuitem id="rarax"></menuitem>

<abbr id="rarax"><samp id="rarax"></samp></abbr>