RL縮放王炸！DeepSWE開源AI Agent登頂榜首，訓(xùn)練方法、權(quán)重大公開

2025-07-03 14:58:16

DeepSWE是基于阿里最新開源的Qwen3-32B模型之上，完全使用強(qiáng)化學(xué)習(xí)訓(xùn)練而成。

今天凌晨，著名大模型訓(xùn)練平臺(tái)Together.ai聯(lián)合Agentica開源了創(chuàng)新AI Agent框架DeepSWE。

DeepSWE是基于阿里最新開源的Qwen3-32B模型之上，完全使用強(qiáng)化學(xué)習(xí)訓(xùn)練而成。

除了權(quán)重之外，訓(xùn)練方法、日志、數(shù)據(jù)集等所有內(nèi)容也全部開源，以幫助開發(fā)人員深度學(xué)習(xí)和改進(jìn)Agent。

開源地址：https://huggingface.co/agentica-org/DeepSWE-Preview

根據(jù)SWE-Bench-Verified測試數(shù)據(jù)顯示，DeepSWE在64k最大上下文長度和100最大環(huán)境步驟下進(jìn)行評(píng)估，最終在16次運(yùn)行平均的Pass@1準(zhǔn)確率上達(dá)到了42.2%，使用混合測試時(shí)擴(kuò)展（TTS）后性能進(jìn)一步提升至59%，超過了所有開源Agent框架位列榜首。

DeepSWE證明了僅使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的有效性和巨大潛力。與其他開源模型相比，DeepSWE-Preview在不依賴于更強(qiáng)專有教師模型的蒸餾或SFT的情況下，依然能夠取得了最好的性能。

DeepSWE的訓(xùn)練基于rLLM框架，這是一個(gè)用于語言智能體后期訓(xùn)練的系統(tǒng)。該模型在64個(gè)H100 GPU上對來自R2E-Gym訓(xùn)練環(huán)境的4500個(gè)真實(shí)世界SWE任務(wù)進(jìn)行了6天的訓(xùn)練。

這些任務(wù)涵蓋了從解決GitHub問題到實(shí)現(xiàn)新代碼功能和調(diào)試等復(fù)雜場景，體現(xiàn)了現(xiàn)實(shí)世界軟件工程的多樣性和復(fù)雜性。

在訓(xùn)練過程中，DeepSWE-Preview通過與環(huán)境的交互，學(xué)習(xí)如何瀏覽廣泛的代碼庫、應(yīng)用有針對性的代碼編輯、運(yùn)行shell命令進(jìn)行構(gòu)建和測試，并在解決實(shí)際拉取請求時(shí)迭代優(yōu)化和驗(yàn)證解決方案。

在訓(xùn)練方法方面，數(shù)據(jù)集管理采用了R2E-Gym子集的4500個(gè)問題，通過過濾與SWE-Bench-Verified來自相同存儲(chǔ)庫的問題，確保訓(xùn)練數(shù)據(jù)的純凈性。

所有問題都被映射到單個(gè)Docker鏡像中，以便于管理和執(zhí)行。訓(xùn)練環(huán)境圍繞R2E-Gym構(gòu)建，該環(huán)境能夠可擴(kuò)展地管理高質(zhì)量的可執(zhí)行SWE環(huán)境。狀態(tài)與動(dòng)作的定義涵蓋了執(zhí)行Bash命令、搜索文件、文件編輯以及完成任務(wù)提交等操作。

獎(jiǎng)勵(lì)機(jī)制采用稀疏結(jié)果獎(jiǎng)勵(lì)模型，即只有當(dāng)LLM生成的補(bǔ)丁通過所有測試時(shí)才給予正獎(jiǎng)勵(lì)，否則獎(jiǎng)勵(lì)為零。為了應(yīng)對訓(xùn)練過程中出現(xiàn)的擴(kuò)展挑戰(zhàn)，研究人員將Kubernetes支持集成到R2E-Gym中，實(shí)現(xiàn)了容器的彈性調(diào)度和自動(dòng)縮放，從而能夠可靠地收集數(shù)百萬個(gè)軌跡，同時(shí)保持計(jì)算成本與負(fù)載成比例。

在強(qiáng)化學(xué)習(xí)算法方面，DeepSWE-Preview的訓(xùn)練采用了GRPO++算法，這是對原始GRPO算法的改進(jìn)版本。GRPO++整合了來自DAPO、Dr.GRPO、LOOP/RLOO等工作的見解和創(chuàng)新，通過高剪輯、無KL損失、無獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差、長度歸一化、留一法、緊湊過濾和無熵?fù)p失等策略，實(shí)現(xiàn)了更穩(wěn)定和性能更高的訓(xùn)練過程。

其中，緊湊過濾策略特別針對多輪代理場景，通過屏蔽達(dá)到最大上下文、最大步驟或超時(shí)的軌跡，防止訓(xùn)練期間的獎(jiǎng)勵(lì)崩潰，并鼓勵(lì)代理進(jìn)行跨步驟的長形式推理。

TTS則是DeepSWE-Preview實(shí)現(xiàn)性能提升的關(guān)鍵策略之一。在測試階段，通過生成多個(gè)軌跡并選擇其中正確解決問題的軌跡，DeepSWE-Preview能夠顯著提高其Pass@1性能。

研究人員嘗試了多種TTS策略，包括基于執(zhí)行的驗(yàn)證器和無執(zhí)行的驗(yàn)證器，并最終采用了混合擴(kuò)展策略，結(jié)合了兩種范式的優(yōu)勢，從而實(shí)現(xiàn)了59.0%的性能，比當(dāng)前最先進(jìn)的開源權(quán)重模型高出12%。

此外，研究人員還發(fā)現(xiàn)，對于SWE相關(guān)任務(wù)，擴(kuò)展輸出token的數(shù)量似乎并不有效，而滾動(dòng)數(shù)量擴(kuò)展則能夠帶來更顯著的性能提升。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

模型開源 AI

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RL縮放王炸！DeepSWE開源AI Agent登頂榜首，訓(xùn)練方法、權(quán)重大公開

RL縮放王炸！DeepSWE開源AI Agent登頂榜首，訓(xùn)練方法、權(quán)重大公開