RL縮放王炸!DeepSWE開源AI Agent登頂榜首,訓(xùn)練方法、權(quán)重大公開
今天凌晨,著名大模型訓(xùn)練平臺(tái)Together.ai聯(lián)合Agentica開源了創(chuàng)新AI Agent框架DeepSWE。
DeepSWE是基于阿里最新開源的Qwen3-32B模型之上,完全使用強(qiáng)化學(xué)習(xí)訓(xùn)練而成。
除了權(quán)重之外,訓(xùn)練方法、日志、數(shù)據(jù)集等所有內(nèi)容也全部開源,以幫助開發(fā)人員深度學(xué)習(xí)和改進(jìn)Agent。

開源地址:https://huggingface.co/agentica-org/DeepSWE-Preview
根據(jù)SWE-Bench-Verified測試數(shù)據(jù)顯示,DeepSWE在64k最大上下文長度和100最大環(huán)境步驟下進(jìn)行評(píng)估,最終在16次運(yùn)行平均的Pass@1準(zhǔn)確率上達(dá)到了42.2%,使用混合測試時(shí)擴(kuò)展(TTS)后性能進(jìn)一步提升至59%,超過了所有開源Agent框架位列榜首。
DeepSWE證明了僅使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的有效性和巨大潛力。與其他開源模型相比,DeepSWE-Preview在不依賴于更強(qiáng)專有教師模型的蒸餾或SFT的情況下,依然能夠取得了最好的性能。

DeepSWE的訓(xùn)練基于rLLM框架,這是一個(gè)用于語言智能體后期訓(xùn)練的系統(tǒng)。該模型在64個(gè)H100 GPU上對來自R2E-Gym訓(xùn)練環(huán)境的4500個(gè)真實(shí)世界SWE任務(wù)進(jìn)行了6天的訓(xùn)練。
這些任務(wù)涵蓋了從解決GitHub問題到實(shí)現(xiàn)新代碼功能和調(diào)試等復(fù)雜場景,體現(xiàn)了現(xiàn)實(shí)世界軟件工程的多樣性和復(fù)雜性。
在訓(xùn)練過程中,DeepSWE-Preview通過與環(huán)境的交互,學(xué)習(xí)如何瀏覽廣泛的代碼庫、應(yīng)用有針對性的代碼編輯、運(yùn)行shell命令進(jìn)行構(gòu)建和測試,并在解決實(shí)際拉取請求時(shí)迭代優(yōu)化和驗(yàn)證解決方案。
在訓(xùn)練方法方面,數(shù)據(jù)集管理采用了R2E-Gym子集的4500個(gè)問題,通過過濾與SWE-Bench-Verified來自相同存儲(chǔ)庫的問題,確保訓(xùn)練數(shù)據(jù)的純凈性。
所有問題都被映射到單個(gè)Docker鏡像中,以便于管理和執(zhí)行。訓(xùn)練環(huán)境圍繞R2E-Gym構(gòu)建,該環(huán)境能夠可擴(kuò)展地管理高質(zhì)量的可執(zhí)行SWE環(huán)境。狀態(tài)與動(dòng)作的定義涵蓋了執(zhí)行Bash命令、搜索文件、文件編輯以及完成任務(wù)提交等操作。

獎(jiǎng)勵(lì)機(jī)制采用稀疏結(jié)果獎(jiǎng)勵(lì)模型,即只有當(dāng)LLM生成的補(bǔ)丁通過所有測試時(shí)才給予正獎(jiǎng)勵(lì),否則獎(jiǎng)勵(lì)為零。為了應(yīng)對訓(xùn)練過程中出現(xiàn)的擴(kuò)展挑戰(zhàn),研究人員將Kubernetes支持集成到R2E-Gym中,實(shí)現(xiàn)了容器的彈性調(diào)度和自動(dòng)縮放,從而能夠可靠地收集數(shù)百萬個(gè)軌跡,同時(shí)保持計(jì)算成本與負(fù)載成比例。
在強(qiáng)化學(xué)習(xí)算法方面,DeepSWE-Preview的訓(xùn)練采用了GRPO++算法,這是對原始GRPO算法的改進(jìn)版本。GRPO++整合了來自DAPO、Dr.GRPO、LOOP/RLOO等工作的見解和創(chuàng)新,通過高剪輯、無KL損失、無獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差、長度歸一化、留一法、緊湊過濾和無熵?fù)p失等策略,實(shí)現(xiàn)了更穩(wěn)定和性能更高的訓(xùn)練過程。
其中,緊湊過濾策略特別針對多輪代理場景,通過屏蔽達(dá)到最大上下文、最大步驟或超時(shí)的軌跡,防止訓(xùn)練期間的獎(jiǎng)勵(lì)崩潰,并鼓勵(lì)代理進(jìn)行跨步驟的長形式推理。
TTS則是DeepSWE-Preview實(shí)現(xiàn)性能提升的關(guān)鍵策略之一。在測試階段,通過生成多個(gè)軌跡并選擇其中正確解決問題的軌跡,DeepSWE-Preview能夠顯著提高其Pass@1性能。
研究人員嘗試了多種TTS策略,包括基于執(zhí)行的驗(yàn)證器和無執(zhí)行的驗(yàn)證器,并最終采用了混合擴(kuò)展策略,結(jié)合了兩種范式的優(yōu)勢,從而實(shí)現(xiàn)了59.0%的性能,比當(dāng)前最先進(jìn)的開源權(quán)重模型高出12%。

此外,研究人員還發(fā)現(xiàn),對于SWE相關(guān)任務(wù),擴(kuò)展輸出token的數(shù)量似乎并不有效,而滾動(dòng)數(shù)量擴(kuò)展則能夠帶來更顯著的性能提升。































