RL縮放王炸!DeepSWE開(kāi)源AI Agent登頂榜首,訓(xùn)練方法、權(quán)重大公開(kāi)
今天凌晨,著名大模型訓(xùn)練平臺(tái)Together.ai聯(lián)合Agentica開(kāi)源了創(chuàng)新AI Agent框架DeepSWE。
DeepSWE是基于阿里最新開(kāi)源的Qwen3-32B模型之上,完全使用強(qiáng)化學(xué)習(xí)訓(xùn)練而成。
除了權(quán)重之外,訓(xùn)練方法、日志、數(shù)據(jù)集等所有內(nèi)容也全部開(kāi)源,以幫助開(kāi)發(fā)人員深度學(xué)習(xí)和改進(jìn)Agent。
開(kāi)源地址:https://huggingface.co/agentica-org/DeepSWE-Preview
根據(jù)SWE-Bench-Verified測(cè)試數(shù)據(jù)顯示,DeepSWE在64k最大上下文長(zhǎng)度和100最大環(huán)境步驟下進(jìn)行評(píng)估,最終在16次運(yùn)行平均的Pass@1準(zhǔn)確率上達(dá)到了42.2%,使用混合測(cè)試時(shí)擴(kuò)展(TTS)后性能進(jìn)一步提升至59%,超過(guò)了所有開(kāi)源Agent框架位列榜首。
DeepSWE證明了僅使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的有效性和巨大潛力。與其他開(kāi)源模型相比,DeepSWE-Preview在不依賴于更強(qiáng)專有教師模型的蒸餾或SFT的情況下,依然能夠取得了最好的性能。
DeepSWE的訓(xùn)練基于rLLM框架,這是一個(gè)用于語(yǔ)言智能體后期訓(xùn)練的系統(tǒng)。該模型在64個(gè)H100 GPU上對(duì)來(lái)自R2E-Gym訓(xùn)練環(huán)境的4500個(gè)真實(shí)世界SWE任務(wù)進(jìn)行了6天的訓(xùn)練。
這些任務(wù)涵蓋了從解決GitHub問(wèn)題到實(shí)現(xiàn)新代碼功能和調(diào)試等復(fù)雜場(chǎng)景,體現(xiàn)了現(xiàn)實(shí)世界軟件工程的多樣性和復(fù)雜性。
在訓(xùn)練過(guò)程中,DeepSWE-Preview通過(guò)與環(huán)境的交互,學(xué)習(xí)如何瀏覽廣泛的代碼庫(kù)、應(yīng)用有針對(duì)性的代碼編輯、運(yùn)行shell命令進(jìn)行構(gòu)建和測(cè)試,并在解決實(shí)際拉取請(qǐng)求時(shí)迭代優(yōu)化和驗(yàn)證解決方案。
在訓(xùn)練方法方面,數(shù)據(jù)集管理采用了R2E-Gym子集的4500個(gè)問(wèn)題,通過(guò)過(guò)濾與SWE-Bench-Verified來(lái)自相同存儲(chǔ)庫(kù)的問(wèn)題,確保訓(xùn)練數(shù)據(jù)的純凈性。
所有問(wèn)題都被映射到單個(gè)Docker鏡像中,以便于管理和執(zhí)行。訓(xùn)練環(huán)境圍繞R2E-Gym構(gòu)建,該環(huán)境能夠可擴(kuò)展地管理高質(zhì)量的可執(zhí)行SWE環(huán)境。狀態(tài)與動(dòng)作的定義涵蓋了執(zhí)行Bash命令、搜索文件、文件編輯以及完成任務(wù)提交等操作。
獎(jiǎng)勵(lì)機(jī)制采用稀疏結(jié)果獎(jiǎng)勵(lì)模型,即只有當(dāng)LLM生成的補(bǔ)丁通過(guò)所有測(cè)試時(shí)才給予正獎(jiǎng)勵(lì),否則獎(jiǎng)勵(lì)為零。為了應(yīng)對(duì)訓(xùn)練過(guò)程中出現(xiàn)的擴(kuò)展挑戰(zhàn),研究人員將Kubernetes支持集成到R2E-Gym中,實(shí)現(xiàn)了容器的彈性調(diào)度和自動(dòng)縮放,從而能夠可靠地收集數(shù)百萬(wàn)個(gè)軌跡,同時(shí)保持計(jì)算成本與負(fù)載成比例。
在強(qiáng)化學(xué)習(xí)算法方面,DeepSWE-Preview的訓(xùn)練采用了GRPO++算法,這是對(duì)原始GRPO算法的改進(jìn)版本。GRPO++整合了來(lái)自DAPO、Dr.GRPO、LOOP/RLOO等工作的見(jiàn)解和創(chuàng)新,通過(guò)高剪輯、無(wú)KL損失、無(wú)獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差、長(zhǎng)度歸一化、留一法、緊湊過(guò)濾和無(wú)熵?fù)p失等策略,實(shí)現(xiàn)了更穩(wěn)定和性能更高的訓(xùn)練過(guò)程。
其中,緊湊過(guò)濾策略特別針對(duì)多輪代理場(chǎng)景,通過(guò)屏蔽達(dá)到最大上下文、最大步驟或超時(shí)的軌跡,防止訓(xùn)練期間的獎(jiǎng)勵(lì)崩潰,并鼓勵(lì)代理進(jìn)行跨步驟的長(zhǎng)形式推理。
TTS則是DeepSWE-Preview實(shí)現(xiàn)性能提升的關(guān)鍵策略之一。在測(cè)試階段,通過(guò)生成多個(gè)軌跡并選擇其中正確解決問(wèn)題的軌跡,DeepSWE-Preview能夠顯著提高其Pass@1性能。
研究人員嘗試了多種TTS策略,包括基于執(zhí)行的驗(yàn)證器和無(wú)執(zhí)行的驗(yàn)證器,并最終采用了混合擴(kuò)展策略,結(jié)合了兩種范式的優(yōu)勢(shì),從而實(shí)現(xiàn)了59.0%的性能,比當(dāng)前最先進(jìn)的開(kāi)源權(quán)重模型高出12%。
此外,研究人員還發(fā)現(xiàn),對(duì)于SWE相關(guān)任務(wù),擴(kuò)展輸出token的數(shù)量似乎并不有效,而滾動(dòng)數(shù)量擴(kuò)展則能夠帶來(lái)更顯著的性能提升。