偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

伯克利最強代碼Agent屠榜SWE-Bench!用Scaling RL打造,配方全公開

人工智能 新聞
新晉AI編程冠軍DeepSWE來了!僅通過純強化學(xué)習(xí)拿下基準(zhǔn)測試59%的準(zhǔn)確率,憑啥?7大算法細節(jié)首次全公開。

AI編程領(lǐng)域競爭激烈,但多被閉源模型主導(dǎo)。

如今,一款開源軟件工程模型DeepSWE橫空出世,以59%的準(zhǔn)確率大幅刷新了SOTA。

DeepSWE基于Qwen3-32B打造,并且只使用強了化學(xué)習(xí)進行訓(xùn)練。

圖片

地址:https://github.com/agentica-project/rllm

模型:https://huggingface.co/agentica-org/DeepSWE-Preview

Agentica的項目負責(zé)人Michael Luo感嘆道,「那個過度定價、黑箱式的編碼助手時代要終結(jié)了!」

圖片

另外一個好消息是,Agentica團隊也慷慨解囊,開源了所有內(nèi)容。

除了模型,還包括訓(xùn)練代碼(rLLM)、數(shù)據(jù)集(R2EGym)以及實現(xiàn)完全可復(fù)現(xiàn)的訓(xùn)練配方。

訓(xùn)練方法

DeepSWE最大亮點是,相較于之前許多依賴「老師模型」(如 GPT-4)進行模仿學(xué)習(xí)(SFT或蒸餾)的路徑不同。

它僅用強化學(xué)習(xí)(RL)就能從零開始將一個基礎(chǔ)模型訓(xùn)練成性能亮眼的智能體。

據(jù)官方介紹,DeepSWE是在模塊化RL后訓(xùn)練框架rLLM上訓(xùn)練的。

rLLM有一個好處,說白了,就是讓你自己動手攢一個用強化學(xué)習(xí)訓(xùn)練出來的AI小能手,從頭到尾都不再那么費勁了,直接拿去干活兒就行。

使用R2E-Gym進行可擴展數(shù)據(jù)集管理

訓(xùn)練環(huán)境方面,DeepSWE是在R2E-Gym訓(xùn)練環(huán)境中(一個現(xiàn)有的Gym環(huán)境)訓(xùn)練,用于高質(zhì)量可執(zhí)行SWE環(huán)境的可擴展管理。

狀態(tài)與動作

R2E-Gym定義了一組四個工具作為動作空間的一部分:

1. 執(zhí)行Bash:輸出LLM生成的bash命令的stdout和stderr。

2. 搜索:搜索并返回目錄或單個文件中所有符合LLM定義的查詢的結(jié)果。

3. 文件編輯器:允許查看、創(chuàng)建、替換字符串、插入以及撤銷對特定文件的編輯。

4. 完成/提交:LLM已決定解決了該拉取請求,這將終止軌跡生成。

獎勵模型

獎勵函數(shù)采用了一種稀疏的結(jié)果獎勵模型(ORM)。

研究人員驚喜的發(fā)現(xiàn),僅僅通過簡單的「成功/失敗」獎勵信號,DeepSWE自發(fā)地學(xué)會高級程序員才具備的復(fù)雜行為,例如:

  • 主動思考邊緣案例和回歸測試。
  • 根據(jù)任務(wù)的復(fù)雜程度,自適應(yīng)地調(diào)整「思考」的深度

通過擴展RL訓(xùn)練SWE智能體

算法方面,DeepSWE僅僅使用了強化學(xué)習(xí)來直接訓(xùn)練,沒有使用蒸餾方法。

更值得關(guān)注的是,研發(fā)人員使用了獨家改良的GRPO++算法,這個算法在之前的基礎(chǔ)上做了增強。

為了提升模型訓(xùn)練的穩(wěn)定性和性能的提升,研發(fā)人員整合7個算法:

1. Clip High (DAPO):提高GRPO/PPO替代損失的上限可以鼓勵探索并穩(wěn)定熵。

2. 無KL損失(DAPO):消除KL損失可以防止LLM受限于原始SFT模型的信任區(qū)域。

3. 無獎勵標(biāo)準(zhǔn)差(Dr.GRPO):去除獎勵標(biāo)準(zhǔn)差可消除GRPO損失中的難度偏差,從而更好地區(qū)分難易問題。

4. 長度歸一化(Dr.GRPO):將替代損失除以最大上下文長度,可以消除GRPO中存在的長度偏差,這種偏差會增加錯誤響應(yīng)的長度。

5. 一法(Loop/RLOO):在優(yōu)勢估計中移除一個樣本,可以在不引入偏差的情況下降低策略梯度的方差。

6. 緊湊過濾:受DAPO啟發(fā),對達到最大上下文長度、生成過程中超時(20分鐘)或達到最大步數(shù)的軌跡進行損失屏蔽。

7. 無熵損失:熵損失會引入更高的不穩(wěn)定性,最終導(dǎo)致熵呈指數(shù)增長,從而使訓(xùn)練崩潰。如果基礎(chǔ)模型的令牌級熵在0.3到1之間,則不需要熵損失。

針對其中一個算法「緊湊過濾」,研發(fā)人員強調(diào)了其對模型訓(xùn)練優(yōu)勢:

好處1:防止或延緩訓(xùn)練過程中的獎勵崩潰(上圖)

好處2:減少了每一步的過度思考,并鼓勵跨步驟的長篇推理(下圖)

圖片

圖片

挑戰(zhàn)

當(dāng)然,在訓(xùn)練過程中也遇到了挑戰(zhàn)——擴展SWE-Bench環(huán)境。

研發(fā)人員指出,你可以想象下,在最后的訓(xùn)練過程中,需要同時啟動好幾百個Docker容器。

因為跑得太多、太猛,一瞬間搞出了幾千個,直接把Docker給整崩潰了。

為了解決這個問題,研發(fā)人員將Kubernetes支持集成到了R2E-Gym環(huán)境中,使編排器能夠在節(jié)點池中調(diào)度容器。

研發(fā)人員,給每個干活的服務(wù)器都配了頂配裝備

差不多200核的CPU,還有6T多的超高速固態(tài)硬盤。

為了讓程序跑得飛快,研究員提前把所有要用的軟件(鏡像)都下載好存到本地硬盤里了。

這樣一來,每次啟動程序就跟打開桌面軟件一樣秒開,根本不用再吭哧吭哧地去網(wǎng)上下載了。

研究人員指出,該集群可以擴展到超過1000個CPU核心,并依賴Kubernetes集群自動縮放器來自動添加或移除節(jié)點。

當(dāng)Pod在短時間內(nèi)無法調(diào)度時,自動縮放器會配置額外的工作節(jié)點;相反,它會移除那些大約二十分鐘內(nèi)利用率較低的節(jié)點。

這種彈性設(shè)置能夠可靠地收集數(shù)百萬條軌跡,同時保持計算成本與負載成比例。

評估策略(TTS)

除了強大的模型本身,DeepSWE還采用了「測試時擴展 (TTS)」這一評估策略。

該策略通過「多方案生成 + 智能驗證」的方式,將性能推向了新的高度。

為了提升其模型的Pass@1性能,研發(fā)人員在「測試時」想到了兩種方法:

方法一:擴展上下文長度(見上圖):

將最大上下文從16K擴展到128K個標(biāo)記,性能有所提升。在超過32K時收益約為2%,達到42.2%的Pass@1。

方法二:擴展代理部署(見下圖):

使用最佳選擇策略為每個問題生成了多個代理部署。采用結(jié)合基于執(zhí)行和免執(zhí)行方法的混合驗證器,以選擇最佳的代理軌跡。

兩種方法確實帶來了性能的提升,在SWE-Bench Verified上達到59%,在開放權(quán)重的SWE-Agent中實現(xiàn)新的SOTA。

圖片

圖片

作者簡介

Michael Luo

圖片

Michael Luo,加州大學(xué)伯克利分校電氣工程與計算機科學(xué)系博士生,研究興趣聚焦人工智能和系統(tǒng)領(lǐng)域。

碩士和本科研究主要集中在強化學(xué)習(xí)(RL)的實際問題和應(yīng)用,包括自然語言處理(NLP)、數(shù)據(jù)庫查詢優(yōu)化以及視頻流。

Sijun Tan

圖片

Sijun Tan,目前是加州大學(xué)伯克利分校計算機科學(xué)系在校三年級的博士生,本科畢業(yè)于弗吉尼亞大學(xué),獲得了計算機科學(xué)和數(shù)學(xué)雙學(xué)士學(xué)位。

研究重點是LLM后訓(xùn)練和代理 AI。曾在Facebook人工智能研究(FAIR)實習(xí),并在螞蟻集團擔(dān)任過高級算法工程師。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2018-10-09 14:00:41

SQL深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2023-05-04 14:55:02

模型AI

2024-07-15 12:23:49

2021-11-29 16:12:38

AI數(shù)據(jù)強化學(xué)習(xí)

2022-03-28 13:25:42

AI扶貧機器之心

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2025-06-11 09:08:00

AI模型數(shù)據(jù)

2024-09-25 09:37:16

2024-08-19 14:05:00

2024-11-15 13:42:25

2017-04-25 10:44:02

網(wǎng)利寶

2025-01-22 15:21:00

2024-05-30 14:23:00

2023-05-26 17:20:29

模型工具

2023-04-07 09:28:31

模型訓(xùn)練

2021-08-10 15:37:45

AI 數(shù)據(jù)機器學(xué)習(xí)

2024-09-11 13:04:53

2025-04-18 08:42:52

模型推理AI

2023-04-04 13:17:00

GPUCMU開源

2023-05-19 13:34:02

點贊
收藏

51CTO技術(shù)棧公眾號