偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,底模越好性能越高,已開(kāi)源

人工智能
隨著Claude 4模型的發(fā)布,SE-Agent的性能被推向新的高度:在SWE-Bench Verify上,它取得了高達(dá)80%的Top-1 Resolution Rate,再次刷新了領(lǐng)域紀(jì)錄。

突破多步推理瓶頸,讓Claude-3.7-Sonnet解題成功率暴增20.6%。

在SWE-Bench Verified上刷新開(kāi)源框架SOTA!

中科院、清華大學(xué)、階躍星辰等提出SE-Agent,一個(gè)創(chuàng)新的自進(jìn)化(Self-Evolution)框架。

它不再滿足于簡(jiǎn)單地“多想幾次”,而是讓智能體學(xué)會(huì)系統(tǒng)性地修訂、重組與精煉其整個(gè)思考過(guò)程,通過(guò)多軌跡間的相互啟發(fā)與對(duì)抗,探索更廣闊、更多樣化的解決方案空間。

隨著Claude 4模型的發(fā)布,SE-Agent的性能被推向新的高度:在SWE-Bench Verify上,它取得了高達(dá)80%的Top-1 Resolution Rate,再次刷新了領(lǐng)域紀(jì)錄。

這充分證明該框架可以隨著基礎(chǔ)模型升級(jí)而不斷進(jìn)步。

圖片圖片

核心思想:從“獨(dú)立嘗試”到“集體進(jìn)化”

大語(yǔ)言模型(LLM)驅(qū)動(dòng)的智能體在處理復(fù)雜推理和工具使用方面展現(xiàn)了驚人的潛力,尤其是在軟件工程等需要多步驟交互的任務(wù)上。然而,現(xiàn)有方法(如蒙特卡洛樹(shù)搜索 MCTS)常常陷入困境:它們將每次的解決嘗試(即“軌跡”)視為獨(dú)立事件,忽視了不同解決方案路徑之間的內(nèi)在聯(lián)系,導(dǎo)致思維固化,難以跳出局部最優(yōu)解。

通俗來(lái)說(shuō),傳統(tǒng)智能體就像一群各自為戰(zhàn)的士兵,雖然人數(shù)眾多,但缺乏協(xié)同。SE-Agent則引入了“進(jìn)化”的視角,將每一次解決問(wèn)題的完整路徑(軌跡)視為一個(gè)“物種”,通過(guò)三大核心操作,讓這些“物種”在一個(gè)“生態(tài)系統(tǒng)”中迭代進(jìn)化,優(yōu)勝劣汰。

圖片圖片

SE-Agent的三大進(jìn)化算子

1、修訂(Revision)-深度自省與定向改進(jìn)

生成初始多樣性:首先,通過(guò)多樣的規(guī)劃策略和可控的“突變”,生成一個(gè)包含不同解題思路的初始軌跡池,確保進(jìn)化的起點(diǎn)足夠豐富。

反思與修正:隨后,智能體對(duì)每一條初始軌跡進(jìn)行“復(fù)盤”,分析其優(yōu)缺點(diǎn)、邏輯斷點(diǎn)和潛在的改進(jìn)空間,然后進(jìn)行有針對(duì)性的修正,消除邏輯不一致和冗余推理,完成個(gè)體的自我完善。

2、重組(Recombination)-跨軌跡的“雜交”與學(xué)習(xí)

這是SE-Agent最具創(chuàng)新性的部分。它不再將軌跡視為孤島,而是促進(jìn)它們之間的“知識(shí)共享”。

交叉融合(Crossover):識(shí)別并提取不同軌跡中的高效片段(例如,一個(gè)軌跡擅長(zhǎng)定位問(wèn)題,另一個(gè)擅長(zhǎng)編寫修復(fù)代碼),然后將這些“優(yōu)勢(shì)基因”組合起來(lái),創(chuàng)造出全新的、更強(qiáng)大的混合軌跡。

知識(shí)遷移(Transfer Learning):將成功軌跡中的關(guān)鍵策略和洞見(jiàn),系統(tǒng)性地“嫁接”到其他表現(xiàn)較差的軌跡上,實(shí)現(xiàn)“差生”向“優(yōu)等生”的學(xué)習(xí)。

3、精煉(Refinement)-多維評(píng)估與優(yōu)化選擇

在每一輪進(jìn)化后,SE-Agent會(huì)通過(guò)一個(gè)多維度評(píng)估函數(shù)(綜合考量任務(wù)完成度、推理質(zhì)量和效率)對(duì)所有新舊軌跡進(jìn)行打分。

精英選擇:保留得分最高的“精英”軌跡,同時(shí)通過(guò)策略性選擇確保軌跡的多樣性,避免所有方案趨同。這個(gè)過(guò)程不斷迭代,直到找到能夠穩(wěn)健解決問(wèn)題的最優(yōu)解。

在最具挑戰(zhàn)性的代碼基準(zhǔn)上實(shí)現(xiàn) SOTA

研究團(tuán)隊(duì)以SWE agent作為我們的Baseline,在公認(rèn)極具挑戰(zhàn)性的SWE-bench Verified基準(zhǔn)(包含500個(gè)真實(shí)GitHub問(wèn)題)上對(duì)SE-Agent進(jìn)行了全面評(píng)測(cè)。結(jié)果顯示,SE-Agent在所有測(cè)試的LLM上都實(shí)現(xiàn)了顯著的性能提升。

開(kāi)源模型表現(xiàn)(Pass@1):

  • DeepSeek-V3:從31.6%提升至54.8%(+73%相對(duì)提升)
  • Qwen-2.5-72B:從18.8%提升至38.8%(+106%相對(duì)提升)
  • Llama-3.1-70B:從15.4%提升至32.6%(+112%相對(duì)提升)

閉源模型表現(xiàn)(Pass@1):

  • GPT-4o:從22.4%提升至40.4%(+80%相對(duì)提升)
  • Claude-3.7-Sonnet:從40.6%提升至61.2%(+51%相對(duì)提升)

圖片圖片

值得注意的是,SE-Agent在Claude-3.7-Sonnet上達(dá)到了61.2%的首次嘗試成功率,這創(chuàng)造了開(kāi)源智能體框架在SWE-bench Verified上的最佳性能記錄。消融實(shí)驗(yàn)進(jìn)一步證明,修訂和重組兩大模塊對(duì)于框架的成功至關(guān)重要。

核心優(yōu)勢(shì)與技術(shù)突破

SE-Agent的成功源于對(duì)現(xiàn)有智能體范式的幾大核心突破:

1、真正的解決方案多樣性:不同于傳統(tǒng)方法僅在表面表達(dá)上有所不同,SE-Agent通過(guò)軌跡級(jí)干預(yù),生成本質(zhì)上不同的解決路徑,大幅擴(kuò)展了候選解決方案空間。

2、跨軌跡協(xié)同智能:SE-Agent充分利用軌跡間的豐富相互依賴關(guān)系和潛在協(xié)同效應(yīng),實(shí)現(xiàn)了集體智慧的最大化,突破了單一智能體的認(rèn)知局限。

3、高效進(jìn)化收斂:相比傳統(tǒng)遺傳算法,SE-Agent通過(guò)結(jié)構(gòu)化的進(jìn)化機(jī)制,能在顯著更少的進(jìn)化周期內(nèi)實(shí)現(xiàn)高質(zhì)量結(jié)果。

4、模型無(wú)關(guān)的即插即用:SE-Agent作為一個(gè)獨(dú)立的優(yōu)化模塊,可與現(xiàn)有智能體框架無(wú)縫集成,在多種 LLM 上都展現(xiàn)出一致的、強(qiáng)大的性能提升。

案例研究:SE-Agent如何跳出思維定勢(shì)?

在一個(gè)scikit-learn的真實(shí)Bug修復(fù)案例中,傳統(tǒng)智能體的問(wèn)題顯露無(wú)遺。

圖片圖片

傳統(tǒng)智能體(上圖):所有嘗試都緊盯報(bào)錯(cuò)信息出現(xiàn)的_validation.py文件,提出的修復(fù)方案幾乎是“換湯不換藥”的重復(fù),始終無(wú)法觸及問(wèn)題的根源,導(dǎo)致測(cè)試失敗。

SE-Agent(下圖):通過(guò)軌跡的重組與進(jìn)化,SE-Agent強(qiáng)迫自己探索了完全不同的方向。它跳出了最初報(bào)錯(cuò)的文件,成功定位到根源在于multioutput.py文件缺少了一個(gè)關(guān)鍵字段的寫入。最終,通過(guò)一行代碼的根本性修復(fù),完美通過(guò)了所有測(cè)試。

這個(gè)案例生動(dòng)地說(shuō)明了SE-Agent如何通過(guò)在軌跡層面進(jìn)行演化,有效避免了“隧道視野”,從而發(fā)現(xiàn)那些隱藏更深、也更為關(guān)鍵的解決方案。

結(jié)論與技術(shù)影響

SE-Agent的提出,為提升LLM智能體的復(fù)雜推理能力提供了一個(gè)全新的、高效的范式。其重要影響在于:

1、開(kāi)創(chuàng)了軌跡級(jí)優(yōu)化范式:從傳統(tǒng)的參數(shù)調(diào)整轉(zhuǎn)向系統(tǒng)性的推理路徑操作,為智能體能力提升提供了新的理論基礎(chǔ)。

2、驗(yàn)證了集體智慧機(jī)制:證明了通過(guò)跨軌跡學(xué)習(xí)實(shí)現(xiàn)智能體群體智慧的有機(jī)融合,是突破單一智能體認(rèn)知瓶頸的有效途徑。

3、構(gòu)建了自進(jìn)化智能系統(tǒng):為實(shí)現(xiàn)能夠持續(xù)自我改進(jìn)的智能體系統(tǒng)鋪平了道路。

展望未來(lái),研究團(tuán)隊(duì)計(jì)劃將SE-Agent的自進(jìn)化思想擴(kuò)展到更廣泛的路徑搜索問(wèn)題中,例如強(qiáng)化學(xué)習(xí)策略發(fā)現(xiàn)、具身智能規(guī)劃等,為通往更強(qiáng)大、更魯棒的通用人工智能持續(xù)貢獻(xiàn)力量。

論文標(biāo)題: SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents

論文鏈接: https://arxiv.org/pdf/2508.02085

開(kāi)源代碼: https://github.com/JARVIS-Xs/SE-Agent

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2024-03-25 13:06:00

數(shù)據(jù)訓(xùn)練

2025-02-10 08:30:00

2025-07-29 09:03:00

2025-06-17 09:07:24

2022-04-08 14:40:59

框架訓(xùn)練模型

2025-07-22 11:38:38

2022-12-25 13:59:09

模型架構(gòu)

2024-01-06 17:12:44

視頻AI

2025-09-29 09:12:00

2025-09-29 14:04:07

開(kāi)源AI模型

2025-07-08 09:00:00

2024-04-02 09:17:50

AI數(shù)據(jù)開(kāi)源

2023-03-20 13:43:00

AI論文

2025-01-03 15:39:02

2010-08-31 11:06:37

2025-04-27 08:30:00

2024-01-18 10:57:35

AIM模型NLP

2013-11-29 10:10:38

移動(dòng)廣告市場(chǎng)填充率

2023-05-15 15:38:59

AI模型

2025-10-13 08:50:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)