偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-5編程測(cè)評(píng)大反轉(zhuǎn)!表面不及格,實(shí)際63.1%的任務(wù)沒(méi)交卷,全算上成績(jī)比Claude高一倍

人工智能
Scale AI的新軟件工程基準(zhǔn)SWE-BENCH PRO,出現(xiàn)反轉(zhuǎn)!表面上看,“御三家”集體翻車,沒(méi)一家的解決率超過(guò)25%:GPT-5、Claude Opus 4.1、Gemini 2.5分別以23.3%、22.7%、13.5%的解決率“榮”登前三。

Scale AI的新軟件工程基準(zhǔn)SWE-BENCH PRO,出現(xiàn)反轉(zhuǎn)!

表面上看,“御三家”集體翻車,沒(méi)一家的解決率超過(guò)25%

GPT-5、Claude Opus 4.1、Gemini 2.5分別以23.3%、22.7%、13.5%的解決率“榮”登前三。

圖片

但深入數(shù)據(jù)背后,則暗藏玄機(jī)。

前OpenAI研究員Neil Chowdhury表示,如果只看已提交的任務(wù),GPT-5能達(dá)到63%的準(zhǔn)確率,比Claude Opus 4.1的31%,高了近一倍!

圖片

(這怎么不算G又贏???)

換句話說(shuō),GPT-5在擅長(zhǎng)的題目上依舊穩(wěn)健,與老基準(zhǔn)SWE-Bench-Verified的74.9%差距不大,而Claude跟其他模型則直接拉垮到底。

那么,究竟是什么基準(zhǔn)測(cè)試,讓這些頂級(jí)模型如此狼狽?

SWE-BENCH PRO

先說(shuō)結(jié)論,不是模型變菜了,而是題變難了。

與平均正確率高達(dá)70%SWE-Bench-Verified相比,SWE-BENCH PRO嚴(yán)格得可不止一星半點(diǎn)。

一方面,作為OpenAI于2024年8月發(fā)布的測(cè)試集,SWE-Bench-Verified中的很多代碼庫(kù)已被用作大語(yǔ)言模型的預(yù)訓(xùn)練語(yǔ)料,存在著數(shù)據(jù)污染的風(fēng)險(xiǎn)。

另一方面,SWE-Bench-Verified還包含不少瑣碎的問(wèn)題,例如500個(gè)問(wèn)題中有161個(gè)只需一兩行修改。

這與工業(yè)軟件工程中通常涉及的跨多文件、數(shù)百行修改的場(chǎng)景差距較大,從而無(wú)法真正反映實(shí)際開(kāi)發(fā)場(chǎng)景中所面臨的挑戰(zhàn)。

基于此,SWE-BENCH PRO主打全新題目,以確保模型在訓(xùn)練階段從未接觸過(guò)測(cè)試內(nèi)容,從而更真實(shí)地考驗(yàn)?zāi)P偷膶?shí)際能力。

圖片

涵蓋1865個(gè)商業(yè)應(yīng)用、B2B服務(wù)和開(kāi)發(fā)者工具的多元化代碼庫(kù)

具體來(lái)說(shuō),SWE-BENCH PRO將這些代碼庫(kù)構(gòu)建為以下三個(gè)子集:

  • 公共集:來(lái)自采用copy-left許可證的11個(gè)公共代碼庫(kù)的731個(gè)問(wèn)題。
  • 商業(yè)集:來(lái)自276個(gè)源自初創(chuàng)公司代碼庫(kù)的問(wèn)題。
  • 保留集:來(lái)自采用copy-left許可證的12個(gè)公共代碼庫(kù)的858個(gè)問(wèn)題。

(注:公共集將在HuggingFace上發(fā)布,商業(yè)集和保留集保持私有,商業(yè)集的測(cè)試結(jié)果會(huì)公開(kāi),保留集用于驗(yàn)證模型是否過(guò)擬合。每個(gè)問(wèn)題由任務(wù)描述、相關(guān)測(cè)試集和可運(yùn)行環(huán)境構(gòu)成。)

這些從強(qiáng)Copyleft許可證(GPL)代碼庫(kù)和真實(shí)的初創(chuàng)公司獲取的商業(yè)代碼庫(kù)能夠有效地解決SWE-Bench-Verified存在的數(shù)據(jù)污染問(wèn)題。

為了確保任務(wù)的復(fù)雜性,研究團(tuán)隊(duì)還排除了像1-10行代碼編輯這樣瑣碎的編輯,保留了需要進(jìn)行大量多文件修改的問(wèn)題。

此外,為了防止模型對(duì)任何單一代碼庫(kù)產(chǎn)生過(guò)擬合,這些代碼庫(kù)都處于活躍狀態(tài)并覆蓋消費(fèi)者應(yīng)用、B2B服務(wù)和開(kāi)發(fā)者工具平臺(tái)。

接下來(lái),就讓我們看看研究者是如何在這些問(wèn)題上進(jìn)行測(cè)試的。

human in the loop的測(cè)試環(huán)節(jié)

為了將模型評(píng)估的重點(diǎn)放在當(dāng)模型獲得充分細(xì)節(jié)后,能否實(shí)現(xiàn)給定的修復(fù)或補(bǔ)丁上。

研究團(tuán)隊(duì)在SWE-Bench Verified的基礎(chǔ)上,將SWE-BENCH PRO中的每個(gè)問(wèn)題都經(jīng)過(guò)了人工增強(qiáng),并加入了問(wèn)題陳述、需求說(shuō)明以及接口信息。

首先,研究團(tuán)隊(duì)提供一個(gè)待解決問(wèn)題的問(wèn)題陳述并在必要時(shí)補(bǔ)充上下文信息。

圖片

其次,針對(duì)潛在的歧義問(wèn)題,對(duì)于每個(gè)問(wèn)題,列出了一系列需求并指定相應(yīng)的類和函數(shù)。

圖片

之后,在環(huán)境方面,每個(gè)任務(wù)都在一個(gè)容器化的、用于特定語(yǔ)言的環(huán)境中進(jìn)行評(píng)估。

在測(cè)試階段,研究通過(guò)fail2pass測(cè)試驗(yàn)證問(wèn)題是否已解決,通過(guò)pass2pass測(cè)試確保現(xiàn)有功能保持完整。

其中,為了確保測(cè)試質(zhì)量,fail2pass測(cè)試會(huì)經(jīng)過(guò)人工篩選,去掉與任務(wù)不相關(guān)或過(guò)于寬泛的測(cè)試。

對(duì)于偶爾失敗的測(cè)試,則會(huì)運(yùn)行三次,以確保結(jié)果穩(wěn)定。

實(shí)驗(yàn)結(jié)論

正如我們開(kāi)頭提到的,大語(yǔ)言模型在SWE-BENCH PRO上的解決率僅為中等水平,遠(yuǎn)低于SWE-Bench Verified中的70% 。

圖片

其中,在公共集上,GPT-5和Claude Opus 4.1分別實(shí)現(xiàn)了23.3%和22.7%的最高解決率,顯著優(yōu)于小規(guī)模模型,Claude Sonnet 4也達(dá)到了16.3%的解決率。

不過(guò),像DeepSeek Qwen-3 32B和GPT-4o這樣的老模型表現(xiàn)就多少有點(diǎn)不盡人意了,僅為3.4%和3.9%。

圖片

在商業(yè)集上,即便是最優(yōu)模型的得分也低于20%。

這表明當(dāng)前模型在解決真實(shí)商業(yè)場(chǎng)景中的問(wèn)題時(shí),能力仍然非常有限。

圖片

針對(duì)這一苦澀的實(shí)驗(yàn)結(jié)果,研究人員展開(kāi)了進(jìn)一步的分析,結(jié)論如下:

首先,編程語(yǔ)言的難度代碼庫(kù)以及模型的種類被視為影響模型表現(xiàn)的關(guān)鍵因素。

  • Go和Python通常表現(xiàn)較好,一些模型在這些語(yǔ)言上的解決率超過(guò) 30%,而JavaScript和TypeScript則波動(dòng)較大,從0%到超過(guò)30%不等。
  • 不同代碼庫(kù)的解決率差異也很明顯,一些代碼庫(kù)普遍偏低(低于 10%),另一些則超過(guò)50%。
  • 前沿模型如Claude Opus 4.1和GPT-5在大多數(shù)編程語(yǔ)言和代碼庫(kù)中表現(xiàn)穩(wěn)定,小規(guī)模模型則更易出現(xiàn)接近零的解決率。

其次,不同的模型的失敗原因往往各不相同。

圖片

  • OPUS 4.1的主要失敗模式是語(yǔ)義理解不足,錯(cuò)誤解答占35.9%,語(yǔ)法錯(cuò)誤占24.2%,表明其技術(shù)執(zhí)行能力較強(qiáng),但在問(wèn)題理解和算法正確性方面存在挑戰(zhàn)。
  • GPT-5的結(jié)果顯示在工具使用的有效性上可能存在差異,但錯(cuò)誤解答相對(duì)較少。
  • SONNET 4的主要失敗模式是上下文溢出(35.6%)和顯著的無(wú)休止文件讀取行為(17.0%),表明其在上下文管理和文件導(dǎo)航策略上存在局限。
  • GEMINI 2.5的失敗模式則較為均衡,涵蓋工具錯(cuò)誤(38.8%)、語(yǔ)法錯(cuò)誤(30.5%)和錯(cuò)誤解答(18.0%),顯示其在多個(gè)維度上保持了一定能力。
  • QWEN3 32B作為開(kāi)源模型,表現(xiàn)出最高的工具錯(cuò)誤率(42.0%),凸顯了集成化工具使用對(duì)于高效代理的重要性。

不難看出,GPT-5雖然延續(xù)了以往“會(huì)就會(huì),不會(huì)就不會(huì)”的答題策略,但面對(duì)高企的未回答率(63.1%),它的表現(xiàn)仍然不夠看。

那么,誰(shuí)會(huì)成為第一個(gè)突破30%的大模型呢?

圖片

參考鏈接

[1]https://x.com/vbingliu

[2]https://scale.com/leaderboard/swe_bench_pro_public

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798

[4] https://scale.com/research/swe_bench_pro

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2024-07-16 13:24:38

2023-09-03 12:56:43

2024-04-02 10:13:25

在線小工具開(kāi)發(fā)

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2023-06-15 13:45:41

模型AI

2017-04-11 09:33:12

JS面試題應(yīng)聘者

2025-05-30 09:17:00

2009-06-15 08:47:33

微軟Windows 7操作系統(tǒng)

2025-05-23 08:47:00

2025-02-08 14:10:00

模型系統(tǒng)AI

2022-06-24 08:20:56

requests爬蟲(chóng)Python

2025-06-19 09:06:00

2009-09-16 10:05:06

GoogleChrome 3.0瀏覽器

2025-08-26 09:00:00

2025-09-16 09:05:14

2012-07-04 09:30:49

程序員開(kāi)發(fā)效率

2012-07-04 08:48:59

程序員

2023-04-10 14:22:26

PCIe6.0PCIe

2025-08-28 09:12:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)