偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-5編程成績有貓膩!自刪23道測試題,關(guān)鍵基準(zhǔn)還是自己提的

人工智能 新聞
現(xiàn)在相當(dāng)于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

別急著用GPT-5編程了,可能它能力沒有你想象中那么強。

有人發(fā)現(xiàn),官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。

圖片

什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標(biāo)。而SWE-bench Verified作為它的子集,本來一共有500個問題。

現(xiàn)在相當(dāng)于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

而如果這些題默認零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現(xiàn)在僅有0.4%的差距。

圖片

OpenAI這種自行忽略23道題的操作,已經(jīng)不是第一次了。

早在GPT-4.1發(fā)布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎(chǔ)設(shè)施運行。

離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統(tǒng)評估模型的編程能力,所以決定自己再提煉一個子集。

現(xiàn)在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

本來以為GPT-5直播里出現(xiàn)圖表錯誤已經(jīng)夠離譜了,結(jié)果現(xiàn)在告訴我這里面的成績可能還有假?

圖片

OpenAI一直省略23個問題

已經(jīng)開始有網(wǎng)友發(fā)現(xiàn),GPT-5能力并不比Claude 4.1 Opus好多少。

現(xiàn)在來看,這個官方給的結(jié)果或許根本沒有參考價值。

網(wǎng)友們除了自行忽略部分測試題,“偽造了結(jié)果”這一發(fā)現(xiàn)外,還發(fā)現(xiàn),他們是將具有最大思維努力的GPT-5與沒有擴展思維僅靠原始模型輸出的Opus 4.1進行比較。這種比較實際上沒有參考意義。

圖片

而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發(fā)布時一樣,因為他們內(nèi)部的基礎(chǔ)設(shè)施運行不了剩下的23個問題。

圖片

今年4月份發(fā)布GPT-4.1時,在同一基準(zhǔn)僅使用477個問題下得得分在54.6%。

當(dāng)時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數(shù)值放在當(dāng)時也是最高的。

圖片

而Anthropic這邊,其實也已經(jīng)發(fā)現(xiàn)了OpenAI這個操作。

就在Claude Opus 4.1發(fā)布公布編程成績之時,在文章的末尾有這么一句話。

圖片

對于Claude 4系列模型,他們繼續(xù)使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規(guī)劃工具”。

并在最后注明:在所有Claude 4模型中,他們報告的分數(shù)基于完整的500個問題。OpenAI模型的得分基于477道問題的子集進行報告。

圖片

基準(zhǔn)還是OpenAI自己提的

如果說,SWE-bench Verified還是OpenAI自己提的基準(zhǔn),那這件事就更離譜了。

這不就相當(dāng)于自己搬起石頭砸自己的腳啦嘛。

圖片

當(dāng)時啊還是因為類似的原因——他們測試發(fā)現(xiàn)SWE-bench的一些任務(wù)可能難以解決甚至無法解決,導(dǎo)致SWE-bench無法系統(tǒng)性評估模型的自主編程能力。

于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準(zhǔn)確的評估。

他們共同發(fā)起了一項人工注釋活動,共有93位資深程序員參與進來,以篩選SWE-bench測試集每個樣本,從而獲得適當(dāng)范圍的單元測試和明確指定的問題描述。

他們隨機抽取了1699個樣本,然后基于統(tǒng)一標(biāo)準(zhǔn)來進行標(biāo)注。

比如,問題描述是否明確?每個注釋都有一個標(biāo)簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。

標(biāo)簽0和1 表示輕微;標(biāo)簽2和3表示嚴重,表示樣本在某些方面存在缺陷,應(yīng)予以丟棄。

圖片

此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發(fā)人員確定并實現(xiàn)解決方案所需的時間。

最終得到了500個經(jīng)過驗證的樣本,并且按照難度對數(shù)據(jù)集進行細分?!昂唵巍弊蛹?96個小于15分鐘的修復(fù)任務(wù),而“困難”子集包含 45 個大于 1 小時的任務(wù)。

結(jié)果現(xiàn)在這個子集又被OpenAI縮減了。

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

在這個榜單中,Claude 4 Opus還是占據(jù)著領(lǐng)先位置。

圖片

GPT-5也已經(jīng)發(fā)過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區(qū)與我們分享。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-09-09 09:01:00

2025-06-19 09:06:00

2025-08-20 12:24:23

2024-01-22 13:57:00

模型訓(xùn)練

2025-09-01 17:14:00

AI模型訓(xùn)練

2025-07-30 09:14:00

2020-04-16 16:52:29

數(shù)據(jù)科學(xué)測試數(shù)據(jù)

2025-08-14 09:31:24

GPT-5AI

2024-04-01 00:50:00

吳恩達智能體

2010-08-24 15:04:46

華為

2024-01-18 12:30:03

2023-11-09 12:41:04

AI模型

2024-08-30 14:36:00

2024-04-10 11:47:41

人工智能ChatGPT

2023-08-08 12:51:55

AI技術(shù)

2025-08-19 16:05:27

GPT-5AI代碼

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2024-02-19 00:00:00

OpenAIChatGPT功能

2025-08-08 09:22:40

2023-11-16 15:57:00

數(shù)據(jù)訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號