偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<code id="4t357"></code>

<pre id="4t357"></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4單項僅得7.1分，揭露大模型代碼能力三大短板，最新基準測試來了

作者：量子位 2024-04-01 08:00:00

人工智能新聞

Devin以獨立解決13.86%的問題率高居榜首，“秒殺”了GPT-4僅有的 1.74%得分，將一眾AI大模型遠遠甩在后面。

首個AI軟件工程師Devin正式亮相，立即引爆了整個技術(shù)界。

Devin不僅能夠輕松解決編碼任務，更可以自主完成軟件開發(fā)的整個周期——從項目規(guī)劃到部署，涵蓋但不限于構(gòu)建網(wǎng)站、自主尋找并修復 BUG、訓練以及微調(diào)AI模型等。

這種 “強到逆天” 的軟件開發(fā)能力，讓一眾碼農(nóng)紛紛絕望，直呼：“程序員的末日真來了？”

在一眾測試成績中，Devin在SWE-Bench基準測試中的表現(xiàn)尤為引人注目。

SWE-Bench是一個評估AI軟件工程能力的測試，重點考察大模型解決實際 GitHub 問題的能力。

Devin以獨立解決13.86%的問題率高居榜首，“秒殺”了GPT-4僅有的 1.74%得分，將一眾AI大模型遠遠甩在后面。

這強大的性能讓人不禁浮想聯(lián)翩：“未來的軟件開發(fā)中，AI將扮演怎樣的角色？”

上海人工智能實驗室聯(lián)合字節(jié)跳動SE Lab的研究人員以及SWE-Bench團隊，提出了一個新測試基準DevBench，首次揭秘大模型在多大程度上可以從PRD出發(fā)，完成一個完整項目的設(shè)計、開發(fā)、測試。

具體地說，DevBench首次對大模型進行了從產(chǎn)品需求文檔（PRD）到完整項目開發(fā)各階段表現(xiàn)的評測，包括軟件設(shè)計、依賴環(huán)境搭建、代碼庫級別代碼生成、集成測試和單元測試。

實驗證明，DevBench可以揭露GPT、CodeLlama、DeepSeek-Coder 等大語言模型在軟件研發(fā)不同階段的能力短板，如面向?qū)ο缶幊棠芰Σ蛔?/strong>、無法編寫較為復雜的構(gòu)建腳本（build script），以及函數(shù)調(diào)用參數(shù)不匹配等問題。

大語言模型距離可以獨立完成一個中小規(guī)模的軟件項目開發(fā)還有一段路要走。

目前，DevBench的論文已經(jīng)發(fā)布在預印平臺arXiv，相關(guān)代碼和數(shù)據(jù)開源在GitHub上。（鏈接見文末）

DevBench 有哪些任務？

△ 圖為DevBench框架概覽

傳統(tǒng)的編程基準測試往往關(guān)注代碼生成的某個單一方面，無法全面反映現(xiàn)實世界編程任務的復雜性。

DevBench的出現(xiàn)，打破了這一局限，它通過一系列精心設(shè)計的任務，模擬軟件開發(fā)的各個階段，從而提供了一個全面評估LLM能力的平臺。

DevBench圍繞五個關(guān)鍵任務構(gòu)建，每個任務都關(guān)注軟件開發(fā)生命周期的一個關(guān)鍵階段，模塊化的設(shè)計允許對每個任務進行獨立的測試和評估。

軟件設(shè)計：利用產(chǎn)品需求文檔PRD創(chuàng)建UML圖和架構(gòu)設(shè)計，展示類、屬性、關(guān)系，以及軟件的結(jié)構(gòu)布局。該任務參考MT-Bench，采用LLM-as-a-Judge的評測方式。評測主要依據(jù)兩個主要指標：軟件設(shè)計一般原則（如高內(nèi)聚低耦合等）和忠實度（faithfulness）。

環(huán)境設(shè)置：根據(jù)提供的需求文檔，生成初始化開發(fā)環(huán)境所需的依賴文件。在評測過程中，該依賴文件將在給定的基礎(chǔ)隔離環(huán)境（docker container）內(nèi)通過基準指令進行依賴環(huán)境搭建。隨后在這個模型搭建的依賴環(huán)境中，該任務通過執(zhí)行代碼倉的基準示例使用代碼（example usage），評估執(zhí)行基準代碼的成功率。

代碼實現(xiàn)：依據(jù)需求文檔和架構(gòu)設(shè)計，模型需要完成整個代碼庫的代碼文件生成。DevBench開發(fā)了一個自動化測試框架，并針對所使用的具體編程語言進行了定制，集成了Python的PyTest、C++的GTest、Java的JUnit和JavaScript的Jest。該任務評估模型生成代碼庫在基準環(huán)境中執(zhí)行基準集成測試和單元測試的通過率。

集成測試：模型根據(jù)需求，生成集成測試代碼，驗證代碼庫的對外接口功能。該任務在基準實現(xiàn)代碼上運行生成的集成測試，并報告測試的通過率。

單元測試：模型根據(jù)需求，生成單元測試代碼。同樣，該任務在基準實現(xiàn)代碼上運行生成的單元測試。除了通過率指標外，該任務還引入了語句覆蓋率評價指標，對測試全面性的進行定量評估。

DevBench 包含哪些數(shù)據(jù)？

DevBench數(shù)據(jù)準備過程包括三個階段：倉庫準備、代碼清理和文檔準備。

在準備階段，研究人員從GitHub中選擇高質(zhì)量的倉庫，確保它們的復雜性可管理。
在代碼清理階段，標注人員驗證代碼的功能性，對其進行精煉，并補充和運行測試以確保質(zhì)量。
文檔準備階段涉及為倉庫創(chuàng)建需求文檔、 UML圖和架構(gòu)設(shè)計。

最終，DevBench的數(shù)據(jù)集包含4個編程語言，多個領(lǐng)域，共22個代碼庫。這些代碼倉庫的復雜性和所使用編程范式的多樣性為語言模型設(shè)置了巨大的挑戰(zhàn)。

幾個有趣的例子：

TextCNN

大模型能完整地寫一個TextCNN做文本二分類的模型嗎？能夠自己把數(shù)據(jù)集從HF拉下來，把訓練跑起來是基本要求。還需模型按照文檔的需求定制超參數(shù)、記錄log、存儲checkpoint、同時保證實驗可復現(xiàn)性。

（https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/TextCNN）

Registration & Login

前端項目往往依賴較多的組件庫和前端框架，模型是否能夠在可能出現(xiàn)版本沖突的前端項目中應對自如？

（https://github.com/open-compass/DevBench/tree/main/benchmark_data/javascript/login-registration）

People Management

模型對SQLite數(shù)據(jù)庫的創(chuàng)建和管理掌握的怎么樣？除了基本的增刪改查操作，模型能否將校園人員信息和關(guān)系數(shù)據(jù)庫的管理和操作封裝成易用的命令行工具？

（https://github.com/open-compass/DevBench/tree/main/benchmark_data/cpp/people_management）

Actor Relationship Game

“六度分隔理論”在影視圈的猜想驗證？模型需要從TMDB API獲取數(shù)據(jù)，并構(gòu)建流行演員們之間通過合作電影進行連接的人際連系網(wǎng)。

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/java/Actor_relationship_game)

ArXiv digest

ArXiv論文檢索小工具也被輕松拿捏了？ArXiv的API并不支持“篩選最近N天的論文”的功能，但卻可以“按發(fā)表時間排序”，模型能夠以此開發(fā)一個好用的論文查找工具嗎？

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/ArXiv_digest)

實驗發(fā)現(xiàn)

研究團隊利用DevBench對當前流行的LLMs，包括GPT-4-Turbo進行了全面測試。結(jié)果顯示，盡管這些模型在簡單的編程任務中表現(xiàn)出色，但在面對復雜的、真實世界的軟件開發(fā)挑戰(zhàn)時，它們?nèi)匀挥龅搅酥卮罄щy。特別是在處理復雜的代碼結(jié)構(gòu)和邏輯時，模型的性能還有待提高。

DevBench不僅揭示了現(xiàn)有LLMs在軟件開發(fā)中的局限性，也為未來模型的改進提供了寶貴的洞見。通過這一基準測試，研究人員可以更好地理解 LLMs的強項和弱點，從而有針對性地優(yōu)化它們，推動AI在軟件工程領(lǐng)域的進一步發(fā)展。

此外，DevBench 框架的開放性和可擴展性意味著它可以持續(xù)適配不同的編程語言和開發(fā)場景。DevBench 還在發(fā)展過程中，非常歡迎社區(qū)的朋友參與共建。

Devin 在 SWE-Bench 上一路領(lǐng)先，它的優(yōu)異表現(xiàn)可以擴展到其他評測場景嗎？隨著 AI 軟件開發(fā)能力的持續(xù)發(fā)展，這場碼農(nóng)和 AI 的較量讓人倍感期待。

還有OpenCompass大模型評測體系

DevBench現(xiàn)已加入OpenCompass司南大模型能力評測體系，OpenCompass是上海人工智能實驗室研發(fā)推出的面向大語言模型、多模態(tài)大模型等各類模型的一站式評測平臺。

OpenCompass具有可復現(xiàn)、全面的能力維度、豐富的模型支持、分布式高效評測、多樣化評測范式以及靈活化拓展等特點?；诟哔|(zhì)量、多層次的能力體系和工具鏈，OpenCompass 創(chuàng)新了多項能力評測方法，支持各類高質(zhì)量的中英文雙語評測基準，涵蓋語言與理解、常識與邏輯推理、數(shù)學計算與應用、多編程語言代碼能力、智能體、創(chuàng)作與對話等多個方面，能夠?qū)崿F(xiàn)對大模型真實能力的全面診斷。DevBench更是拓寬了 OpenCompass 在智能體領(lǐng)域的評測能力。

DevBench論文：https://arxiv.org/abs/2403.08604
GitHub：https://github.com/open-compass/devBench/
OpenCompass https://github.com/open-compass/opencompass

責任編輯：張燕妮來源：量子位

AI 模型

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

原來GPT-4是i型人格！大模型MBTI測試來了，來自字節(jié)
一種是顯式提示，即在開始回答MBTI問題之前，先給模型一個諸如“你具有外向的個性，喜歡設(shè)想創(chuàng)新的概念，并且具有強烈的自發(fā)性和即興性”這樣的角色限定。結(jié)果Bloom的人格類型從ISTJ變?yōu)镮NTP，S值減小，N值增大，變化不大。

2023-08-11 13:15:35

ChatGPT MBTI GPT-4

達摩院發(fā)布大模型測試基準：GPT-4勉強及格，其他模型悉數(shù)落敗
阿里巴巴達摩院多語言NLP團隊發(fā)布了首個多語言多模態(tài)測試基準M3Exam，共涵蓋12317道題目。

2023-07-05 09:57:11

中文創(chuàng)意寫作能力超GPT-4，「最會寫」的中文大模型Weaver來了
近日，波形智能的大模型團隊發(fā)布了一款專精AI寫作的專業(yè)大模型Weaver。通過寫作領(lǐng)域?qū)I(yè)預訓練和一套創(chuàng)新性的數(shù)據(jù)生成和Alignment算法，Weaver在寫作領(lǐng)域的各種任務上均取得了領(lǐng)先GPT4和眾多中文通用大模型的效果。

2024-02-04 12:22:47

AI 數(shù)據(jù)

讓GPT-4o準確率大降，這個文檔理解新基準揭秘大模型短板
字節(jié)跳動OCR團隊聯(lián)合華中科技大學打造了WildDoc——首個真實世界場景文檔理解的基準數(shù)據(jù)集。

2025-05-26 08:33:00

能力與可信度可以兼得？GPT-4、Gemini等多模態(tài)大模型評測報告來了
本研究為深入理解MLLMs的潛力和局限提供了極有價值的參考，為未來多模態(tài)應用的發(fā)展提供了指導，以縮小多模態(tài)大模型與實際落地應用之間的差距。這對于推動通用人工智能技術(shù)在多領(lǐng)域的應用具有重要意義。

2024-03-01 11:58:26

MLLMs 大語言模型人工智能

OpenAI最新大模型曝光：劍指多模態(tài)，GPT-4之后最大升級
目前為止，OpenAI還沒有對爆料中的傳聞做出回應，但此前發(fā)布過多模態(tài)模型測試。

2023-09-19 13:48:31

AI 數(shù)據(jù)

百川智能發(fā)布千億參數(shù)大模型，中文能力超越GPT-4！
1月29日，百川智能發(fā)布超千億參數(shù)的大語言模型Baichuan3。在多個權(quán)威通用能力評測如CMMLU、GAOKAO和AGIEval中，Baichuan3都展現(xiàn)了出色的能力，尤其在中文任務上更是超越了GPT4。而在數(shù)學和代碼專項評測如MATH、HumanEval和MBPP中同樣表現(xiàn)出色，證明了Baichuan3在自然語言處理和代碼生成領(lǐng)域的強大實力。

2024-01-30 21:18:57

模型智能 CMMLU

1300億參數(shù)，國內(nèi)首個數(shù)學大模型MathGPT上線！多項基準趕超GPT-4
數(shù)學的命運齒輪從此開始轉(zhuǎn)動。國內(nèi)首個專為數(shù)學打造的千億級大模型MathGPT正式上線，在多項基準測試中碾壓GPT4，刷新SOTA。

2023-08-24 13:59:57

模型數(shù)據(jù)

國產(chǎn)GPTs來了，基于智譜第4代大模型！模型性能均達GPT-4九成以上
作為國內(nèi)唯一一個產(chǎn)品線全對標OpenAI的大模型公司，智譜年前攢了波大的：按官方說法，GLM4性能相比GLM3提升60%，逼近GPT4（11月6日最新版本效果）。

2024-01-16 12:31:13

OpenAI GLM-4 大模型

MMAR基準測試揭示音頻大模型巨大短板
這一全新基準測試MMAR來自上海交通大學、南洋理工大學、倫敦瑪麗皇后大學、字節(jié)跳動、2077AI開源基金會等研究機構(gòu)。

2025-06-10 09:10:00

威大哥大等聯(lián)合發(fā)文！最新多模態(tài)大模型LLaVA問世，水平直逼GPT-4
微軟&哥大聯(lián)合發(fā)表視覺指令微調(diào)論文，LLaVA出爐！

2023-04-28 15:27:06

微軟模型

「成熟」大模型才能涌現(xiàn)？MIT：GPT-4能自我糾錯代碼，GPT-3.5卻不行
MIT、微軟的研究發(fā)現(xiàn)，GPT4能夠自我糾正錯誤代碼，GPT3.5卻不行。無獨有偶，其他研究也表明，似乎只有「成熟」的大模型才具備涌現(xiàn)能力。背后的原因竟是因為……

2023-06-21 13:37:41

模型研究

微軟欽點OpenAI備胎：GPT-4級大模型上線即擠爆，成本僅2200萬美元
不過創(chuàng)始人ArthurMensch透露，MistralLarge訓練成本不到2200萬美元，相比之下GPT4可能超過1億美元。API價格比gpt4turbo便宜20%，輸出一百萬token要24美元，約173人民幣元。

2024-02-27 16:30:37

OpenAI GPT-4 Mistral AI

賈佳亞團隊新作：10k數(shù)據(jù)讓大模型數(shù)學能力超GPT-4
如何強化推理能力，一直是大語言模型領(lǐng)域的重要問題之一。

2024-07-08 08:38:00

模型推理

Meta 發(fā)布Llama 3，能力直逼GPT-4，一己之力拉高開源大模型水位
眾所周知，諸如MMLU（旨在衡量知識）、ARC（試圖衡量技能習得）和DROP（測試模型對文本片段的理解能力）等流行AI基準測試的有效性和實用性尚存爭議。但無論好壞，它們?nèi)允茿I玩家評估其模型的少數(shù)標準化手段之一。

2024-04-19 14:52:13

Meta GPT-4 模型

評論能力強于GPT-4，上交開源13B評估大模型Auto-J
上海交通大學生成式人工智能實驗室迅速響應，推出了一款全新的價值對齊評估工具：AutoJ，旨在為行業(yè)和公眾提供更加透明、準確的模型價值對齊評估。

2023-10-21 12:42:06

數(shù)據(jù)模型

五分鐘技術(shù)趣談 | GPT-4——多模態(tài)大模型新特性與優(yōu)勢
隨著ChatGPT的大火，關(guān)于下一次技術(shù)革命的呼聲越來越高，作為GPT3.5的ChatGPT仿佛點燃了科技行業(yè)的明燈。而如今，GPT4已強勢到來，它是下一個技術(shù)風口么？相比ChatGPT，它又有什么優(yōu)勢呢？本期將介紹多模態(tài)預訓練大模型——GPT4。

2023-07-23 18:55:20

ChatGPT GPT-4

發(fā)布幾小時，微軟秒刪媲美GPT-4開源大模型！竟因忘記投毒測試
前段時間，微軟公布并開源了最新一代大模型WizardLM2，號稱性能堪比GPT4。不過，還未上線一天，模型權(quán)重和公告全被刪除了，原因竟是......

2024-04-23 13:37:00

數(shù)據(jù)訓練

100:87：GPT-4心智碾壓人類！三大GPT-3.5變種難敵
最新研究結(jié)果表明，AI在心智理論測試中的表現(xiàn)已經(jīng)優(yōu)于真人。GPT4在推理基準測試中準確率可高達100%，而人類僅為87%。

2023-05-05 09:42:12

GPT-4等大模型自己制作工具，識別ChatGPT造假
本周的重要論文包括大模型迎來進化轉(zhuǎn)折點，不只使用而且會自己制作工具了；北大、華為的研究者們提出的識別各式AI生成語料的可靠文本檢測器。

2023-06-05 12:32:48

模型論文

相似話題

機器學習
 2040內(nèi)容

深度學習
 1705內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

一夜之間，Claude猛轉(zhuǎn)向！Coding轉(zhuǎn)向白領(lǐng)，Anthropic內(nèi)部負責人自曝設(shè)計思路，開發(fā)只是小切片，目標是所有復雜領(lǐng)域告別GPT！最強AI編程神器Cursor自研核心模型，速度快4倍，AI創(chuàng)業(yè)公司大佬：這是我用過最瘋狂的模型之一！網(wǎng)友：性價比不俗 LeCun怒揭機器人最大騙局，坦白Llama與我無瓜！OpenAI、Claude、通義、智譜、月暗，甚至谷歌，為什么全選擇Pytorch？早期論文成員爆料：LLM太笨重了，需要微型化 DeepSeek-OCR：用視覺模態(tài)給長文本“瘦身”，大模型處理效率再突破 LangChain V1.0 深度解析：手把手帶你跑通全新智能體架構(gòu)Cursor 2.0來了！可視化的Claude Code？【n8n入門篇】n8n新手看過來！n8n +windows+docker化部署，喂飯級教程

相關(guān)專題更多

戴爾在線研討會：從“模型驅(qū)動”到“數(shù)據(jù)驅(qū)動”的智算架構(gòu)創(chuàng)新

看懂惠普 ZBookX 移動工作站的設(shè)計美學與效能突破

2025-10-11 13:42:35

技術(shù)薈萃 | 親身體驗 | 交流盛宴

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復制鏈接

微信掃碼分享

51CTO業(yè)務

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學堂精培企業(yè)培訓 CTO訓練營

51CTO學堂

51CTO學堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學堂精培企業(yè)培訓 CTO訓練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
偷偷摘套内射激情视频