偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="u27eh"><rt id="u27eh"></rt></thead>

<cite id="u27eh"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

別只看跑分了！OpenAI 新出的 GDPval 評測，讓大模型的真實(shí)經(jīng)濟(jì)價值一目了然原創(chuàng)

發(fā)布于 2025-9-30 11:32

瀏覽

0收藏

“AI 到底進(jìn)化到哪一步了？”

這個問題，你可能每天都在問。我們看過無數(shù)的跑分榜單，驚嘆于模型們在數(shù)學(xué)、代碼、歷史考試上的超人表現(xiàn)。但總感覺隔著一層紗——這些能力，到底能不能換算成我們?nèi)粘９ぷ髦械纳a(chǎn)力？

一個 AI 能寫出完美的十四行詩，但能幫我做一份合格的市場分析 PPT 嗎？它能通過法學(xué)院考試，但能幫律師起草一份滴水不漏的合同嗎？

長久以來，我們對 AI 的評價，有點(diǎn)像只看“高考成績”，而忽略了“職業(yè)技能”。

就在昨天，OpenAI 扔出了一顆重磅炸彈，徹底改變了游戲規(guī)則。他們發(fā)布了一個名為 GDPval 的全新 AI 評測體系。這個體系，不考數(shù)理化，不考腦筋急轉(zhuǎn)彎，它只干一件事：把 AI 拉到真實(shí)世界里，用 44 種真實(shí)職業(yè)的“行活兒”來狠狠拷問它。

這不只是一次評測，更像是一次對當(dāng)前所有大模型的“職業(yè)技能大摸底”。結(jié)果，相當(dāng)震撼。

1、告別“紙上談兵”，GDPval 到底是什么？

簡單來說，GDPval 是一個用來衡量 AI 在具有經(jīng)濟(jì)價值的真實(shí)世界任務(wù)中表現(xiàn)如何的評估工具。

名字起得也很有意思，GDPval，直接對標(biāo)“國內(nèi)生產(chǎn)總值”（GDP），野心可見一斑——就是要衡量 AI 能否在構(gòu)成經(jīng)濟(jì)核心的行業(yè)里，真正地創(chuàng)造價值。

它和我們熟悉的 MMLU、SWE-Bench 這類學(xué)術(shù)榜單，有三個根本性的不同。

第一，考題來源：不是考卷，是“派活兒”。

傳統(tǒng)的 AI 評測，題目往往是標(biāo)準(zhǔn)化的選擇題、問答題。而 GDPval 的 1320 個任務(wù)，全部來自在一線摸爬滾打了平均 14 年的資深行業(yè)專家。

這些專家覆蓋了美國 GDP 貢獻(xiàn)最高的 9 大行業(yè)，包括醫(yī)療、金融、法律、制造、信息技術(shù)等，從中挑選了 44 個核心的知識工作崗位。比如：

專業(yè)服務(wù)業(yè)：律師、會計師、軟件開發(fā)人員
醫(yī)療保健業(yè)：注冊護(hù)士、執(zhí)業(yè)護(hù)士
制造業(yè)：機(jī)械工程師、工業(yè)工程師
金融保險業(yè)：金融分析師、客戶服務(wù)代表
信息業(yè)：制片人、音視頻技術(shù)員、記者

每個任務(wù)，都是一個高度仿真的工作指令。

舉個例子，一個給“制造業(yè)工程師”的任務(wù)可能是這樣的：

“你是汽車裝配線的制造工程師，需要為一個電纜卷盤測試環(huán)節(jié)設(shè)計一個簡化操作的夾具。目前這個測試需要兩個人費(fèi)力操作，還存在風(fēng)險。請你用 3D 建模軟件設(shè)計一個初步的概念方案，并制作一個 PPT 簡報，將 3D 設(shè)計的截圖匯總成 PDF 文件提交。”

你看，這根本不是考試，這就是老板給你派的活兒。

第二，交付物：不看答案，看“成品”。

GDPval 不要求 AI 給出簡單的文本答案。它要求 AI 像一個真正的打工人一樣，交付出實(shí)實(shí)在在的“工作成果”。

這些成果五花八門，覆蓋了我們?nèi)粘＾k公的“全家桶”：

一份完整的PPT 演示文稿
一個帶公式和圖表的Excel 電子表格
一篇邏輯嚴(yán)謹(jǐn)?shù)?strong>法律簡報
一張CAD 設(shè)計圖的快照
甚至是一段剪輯好的音頻或視頻

為了完成這些任務(wù)，AI 經(jīng)常需要同時處理多個參考文件，比如需求文檔、數(shù)據(jù)表、設(shè)計草圖等等，這極大地考驗(yàn)了大模型的多模態(tài)和多文件處理能力。

第三，閱卷人：不是機(jī)器，是“同行”。

誰來評判 AI 的工作成果？答案是：這個領(lǐng)域的其他專家。

OpenAI 采用了“盲審”+“同行配對比較”的模式。評分專家在不知道哪個是 AI 作品、哪個是人類專家作品的情況下，進(jìn)行“二選一”或“三選一”的優(yōu)劣評判。

這種方式，最大限度地排除了偏見，也讓評分標(biāo)準(zhǔn)更貼近真實(shí)世界對“好工作”的定義——不僅僅是信息準(zhǔn)確，還包括格式、排版、邏輯、甚至審美。

可以說，GDPval 第一次為我們建立了一把真正衡量 AI “工作能力”的標(biāo)尺。它不再問 AI“懂什么”，而是問 AI“能做什么”。

2、震撼的“體檢報告”：AI 離真人專家還有多遠(yuǎn)？

那么，體檢結(jié)果如何？OpenAI 對目前市面上的主流大模型（包括 GPT-4o, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro 等）進(jìn)行了一輪摸底測試，結(jié)果讓人倒吸一口涼氣。

首先，頂尖模型的表現(xiàn)，已經(jīng)非常接近人類專家。

下面這張圖，展示了各大模型產(chǎn)出的成果，被專家評為“和人類專家一樣好（打平）”或“比人類專家更好（獲勝）”的比例。

(注：由于無法在此處生成圖表，我們用文字描述圖表核心信息)

GDPval 勝率/平局率（對比人類行業(yè)專家）

Claude Opus 4.1：勝率+平局率接近 50%
GPT-5 high：勝率+平局率達(dá)到 47.6%
o4-mini high：勝率+平局率達(dá)到 38.8%
Gemini 2.5 Pro：勝率+平局率達(dá)到 34.1%
Grok 4：勝率+平局率達(dá)到 27.9%
GPT-4o：勝率+平局率僅為 12.4%

別只看跑分了！OpenAI 新出的 GDPval 評測，讓大模型的真實(shí)經(jīng)濟(jì)價值一目了然-AI.x社區(qū)

解讀一下這張圖：

第一梯隊已經(jīng)形成：最新的 Claude Opus 4.1 和GPT-5表現(xiàn)最為搶眼。在接近一半的真實(shí)世界任務(wù)中，它們的交付成果已經(jīng)能與經(jīng)驗(yàn)豐富的人類專家相媲美，甚至超越。
各有千秋：報告特別提到，Claude Opus 4.1 在美學(xué)方面（如文檔格式、PPT 布局）表現(xiàn)突出，而GPT-5則在準(zhǔn)確性上（如調(diào)用領(lǐng)域知識）更勝一籌。這說明不同模型已經(jīng)開始出現(xiàn)“職業(yè)特長”分化。

其次，AI 的進(jìn)化速度，呈現(xiàn)出一條陡峭的增長曲線。

如果說上面的結(jié)果是“空間”上的對比，那么下面這張關(guān)于 OpenAI 自身模型迭代的圖，則揭示了“時間”上的恐怖進(jìn)化速度。

(注：由于無法在此處生成圖表，我們用文字描述圖表核心信息)

OpenAI 前沿模型在 GDPval 上的表現(xiàn)（隨時間變化）

GPT-4o (2024 年春)：勝率+平局率約 12%
o3-high (內(nèi)部模型)：勝率+平局率約 25%
GPT-5-high (2025 年夏)：勝率+平局率約 48%

別只看跑分了！OpenAI 新出的 GDPval 評測，讓大模型的真實(shí)經(jīng)濟(jì)價值一目了然-AI.x社區(qū)

你沒看錯，從 2024 年春天的 GPT-4o 到 2025 年夏天的 GPT-5，僅僅一年多的時間，模型在 GDPval 評測體系中的表現(xiàn)翻了整整三倍！這種幾乎線性的、肉眼可見的增長趨勢，比任何抽象的性能參數(shù)都更具沖擊力。

最后，是成本和效率的顛覆性潛力。

報告指出，在純粹的任務(wù)執(zhí)行層面，大模型完成這些任務(wù)的速度比人類專家快約 100 倍，API 調(diào)用成本也低約 100 倍。

當(dāng)然，OpenAI 也特別強(qiáng)調(diào)，這個數(shù)字沒有計算人類監(jiān)督、迭代修改和整合進(jìn)工作流的時間。但在那些模型表現(xiàn)已經(jīng)足夠好的任務(wù)上，先讓 AI “打個初稿”，無疑能極大地節(jié)省時間和金錢。

3、從跑分到打工：AI 評測的進(jìn)化之路

GDPval 的出現(xiàn)并非偶然，它標(biāo)志著 AI 評測 思維的一次關(guān)鍵躍遷。

我們可以清晰地看到一條進(jìn)化路線：

學(xué)術(shù)基準(zhǔn)時代 (Academic Benchmarks)：以 MMLU 為代表，像“高考”，測試 AI 的通識知識儲備和基礎(chǔ)推理能力。
應(yīng)用技能時代 (Applied Skills)：以 SWE-Bench（軟件工程）、MLE-Bench（機(jī)器學(xué)習(xí)工程）為代表，像“職業(yè)資格考試”，測試 AI 在特定專業(yè)領(lǐng)域的技能。
市場價值時代 (Market-Based Value)：以 SWE-Lancer（模擬真實(shí)外包軟件項目）和今天的GDPval為代表，像“職場實(shí)戰(zhàn)”，直接衡量 AI 在真實(shí)商業(yè)環(huán)境中的交付能力和經(jīng)濟(jì)價值。

這條路，是從“我知道”到“我能做”，再到“我做的東西值錢”的升級。

這背后，是 OpenAI 等頭部公司的一個清晰戰(zhàn)略：推動 AI 從實(shí)驗(yàn)室走向千行百業(yè)。只有當(dāng) AI 的能力能被經(jīng)濟(jì)價值所度量，它才能真正成為下一代生產(chǎn)力工具，引發(fā)廣泛的社會變革。

為此，OpenAI 還配套發(fā)布了兩個資源：

一個包含 220 個任務(wù)的“黃金”數(shù)據(jù)集，向所有研究者開放，讓大家都能在這個標(biāo)準(zhǔn)下測試自己的模型。
一個實(shí)驗(yàn)性的“自動評分器”，雖然準(zhǔn)確率（約 66%）還不能完全替代人類專家（人類互評一致性約 71%），但可以作為一個快速迭代的代理工具，大大降低了評測成本。

4、理性看待：GDPval 不是終點(diǎn)，而是起點(diǎn)

盡管 GDPval 意義重大，但 OpenAI 也非常坦誠地指出了它當(dāng)前的局限性。

任務(wù)類型有限：目前 GDPval-v0 版本主要集中在計算機(jī)可以處理的“知識工作”，不涉及需要物理操作的勞動。
“一次性”任務(wù)：評測都是“一錘子買賣”，給好指令和資料，看輸出結(jié)果。它無法模擬真實(shí)工作中需要反復(fù)溝通、多次修改、逐步深入的交互式流程。
缺乏模糊性：任務(wù)指令都非常清晰明確。但在現(xiàn)實(shí)中，很多工作的第一步，恰恰是去定義那個模糊不清的問題。

這些局限性也為 AI 評測 的未來指明了方向?？梢灶A(yù)見，未來的 GDPval v1、v2 版本，會引入更長的任務(wù)鏈條、更復(fù)雜的交互、以及需要 AI 自主處理模糊需求的能力。

寫在最后

GDPval 的發(fā)布，就像一聲發(fā)令槍。它宣告了 AI 評測 正式告別“唯分?jǐn)?shù)論”的時代，進(jìn)入了以“價值創(chuàng)造”為核心的下半場。

它給了我們一個更真實(shí)、更客觀的視角，去審視 AI 的能力邊界和發(fā)展速度。結(jié)果表明，AI 在許多知識工作領(lǐng)域的“動手能力”，可能比我們大多數(shù)人想象的要強(qiáng)得多，也進(jìn)步得快得多。

這并不意味著大規(guī)模的“失業(yè)”，而是預(yù)示著一場深刻的“人機(jī)協(xié)同”變革。AI 將越來越多地承擔(dān)那些重復(fù)性、有明確規(guī)范的“任務(wù)”，而人類則能更專注于那些需要創(chuàng)造力、戰(zhàn)略思考和復(fù)雜情感判斷的“工作”。

我們每個人，都站在這場變革的浪潮之巔。

最后，想和你互動一下：

在你自己的工作中，你覺得哪些任務(wù)最有可能被今天這樣水平的 AI 接管？

本文轉(zhuǎn)載自??Halo咯咯?? 作者：基咯咯

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-9-30 11:32:15修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

熱門內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

超越GPT-4，斯坦福團(tuán)隊手機(jī)可跑的大模型火了，一夜下載量超2k

輕薄滴假象 ? 4381瀏覽 ? 0回復(fù)
讓大模型不再「巨無霸」，這是一份最新的大模型參數(shù)高效微調(diào)綜述

輕薄滴假象 ? 3725瀏覽 ? 0回復(fù)
ChatGPT的真實(shí)能力如何？七大NLP任務(wù)一探究竟！

angel ? 5119瀏覽 ? 0回復(fù)
大佬怎么看OpenAI 和Google 本周相繼發(fā)布的模型及未來發(fā)展的？

angel ? 3768瀏覽 ? 0回復(fù)
Flames 安全評測基準(zhǔn)：大語言模型的對齊效果如何？

戀戀青鳥 ? 5716瀏覽 ? 0回復(fù)
模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！

戀戀青鳥 ? 8025瀏覽 ? 0回復(fù)
學(xué)會區(qū)分大模型——大模型的分類，讓你更清晰的認(rèn)識大模型

AI探索時代 ? 1.4w瀏覽 ? 0回復(fù)
更快、更強(qiáng)、更經(jīng)濟(jì)！超越GraphRAG的大模型RAG系統(tǒng)LightRAG開源啦！

AI博物院 ? 5527瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 1.3w瀏覽 ? 0回復(fù)
微軟、Anthropic正在拉滿大模型的情緒價值

51CTO技術(shù)棧 ? 3503瀏覽 ? 0回復(fù)
淺看大模型用于Text2SQL的綜述

大模型自然語言處理 ? 4951瀏覽 ? 0回復(fù)
大語言模型評測中的評價指標(biāo)：方法、基準(zhǔn)和最佳實(shí)踐

芝士AI吃魚 ? 1.3w瀏覽 ? 0回復(fù)
從大模型數(shù)據(jù)，看大模型的前瞻應(yīng)用場景在哪里？

AIGC新知 ? 2913瀏覽 ? 0回復(fù)
奧特曼在OpenAI「經(jīng)濟(jì)藍(lán)圖」畫下的大餅，能否撼動美AI政策？

51CTO技術(shù)棧 ? 2877瀏覽 ? 0回復(fù)
只需一步！上交&哈佛提出FluxSR：首個基于12B+大模型的單步擴(kuò)散真實(shí)世界超分模型

angel ? 5182瀏覽 ? 0回復(fù)
大模型是一場新的搜索戰(zhàn)爭，OpenAI不會贏家通吃，一家最好被收購！

51CTO技術(shù)棧 ? 3490瀏覽 ? 0回復(fù)
原有的模型評測基準(zhǔn)OUT了！12歲高中生建立了一個網(wǎng)站，讓AI模型發(fā)起 Minecraft 挑戰(zhàn)

51CTO技術(shù)棧 ? 2668瀏覽 ? 0回復(fù)
如何評測DeepSeek大模型一體機(jī)及實(shí)現(xiàn)業(yè)務(wù)價值？

數(shù)智飛輪 ? 2528瀏覽 ? 0回復(fù)
一篇3大類、283個 LLM 評測基準(zhǔn)的最新綜述

PaperAgent ? 3469瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Glyph：智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路 2天前發(fā)布
MiniMax M2：2300 億參數(shù)的“小巨人”，正改寫大模型競爭邏輯 2天前發(fā)布

熱門推薦

為什么它能成為強(qiáng)化學(xué)習(xí)的“黃金標(biāo)準(zhǔn)”？深扒 Proximal Policy Optimization (PPO) 的核心奧秘 0回復(fù)

微軟開源 VibeVoice-1.5B：90分鐘多角色語音合成，讓TTS進(jìn)入“長音頻時代” 0回復(fù)

GPU vs TPU：誰才是2025年大模型訓(xùn)練的最優(yōu)解？最新性能榜單揭曉 0回復(fù)

不止能切文本：多向量檢索如何讓RAG搞定復(fù)雜PDF 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

上一篇：直面 GPT-4：GLM 4.5 如何憑開源+代理能力逆襲？

下一篇： Qwen3-Max：阿里巴巴的萬億參數(shù)模型，真正意義上的“思考模式”來了

社區(qū)精華內(nèi)容

目錄