偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="lta1r"><rt id="lta1r"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

剛剛，奧特曼發(fā)布GPT-5！人人免費(fèi)用「博士級」智能，基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽

2025-08-08 09:22:40

人工智能新聞

奧特曼也是連發(fā)十幾條推特，介紹 GPT-5 的看點(diǎn)。因?yàn)樾畔Ⅻc(diǎn)比較多，我們就以奧特曼的推特內(nèi)容為依據(jù)為大家一一介紹。

都看了嗎？

等了多年的 GPT-5，終于在這個(gè)凌晨發(fā)布了。

我們一臉的期待，直播中 OpenAI 幾位核心人員的緊張也肉眼可見。

直播過程中，奧特曼也是連發(fā)十幾條推特，介紹 GPT-5 的看點(diǎn)。

因?yàn)樾畔Ⅻc(diǎn)比較多，我們就以奧特曼的推特內(nèi)容為依據(jù)為大家一一介紹。

首先，這是一個(gè)集成模型。也就是說，你用它的時(shí)候不需要在不同模型之間切換，它會(huì)自己決定何時(shí)需要深入思考。

盡管奧特曼強(qiáng)調(diào) benchmark 不重要，但他們還是曬出了不少跑分結(jié)果，比如在數(shù)學(xué)、編程、視覺感知和健康領(lǐng)域。具體跑分如下：

數(shù)學(xué)領(lǐng)域：在 2025 年 AIME 測試中無工具輔助達(dá)到 94.6%
實(shí)際編程應(yīng)用：SWE-bench Verified 達(dá)到 74.9%，Aider Polyglot 達(dá)到 88%
多模態(tài)理解：MMMU 達(dá)到 84.2%
健康領(lǐng)域：HealthBench Hard 達(dá)到 46.2%
通過 GPT-5 pro 的擴(kuò)展推理能力，該模型還在 GPQA 測試中創(chuàng)造了新的 SOTA，在無工具輔助的情況下得分 88.4%。

費(fèi)用方面，GPT-5 分為免費(fèi)版、Plus 和 Pro 計(jì)劃。根據(jù)奧特曼的說法，免費(fèi)版也能用上「博士級別的智能」（GPT-5 普通版，但帶推理功能），Plus 用戶在使用頻率上限制更少，而 Pro 用戶可以用上 GPT-5 Pro。

面向開發(fā)者，GPT-5 的三個(gè)版本 API 價(jià)格如下：標(biāo)準(zhǔn)版 GPT-5 為每百萬輸入 Token 1.25 美元，每百萬輸出 Token 10 美元，GPT-5 mini 版與 Nano 版會(huì)更便宜。

雖然直播長達(dá)一個(gè)多小時(shí)，但 OpenAI 大部分時(shí)間都在介紹 GPT-5 有多「好用」。

比如在教育方面，它可以在幾分鐘之內(nèi)生成數(shù)百行代碼，生成互動(dòng)內(nèi)容來解釋復(fù)雜概念，比如伯努利效應(yīng)。

在寫作方面，GPT-5 的文筆比 GPT-4o 要好。

在編程方面，它可以用幾分鐘時(shí)間寫出一個(gè)法語學(xué)習(xí)網(wǎng)頁，幫你練發(fā)音，還能做題、玩游戲。

語音模式也得到了升級，語音語調(diào)更加自然，想聊多久聊多久，語速也能隨便調(diào)，非常適合拿來學(xué)外語。

之前我們報(bào)道過的「AI 看病」功能，他們也做了專門的優(yōu)化，還請了一位癌癥患者現(xiàn)場分享自己的經(jīng)歷，以及 ChatGPT 在解釋病情方面給予她的幫助。奧特曼表示，GPT-5 是迄今為止最好的健康模型。

不過，現(xiàn)場也出了一些小 bug，比如做出的跑分圖竟然是錯(cuò)的，奧特曼也承認(rèn)了錯(cuò)誤：

這樣的錯(cuò)誤還不止一個(gè)：

更尷尬的是，馬斯克也跑來拆臺，轉(zhuǎn)發(fā)了 GPT-5 在 ARC-AGI-2 上沒有打敗 Grok 4 的消息：

連關(guān)于減少幻覺方面的 demo，也被人挑出了毛?。?/span>

不過，有人說，這不是「幻覺」問題，而是數(shù)據(jù)來源就有問題。

總體來看，GPT-5 的表現(xiàn)在很多人看來沒有達(dá)到預(yù)期。

那么，GPT-5 的各方面表現(xiàn)到底怎么樣？我們來看一下技術(shù)博客中的詳細(xì)信息。

一體化智能系統(tǒng)

GPT?5 是一個(gè)包含三個(gè)模型的統(tǒng)一系統(tǒng)：回答大部分常規(guī)問題的高效應(yīng)答模型、解答復(fù)雜難題的深度推理模型「GPT?5 Thinking 模式」，以及根據(jù)對話類型、問題復(fù)雜度、工具需求及用戶明確指令（例如輸入 "深入思考這個(gè)問題"）自動(dòng)分配最優(yōu)處理模型的實(shí)時(shí) router。

該 router 系統(tǒng)通過用戶切換模型行為、回答偏好數(shù)據(jù)及準(zhǔn)確率反饋等實(shí)時(shí)信號持續(xù)優(yōu)化。當(dāng)使用量達(dá)限時(shí)，各模型的精簡版本將接管后續(xù)查詢。

OpenAI 計(jì)劃在近期將這些能力融合至單一終極模型。

GPT?5 不僅在基準(zhǔn)測試中表現(xiàn)優(yōu)于前代模型、響應(yīng)速度更快，更重要的是 —— 它能更有效地處理現(xiàn)實(shí)場景中的各類需求。

OpenAI 表示，GPT5 在三大關(guān)鍵領(lǐng)域取得重大突破：顯著降低幻覺生成、提升指令遵循精度、減少迎合性回答。同時(shí)，GPT?5 在 ChatGPT 最常用的三大功能場景（文本創(chuàng)作、編程開發(fā)、健康咨詢）中表現(xiàn)全面提升。

評估

接下來，就讓我們看下 GPT-5 在各項(xiàng)基準(zhǔn)上的成績。

據(jù)博客介紹，GPT?5 在各項(xiàng)能力上均實(shí)現(xiàn)顯著提升，尤其在數(shù)學(xué)、編程、視覺理解和健康領(lǐng)域表現(xiàn)突出。數(shù)學(xué)領(lǐng)域，無工具輔助下 GPT-5AIME 2025 測試達(dá) 94.6%；真實(shí)場景編程，GPT-5 得分分別為 SWE-bench Verified 74.9%/Aider Polyglot 88%，多模態(tài)理解上 MMMU 84.2%，及健康領(lǐng)域 HealthBench Hard 46.2%。搭載擴(kuò)展推理能力的 GPT?5 專業(yè)版更在 GPQA 基準(zhǔn)測試中以 88.4% 的成績（無工具輔助）創(chuàng)下新紀(jì)錄。

不應(yīng)將使用工具的 AIME 結(jié)果與不使用工具的模型的性能直接進(jìn)行比較；這是 GPT-5 如何有效利用可用工具的一個(gè)例子。

chart (1).png

chart (2).png

chart (3).png

編碼基準(zhǔn)

指令遵循與智能工具調(diào)用能力：GPT?5 在指令遵循和智能工具調(diào)用基準(zhǔn)測試中表現(xiàn)顯著提升。這類能力使其能夠可靠地執(zhí)行多步驟請求、跨工具協(xié)同操作，并適應(yīng)上下文變化。實(shí)際應(yīng)用中，這意味著 GPT?5 更擅長處理復(fù)雜且動(dòng)態(tài)變化的任務(wù)：它能更精準(zhǔn)地遵循用戶指令，并充分利用現(xiàn)有工具端到端地完成更多工作環(huán)節(jié)。

chart (5).png

這是一個(gè) GPT-5 寫的小游戲 demo：

多模態(tài)基準(zhǔn)

該模型在多模態(tài)基準(zhǔn)測試中表現(xiàn)卓越，涵蓋視覺、視頻、空間及科學(xué)推理等多個(gè)領(lǐng)域。增強(qiáng)的多模態(tài)能力意味著 ChatGPT 能更精準(zhǔn)地解析圖像等非文本輸入 —— 無論是解讀圖表數(shù)據(jù)、總結(jié)演示文稿照片，還是回答基于示意圖的提問。

健康基準(zhǔn)

經(jīng)濟(jì)價(jià)值型任務(wù)表現(xiàn)

在 OpenAI 內(nèi)部一個(gè)評估基準(zhǔn)上，GPT5 同樣表現(xiàn)卓越，該測試專門評估模型在復(fù)雜、經(jīng)濟(jì)價(jià)值知識型工作上的表現(xiàn)。在啟用推理功能時(shí)，GPT?5 在大約半數(shù)案例中的表現(xiàn)達(dá)到或超越人類專家水平，同時(shí)在法律、物流、銷售、工程等 40 多個(gè)職業(yè)領(lǐng)域的綜合任務(wù)表現(xiàn)上全面優(yōu)于 o3 模型和 ChatGPT Agent。

chart (6).png

上述評估的方法論說明：GPT-4o 的測試結(jié)果基于截至 2025 年 8 月 ChatGPT 中的最新模型版本。所有模型均在 "高推理強(qiáng)度" 設(shè)置下進(jìn)行評估。需注意的是，ChatGPT 中的推理強(qiáng)度可調(diào)節(jié)，而 "高" 強(qiáng)度代表用戶使用模型時(shí)可能體驗(yàn)到的性能上限。

更快、更高效的 Thinking 模式

GPT?5 能以更少的思考時(shí)間創(chuàng)造更大價(jià)值。評估數(shù)據(jù)顯示，在視覺推理、智能體編程和研究生級科學(xué)問題解決等場景中，啟用思考功能的 GPT?5 性能表現(xiàn)優(yōu)于 OpenAI o3 模型，同時(shí)輸出 token 量減少 50-80%。

chart (7).png

chart (8).png

chart (9).png

這里，OpenAI 特意提到，GPT?5 是在微軟 Azure AI 超級計(jì)算機(jī)上訓(xùn)練的。

當(dāng)然，GPT-5 也第一時(shí)間就上線到了微軟的平臺。

為了應(yīng)對最具挑戰(zhàn)性、最復(fù)雜的任務(wù)，OpenAI 還發(fā)布了 GPT-5 pro，以取代 OpenAI o3-pro。GPT-5 pro 是 GPT-5 的一個(gè)變體，它能夠長時(shí)間思考，使用可擴(kuò)展且高效的并行測試時(shí)間計(jì)算，從而提供最高質(zhì)量和最全面的答案。

GPT-5 pro 在多項(xiàng)極具挑戰(zhàn)性的智能基準(zhǔn)測試中取得了 GPT-5 系列中的最高性能，包括在包含極其困難的科學(xué)問題的 GPQA 上取得的領(lǐng)先性能。

此外，我們還是把 GPT-5 的模型系統(tǒng)卡放到最后，感興趣的讀者們可以自行研究。

鏈接：https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

值得一提是這張圖，展示了今天發(fā)的 GPT-5 系列模型與前幾代 OpenAI 模型之間的關(guān)聯(lián)：

最后，還是想問一句：GPT-5 符合你的預(yù)期嗎？是不是更期待 DeepSeek-R2 了？

責(zé)任編輯：張燕妮來源：機(jī)器之心

GPT-5 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<sub id="yc9bh"></sub>}