偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<s id="493tb"><li id="493tb"></li></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-5問題太多，奧特曼帶團(tuán)回應(yīng)一切，圖表弄錯(cuò)是因「太累了」

2025-08-11 08:55:00

人工智能新聞

OpenAI 確實(shí)覺得 GPT-5 是目前最為強(qiáng)大的模型，可是走進(jìn)真實(shí)世界后卻好像并非如此。

前期有多期望，后期就有多失望，這大概是大多數(shù)業(yè)界人士在看到 GPT-5 這場事先張揚(yáng)的高調(diào)發(fā)布后的最大心聲。

當(dāng)然，也許在內(nèi)部測試的時(shí)候，OpenAI 確實(shí)覺得 GPT-5 是目前最為強(qiáng)大的模型，可是走進(jìn)真實(shí)世界后卻好像并非如此。

一位 X 網(wǎng)友發(fā)現(xiàn) GPT-5 在解決可能屬于小學(xué)水平的數(shù)學(xué)題時(shí)無能為力，吐槽到底被官方稱為「博士」水平的智力是哪個(gè)學(xué)校頒發(fā)的？

不僅是數(shù)學(xué)，自 GPT-5 發(fā)布以來，各種社交媒體上充斥著各種 GPT-5 在邏輯、編碼任務(wù)中「失誤」的案例。

前期的高調(diào)炒作、直播中的低水準(zhǔn)圖表錯(cuò)誤、用戶試用后的失望，等等，不僅讓 GPT-5 沒有收到預(yù)期的鮮花與掌聲，更多是吐槽和質(zhì)疑聲的時(shí)候，OpenAI 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Sam Altman 似乎也開始「坐不住了」，表示 GPT-5 的發(fā)布過程確實(shí)存在一點(diǎn)問題。

GPT-5 發(fā)布后不久，在 Reddit r/ChatGPT 的 AMA 活動(dòng)中，Sam Altman 和 GPT-5 團(tuán)隊(duì)核心成員針對網(wǎng)友們的提問進(jìn)行了回答，從發(fā)布會(huì)上出現(xiàn)的令人尷尬的「圖表犯罪」失誤，到用戶抱怨 GPT-5 效果不如 4o 好，趕緊將 4o「還回來」等等，Sam Altman 都一一做出了解釋，并給出后續(xù)的解決方案。

首先是大家最為關(guān)心的版本問題，GPT-5 發(fā)布后不久，用戶的 ChatGPT 頁面就開始陸續(xù)出現(xiàn) GPT-5 版本，但令人不解的是，同時(shí) 4o 等其他選項(xiàng)都沒有了，但由于 GPT-5 的性能并沒有說得那么好，于是大家并沒有因?yàn)槁氏扔蒙闲履Ｐ投吲d，反而是希望換回來。

一網(wǎng)友在 Reddit 上提問：「請把 4o 帶回來吧。不要移除不同的版本 —— 不同的人有不同的風(fēng)格！」

Sam Altman 則表示：「好的，我們聽到了大家對 4o 的反饋；感謝你們花時(shí)間提出意見（還有這份熱情?。Ｎ覀儠?huì)讓 Plus 用戶重新使用 4o，并會(huì)觀察使用情況來決定支持多久。」

另一位網(wǎng)友表示希望 ChatGPT 能夠給用戶在使用 GPT-5 的同時(shí)使用 GPT-4o/4.1 的權(quán)利。Sam Altman 回答說，團(tuán)隊(duì)正在研究這個(gè)問題，并問網(wǎng)友覺得必須同時(shí)保留 4o 和 4.1？還是只保留 4o 就夠了？

目前的結(jié)果是，OpenAI 部分撤回其平臺(tái)的一些更改并恢復(fù)用戶對 GPT-4o 等早期模型的訪問權(quán)限。

而不出所料，Sam Altman 也被問到了發(fā)布直播上令人尷尬的一幕，展示出模型性能圖表出現(xiàn)「錯(cuò)誤」—— 該圖表顯示的基準(zhǔn)分?jǐn)?shù)較低，但條形圖卻很高。

這一幕出現(xiàn)后，很多網(wǎng)友表示號稱史上最強(qiáng)大的模型怎么能犯如此低級的錯(cuò)誤，甚至一位 X 網(wǎng)友調(diào)侃道，「在看到這張圖片后，感覺自己的工作保住了！」

對此，Sam Altman 表示，為了準(zhǔn)備發(fā)布會(huì)，團(tuán)隊(duì)成員大家都工作到很晚，非常疲憊，人為錯(cuò)誤造成了這樣的影響。

另外，Sam Altman 還在這次 AMA 中進(jìn)行了一些總結(jié)，并分享了 OpenAI 對于未來的一些規(guī)劃：

「感謝你們在這里提供的所有反饋。

正如我們之前提到的，由于我們同時(shí)推出這么多產(chǎn)品，所以預(yù)料到會(huì)有一些波折。但結(jié)果比我們預(yù)想的還要坎坷！

一些變化：

從今天開始，GPT-5 會(huì)變得更加智能。昨天，我們遇到了一次安全事件，自動(dòng)切換器在當(dāng)天的大部分時(shí)間里都無法使用，結(jié)果導(dǎo)致 GPT-5 看起來變得非常笨拙。此外，我們正在對決策邊界的運(yùn)作方式進(jìn)行一些干預(yù)，這應(yīng)該有助于你更頻繁地獲得正確的模型。我們將更加透明地展示哪個(gè)模型正在回答給定的查詢。

向所有人推出需要更長的時(shí)間。這是一次規(guī)模巨大的變革。例如，我們的 API 流量在過去 24 小時(shí)內(nèi)幾乎翻了一番……

我們將改變用戶界面，以便更容易地手動(dòng)觸發(fā)思考。

我們將在推出完成后將 Plus 用戶的速率限制提高一倍。

我們正在考慮讓 Plus 用戶繼續(xù)使用 4o。我們正在嘗試收集更多有關(guān)利弊的數(shù)據(jù)。

我們將繼續(xù)努力使事情穩(wěn)定下來，并將繼續(xù)聽取反饋?！?/p>

下面是 Sam Altman 和 GPT-5 團(tuán)隊(duì)核心成員在這次 Reddit AMA 中的更多詳細(xì)有趣問答：

Sam Altman

OpenAI CEO

問：請恢復(fù) 4o。不要?jiǎng)h除變體模型 —— 每個(gè)人的風(fēng)格都不一樣！

Altman：好的，我們聽到了大家對 4o 的反饋；感謝您抽出時(shí)間給我們反饋（以及熱情?。Ｎ覀儗?Plus 用戶恢復(fù)該功能，并將觀察其使用情況以確定支持期限。

問：我認(rèn)為 Sam Altman 之前發(fā)布的大致時(shí)間表 / 路線圖很有啟發(fā)。你們打算繼續(xù)推進(jìn)這些工作嗎？GPT-5 是一個(gè)清晰的里程碑，所以我們又進(jìn)入了未知領(lǐng)域。幾個(gè)月前，Sam 提到了一種創(chuàng)造性寫作模型。這個(gè)模型是「融入」/ 蒸餾到 GPT-5 中的嗎？還是被擱置了？等待未來發(fā)布？你們是否考慮過按 token 而不是原始使用次數(shù)來計(jì)量用戶數(shù)量？并非所有提示詞在計(jì)算開銷方面都相同，而且意外浪費(fèi)每周的使用次數(shù)會(huì)讓人感到難受。

Altman：我們確實(shí)打算繼續(xù)分享粗略的路線圖，但顯然這些路線圖可能會(huì)改變，因此我們會(huì)嘗試對其進(jìn)行嚴(yán)厲的審視。

是的，我們將很多創(chuàng)意寫作融入了 GPT-5 思考中。

我們肯定在考慮人們可以在其他地方花費(fèi)的 token 預(yù)算！以及更普遍地處理「計(jì)算桶（bucket of compute）」的更好方法。我們希望找到一種方法，至少在某種程度上將訂閱和 API 使用結(jié)合在一起。

我們正在考慮如何更好地、更有針對性地定價(jià)；你可以預(yù)期我們會(huì)在這方面做出一些改變，但我們還沒有決定改變什么。

問：上下文升級方面，你們遠(yuǎn)落后于競爭對手，我們很多人都相信你們會(huì)解決這個(gè)問題。這是怎么回事？看起來你們現(xiàn)在基本上都活在自己的世界里，各行其是。至少從表面上看，幾乎沒有真正解決用戶的顧慮或需求。我本來是這邊比較謹(jǐn)慎的人之一，但還是失望地離開了。下周我會(huì)再看看，也許有些問題能解決，不過說實(shí)在的，別那么自以為是了。

Altman：老實(shí)說，我們還沒有看到對相對長的上下文的大量需求；我們愿意在有足夠的用戶需求信號的情況下支持它！我們必須對我們支持的內(nèi)容做出很多權(quán)衡，并且計(jì)算資源緊張，所以我們試圖優(yōu)先考慮對大多數(shù)人有用的東西。

什么樣的上下文長度對你有幫助，你會(huì)用它做什么？

Sulman Choudhry

OpenAI 工程師

問：大多數(shù)人仍然將 ChatGPT 用作聊天機(jī)器人。你認(rèn)為其使用方式會(huì)如何演變？

Choudhry：ChatGPT 正在為我們的用戶創(chuàng)造越來越多具有經(jīng)濟(jì)價(jià)值的工作。我們堅(jiān)信，我們與 ChatGPT 的交互方式應(yīng)該從提問轉(zhuǎn)變?yōu)楦m合工作的方式。隨著人們學(xué)習(xí)如何以新的方式使用 ChatGPT，這將逐漸實(shí)現(xiàn)。

問：ChatGPT Voice 自推出以來有什么改進(jìn)嗎？

Choudhry：我們昨天推出了一個(gè)新的語音模型 —— 它在遵循指令和響應(yīng)方面表現(xiàn)更好。

Saachi Jain

OpenAI 安全訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人

問：GPT-5 帶來了哪些安全改進(jìn)？

Jain：好問題！1/ 我們做了很多改進(jìn)來降低拒絕率。2/ 我們改進(jìn)了越獄防護(hù)。3/ 我們構(gòu)建了更好的自動(dòng)化測試器。我們會(huì)繼續(xù)努力。

問：GPT-5 對偏見的處理方式有什么不同嗎？

Jain：是的！我們對目前取得的進(jìn)展感到非常興奮。GPT-5 mini 應(yīng)該會(huì)更人性化，不會(huì)那么乏味。

問：鑒于所有關(guān)于對齊問題和欺騙的報(bào)告，你們正在采取哪些實(shí)際保障措施來確保 LLM 不會(huì)背叛我們？你們對人民和文明的責(zé)任是什么？

Jain：我們在 GPT-5 中做出了很多改進(jìn)，以減少欺騙性。GPT-5 更擅長識別任務(wù)何時(shí)無法完成，并且能夠更清晰地表達(dá)。在包含不可能完成的編程問題以及文件或圖像缺失的測試中，GPT-5（思考版）的欺騙性低于 o3。在大量真實(shí)的 ChatGPT 對話中，我們將這些誤導(dǎo)性回復(fù)從 o3 的 4.8% 降低到 GPT-5 的 2.1%。

問：你會(huì)監(jiān)測 GPT 的心理健康狀況以及它對人類的情緒嗎？你會(huì)研究人們與 GPT 的關(guān)系以及 GPT 如何改變他們嗎？

Jain：關(guān)于人們與模型的互動(dòng) —— 我們對 GPT-5 進(jìn)行了后訓(xùn)練，使其不那么諂媚（例如過度奉承或不加批判地附和），因?yàn)槲覀儼l(fā)現(xiàn)這會(huì)證實(shí)懷疑、加劇憤怒、促使沖動(dòng)行為或強(qiáng)化負(fù)面情緒。雖然兩者并非完全相同，但它與我們正在研究的其他領(lǐng)域相關(guān)。這個(gè)領(lǐng)域很難衡量 —— 我們正在與人機(jī)交互研究人員、臨床醫(yī)生以及青少年和數(shù)字福祉專家合作，以加強(qiáng)我們的研究。

問：我發(fā)現(xiàn)生物安全商（biological safety quotient）被過度修正了。任何與基因組學(xué) / 基因治療 / 生物工程 / 生物技術(shù)相關(guān)的嘗試都會(huì)被立即忽略。這包括任何試圖了解當(dāng)前基因治療試驗(yàn)方案的嘗試。或許，讓模型了解可能發(fā)生的基因工程更有幫助，而不是一概而論地拒絕？

Jain：我們正在積極調(diào)查此事！自昨天上線以來，我們已經(jīng)發(fā)現(xiàn)了過度標(biāo)記的問題，并且正在測試減少誤報(bào)的方法。全面拒絕雙重用途用戶絕對不是我們追求的理想行為。

就上下文而言，與 ChatGPT Agent 一樣，我們?yōu)?GPT-5 增加了增強(qiáng)的安全措施，因?yàn)樗鼈冇锌赡茉鰪?qiáng)某些生物技能，而這些技能可能會(huì)被濫用于生物武器制造等用途。生物學(xué)研究非常棘手，因?yàn)樗哂懈叨鹊碾p重用途（許多可能有助于生物武器化的協(xié)議也可用于生物學(xué)研究）。

對于擁有大學(xué)或企業(yè)帳戶的用戶，我們還為從事有益研究的經(jīng)過審查和信任的客戶提供了生命科學(xué)研究特別訪問計(jì)劃。

問：你們能改進(jìn)一下過濾器嗎？人們當(dāng)然不應(yīng)該因?yàn)榱私鈿v史而被標(biāo)記。

懇求你們能修復(fù)或優(yōu)化一下這個(gè)過濾器嗎？OpenAI 希望 GPT 能用于學(xué)習(xí)，而當(dāng)過濾器不斷標(biāo)記出 GPT 中不符合「企業(yè)友好」的歷史問題 / 提示詞和答案時(shí)，人們根本無法將其用于學(xué)術(shù)目的。我們不能為了企業(yè)而更改或凈化歷史記錄！

這個(gè)系統(tǒng)應(yīng)該知道用戶何時(shí)公然傷害他人或縱容他人做出可怕的事情，何時(shí)沒有這樣做。

比如，我之前和 GPT 聊梵高，結(jié)果聊到了高更。GPT 的答案被過濾器標(biāo)記并移除了，因?yàn)榻Y(jié)果發(fā)現(xiàn)高更是個(gè)性騷擾者。我不知道高更竟然這么糟糕，這也不是 GPT 的錯(cuò)，畢竟它只是在履行職責(zé)。我很疑惑為什么答案會(huì)被移除，于是我再次向 GPT 詢問，結(jié)果我的提示詞又被移除了。

紅色警告和內(nèi)容刪除會(huì)導(dǎo)致封禁，對吧？因?yàn)閷W(xué)習(xí)而被封禁，這太不應(yīng)該了。

Jain：同意，聽起來真讓人沮喪。你應(yīng)該可以安心地學(xué)習(xí)歷史，不用擔(dān)心被觸發(fā)警報(bào)。

我們正在努力！要正確界定有益和有害之間的界限并非易事。這里有兩個(gè)層面需要考慮：

行為（模型決定輸出的內(nèi)容）：對于 GPT-5，我們添加了安全完成功能，它不再僅僅決定「遵守或拒絕」，而是在安全限制范圍內(nèi)盡可能提供幫助。這應(yīng)該會(huì)對這類過度拒絕（模型過于謹(jǐn)慎）的情況有所幫助。不過，這對我們來說仍然是一個(gè)相當(dāng)活躍的研究領(lǐng)域，還有很多工作要做。
監(jiān)控器：我們擁有系統(tǒng)級監(jiān)控器來標(biāo)記有害內(nèi)容，但它們確實(shí)存在誤報(bào)。我們正在努力提高這些分類器的準(zhǔn)確率，以確保它們不會(huì)對此類良性案例進(jìn)行過度標(biāo)記。我們會(huì)進(jìn)行額外調(diào)查 → 僅憑監(jiān)控器標(biāo)記不會(huì)導(dǎo)致封禁。

Christina Kim

OpenAI 研究員

問：為什么新模型還沒有統(tǒng)一？

Kim：我們希望能夠快速推出統(tǒng)一體驗(yàn)的最佳模型。未來的版本將繼續(xù)融合。

問：ChatGPT-5 的個(gè)性感覺比較平淡。

Kim：好問題！我們致力于利用 GPT-5 訓(xùn)練我們的模型，使其默認(rèn)更加中立；你仍然可以通過風(fēng)格指令來控制它。

Elaine Ya Le

OpenAI 研究科學(xué)家

問：模型之間的切換會(huì)變得更快嗎？

Le：是的！GPT-5 會(huì)自動(dòng)決定是否使用推理。下次更新時(shí)，切換應(yīng)該會(huì)更順暢。

問：有沒有強(qiáng)制「思考」的提示詞？

Le：你可以在提示詞中添加「努力思考（think hard）」來簡單地觸發(fā)推理模式。

Daniel Levine

OpenAI 產(chǎn)品經(jīng)理

問：ChatGPT 允許在 IDE 中使用第三方插件嗎？

Levine：是的，這正是我們的目標(biāo)。我們希望 ChatGPT 能夠幫助你使用外部工具構(gòu)建軟件。

問：聊天氣泡顏色只有專業(yè)版才有嗎？

Levine：聊天氣泡顏色適用于所有用戶！你可以在設(shè)置中找到它們。

Eric Mitchell

OpenAI 研究科學(xué)家

問：請簡單解釋一下 GPT-5 比 GPT-4 好在哪里。

Mitchell：GPT-5 在幾個(gè)關(guān)鍵領(lǐng)域比 GPT-4 有了巨大的改進(jìn)：它的思考能力更強(qiáng)（推理能力），寫作能力更強(qiáng)（創(chuàng)造力），能更嚴(yán)格地遵循指令，并且與用戶意圖的對齊更好。

問：如果你只能使用一個(gè)提示詞來展示 GPT-5 與舊模型相比的真正實(shí)力，那么這個(gè)提示詞會(huì)是什么？

Mitchell：這里有幾個(gè)！需要指出，這些都是針對 Thinking 模式的。

定義深度學(xué)習(xí)中的「長短梯度去重」

這是一個(gè)針對幻覺的陷阱問題，GPT-5 思維應(yīng)該更可靠地指出這實(shí)際上并不存在，而不是簡單地提出一個(gè)虛構(gòu)的定義！

用 Canvas 中構(gòu)建一個(gè)功能齊全的色盲測試網(wǎng)站，用于教育目的。它應(yīng)該使用「奇數(shù)測試」來精確確定我的色盲等級，并解釋我的色盲類型（如適用）。它應(yīng)該設(shè)計(jì)精美，符合現(xiàn)代審美。

根據(jù)我的經(jīng)驗(yàn)，GPT-5 Thinking 對此的表現(xiàn)會(huì)非常好 :) 而 4o 根本沒有機(jī)會(huì)

查看當(dāng)天的天氣和日歷，并給我 2 條合適的著裝建議。不要重述我的整個(gè)日歷，因?yàn)樗撬饺说模恢恍杼峒芭c著裝相關(guān)的任何特定活動(dòng)。還要檢查今晚舊金山是否有適合我的日歷和工作服裝的音樂活動(dòng)，這樣我就可以不用換衣服就可以去。

GPT-5 具有更好的情境感知能力以及與你的生活的融合能力，因此可以處理這些類型的請求。它能將你的日歷與其他信息集成在一起，從而提供更多幫助！

問：GPT-5 API 端點(diǎn)在工具使用 / 網(wǎng)頁訪問方面是否與 ChatGPT UI 版本一樣強(qiáng)大？o3 在 ChatGPT UI 中表現(xiàn)不錯(cuò)，但即使在 API 中激活了網(wǎng)頁搜索功能，某些網(wǎng)站也無法訪問（例如 LinkedIn），這肯定不如 ChatGPT 版本。

Mitchell：我們在改進(jìn) GPT-5 API 中的工具使用 / 函數(shù)調(diào)用方面投入了大量精力，因此與 o3 相比，它在 API 中的一般工具使用 / 函數(shù)調(diào)用方面應(yīng)該有所改進(jìn)！

問：你后悔事后沒有展示幻覺減少的演示 / 對比嗎？我覺得這才是最驚人的事情，但對大多數(shù)人來說可能很難理解。

Mitchell：我們也對此感到興奮，我相信用戶一定會(huì)感受到其中的不同！隨著時(shí)間的推移，人們可能需要慢慢才能意識到，他們現(xiàn)在可以更加信任搜索 / 事實(shí)結(jié)果了。Thinking 模型的改進(jìn)也最為顯著，希望隨著時(shí)間的推移，人們能夠更多地使用它。

Michelle Pokrass

OpenAI 后訓(xùn)練研究員

問：你能確認(rèn) GPT-5 勝過 GPT-4 嗎？

Pokrass：可以確認(rèn)，GPT-5 > GPT-4。

問：與 Opus 4.1 相比，編程能力如何？

Pokrass：這兩個(gè)模型都很棒！我們不能過多談?wù)撈渌麑?shí)驗(yàn)室的模型，但我們認(rèn)為 GPT-5-thinking 是我們發(fā)布的最好的編程模型。

問：GPT-5 中你最想要但無法實(shí)現(xiàn)的東西是什么？

Pokrass：我們希望在 GPT-5 中獲得長達(dá)一百萬的上下文，但我們目前還無法實(shí)現(xiàn) —— 部分原因是計(jì)算成本。

責(zé)任編輯：張燕妮來源：機(jī)器之心

OpenAI GPT-5 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<strike id="huhds"></strike>

<meter id="huhds"><sup id="huhds"></sup></meter>