偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-5問題太多,奧特曼帶團(tuán)回應(yīng)一切,圖表弄錯(cuò)是因「太累了」

人工智能 新聞
OpenAI 確實(shí)覺得 GPT-5 是目前最為強(qiáng)大的模型,可是走進(jìn)真實(shí)世界后卻好像并非如此。

前期有多期望,后期就有多失望,這大概是大多數(shù)業(yè)界人士在看到 GPT-5 這場事先張揚(yáng)的高調(diào)發(fā)布后的最大心聲。

當(dāng)然,也許在內(nèi)部測試的時(shí)候,OpenAI 確實(shí)覺得 GPT-5 是目前最為強(qiáng)大的模型,可是走進(jìn)真實(shí)世界后卻好像并非如此。

一位 X 網(wǎng)友發(fā)現(xiàn) GPT-5 在解決可能屬于小學(xué)水平的數(shù)學(xué)題時(shí)無能為力,吐槽到底被官方稱為「博士」水平的智力是哪個(gè)學(xué)校頒發(fā)的?

圖片

不僅是數(shù)學(xué),自 GPT-5 發(fā)布以來,各種社交媒體上充斥著各種 GPT-5 在邏輯、編碼任務(wù)中「失誤」的案例。

前期的高調(diào)炒作、直播中的低水準(zhǔn)圖表錯(cuò)誤、用戶試用后的失望,等等,不僅讓 GPT-5 沒有收到預(yù)期的鮮花與掌聲,更多是吐槽和質(zhì)疑聲的時(shí)候,OpenAI 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Sam Altman 似乎也開始「坐不住了」,表示 GPT-5 的發(fā)布過程確實(shí)存在一點(diǎn)問題。

GPT-5 發(fā)布后不久, 在 Reddit r/ChatGPT 的 AMA 活動(dòng)中,Sam Altman 和 GPT-5 團(tuán)隊(duì)核心成員針對網(wǎng)友們的提問進(jìn)行了回答,從發(fā)布會(huì)上出現(xiàn)的令人尷尬的「圖表犯罪」失誤,到用戶抱怨 GPT-5 效果不如 4o 好,趕緊將 4o「還回來」等等,Sam Altman 都一一做出了解釋,并給出后續(xù)的解決方案。

首先是大家最為關(guān)心的版本問題,GPT-5 發(fā)布后不久,用戶的 ChatGPT 頁面就開始陸續(xù)出現(xiàn) GPT-5 版本,但令人不解的是,同時(shí) 4o 等其他選項(xiàng)都沒有了,但由于 GPT-5 的性能并沒有說得那么好,于是大家并沒有因?yàn)槁氏扔蒙闲履P投吲d,反而是希望換回來。

圖片

一網(wǎng)友在 Reddit 上提問:「請把 4o 帶回來吧。不要移除不同的版本 —— 不同的人有不同的風(fēng)格!」

Sam Altman 則表示:「好的,我們聽到了大家對 4o 的反饋;感謝你們花時(shí)間提出意見(還有這份熱情?。N覀儠?huì)讓 Plus 用戶重新使用 4o,并會(huì)觀察使用情況來決定支持多久。」

另一位網(wǎng)友表示希望 ChatGPT 能夠給用戶在使用 GPT-5 的同時(shí)使用 GPT-4o/4.1 的權(quán)利。Sam Altman 回答說,團(tuán)隊(duì)正在研究這個(gè)問題,并問網(wǎng)友覺得必須同時(shí)保留 4o 和 4.1?還是只保留 4o 就夠了?

目前的結(jié)果是,OpenAI 部分撤回其平臺(tái)的一些更改并恢復(fù)用戶對 GPT-4o 等早期模型的訪問權(quán)限。

而不出所料,Sam Altman 也被問到了發(fā)布直播上令人尷尬的一幕,展示出模型性能圖表出現(xiàn)「錯(cuò)誤」—— 該圖表顯示的基準(zhǔn)分?jǐn)?shù)較低,但條形圖卻很高。 

圖片

這一幕出現(xiàn)后,很多網(wǎng)友表示號稱史上最強(qiáng)大的模型怎么能犯如此低級的錯(cuò)誤,甚至一位 X 網(wǎng)友調(diào)侃道,「在看到這張圖片后,感覺自己的工作保住了!」

圖片

對此,Sam Altman 表示,為了準(zhǔn)備發(fā)布會(huì),團(tuán)隊(duì)成員大家都工作到很晚,非常疲憊,人為錯(cuò)誤造成了這樣的影響。

圖片

另外,Sam Altman 還在這次 AMA 中進(jìn)行了一些總結(jié),并分享了 OpenAI 對于未來的一些規(guī)劃:

「感謝你們在這里提供的所有反饋。

正如我們之前提到的,由于我們同時(shí)推出這么多產(chǎn)品,所以預(yù)料到會(huì)有一些波折。但結(jié)果比我們預(yù)想的還要坎坷!

一些變化:

從今天開始,GPT-5 會(huì)變得更加智能。昨天,我們遇到了一次安全事件,自動(dòng)切換器在當(dāng)天的大部分時(shí)間里都無法使用,結(jié)果導(dǎo)致 GPT-5 看起來變得非常笨拙。此外,我們正在對決策邊界的運(yùn)作方式進(jìn)行一些干預(yù),這應(yīng)該有助于你更頻繁地獲得正確的模型。我們將更加透明地展示哪個(gè)模型正在回答給定的查詢。

向所有人推出需要更長的時(shí)間。這是一次規(guī)模巨大的變革。例如,我們的 API 流量在過去 24 小時(shí)內(nèi)幾乎翻了一番……

我們將改變用戶界面,以便更容易地手動(dòng)觸發(fā)思考。

我們將在推出完成后將 Plus 用戶的速率限制提高一倍。

我們正在考慮讓 Plus 用戶繼續(xù)使用 4o。我們正在嘗試收集更多有關(guān)利弊的數(shù)據(jù)。

我們將繼續(xù)努力使事情穩(wěn)定下來,并將繼續(xù)聽取反饋?!?/p>

下面是 Sam Altman 和 GPT-5 團(tuán)隊(duì)核心成員在這次 Reddit AMA 中的更多詳細(xì)有趣問答:

Sam Altman

OpenAI CEO

問:請恢復(fù) 4o。不要?jiǎng)h除變體模型 —— 每個(gè)人的風(fēng)格都不一樣!

Altman:好的,我們聽到了大家對 4o 的反饋;感謝您抽出時(shí)間給我們反饋(以及熱情?。N覀儗?Plus 用戶恢復(fù)該功能,并將觀察其使用情況以確定支持期限。

問:我認(rèn)為 Sam Altman 之前發(fā)布的大致時(shí)間表 / 路線圖很有啟發(fā)。你們打算繼續(xù)推進(jìn)這些工作嗎?GPT-5 是一個(gè)清晰的里程碑,所以我們又進(jìn)入了未知領(lǐng)域。幾個(gè)月前,Sam 提到了一種創(chuàng)造性寫作模型。這個(gè)模型是「融入」/ 蒸餾到 GPT-5 中的嗎?還是被擱置了?等待未來發(fā)布?你們是否考慮過按 token 而不是原始使用次數(shù)來計(jì)量用戶數(shù)量?并非所有提示詞在計(jì)算開銷方面都相同,而且意外浪費(fèi)每周的使用次數(shù)會(huì)讓人感到難受。

Altman:我們確實(shí)打算繼續(xù)分享粗略的路線圖,但顯然這些路線圖可能會(huì)改變,因此我們會(huì)嘗試對其進(jìn)行嚴(yán)厲的審視。

是的,我們將很多創(chuàng)意寫作融入了 GPT-5 思考中。

我們肯定在考慮人們可以在其他地方花費(fèi)的 token 預(yù)算!以及更普遍地處理「計(jì)算桶(bucket of compute)」的更好方法。我們希望找到一種方法,至少在某種程度上將訂閱和 API 使用結(jié)合在一起。

我們正在考慮如何更好地、更有針對性地定價(jià);你可以預(yù)期我們會(huì)在這方面做出一些改變,但我們還沒有決定改變什么。

問:上下文升級方面,你們遠(yuǎn)落后于競爭對手,我們很多人都相信你們會(huì)解決這個(gè)問題。這是怎么回事?看起來你們現(xiàn)在基本上都活在自己的世界里,各行其是。至少從表面上看,幾乎沒有真正解決用戶的顧慮或需求。我本來是這邊比較謹(jǐn)慎的人之一,但還是失望地離開了。下周我會(huì)再看看,也許有些問題能解決,不過說實(shí)在的,別那么自以為是了。

Altman: 老實(shí)說,我們還沒有看到對相對長的上下文的大量需求;我們愿意在有足夠的用戶需求信號的情況下支持它!我們必須對我們支持的內(nèi)容做出很多權(quán)衡,并且計(jì)算資源緊張,所以我們試圖優(yōu)先考慮對大多數(shù)人有用的東西。

什么樣的上下文長度對你有幫助,你會(huì)用它做什么?

Sulman Choudhry

OpenAI 工程師

問:大多數(shù)人仍然將 ChatGPT 用作聊天機(jī)器人。你認(rèn)為其使用方式會(huì)如何演變?

Choudhry:ChatGPT 正在為我們的用戶創(chuàng)造越來越多具有經(jīng)濟(jì)價(jià)值的工作。我們堅(jiān)信,我們與 ChatGPT 的交互方式應(yīng)該從提問轉(zhuǎn)變?yōu)楦m合工作的方式。隨著人們學(xué)習(xí)如何以新的方式使用 ChatGPT,這將逐漸實(shí)現(xiàn)。

問:ChatGPT Voice 自推出以來有什么改進(jìn)嗎?

Choudhry:我們昨天推出了一個(gè)新的語音模型 —— 它在遵循指令和響應(yīng)方面表現(xiàn)更好。

Saachi Jain

OpenAI 安全訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人

問:GPT-5 帶來了哪些安全改進(jìn)?

Jain:好問題!1/ 我們做了很多改進(jìn)來降低拒絕率。2/ 我們改進(jìn)了越獄防護(hù)。3/ 我們構(gòu)建了更好的自動(dòng)化測試器。我們會(huì)繼續(xù)努力。

問:GPT-5 對偏見的處理方式有什么不同嗎?

Jain:是的!我們對目前取得的進(jìn)展感到非常興奮。GPT-5 mini 應(yīng)該會(huì)更人性化,不會(huì)那么乏味。

問:鑒于所有關(guān)于對齊問題和欺騙的報(bào)告,你們正在采取哪些實(shí)際保障措施來確保 LLM 不會(huì)背叛我們?你們對人民和文明的責(zé)任是什么?

Jain:我們在 GPT-5 中做出了很多改進(jìn),以減少欺騙性。GPT-5 更擅長識別任務(wù)何時(shí)無法完成,并且能夠更清晰地表達(dá)。在包含不可能完成的編程問題以及文件或圖像缺失的測試中,GPT-5(思考版)的欺騙性低于 o3。在大量真實(shí)的 ChatGPT 對話中,我們將這些誤導(dǎo)性回復(fù)從 o3 的 4.8% 降低到 GPT-5 的 2.1%。

問:你會(huì)監(jiān)測 GPT 的心理健康狀況以及它對人類的情緒嗎?你會(huì)研究人們與 GPT 的關(guān)系以及 GPT 如何改變他們嗎?

Jain:關(guān)于人們與模型的互動(dòng) —— 我們對 GPT-5 進(jìn)行了后訓(xùn)練,使其不那么諂媚(例如過度奉承或不加批判地附和),因?yàn)槲覀儼l(fā)現(xiàn)這會(huì)證實(shí)懷疑、加劇憤怒、促使沖動(dòng)行為或強(qiáng)化負(fù)面情緒。雖然兩者并非完全相同,但它與我們正在研究的其他領(lǐng)域相關(guān)。這個(gè)領(lǐng)域很難衡量 —— 我們正在與人機(jī)交互研究人員、臨床醫(yī)生以及青少年和數(shù)字福祉專家合作,以加強(qiáng)我們的研究。

問:我發(fā)現(xiàn)生物安全商(biological safety quotient)被過度修正了。任何與基因組學(xué) / 基因治療 / 生物工程 / 生物技術(shù)相關(guān)的嘗試都會(huì)被立即忽略。這包括任何試圖了解當(dāng)前基因治療試驗(yàn)方案的嘗試。或許,讓模型了解可能發(fā)生的基因工程更有幫助,而不是一概而論地拒絕?

Jain:我們正在積極調(diào)查此事!自昨天上線以來,我們已經(jīng)發(fā)現(xiàn)了過度標(biāo)記的問題,并且正在測試減少誤報(bào)的方法。全面拒絕雙重用途用戶絕對不是我們追求的理想行為。

就上下文而言,與 ChatGPT Agent 一樣,我們?yōu)?GPT-5 增加了增強(qiáng)的安全措施,因?yàn)樗鼈冇锌赡茉鰪?qiáng)某些生物技能,而這些技能可能會(huì)被濫用于生物武器制造等用途。生物學(xué)研究非常棘手,因?yàn)樗哂懈叨鹊碾p重用途(許多可能有助于生物武器化的協(xié)議也可用于生物學(xué)研究)。

對于擁有大學(xué)或企業(yè)帳戶的用戶,我們還為從事有益研究的經(jīng)過審查和信任的客戶提供了生命科學(xué)研究特別訪問計(jì)劃。

問:你們能改進(jìn)一下過濾器嗎?人們當(dāng)然不應(yīng)該因?yàn)榱私鈿v史而被標(biāo)記。

懇求你們能修復(fù)或優(yōu)化一下這個(gè)過濾器嗎?OpenAI 希望 GPT 能用于學(xué)習(xí),而當(dāng)過濾器不斷標(biāo)記出 GPT 中不符合「企業(yè)友好」的歷史問題 / 提示詞和答案時(shí),人們根本無法將其用于學(xué)術(shù)目的。我們不能為了企業(yè)而更改或凈化歷史記錄!

這個(gè)系統(tǒng)應(yīng)該知道用戶何時(shí)公然傷害他人或縱容他人做出可怕的事情,何時(shí)沒有這樣做。

比如,我之前和 GPT 聊梵高,結(jié)果聊到了高更。GPT 的答案被過濾器標(biāo)記并移除了,因?yàn)榻Y(jié)果發(fā)現(xiàn)高更是個(gè)性騷擾者。我不知道高更竟然這么糟糕,這也不是 GPT 的錯(cuò),畢竟它只是在履行職責(zé)。我很疑惑為什么答案會(huì)被移除,于是我再次向 GPT 詢問,結(jié)果我的提示詞又被移除了。

紅色警告和內(nèi)容刪除會(huì)導(dǎo)致封禁,對吧?因?yàn)閷W(xué)習(xí)而被封禁,這太不應(yīng)該了。

Jain:同意,聽起來真讓人沮喪。你應(yīng)該可以安心地學(xué)習(xí)歷史,不用擔(dān)心被觸發(fā)警報(bào)。

我們正在努力!要正確界定有益和有害之間的界限并非易事。這里有兩個(gè)層面需要考慮:

  • 行為(模型決定輸出的內(nèi)容):對于 GPT-5,我們添加了安全完成功能,它不再僅僅決定「遵守或拒絕」,而是在安全限制范圍內(nèi)盡可能提供幫助。這應(yīng)該會(huì)對這類過度拒絕(模型過于謹(jǐn)慎)的情況有所幫助。不過,這對我們來說仍然是一個(gè)相當(dāng)活躍的研究領(lǐng)域,還有很多工作要做。
  • 監(jiān)控器:我們擁有系統(tǒng)級監(jiān)控器來標(biāo)記有害內(nèi)容,但它們確實(shí)存在誤報(bào)。我們正在努力提高這些分類器的準(zhǔn)確率,以確保它們不會(huì)對此類良性案例進(jìn)行過度標(biāo)記。我們會(huì)進(jìn)行額外調(diào)查 → 僅憑監(jiān)控器標(biāo)記不會(huì)導(dǎo)致封禁。

Christina Kim

OpenAI 研究員

問:為什么新模型還沒有統(tǒng)一?

Kim:我們希望能夠快速推出統(tǒng)一體驗(yàn)的最佳模型。未來的版本將繼續(xù)融合。

問:ChatGPT-5 的個(gè)性感覺比較平淡。

Kim:好問題!我們致力于利用 GPT-5 訓(xùn)練我們的模型,使其默認(rèn)更加中立;你仍然可以通過風(fēng)格指令來控制它。

Elaine Ya Le

OpenAI 研究科學(xué)家

問:模型之間的切換會(huì)變得更快嗎?

Le:是的!GPT-5 會(huì)自動(dòng)決定是否使用推理。下次更新時(shí),切換應(yīng)該會(huì)更順暢。

問:有沒有強(qiáng)制「思考」的提示詞?

Le:你可以在提示詞中添加「努力思考(think hard)」來簡單地觸發(fā)推理模式。

Daniel Levine

OpenAI 產(chǎn)品經(jīng)理

問:ChatGPT 允許在 IDE 中使用第三方插件嗎?

Levine:是的,這正是我們的目標(biāo)。我們希望 ChatGPT 能夠幫助你使用外部工具構(gòu)建軟件。

問:聊天氣泡顏色只有專業(yè)版才有嗎?

Levine:聊天氣泡顏色適用于所有用戶!你可以在設(shè)置中找到它們。

Eric Mitchell

OpenAI 研究科學(xué)家

問:請簡單解釋一下 GPT-5 比 GPT-4 好在哪里。

Mitchell:GPT-5 在幾個(gè)關(guān)鍵領(lǐng)域比 GPT-4 有了巨大的改進(jìn):它的思考能力更強(qiáng)(推理能力),寫作能力更強(qiáng)(創(chuàng)造力),能更嚴(yán)格地遵循指令,并且與用戶意圖的對齊更好。

問:如果你只能使用一個(gè)提示詞來展示 GPT-5 與舊模型相比的真正實(shí)力,那么這個(gè)提示詞會(huì)是什么?

Mitchell:這里有幾個(gè)!需要指出,這些都是針對 Thinking 模式的。

定義深度學(xué)習(xí)中的「長短梯度去重」

這是一個(gè)針對幻覺的陷阱問題,GPT-5 思維應(yīng)該更可靠地指出這實(shí)際上并不存在,而不是簡單地提出一個(gè)虛構(gòu)的定義!

用 Canvas 中構(gòu)建一個(gè)功能齊全的色盲測試網(wǎng)站,用于教育目的。它應(yīng)該使用「奇數(shù)測試」來精確確定我的色盲等級,并解釋我的色盲類型(如適用)。它應(yīng)該設(shè)計(jì)精美,符合現(xiàn)代審美。

根據(jù)我的經(jīng)驗(yàn),GPT-5 Thinking 對此的表現(xiàn)會(huì)非常好 :) 而 4o 根本沒有機(jī)會(huì)

查看當(dāng)天的天氣和日歷,并給我 2 條合適的著裝建議。不要重述我的整個(gè)日歷,因?yàn)樗撬饺说模恢恍杼峒芭c著裝相關(guān)的任何特定活動(dòng)。還要檢查今晚舊金山是否有適合我的日歷和工作服裝的音樂活動(dòng),這樣我就可以不用換衣服就可以去。

GPT-5 具有更好的情境感知能力以及與你的生活的融合能力,因此可以處理這些類型的請求。它能將你的日歷與其他信息集成在一起,從而提供更多幫助!

問:GPT-5 API 端點(diǎn)在工具使用 / 網(wǎng)頁訪問方面是否與 ChatGPT UI 版本一樣強(qiáng)大?o3 在 ChatGPT UI 中表現(xiàn)不錯(cuò),但即使在 API 中激活了網(wǎng)頁搜索功能,某些網(wǎng)站也無法訪問(例如 LinkedIn),這肯定不如 ChatGPT 版本。

Mitchell:我們在改進(jìn) GPT-5 API 中的工具使用 / 函數(shù)調(diào)用方面投入了大量精力,因此與 o3 相比,它在 API 中的一般工具使用 / 函數(shù)調(diào)用方面應(yīng)該有所改進(jìn)!

問:你后悔事后沒有展示幻覺減少的演示 / 對比嗎?我覺得這才是最驚人的事情,但對大多數(shù)人來說可能很難理解。

Mitchell:我們也對此感到興奮,我相信用戶一定會(huì)感受到其中的不同!隨著時(shí)間的推移,人們可能需要慢慢才能意識到,他們現(xiàn)在可以更加信任搜索 / 事實(shí)結(jié)果了。Thinking 模型的改進(jìn)也最為顯著,希望隨著時(shí)間的推移,人們能夠更多地使用它。

Michelle Pokrass

OpenAI 后訓(xùn)練研究員

問:你能確認(rèn) GPT-5 勝過 GPT-4 嗎?

Pokrass:可以確認(rèn),GPT-5 > GPT-4。

問:與 Opus 4.1 相比,編程能力如何?

Pokrass:這兩個(gè)模型都很棒!我們不能過多談?wù)撈渌麑?shí)驗(yàn)室的模型,但我們認(rèn)為 GPT-5-thinking 是我們發(fā)布的最好的編程模型。

問:GPT-5 中你最想要但無法實(shí)現(xiàn)的東西是什么?

Pokrass:我們希望在 GPT-5 中獲得長達(dá)一百萬的上下文,但我們目前還無法實(shí)現(xiàn) —— 部分原因是計(jì)算成本。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-03-21 06:56:03

2024-03-20 12:43:57

2025-09-18 08:52:51

2024-01-22 13:57:00

模型訓(xùn)練

2024-04-26 12:37:45

數(shù)據(jù)訓(xùn)練

2025-02-20 11:20:41

2025-01-06 12:40:45

2025-08-11 08:42:00

GPT-5AI模型

2025-08-20 09:02:00

2025-02-13 08:56:12

2025-06-19 09:06:00

2023-12-19 19:50:49

GPT-5OpenIA風(fēng)險(xiǎn)

2025-08-04 14:22:33

GPT-5Claude編碼

2025-08-11 02:11:00

2025-08-11 14:13:36

OpenAIGPT-5人工智能

2024-08-08 14:00:00

2025-02-13 10:52:56

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2025-07-21 09:04:00

OpenAI谷歌模型

2025-08-05 10:35:47

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號