GPT-5發(fā)布即翻車!奧特曼深夜承認(rèn):圖表出錯(cuò),模型變笨。用戶只想用回GPT-4o
OpenAI在8月7日正式推出新一代旗艦大模型GPT-5。
據(jù)說,這是該公司自成立以來最受關(guān)注的一次產(chǎn)品迭代,被宣稱是“最強(qiáng)大、最智能”的語言模型,能夠在推理、創(chuàng)意生成和多模態(tài)理解等多個(gè)方面實(shí)現(xiàn)質(zhì)的飛躍。
然而,就在發(fā)布后的不到24小時(shí)內(nèi),OpenAI首席執(zhí)行官山姆·奧特曼就不得不面對(duì)現(xiàn)實(shí)。
圖片
他在Reddit的AMA問答和X平臺(tái)的回應(yīng)中承認(rèn),這次發(fā)布過程問題頻發(fā),遠(yuǎn)比預(yù)期更坎坷。
核心問題之一來自新上線的自動(dòng)“路由器”功能。這套系統(tǒng)會(huì)在用戶發(fā)出指令后,自動(dòng)將請(qǐng)求分配給GPT-5的四個(gè)變體之一:gpt-5-main / gpt-5-main-mini 與 gpt-5-thinking / gpt-5-thinking-mini,并在復(fù)雜任務(wù)中觸發(fā)“思考模式”。
圖片
API 還有 gpt-5-thinking-nano;ChatGPT 里有一種并行推理設(shè)置稱 gpt-5-thinking-pro。
理論上,這能讓用戶始終得到最匹配的計(jì)算能力。但在發(fā)布當(dāng)日,核心的自動(dòng)切換功能宕機(jī)了數(shù)小時(shí),導(dǎo)致大量用戶接入的模型并非預(yù)期版本,體驗(yàn)直接“降級(jí)”。這讓GPT-5在不少用戶眼中“顯得很笨”。
更糟的是,OpenAI在直播發(fā)布會(huì)中展示的性能圖表出現(xiàn)明顯錯(cuò)誤。

比如這個(gè)52.8大于69.1等于30.8
奧特曼解釋稱,這是由于團(tuán)隊(duì)成員工作至深夜,極度疲憊之下出現(xiàn)的“人為失誤”。他補(bǔ)充說明,盡管直播出現(xiàn)差錯(cuò),但配套發(fā)布的博客文章和系統(tǒng)卡片中的數(shù)據(jù)是準(zhǔn)確的。
用戶界面的變化也引發(fā)混亂。新版ChatGPT中,一些用戶發(fā)現(xiàn)無法再選擇舊的GPT-4o,這讓很多依賴其穩(wěn)定性的長(zhǎng)期訂閱者(包括小編)措手不及。
面對(duì)大量投訴,OpenAI緊急調(diào)整策略,宣布ChatGPT Plus用戶可繼續(xù)使用GPT-4o,以便公司在收集更多性能對(duì)比數(shù)據(jù)后再?zèng)Q定下一步。
圖片
奧特曼在Reddit上回應(yīng)稱,公司會(huì)在未來的更新中提高模型切換的透明度,并允許用戶手動(dòng)觸發(fā)“思考模式”,而不是完全依賴后臺(tái)判斷。他承認(rèn),用戶體驗(yàn)被忽視是此次發(fā)布的一個(gè)嚴(yán)重問題。
1.真實(shí)體驗(yàn)與官方宣傳落差
按照OpenAI的內(nèi)部測(cè)試結(jié)果,GPT-5在各項(xiàng)基準(zhǔn)上領(lǐng)先于市面上其他大模型。但當(dāng)真實(shí)用戶開始大規(guī)模使用時(shí),這些光鮮的數(shù)字迅速被質(zhì)疑。
上線后的第一天,社交平臺(tái)上充斥著用戶吐槽GPT-5在數(shù)學(xué)、邏輯、編程等基礎(chǔ)任務(wù)上的低級(jí)錯(cuò)誤。一位推特網(wǎng)名為Colin Fraser分享了截圖:當(dāng)被問到“8.888循環(huán)是否等于9”時(shí),GPT-5給出了錯(cuò)誤答案。另一位用戶在測(cè)試方程“5.9 = x + 5.11”時(shí),同樣收到了錯(cuò)誤解答。
圖片
一些用戶在數(shù)學(xué)文字題中發(fā)現(xiàn),GPT-5要么計(jì)算錯(cuò)誤,要么無法理解題意。而在代碼調(diào)試中,它甚至無法正確修復(fù)自己制作的演示文稿圖表的錯(cuò)誤數(shù)據(jù)。
在開發(fā)者圈子里,批評(píng)聲音同樣密集。
多位程序員對(duì)比發(fā)現(xiàn),GPT-5在“一次性”完成特定編程任務(wù)的能力,反而落后于競(jìng)爭(zhēng)對(duì)手Anthropic的Claude Opus 4.1。這種差距不僅存在于復(fù)雜推理任務(wù),甚至在簡(jiǎn)單的腳本編寫中也能明顯感知。
安全領(lǐng)域的反饋更讓人擔(dān)憂。
網(wǎng)絡(luò)安全公司SPLX測(cè)試后指出,GPT-5依舊容易受到提示注入(Prompt Injection)和混淆邏輯攻擊。這意味著,攻擊者仍有機(jī)會(huì)通過巧妙構(gòu)造的輸入繞過安全限制,獲得敏感信息或讓模型執(zhí)行非預(yù)期操作。
圖片
顯然,我們未預(yù)料到,OpenAI會(huì)在未充分征得用戶同意的情況下直接替換舊版本,并且在性能尚未穩(wěn)定的情況下全面推送新模型。
2.龐大用戶量帶來的壓力與競(jìng)爭(zhēng)
盡管GPT-5的首日表現(xiàn)不盡如人意,OpenAI依然擁有令人難以忽視的規(guī)模優(yōu)勢(shì)。ChatGPT的周活躍用戶已達(dá)到7億,遠(yuǎn)超其他生成式AI平臺(tái)。
奧特曼透露,GPT-5上線僅24小時(shí)內(nèi),API調(diào)用量就翻倍,直接給后臺(tái)帶來了額外壓力。這種激增在一定程度上加劇了平臺(tái)的不穩(wěn)定,也讓運(yùn)維團(tuán)隊(duì)調(diào)整限額與路由以穩(wěn)定體驗(yàn)。
為了安撫高付費(fèi)用戶,OpenAI宣布將ChatGPT Plus的調(diào)用速率限制提升一倍,并承諾持續(xù)優(yōu)化基礎(chǔ)設(shè)施,確保在高峰時(shí)段也能穩(wěn)定響應(yīng)。同時(shí),公司正在收集用戶在不同版本上的交互數(shù)據(jù),用于判斷GPT-5在真實(shí)場(chǎng)景中的優(yōu)劣勢(shì)。
顯然,OpenAI此刻面臨的挑戰(zhàn),不僅是修復(fù)技術(shù)問題,還要重建用戶對(duì)其產(chǎn)品節(jié)奏與決策流程的信任。如果GPT-5不能在接下來的幾周內(nèi)通過更新兌現(xiàn)“質(zhì)的飛躍”的承諾,這次發(fā)布可能會(huì)被視為一次代價(jià)高昂的公關(guān)失誤。





































