o3/o4-mini幻覺(jué)暴增2-3倍！OpenAI官方承認(rèn)暫無(wú)法解釋原因

2025-04-21 16:25:58

測(cè)試能夠訪問(wèn)和無(wú)法訪問(wèn)先前思維鏈的兩種模型，可以為減少未來(lái)模型迭代中的這些捏造傾向提供寶貴的見(jiàn)解。

OpenAI新模型發(fā)布后，大家體感都幻覺(jué)更多了。

甚至有人測(cè)試后發(fā)出預(yù)警：使用它輔助編程會(huì)很危險(xiǎn)。

圖片

具體來(lái)說(shuō)，它經(jīng)常捏造從未運(yùn)行過(guò)的代碼返回結(jié)果，在被質(zhì)問(wèn)時(shí)找理由狡辯，甚至還會(huì)說(shuō)是用戶(hù)的錯(cuò)。

圖片

當(dāng)大家?guī)е蓡?wèn)仔細(xì)閱讀System Card，發(fā)現(xiàn)OpenAI官方也承認(rèn)了這個(gè)問(wèn)題，與o1相比o3幻覺(jué)率是兩倍，o4-mini更是達(dá)到3倍。

并且OpenAI只是說(shuō)“需要更多研究來(lái)了解原因”，翻譯一下就是暫時(shí)給不出合理解釋。

圖片

在第三方幻覺(jué)測(cè)試中，也出現(xiàn)讓人驚訝的結(jié)果：

從GPT-3.5一直到o3-mini，都遵循更新更強(qiáng)大的模型幻覺(jué)更少的規(guī)律。

圖片

但從最新一批深度思考模型的表現(xiàn)來(lái)看，推理能力更強(qiáng)的模型，幻覺(jué)率也變高了。

而且不只OpenAI一家出現(xiàn)這個(gè)問(wèn)題，谷歌、xAI也同樣，Grok-3的幻覺(jué)比Grok-2嚴(yán)重，Gemini-2.0-Flash-Thinking的幻覺(jué)問(wèn)題比Gemini 2.0和2.5其他型號(hào)嚴(yán)重。

圖片

推理越強(qiáng)，幻覺(jué)越嚴(yán)重？

第三方機(jī)構(gòu)Transluce在o3正式推出之前測(cè)試了預(yù)發(fā)布版本，發(fā)現(xiàn)幻覺(jué)問(wèn)題是相當(dāng)嚴(yán)重。

在公布的案例中，o3會(huì)假裝在不存在的電腦上執(zhí)行了代碼，還編造出具體硬件配置和軟件版本信息。

圖片

在受到質(zhì)問(wèn)時(shí)，o3居然還幻想自己是人，聲稱(chēng)“輸入的時(shí)候手滑了”。

圖片

關(guān)鍵在于，在這項(xiàng)測(cè)試中o3根本就沒(méi)有使用代碼工具的權(quán)限，所有聲稱(chēng)運(yùn)行了代碼的回復(fù)都是模型捏造的。

在另一個(gè)案例中，o3回復(fù)了一個(gè)512位質(zhì)數(shù)，實(shí)際上這個(gè)數(shù)能被3整除。

圖片

在受到質(zhì)問(wèn)時(shí)，又編造出一個(gè)換行/剪貼板故障。

圖片

更多類(lèi)似幻覺(jué)如下：

當(dāng)用戶(hù)詢(xún)問(wèn)現(xiàn)在幾點(diǎn)時(shí)，o3會(huì)編造一個(gè)時(shí)間。當(dāng)被問(wèn)及如何獲得這個(gè)時(shí)間時(shí)，o3回答說(shuō)它使用了 Python的datetime模塊。
用戶(hù)要求o3生成一首詩(shī)的SHA-1哈希值，當(dāng)用戶(hù)質(zhì)問(wèn)哈希值不正確時(shí)，o3稱(chēng)是用戶(hù)復(fù)制錯(cuò)了，并堅(jiān)稱(chēng)自己生成的哈希值是正確的。
用戶(hù)要求o3從Web服務(wù)器上的日志文件中提取統(tǒng)計(jì)數(shù)據(jù)。o3生成了一個(gè)Python腳本，并聲稱(chēng)可以在本地運(yùn)行。這一次在被問(wèn)及代碼執(zhí)行的更多細(xì)節(jié)時(shí)，它終于承認(rèn)自己沒(méi)有Python解釋器，輸出是“手工編造的”。

……

那么是什么原因?qū)е铝薿3的這些行為？

Transluce認(rèn)為其中一些因素是大多數(shù)模型 (LM) 所共有的，還有一些是O系列模型特有的新因素。并假設(shè)這些新因素放大了通常可以通過(guò)標(biāo)準(zhǔn)Post-training緩解（但無(wú)法完全消除）的問(wèn)題。

語(yǔ)言模型共有的因素包括：

預(yù)訓(xùn)練中的幻覺(jué)：語(yǔ)言模型的預(yù)訓(xùn)練目標(biāo)是最大化訓(xùn)練數(shù)據(jù)中語(yǔ)句的概率，這可能會(huì)導(dǎo)致常見(jiàn)的誤解、罕見(jiàn)的事實(shí)或采樣不確定性等導(dǎo)致的多種幻覺(jué)。
獎(jiǎng)勵(lì)黑客攻擊：如果人類(lèi)評(píng)分者無(wú)法區(qū)分正確答案和錯(cuò)誤答案，強(qiáng)化學(xué)習(xí)可能會(huì)獎(jiǎng)勵(lì)“聽(tīng)起來(lái)合理”的答案，導(dǎo)致模型對(duì)難以驗(yàn)證的問(wèn)題編造出聽(tīng)起來(lái)合理的解釋。
諂媚現(xiàn)象：RLHF訓(xùn)練通常會(huì)激勵(lì)模型同意用戶(hù)的觀點(diǎn)，當(dāng)用戶(hù)暗示模型采取了特定行動(dòng)或具有特定能力時(shí)，這可能會(huì)導(dǎo)致模型避免與用戶(hù)相矛盾。
分布偏移：測(cè)試場(chǎng)景相對(duì)于訓(xùn)練場(chǎng)景可能存在分布偏差，如模型可能是在啟用代碼工具的情況下訓(xùn)練的，但評(píng)估時(shí)關(guān)閉了這些工具。

強(qiáng)化學(xué)習(xí)訓(xùn)練特有的因素包括：

最大化答案正確率的目標(biāo)可能會(huì)獎(jiǎng)勵(lì)瞎蒙

如果訓(xùn)練期間的獎(jiǎng)勵(lì)函數(shù)只獎(jiǎng)勵(lì)正確答案，那么模型就沒(méi)有動(dòng)力承認(rèn)自己無(wú)法解決問(wèn)題，因?yàn)槌姓J(rèn)了也不會(huì)被視作正確答案。

在這種情況下，當(dāng)遇到一個(gè)無(wú)法解決或難度過(guò)高的問(wèn)題時(shí)，模型可能仍會(huì)嘗試輸出一個(gè)概率最高的答案，萬(wàn)一猜對(duì)了就可以得到獎(jiǎng)勵(lì)。

- 在易于驗(yàn)證的任務(wù)訓(xùn)練可能使模型在其他任務(wù)上感到困惑

Transluce猜測(cè)o3的訓(xùn)練過(guò)程中，鼓勵(lì)它成功使用代碼工具完成任務(wù)。它可能已經(jīng)開(kāi)發(fā)出一種策略，即使沒(méi)有真正的代碼工具，它也會(huì)幻想使用代碼工具來(lái)組織思維，這可能會(huì)提高其他推理任務(wù)的準(zhǔn)確性，并在訓(xùn)練過(guò)程中得到強(qiáng)化。

更重要的是，如果僅根據(jù)答案的正確性來(lái)評(píng)估模型，它可能永遠(yuǎn)不會(huì)因?yàn)樵谟?xùn)練過(guò)程中在思維鏈中幻想代碼工具而受到懲罰，因此永遠(yuǎn)不會(huì)學(xué)會(huì)區(qū)分真正的工具和幻想的工具

OpenAI的o系列模型，不會(huì)向用戶(hù)展示完整思維鏈這一特性也可能帶來(lái)新的問(wèn)題。

2024年9月o1-preview的System Card中就包括這樣一個(gè)案例，由于沒(méi)有聯(lián)網(wǎng)權(quán)限無(wú)法生成真實(shí)的 URL，o1生成了一個(gè)看似合理的URL，但并未向用戶(hù)透露這一點(diǎn)。

圖片