OpenAI最新研究揭秘大模型為什么會有幻覺!
引言:語言模型的“幻覺”難題
在人工智能飛速發(fā)展的今天,大語言模型(LLMs)如ChatGPT、DeepSeek等已經(jīng)成為我們?nèi)粘I钆c工作的得力助手。然而,這些模型有時(shí)會“信口開河”,生成看似合理卻完全錯誤的回答,這種現(xiàn)象被學(xué)界稱為“幻覺”(hallucination)。例如,當(dāng)被問及“亞當(dāng)·卡萊的生日是哪天?”時(shí),某開源模型接連給出了“03-07”、“15-06”和“01-01”三個錯誤答案,而正確答案應(yīng)為秋季某天。這種“言之鑿鑿”的錯誤輸出不僅讓人啼笑皆非,還嚴(yán)重影響了模型的可信度。
近日,來自O(shè)penAI與佐治亞理工學(xué)院的頂尖研究團(tuán)隊(duì)發(fā)表了一篇題為《Why Language Models Hallucinate》的論文,深入剖析了語言模型產(chǎn)生幻覺的根本原因。論文由Adam Tauman Kalai、Ofir Nachum、Santosh S. Vempala和Edwin Zhang聯(lián)合撰寫,提出了一種全新的理論框架,揭示了幻覺在模型預(yù)訓(xùn)練與后訓(xùn)練階段的統(tǒng)計(jì)學(xué)根源,并呼吁調(diào)整當(dāng)前評估體系以打造更可信的AI系統(tǒng)。這篇研究不僅為理解語言模型的行為提供了新視角,還為未來AI的發(fā)展指明了方向。
論文鏈接:https://huggingface.co/papers/2509.04664
幻覺的本質(zhì):從錯誤到“言之成理”的謊言
什么是幻覺?
語言模型的幻覺指的是模型生成看似合理但實(shí)際上錯誤的輸出。與人類感知中的“幻覺”不同,AI的幻覺并非感官錯覺,而是一種統(tǒng)計(jì)學(xué)上的錯誤行為。例如,當(dāng)被要求回答“DEEPSEEK中有幾個D?”時(shí),某模型在多次試驗(yàn)中給出了“2”或“3”的錯誤答案,甚至有模型回答“6”或“7”,完全偏離了正確答案“1”。這些錯誤并非簡單的拼寫或語法問題,而是模型在面對不確定性時(shí),傾向于生成“言之成理”卻錯誤的回答,而不是坦誠表示“我不知道”(IDK)。
論文指出,幻覺可以分為兩類:內(nèi)在幻覺(intrinsic hallucination),即模型輸出與用戶輸入的提示相矛盾;外在幻覺(extrinsic hallucination),即輸出與訓(xùn)練數(shù)據(jù)或外部事實(shí)不符。例如,下表1展示了三款主流模型在回答“亞當(dāng)·卡萊的博士論文標(biāo)題是什么?”時(shí),均給出了錯誤的標(biāo)題和年份,凸顯了幻覺問題的普遍性。

幻覺為何產(chǎn)生?
研究團(tuán)隊(duì)通過計(jì)算學(xué)習(xí)理論的視角,將幻覺問題簡化為一個二分類問題:模型需要在“有效輸出”(valid outputs)與“錯誤輸出”(error outputs)之間做出區(qū)分。他們提出了“Is-It-Valid”(IIV,是否有效)分類任務(wù),假設(shè)訓(xùn)練數(shù)據(jù)中包含一半有效樣本(標(biāo)記為“+”)和一半隨機(jī)錯誤樣本(標(biāo)記為“-”)。通過分析,研究發(fā)現(xiàn),語言模型的生成錯誤率與IIV分類的錯誤率之間存在數(shù)學(xué)關(guān)系:
生成錯誤率 ≥ 2 × IIV誤分類率
這意味著,幻覺的產(chǎn)生源于模型在預(yù)訓(xùn)練階段試圖擬合語言分布時(shí),受到統(tǒng)計(jì)壓力的影響。即使訓(xùn)練數(shù)據(jù)完全無誤,模型仍會因優(yōu)化目標(biāo)的特性而生成錯誤。這種統(tǒng)計(jì)學(xué)上的“必然性”解釋了為何即使是最先進(jìn)的模型也無法完全避免幻覺。

圖1:Is-It-Valid分類任務(wù)示例。圖示展示了如何通過標(biāo)記為“+”的正確樣本和“-”的錯誤樣本訓(xùn)練模型區(qū)分有效輸出。分類器(虛線)在拼寫等簡單任務(wù)上表現(xiàn)良好,但在復(fù)雜或無模式的事實(shí)上易出錯,導(dǎo)致幻覺。
預(yù)訓(xùn)練中的幻覺根源:統(tǒng)計(jì)學(xué)與模型局限
預(yù)訓(xùn)練如何引發(fā)幻覺?
在語言模型的預(yù)訓(xùn)練階段,模型通過學(xué)習(xí)大規(guī)模文本語料庫來估計(jì)語言分布。
然而,研究指出,即使訓(xùn)練數(shù)據(jù)完美無瑕,模型在優(yōu)化交叉熵?fù)p失時(shí),也會因統(tǒng)計(jì)復(fù)雜性而產(chǎn)生錯誤。論文通過一個簡化的例子說明了這一點(diǎn):假設(shè)模型需要回答某人的生日,但訓(xùn)練數(shù)據(jù)中某些事實(shí)(如某人的生日)只出現(xiàn)了一次(稱為“單例”),模型很難準(zhǔn)確學(xué)習(xí)這些事實(shí)。研究團(tuán)隊(duì)引入了“單例率”(singleton rate),即訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的提示比例,并證明幻覺率至少與單例率相當(dāng)。例如,如果20%的生日事實(shí)在訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次,那么模型在這些事實(shí)上的幻覺率至少為20%。
此外,研究還分析了其他導(dǎo)致幻覺的因素:
- 統(tǒng)計(jì)復(fù)雜性:對于沒有明確模式的事實(shí)(如隨機(jī)生日),模型因缺乏足夠數(shù)據(jù)而產(chǎn)生“認(rèn)知不確定性”(epistemic uncertainty)。
- 模型局限性:如三元模型(trigram models,即 AI 發(fā)展早期上下文窗口僅有三個詞元的模型)無法捕捉長距離依賴,導(dǎo)致生成不合語法的內(nèi)容。
- 計(jì)算難度:某些問題(如解密任務(wù))在計(jì)算上不可行,模型只能隨機(jī)猜測。
- 數(shù)據(jù)質(zhì)量問題(GIGO):訓(xùn)練數(shù)據(jù)中的錯誤或半真半假內(nèi)容會被模型復(fù)現(xiàn)。
理論突破:從分類到生成
論文的一個重要貢獻(xiàn)是將生成任務(wù)與二分類任務(wù)聯(lián)系起來。通過IIV分類問題,研究團(tuán)隊(duì)證明了生成有效輸出的難度高于分類任務(wù)的難度。這種“降維”分析不僅適用于傳統(tǒng)的下一詞預(yù)測模型,還適用于基于搜索和檢索的模型,展現(xiàn)了其普適性。
后訓(xùn)練中的幻覺頑疾:評估體系的“誤導(dǎo)”
后訓(xùn)練為何未能根除幻覺?
預(yù)訓(xùn)練后的后訓(xùn)練階段(如通過人類反饋強(qiáng)化學(xué)習(xí)RLHF或直接偏好優(yōu)化DPO)旨在優(yōu)化模型,使其更準(zhǔn)確并減少幻覺。然而,研究發(fā)現(xiàn),當(dāng)前的評估體系卻在無意中“鼓勵”模型生成幻覺。論文以一個生動的類比解釋了這一現(xiàn)象:就像學(xué)生在考試中因不確定而胡亂猜測,語言模型在面對二元評分(0-1評分)時(shí),也傾向于生成“看似正確”的答案,而不是表示不確定性。
在二元評分體系下,正確答案得1分,錯誤答案或“我不知道”得0分。這種評分機(jī)制使得模型在不確定時(shí)選擇“冒險(xiǎn)猜測”,因?yàn)椴聹y至少有一定概率得分,而表示不確定性則完全不得分。研究團(tuán)隊(duì)通過數(shù)學(xué)分析證明,對于任何提示,模型的最佳策略永遠(yuǎn)不是棄權(quán)(IDK),而是選擇一個可能的答案。這種“考試心態(tài)”使得模型在后訓(xùn)練中傾向于生成過自信的幻覺,而不是誠實(shí)表達(dá)不確定性。
當(dāng)前評估體系的問題
論文進(jìn)一步分析了多個主流評估基準(zhǔn)(如表2所示),發(fā)現(xiàn)絕大多數(shù)評估采用二元評分,忽視了對不確定性表達(dá)的獎勵。例如:
- MMLU-Pro和GPQA:以多選題準(zhǔn)確率為主要指標(biāo),IDK無得分。
- IFEval:基于指令遵循的準(zhǔn)確性評分,棄權(quán)無明確獎勵。
- WildBench:雖采用1-10分評分,但I(xiàn)DK可能被評為“無意義”,得分低于包含幻覺的“一般”回答。
這些評估體系的共同問題是,它們更看重答案的“正確率”而非“誠實(shí)度”,從而導(dǎo)致模型在優(yōu)化過程中更傾向于生成幻覺。

圖2:GPT-4在預(yù)訓(xùn)練與后訓(xùn)練后的校準(zhǔn)對比。左圖顯示預(yù)訓(xùn)練模型的校準(zhǔn)較好,右圖顯示后訓(xùn)練后校準(zhǔn)下降,表明后訓(xùn)練可能加劇幻覺問題。
解決之道:重新設(shè)計(jì)評估體系
引入明確置信度目標(biāo)
為了應(yīng)對幻覺問題,研究團(tuán)隊(duì)提出了一個簡單而有效的解決方案:調(diào)整評估體系,明確鼓勵模型表達(dá)不確定性。他們建議在評估提示中加入明確的置信度要求,例如:
僅在置信度高于t時(shí)回答,錯誤答案將被扣除t/(1-t)分,正確答案得1分,“我不知道”得0分。
這種評分機(jī)制通過對錯誤答案施加懲罰,激勵模型在不確定時(shí)選擇棄權(quán)。例如,當(dāng)置信度閾值t=0.75時(shí),錯誤答案將扣除3分,這使得模型只有在置信度高于75%時(shí)才會選擇回答。研究指出,這種方法已在一些人類標(biāo)準(zhǔn)化考試(如印度JEE、美國SAT早期版本)中得到應(yīng)用,證明了其可行性。
前段時(shí)間 Meta 等團(tuán)隊(duì)提出的“DeepConf”也用置信度的概念,在不微調(diào)的情況下大幅提升了模型在AIME 2025上的準(zhǔn)確率,有異曲同工之妙。但 OpenAI 所提出的方法似乎更徹底、更根本,歡迎大家在評論區(qū)留言討論。
社會技術(shù)挑戰(zhàn)
論文強(qiáng)調(diào),僅僅引入新的幻覺評估基準(zhǔn)是不夠的,因?yàn)楫?dāng)前的主流評估體系在行業(yè)內(nèi)占據(jù)主導(dǎo)地位。研究團(tuán)隊(duì)呼吁對現(xiàn)有基準(zhǔn)(如MMLU-Pro、GPQA等)進(jìn)行改造,納入對不確定性的獎勵機(jī)制,并推動這些改進(jìn)在影響廣泛的排行榜(如HELM、Open LLM Leaderboard)中被采納。這種“社會技術(shù)”方法需要學(xué)術(shù)界與工業(yè)界的共同努力,以確保評估體系與可信AI的目標(biāo)對齊。
研究的意義與未來展望
理論與實(shí)踐的橋梁
這項(xiàng)由OpenAI與佐治亞理工學(xué)院聯(lián)合完成的研究,不僅從理論上揭示了語言模型幻覺的統(tǒng)計(jì)學(xué)根源,還通過分析當(dāng)前評估體系的局限性,為解決幻覺問題提供了切實(shí)可行的方案。其核心貢獻(xiàn)包括:
- 理論創(chuàng)新:通過將生成任務(wù)降維為二分類問題,揭示了幻覺的統(tǒng)計(jì)本質(zhì)。
- 實(shí)踐指導(dǎo):指出評估體系的缺陷,并提出明確的改進(jìn)建議。
- 廣泛適用性:分析適用于多種模型架構(gòu)和訓(xùn)練范式,具有普適性。
通向可信AI的下一步
幻覺問題是限制語言模型在高風(fēng)險(xiǎn)領(lǐng)域(如醫(yī)療、法律)應(yīng)用的關(guān)鍵障礙。這項(xiàng)研究為構(gòu)建更可信的AI系統(tǒng)鋪平了道路。未來,研究人員需要進(jìn)一步探索如何在模型訓(xùn)練中融入不確定性表達(dá)的獎勵機(jī)制,并推動行業(yè)采用更科學(xué)的評估標(biāo)準(zhǔn)。此外,隨著模型規(guī)模的增長和訓(xùn)練數(shù)據(jù)的復(fù)雜化,如何平衡模型的廣度與準(zhǔn)確性,仍是值得深入研究的課題。
結(jié)語
《Why Language Models Hallucinate》這篇論文為我們理解語言模型的“胡說八道”提供了一把鑰匙。從預(yù)訓(xùn)練中的統(tǒng)計(jì)壓力到后訓(xùn)練中的評估誤導(dǎo),研究團(tuán)隊(duì)揭示了幻覺問題的深層原因,并提出了切實(shí)可行的解決方案。這不僅是一項(xiàng)學(xué)術(shù)突破,更是對AI社區(qū)的一次深刻反思:我們是否在用錯誤的“考試”方式培養(yǎng)AI?通過調(diào)整評估體系,鼓勵模型誠實(shí)表達(dá)不確定性,我們或許能迎來一個更可信、更可靠的AI時(shí)代。




































