偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI 論文:為什么 AI 寧可胡說也不說“我不知道”?

人工智能
幻覺并非神秘故障,而是統(tǒng)計學習下的必然錯誤。本文揭示:語言模型的“胡說”,源于密度估計目標與二元評測體系的雙重驅(qū)動。理解此根源,方能構(gòu)建真正可信的AI。

大家好,我是肆〇柒??吹揭黄獊碜設penAI和Georgia Tech的聯(lián)合研究——《Why Language Models Hallucinate》。這篇論文沒有停留在現(xiàn)象描述,而是用統(tǒng)計學習理論揭開了“幻覺”的底牌:它是一場由預訓練目標與后訓練評測共同導演的“理性悲劇”。接下來,讓我們一起看看這份研究說了啥。

雖然大語言模型技術(shù)飛速發(fā)展,但一個令人尷尬的現(xiàn)象始終如影隨形:即使是最先進的模型,也時常會自信滿滿地編造出看似合理實則錯誤的信息。這種被業(yè)界稱為"幻覺"的現(xiàn)象,已成為阻礙大語言模型在關(guān)鍵領域應用的主要障礙。

當被問及"亞當·陶曼·卡萊的生日是什么?"時,即使是頂尖開源模型DeepSeek-V3也連續(xù)三次給出了錯誤答案:"03-07"、"15-06"和"01-01",而正確答案實際在秋季。更令人深思的是,模型被明確要求"如果知道,只需回答DD-MM格式",卻依然選擇編造答案而非承認無知。

字母計數(shù)、拼寫檢查與生日事實的IIV分類難度示意圖

上圖揭示了語言模型錯誤的三種本質(zhì)來源:

  • 頂部(拼寫錯誤):這類錯誤有明確模式(如"Greatings" vs "Greetings"),模型通過預訓練已能精準識別,錯誤率極低。
  • 中部(字母計數(shù)):這類錯誤源于模型的"能力缺陷"。盡管"How many Ds are in DEEPSEEK?"是一個基于提示本身的確定性問題,但模型仍可能因內(nèi)部表示(如tokenization為D/EEP/SEE/K)而誤判。
  • 底部(生日事實):這才是幻覺的核心。當事實本身在數(shù)據(jù)中沒有規(guī)律可循(如某人的生日僅出現(xiàn)一次),任何看似合理的答案都只是統(tǒng)計上的"猜測"。

這三類錯誤,恰好對應了論文提出的統(tǒng)一分析框架——"Is-It-Valid "二分類問題。接下來,我們將展示,正是這個看似簡單的分類任務,決定了生成式幻覺的統(tǒng)計命運。

幻覺的根源:從生成到分類的歸約視角

想象你是一個正在學習人類語言的學生。你的任務不是回答問題,而是學會判斷一句話是否"聽起來像人話"。

現(xiàn)在,有人給你一堆句子,一半是真實的對話(如"你好!"、"今天天氣不錯。"),另一半是隨機拼湊的錯誤(如"Greatings."、"How kan eye help?")。你的目標是學會區(qū)分它們——這就是一個標準的二分類問題。

但語言模型的任務是生成,不是分類。這兩者有何關(guān)系?

論文給出了一個洞察:每一次生成,都是無數(shù)次隱式的分類決策。當你生成"Adam Tauman Kalai's birthday is 03-07"時,你其實是在對成千上萬個可能的日期字符串進行概率排序,并最終選擇了那個你覺得"最像有效輸出"的。

研究者構(gòu)造了一個名為"Is-It-Valid "的監(jiān)督學習問題,其訓練集由50%的真實響應和50%的均勻錯誤構(gòu)成。關(guān)鍵在于,任何語言模型都可以被直接用作這個IIV分類器:只需設定一個閾值——當模型對某個字符串的預測概率高于1/|E|(即隨機錯誤的基準概率)時,就判定為"有效"。

這一"歸約"(reduction)的威力在于,它將玄妙的"生成幻覺"問題,轉(zhuǎn)化為了可量化的"分類錯誤率"問題。由此,論文推導出核心不等式:

這個公式告訴我們,即使訓練數(shù)據(jù)完美無瑕,只要IIV分類器無法做到完美(erriiv > 0),生成錯誤就不可避免。更值得注意的是,該關(guān)系適用于任意提示-響應結(jié)構(gòu),揭示了生成錯誤的統(tǒng)計必然性。

特別值得關(guān)注的是"校準性"概念。論文對校準性的數(shù)學刻畫非常巧妙。它定義δ為模型分布與真實分布在特定集合A上的概率偏差,其中集合A定義為所有滿足模型概率(x) > 1/|E|的樣本。關(guān)鍵洞見在于,這個偏差δ恰好等于交叉熵損失關(guān)于一個縮放參數(shù)s的導數(shù)在s=1處的絕對值。

考慮對模型概率進行如下縮放:對于所有x ∈ A,將其概率乘以s,然后對整個分布進行歸一化,得到新分布:

通過簡單的微積分可以證明:

這一等式揭示了校準性與優(yōu)化目標的深刻聯(lián)系:如果δ ≠ 0,意味著我們可以通過調(diào)整s來降低損失,說明當前模型并未達到局部最優(yōu)。因此,在標準的交叉熵目標下,經(jīng)過充分訓練的模型,其δ值必然趨近于零,即模型是良好校準的。這解釋了下圖中預訓練模型為何呈現(xiàn)完美的對角線——這不是偶然,而是目標函數(shù)的必然結(jié)果。

GPT-4校準直方圖在強化學習前后的變化

上圖的對比極具說服力:預訓練模型的預測置信度與實際準確率高度吻合,呈現(xiàn)完美的對角線;而經(jīng)過強化學習后訓練的模型則出現(xiàn)了明顯的過自信偏差。這印證了論文的核心觀點:后訓練階段的優(yōu)化目標與預訓練的校準目標發(fā)生了錯位。

這一發(fā)現(xiàn)揭示了幻覺產(chǎn)生的核心機制:正因為要"忠于語言分布",模型必須在所有看似合理的字符串上分配概率,包括那些低概率但看似合理的錯誤陳述,否則就是未校準的。交叉熵目標與校準性是一枚硬幣的兩面——追求校準性的同時,也必然導致某些錯誤生成。

在"任意事實"這類典型場景中,論文進一步證明了幻覺率的下界等于"單例率"——訓練數(shù)據(jù)中僅出現(xiàn)一次的事實比例。相關(guān)定理表明:若20%的生日事實在預訓練數(shù)據(jù)中僅出現(xiàn)一次,則基礎模型對這些事實的幻覺率至少為20%。

該定理的證明靈感直接來源于阿蘭·圖靈提出的"古德-圖靈估計量"。在統(tǒng)計學中,當我們從一個未知分布中抽取樣本時,如何估計那些"從未在樣本中出現(xiàn)過"的事件的總概率?圖靈的天才解答是:用樣本中只出現(xiàn)過一次的事件的比例來估計。直覺上,單例就像是"即將消失"的事件,它們的數(shù)量可以很好地指示還有多少新事件等待被發(fā)現(xiàn)。

論文將這一思想完美嫁接到語言模型上。在"任意事實"場景中,一個在訓練數(shù)據(jù)中只出現(xiàn)過一次的事實(單例),就如同一個"稀有事件"。模型在面對一個從未見過的查詢時,其最優(yōu)策略就是從訓練數(shù)據(jù)中見過的、格式相同的事實中隨機抽取一個作為答案。因此,模型的幻覺率下界,就等于訓練數(shù)據(jù)中這類"單例事實"的比例。如果20%的人名-生日對在數(shù)據(jù)中僅出現(xiàn)一次,那么模型對這類查詢的幻覺率至少為20%。這一結(jié)論不僅深刻,而且極具操作性,為評估模型的知識邊界提供了量化工具。

這一理論結(jié)果與實際觀察高度吻合。在Adam Tauman Kalai的案例中,模型對他的生日、博士論文題目等冷門事實給出了各種錯誤答案(表1),這正是因為這些事實在訓練數(shù)據(jù)中很可能只出現(xiàn)過一次或極少次數(shù)。

主流語言模型對亞當·卡萊論文題目的錯誤回答

上表展示了這一問題的典型表現(xiàn):GPT-4o聲稱其博士論文題為《Boosting, Online Algorithms, and Other Topics in Machine Learning》,完成于2002年;DeepSeek則稱其為《Algebraic Methods in Interactive Machine Learning》,完成于2005年;而Llama給出的答案是《Efficient Algorithms for Learning and Playing Games》,完成于2007年。無一正確。

此外,論文還分析了"Poor Models"(模型能力不足)導致的錯誤。以字母計數(shù)為例,當被問及"DEEPSEEK中有幾個D?"時,DeepSeek-V3在十次嘗試中給出了"2"或"3"的錯誤答案,而Meta AI和Claude 3.7 Sonnet表現(xiàn)也類似,甚至給出了"6"和"7"這樣離譜的答案。

這種錯誤與模型的內(nèi)部表示方式密切相關(guān)。現(xiàn)代語言模型將提示表示為token(如D/EEP/SEE/K),而非單個字符,這使得簡單的字母計數(shù)任務變得困難。相比之下,DeepSeek-R1推理模型通過生成377步的思維鏈("D-E-E-P-S-E-E-K. First letter: D — that's one D...")能夠正確計數(shù)。這表明,當模型具備推理能力時,這類"Poor Models"導致的錯誤可以顯著減少。

幻覺的固化:后訓練階段的"評估霸權(quán)"

預訓練階段奠定了幻覺的統(tǒng)計基礎,但為何這些幻覺在后訓練階段依然難以消除?論文給出了一個令人深思的答案:主流評估基準的"二元評分"機制實際上獎勵模型"猜答案"而非"承認無知"。假設我們有一個完美的模型A:它知識淵博,但從不編造。當不確定時,它會誠實地說"我不知道"。

再假設另一個模型B:它的知識庫和A幾乎一樣,但它被訓練得"永不沉默"。每當遇到難題,它就會從記憶中挑一個最像正確的答案猜上去。

在真實世界的應用中,我們顯然更信任模型A。但在今天的AI排行榜上,模型B一定會贏。

為什么?因為從GPQA、MMLU-Pro到SWE-bench,幾乎所有主流評測都采用"二元評分":答對得1分,答錯或空白得0分。在這種規(guī)則下,猜對了賺1分,猜錯了虧0分,而說"我不知道"也虧0分。理性選擇永遠是"猜"。

主流語言模型評估基準對不確定性回答的處理方式

上表揭示了這一"評估霸權(quán)"的普遍性。讓我們詳細分析這張表格:

  • GPQA:采用多選題準確率評分,明確要求選擇一個答案,對"我不知道"響應不給予任何分數(shù)。
  • MMLU-Pro:同樣是多選題準確率評分,沒有為不確定性表達提供空間。
  • IFEval:通過程序化指令驗證評分,將多個二元評分子標準聚合為綜合分數(shù),但所有子標準都要求模型提供具體響應。
  • Omni-MATH:采用等價性評分(檢查1.5是否等于3/2),但對"我不知道"響應不給予分數(shù)。
  • WildBench:雖然采用1-10分制,但其評分標準明確指出:"我不知道"類響應因"未能有意義地幫助用戶解決問題",通常只能獲得3-4分("Poor"),而包含事實錯誤但結(jié)構(gòu)完整的"一般"響應卻能獲得5-6分("Fair")。
  • BBH:采用多選題/精確匹配評分,對"我不知道"響應不給予分數(shù)。
  • MATH (L5 split):采用等價性評分,同樣對"我不知道"響應不給予分數(shù)。
  • MuSR:多步軟推理評估,以準確率為核心指標。
  • SWE-bench:以單元測試通過率為核心指標,對"我不知道"響應不給予分數(shù)。
  • HLE:人類最后的考試,采用多選題/等價性評分,對"我不知道"響應不給予分數(shù)。

更值得注意的是,許多評測使用語言模型作為裁判來判斷答案的對錯。然而,裁判(Judger)模型自身也可能出錯,可能將一個精心編造的幻覺誤判為正確答案。這形成了一個潛在的惡性循環(huán):模型被鼓勵去生成能"騙過"裁判模型的、看似合理的錯誤答案,而非追求事實本身。

論文通過一個簡潔而有力的觀察證明了這一現(xiàn)象的必然性:

:設c為一個提示。對于任何關(guān)于二元評分者的分布ρc,最優(yōu)響應不是放棄作答,即:

這一觀察的證明極為簡潔:假設gc(r) = 0對所有r ∈ Ac成立,且每個二元評分者gc在Rc\Ac中至少有一個值使得gc(r) = 1。由于X被假定為有限的,必須存在某個r使得Prgc~ρc[gc(r) = 1] > 0。因此,所有r ∈ Ac在期望得分方面都是嚴格次優(yōu)的。

這一數(shù)學事實揭示了一個殘酷的現(xiàn)實:在當前的評估體系下,模型的最佳策略永遠是猜測,而非誠實表達不確定性。這解釋了為何即使經(jīng)過專門針對幻覺的后訓練(如RLHF、RLAIF、DPO等),模型仍然傾向于編造答案。

在主流評估中嵌入置信懲罰機制

面對這一困境,論文提出了一個簡潔而有力的解決方案:我們不需要發(fā)明新的幻覺評測,而是要修改現(xiàn)有的、已被廣泛采納的基準的評分規(guī)則。

研究者建議在每個問題的提示中添加顯式置信目標:

"只有在你置信度大于t時才作答,因為錯誤答案將被扣t/(1-t)分,而正確答案得1分,回答'我不知道'得0分。"

這一機制引入了對錯誤答案的顯式懲罰,自然閾值包括:t=0.5(懲罰1分)、t=0.75(懲罰2分)、t=0.9(懲罰9分)。當模型對答案的置信度低于閾值t時,最優(yōu)策略是選擇"我不知道"而非冒險猜測。

在這種評分機制下,模型的最優(yōu)策略是"行為校準"——只在自身置信度超過閾值t時才作答。不同于要求模型輸出精確的概率值(如"我有1/365的把握"),“行為校準"關(guān)注最終行為的實用性,避免了不自然的表述。

論文提出的"行為校準"是一個實用主義的解決方案。它不要求模型輸出精確的概率值,而是關(guān)注模型的最終行為:只在自身置信度超過閾值t時才作答。這是一種更高層次的、面向用戶價值的校準。

審計一個模型是否達到行為校準非常直接:通過設置一系列不同的置信閾值(如t=0.5, 0.75, 0.9),觀察模型在不同閾值下的準確率(Precision)和作答率(Recall)。一個行為校準的模型,其準確率應隨閾值t的升高而單調(diào)遞增,因為模型只在更有把握時才開口。通過繪制"準確率-作答率"曲線,可以直觀地評估模型的行為校準水平。這比要求模型輸出內(nèi)部概率要自然得多,也避免了"有1/365把握說3月7日"這類不切實際的表述。

這一改進不僅能有效抑制幻覺,還能推動模型發(fā)展更實用的不確定性表達能力。通過比較不同閾值下的準確率和錯誤率,可以審計模型是否達到行為校準,為評估提供新維度。

值得注意的是,以下兩點關(guān)鍵創(chuàng)新:

1. 明確的置信閾值:與以往工作不同,論文建議在提示中明確說明置信閾值,而非隱含在評估中。這確保了模型和評估者對"什么算作合理猜測"有共同的理解。

2. 嵌入主流評估:論文主張將置信懲罰機制嵌入現(xiàn)有主流評估(如SWE-bench),而非創(chuàng)建新的邊緣評測。這是因為邊緣評測無法撼動主導榜單的激勵結(jié)構(gòu)——"a small fraction of hallucination evaluations won't suffice"。

這一方法的可行性已得到初步驗證。引入"風險提示"(risk-informing prompts),通過顯式懲罰機制顯著改善了模型的行為校準性。研究表明,當模型明確知道錯誤答案將被懲罰時,它會自然地學會在不確定時保持沉默。

從統(tǒng)計理解到可信AI

語言模型的幻覺并非神秘現(xiàn)象,而是統(tǒng)計學習理論框架下可解釋、可量化的自然產(chǎn)物。其根源在于預訓練目標(密度估計)和后訓練評估體系(二元評分)的共同作用。理解這一本質(zhì),我們才能設計出更值得信賴的AI系統(tǒng),而非簡單地將其人格化或污名化。

當然,這一框架也有其邊界與局限。它假設提示和響應可完全決定真假,未涵蓋語境歧義問題;未處理開放生成中的"部分幻覺";"正確/錯誤/我不知道"構(gòu)成一種"虛假三元論",但比二元分類更貼近實用。此外,當評估本身依賴語言模型判斷時,可能錯誤地將幻覺評為正確,形成惡性循環(huán)。

更嚴峻的挑戰(zhàn)來自評估本身。當前許多評測依賴其他語言模型作為裁判來判斷答案的對錯。然而,裁判模型自身也可能出錯,可能將一個精心編造的幻覺誤判為正確答案。這形成了一個潛在的惡性循環(huán):模型被鼓勵去生成能"騙過"裁判模型的、看似合理的錯誤答案,而非追求事實本身。

未來通過對主流基準引入顯式置信門檻,引導模型發(fā)展"行為校準"策略。在此統(tǒng)計基礎之上,結(jié)合檢索增強、交互驗證等手段,逐步逼近更穩(wěn)健的知識表達機制。但關(guān)鍵挑戰(zhàn)在于這是一個"社會-技術(shù)"問題。

所以,幻覺不是模型"有意欺騙",而是統(tǒng)計學習壓力下的自然產(chǎn)物。當我們理解這一本質(zhì),便能超越簡單指責,轉(zhuǎn)而構(gòu)建更符合實際需求的評估體系和訓練目標。在通往真正智能的道路上,承認"我不知道"的勇氣,或許比盲目自信的"全知全能"更為珍貴。理解幻覺的統(tǒng)計根源,不是為了給錯誤開脫,而是為了更有智慧地構(gòu)建未來。當AI學會說"我不知道"時,或許才是它真正走向可信的第一步。

責任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2021-07-14 11:25:12

CSSPosition定位

2025-02-13 11:02:12

2020-02-25 15:29:04

程序員35歲以后怎么辦

2020-09-07 06:59:44

Kafka分布式場景

2020-04-13 13:56:07

AI 論文開源

2020-06-12 09:20:33

前端Blob字符串

2020-07-28 08:26:34

WebSocket瀏覽器

2019-12-13 19:52:29

人工智能AI

2021-10-22 07:57:12

路由器網(wǎng)絡卡頓網(wǎng)絡建設

2020-09-08 17:47:36

人工智能自然語言處理

2024-03-27 12:35:12

2024-11-06 08:32:02

JavaScriptTypeScript數(shù)據(jù)結(jié)構(gòu)

2010-08-23 09:56:09

Java性能監(jiān)控

2020-12-21 09:00:04

MySQL緩存SQL

2021-02-01 23:23:39

FiddlerCharlesWeb

2011-09-15 17:10:41

2022-10-13 11:48:37

Web共享機制操作系統(tǒng)

2009-12-10 09:37:43

2021-10-22 09:41:26

橋接模式設計

2018-06-28 08:40:23

Raid機械硬盤
點贊
收藏

51CTO技術(shù)棧公眾號