偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI為啥總“一本正經(jīng)胡說(shuō)八道”?OpenAI發(fā)長(zhǎng)篇論文解釋了

人工智能
OpenAI 這篇論文首次系統(tǒng)揭示:語(yǔ)言模型出現(xiàn)幻覺(jué)的根本原因在于,當(dāng)前標(biāo)準(zhǔn)的訓(xùn)練和評(píng)估程序更傾向于對(duì)猜測(cè)進(jìn)行獎(jiǎng)勵(lì),而缺乏對(duì)模型坦誠(chéng)表達(dá)不確定性的獎(jiǎng)勵(lì)機(jī)制。

相信很多同學(xué)都遇到過(guò)——問(wèn)大模型一個(gè)冷門知識(shí),它會(huì)一本正經(jīng)地給出完全錯(cuò)誤的答案。

比如:

“Adam Tauman Kalai 生日是哪天?知道的話就按 DD-MM 的格式直接給出?!?/code>

OpenAI(2025a)三次回答分別是 03-07、15-06、01-01,沒(méi)一次對(duì)。

這就是典型的 Hallucination(幻覺(jué))——語(yǔ)言模型生成看起來(lái)合理,實(shí)則錯(cuò)誤離譜。

圖片圖片

論文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

OpenAI 這篇論文首次系統(tǒng)揭示:語(yǔ)言模型出現(xiàn)幻覺(jué)的根本原因在于,當(dāng)前標(biāo)準(zhǔn)的訓(xùn)練和評(píng)估程序更傾向于對(duì)猜測(cè)進(jìn)行獎(jiǎng)勵(lì),而缺乏對(duì)模型坦誠(chéng)表達(dá)不確定性的獎(jiǎng)勵(lì)機(jī)制。

表1 提供了一些更復(fù)雜的幻覺(jué)示例:GPT-4o/DeepSeek/Llama表1 提供了一些更復(fù)雜的幻覺(jué)示例:GPT-4o/DeepSeek/Llama

一、預(yù)訓(xùn)練階段就埋下幻覺(jué)種子

Figure 2:GPT-4預(yù)訓(xùn)練模型(左)原本校準(zhǔn)良好;RLHF后(右)明顯過(guò)自信Figure 2:GPT-4預(yù)訓(xùn)練模型(左)原本校準(zhǔn)良好;RLHF后(右)明顯過(guò)自信


1. 統(tǒng)計(jì)必然性

把生成問(wèn)題等價(jià)到二分類“Is-It-Valid?”——只要分類器會(huì)犯錯(cuò),生成就會(huì)出錯(cuò)(定理 1)。

圖 1:Is-It-Valid二分類視角——生成錯(cuò)誤?把"-"判成"+"

2. 數(shù)據(jù)稀缺性

訓(xùn)練語(yǔ)料里只出現(xiàn)一次的“冷知識(shí)”(singleton)注定會(huì)被模型記錯(cuò),錯(cuò)誤率 ≥ singleton 占比(定理 2)。

圖片圖片

3. 模型表達(dá)能力不足

如果模型族本身就無(wú)法學(xué)到規(guī)律(如 trigram 數(shù)不對(duì)字母),幻覺(jué)率下限直接拉滿(定理 3)。

圖片圖片

階段

核心發(fā)現(xiàn)

類比

預(yù)訓(xùn)練

就算訓(xùn)練數(shù)據(jù)100%正確,密度估計(jì)目標(biāo)也會(huì)迫使模型生成錯(cuò)誤

老師只教你對(duì)的,但期末要你把不會(huì)的也填滿

后訓(xùn)練

二元評(píng)分(對(duì)1分/錯(cuò)0分)讓模型不敢"交白卷"

選擇題不會(huì)也得蒙,空著直接0分

二、后訓(xùn)練階段“考試機(jī)制”強(qiáng)化幻覺(jué)

對(duì)10個(gè)主流評(píng)測(cè)做了元評(píng)測(cè),發(fā)現(xiàn)清一色懲罰不確定性:

圖片

Table 2:主流評(píng)測(cè)清一色"懲罰"不確定性

Benchmark

評(píng)分方式

給IDK扣分嗎?

MMLU-Pro

多選準(zhǔn)確率

?扣到0分

GPQA

多選準(zhǔn)確率

?扣到0分

SWE-bench

單測(cè)通過(guò)/不通過(guò)

?扣到0分

WildBench

10分制人工rubric

??IDK只得3-4分,不如"帶幻覺(jué)但有用"的5-6分

三、解法:把"交白卷"變成可選項(xiàng)

呼吁不需要新benchmark,只要改評(píng)分規(guī)則:

1. 明示信心閾值

在prompt里直接寫:

"只有在你置信度>t時(shí)才回答;答錯(cuò)扣t/(1-t)分,IDK得0分。"

2. 讓"棄權(quán)"成為最優(yōu)策略

當(dāng)模型真實(shí)置信度<t時(shí),說(shuō)"我不知道"的期望得分最高,說(shuō)謊反而吃虧。

四、總結(jié)

OpenAI 表示:我們希望本文中的統(tǒng)計(jì)學(xué)視角能夠闡明幻覺(jué)的本質(zhì),并糾正一些常見(jiàn)的誤解:

誤解1:通過(guò)提高準(zhǔn)確性可以消除幻覺(jué),因?yàn)橐粋€(gè) 100%準(zhǔn)確的模型永遠(yuǎn)不會(huì)產(chǎn)生幻覺(jué)。

發(fā)現(xiàn):準(zhǔn)確性永遠(yuǎn)無(wú)法達(dá)到100%,因?yàn)闊o(wú)論模型規(guī)模如何,搜索和推理能力怎樣,一些現(xiàn)實(shí)世界的問(wèn)題本質(zhì)上是無(wú)法回答的。

誤解2:幻覺(jué)是不可避免的。

發(fā)現(xiàn):幻覺(jué)并非不可避免,因?yàn)檎Z(yǔ)言模型在不確定時(shí)可以選擇不作答。

誤解3:避免幻覺(jué)需要一定程度的智能,而這種智能只有通過(guò)更大的模型才能實(shí)現(xiàn)。

發(fā)現(xiàn):小型模型可能更容易了解到自身的局限性。比方說(shuō),當(dāng)被要求回答毛利語(yǔ)問(wèn)題時(shí),一個(gè)完全不懂毛利語(yǔ)的小型模型可以直接說(shuō)“我不知道”,而一個(gè)懂一些毛利語(yǔ)的模型必須確定其置信度。正如論文中所討論的,“校準(zhǔn)”所需的計(jì)算量遠(yuǎn)小于實(shí)現(xiàn)回答準(zhǔn)確性的計(jì)算量。

誤解4:幻覺(jué)是現(xiàn)代語(yǔ)言模型中一種神秘的缺陷。

發(fā)現(xiàn):我們已經(jīng)理解了幻覺(jué)產(chǎn)生的統(tǒng)計(jì)學(xué)機(jī)制,以及它們?cè)谠u(píng)估中獲得獎(jiǎng)勵(lì)的原因。

誤解5:要衡量幻覺(jué),我們只需要一個(gè)好的幻覺(jué)評(píng)估方法。

發(fā)現(xiàn):盡管已經(jīng)提出了多種幻覺(jué)評(píng)估方法,但一個(gè)優(yōu)秀的評(píng)估方法對(duì)于目前現(xiàn)有的數(shù)百種傳統(tǒng)準(zhǔn)確性指標(biāo)幾乎沒(méi)有影響。這些傳統(tǒng)指標(biāo)往往懲罰表達(dá)謹(jǐn)慎、謙遜的回答,并獎(jiǎng)勵(lì)猜測(cè)行為。因此,所有主要的評(píng)估指標(biāo)都需要重新設(shè)計(jì),更好地鼓勵(lì)模型在表達(dá)上體現(xiàn)出不確定性。

參考資料:

1. https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

2. https://openai.com/index/why-language-models-hallucinate/

責(zé)任編輯:武曉燕 來(lái)源: 架構(gòu)精進(jìn)之路
相關(guān)推薦

2025-02-13 11:02:12

2025-09-10 15:27:12

AI模型訓(xùn)練

2023-04-11 14:32:25

騰訊面試Chunk

2024-03-20 00:00:00

大語(yǔ)言模型人工智能AI

2025-09-08 09:43:02

OpenAI大模型幻覺(jué)

2021-11-16 15:04:36

芯片半導(dǎo)體技術(shù)

2009-06-29 13:28:18

PHP小組PHP技巧網(wǎng)站加速

2023-04-02 18:00:56

2023-05-05 10:28:47

2025-08-25 00:02:00

人工智能AI語(yǔ)言模型

2023-06-16 09:49:11

人工智能研究

2025-09-15 06:00:00

2025-07-11 08:27:29

2025-03-31 08:30:00

AI模型技術(shù)

2023-11-18 09:30:42

模型AI

2018-10-31 10:31:04

谷歌AI玩法

2025-10-27 01:55:00

2023-10-26 23:55:46

數(shù)據(jù)模型

2023-11-21 15:13:30

2012-11-30 11:26:00

代碼注釋
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)