偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

語言模型為何會產(chǎn)生幻覺?

譯文 精選
人工智能
本文探討論文《語言模型為何會產(chǎn)生幻覺?》中的五個發(fā)現(xiàn)。本文就語言模型幻覺的成因和持續(xù)性提供了幾個富有洞察力的總體啟示,我們將逐一探討其中的五點。

譯者 | 布加迪

審校 | 重樓

簡介

幻覺語言模型及其用戶的禍根,指語言模型產(chǎn)生的看似合理但實際上錯誤的陳述。這些幻覺之所以存在問題,是由于它們會削弱用戶信任、傳播錯誤信息,并誤導下游決策,即使輸出的可信度很高。在用戶無法輕松驗證聲明(技術(shù)答案、醫(yī)學或法律摘要、數(shù)據(jù)分析)的情況下,這些幻覺尤其令人困擾,因為自信地傳遞錯誤信息會掩蓋潛在的不確定性,從而將小小的建模錯誤變成潛在的重大失敗。

Kalai、NachumVempalaZhang最近發(fā)表了一篇名為《語言模型為何會產(chǎn)生幻覺?》的論文,該論文致力于分析這些錯誤的統(tǒng)計根源及其背后的社會技術(shù)激勵機制。論文作者們將生成式錯誤與簡單的分類動態(tài)聯(lián)系起來,研究了當今的訓練和評估實踐如何促使模型傾向于自信的猜測,而不是校準的不確定性。研究結(jié)果深入揭示了幻覺的真正來源,以及哪些類型的改變可以在實踐中減少幻覺。

本文就語言模型幻覺的成因和持續(xù)性提供了幾個富有洞察力的總體啟示,我們將逐一探討其中的五點。

1. 幻覺的根本原因

簡而言之:幻覺主要是由訓練和評估程序引起的,這些程序鼓勵猜測而不是承認不確定性。

論文的核心論點是,幻覺(定義為看似合理但不正確的陳述)之所以持續(xù)存在,是由于用于訓練和評估的程序無意中獎勵了自信的猜測,而不是承認不確定性。語言模型經(jīng)優(yōu)化后充當“優(yōu)秀的應試者”,這意味著它們會在不確定時進行猜測,以便在懲罰不確定回答(比如“我不知道”或IDK)的評分方案下獲得最高分數(shù)。在常見的二進制 0-1 評分方案下,猜測不確定何時可以最大化預期分數(shù)。

1. 提議的提示,緩解“自信猜測”,并鼓勵“確認不確定性”

2. 幻覺的起源

簡而言之:幻覺的統(tǒng)計起源可以歸結(jié)為二元分類中的簡單錯誤。

論文揭開了幻覺的神秘面紗,認為幻覺并不神秘,而僅僅是二元分類中的錯誤。分析將生成式錯誤(比如幻覺)與一個名為“是否有效(IIV)”二元分類的監(jiān)督學習問題聯(lián)系起來。如果系統(tǒng)無法在統(tǒng)計上區(qū)分錯誤陳述和事實,那么在預訓練過程中最小化的統(tǒng)計目標(交叉熵損失)自然會導致生成式錯誤。該分析揭示了一種數(shù)學關(guān)系:生成式錯誤率大致與IIV錯誤分類率的兩倍成正比。

2. 將語句錯誤分類為“有效”會導致幻覺

3. 幻覺不可避免

簡而言之:即使使用無錯誤的訓練數(shù)據(jù),經(jīng)過校準的基礎(chǔ)模型在數(shù)學上也必然會產(chǎn)生幻覺。

論文表明,即使訓練語料庫完美無誤,在預訓練過程中最小化統(tǒng)計目標的過程仍會導致語言模型產(chǎn)生錯誤。這與校準概念相關(guān)。由于錯誤是標準交叉熵目標的自然結(jié)果,任何經(jīng)過良好訓練且經(jīng)過校準的基礎(chǔ)模型(即其預測概率與現(xiàn)實相符)都必然會產(chǎn)生錯誤,尤其是在面對本質(zhì)上無法學習的事實時。相反,能夠避免錯誤的基礎(chǔ)模型必然會被錯誤校準(即其不確定性估計必然是錯誤的)。

4. 幻覺持續(xù)存在

簡而言之:幻覺的持續(xù)存在歸咎于不一致的初級評估這種“流行病”。

盡管訓練后技術(shù)通常旨在減少虛假信息,但幻覺依然存在,因為絕大多數(shù)現(xiàn)有的、有影響力的基準測試和排行榜都大量使用二元評分系統(tǒng)(比如準確率或通過率),這些系統(tǒng)懲罰棄權(quán)和不確定性。這造成了一個社會技術(shù)”問題。

如果模型 A 正確地表示了不確定性,而模型 B 總是猜測何時不確定,那么在 0-1 評分方案下,模型 B 的表現(xiàn)將優(yōu)于模型 A,從而強化了類似幻覺的猜測行為。這種常見的錯位評估是問題的根源,而僅僅通過添加一小部分新的針對幻覺的評估是無法解決這個問題的。

5. 任意性的作用

簡而言之:任意事實(低數(shù)據(jù)頻率)引起的統(tǒng)計不確定性是導致預訓練誤差的關(guān)鍵因素。

導致預訓練誤差的一個主要統(tǒng)計因素是任意事實的存在。任意事實是指特定的、隨機的事實,其中沒有簡潔的模式解釋目標函數(shù),這會導致認知不確定性,因為訓練數(shù)據(jù)中缺乏或鮮有必要的知識,比如個人生日。

分析表明,對于任意事實,預期的幻覺率其下限是由單例率決定的,即在訓練數(shù)據(jù)中只出現(xiàn)一次的事實的比例。比如說,如果 20% 的生日事實只出現(xiàn)一次,預計模型會對至少 20% 的事實產(chǎn)生幻覺。其他生成式誤差因素包括較差的模型(模型系列無法很好地表示概念,比如字母計數(shù)的例子)和 GIGO(垃圾進垃圾出,即模型復制訓練數(shù)據(jù)中的錯誤)。

幾大心得

論文由幾個主題串聯(lián)起來。

首先,幻覺并非神秘的失??;相反,它們源于對有效性的普通錯誤分類,與任何分類器在無法可靠地區(qū)分真假時都會犯的二元錯誤相同。

其次,我們主流的評估文化通過懲罰不確定性的表達來隱性地獎勵自信的猜測,因此,即使有誤,那些從不說“我不知道”的模型在排行榜上也會表現(xiàn)得更好。

第三,持久的進步不會來自事后添加上去的補??;它需要改變基準評分,以重視經(jīng)過校準的不確定性和棄權(quán),然后根據(jù)這些激勵機制調(diào)整訓練和部署。

值得思考的問題是:如果您獎勵那些知道何時不回答問題的人和機器,您的信息消費會是什么樣子?

原文標題:Why Do Language Models Hallucinate?,作者:Matthew Mayo

責任編輯:姜華 來源: 51CTO
相關(guān)推薦

2025-09-09 09:01:00

2023-09-27 10:23:06

人工智能語言模型

2024-03-21 09:00:00

大語言模型人工智能

2024-09-18 09:50:00

大模型AI

2024-10-25 16:45:02

2022-08-18 10:07:32

SaaS

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-05-28 01:50:00

2025-09-08 09:43:02

OpenAI大模型幻覺

2024-08-05 09:14:14

2025-06-27 08:40:00

模型推理AI

2025-05-23 08:18:52

2023-09-06 09:50:29

人工智能模型

2024-05-30 16:39:54

2024-06-17 14:07:41

2025-08-25 07:00:00

大語言模型LLM人工智能

2014-01-23 09:24:35

Windows 9

2023-12-10 15:15:18

開源模型工具

2024-01-02 13:19:00

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號