偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nav id="qv17p"><fieldset id="qv17p"></fieldset></nav>

<pre id="qv17p"></pre>

<form id="qv17p"></form>

<pre id="qv17p"><label id="qv17p"><em id="qv17p"></em></label></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

語言模型為何會(huì)產(chǎn)生幻覺？

51CTO內(nèi)容精選

發(fā)布于 2025-10-9 18:27

瀏覽

0收藏

譯者 | 布加迪

審校 | 重樓

簡介

幻覺是語言模型及其用戶的禍根，指語言模型產(chǎn)生的看似合理但實(shí)際上錯(cuò)誤的陳述。這些幻覺之所以存在問題，是由于它們會(huì)削弱用戶信任、傳播錯(cuò)誤信息，并誤導(dǎo)下游決策，即使輸出的可信度很高。在用戶無法輕松驗(yàn)證聲明（技術(shù)答案、醫(yī)學(xué)或法律摘要、數(shù)據(jù)分析）的情況下，這些幻覺尤其令人困擾，因?yàn)樽孕诺貍鬟f錯(cuò)誤信息會(huì)掩蓋潛在的不確定性，從而將小小的建模錯(cuò)誤變成潛在的重大失敗。

Kalai、Nachum、Vempala和Zhang最近發(fā)表了一篇名為《語言模型為何會(huì)產(chǎn)生幻覺？》的論文，該論文致力于分析這些錯(cuò)誤的統(tǒng)計(jì)根源及其背后的社會(huì)技術(shù)激勵(lì)機(jī)制。論文作者們將生成式錯(cuò)誤與簡單的分類動(dòng)態(tài)聯(lián)系起來，研究了當(dāng)今的訓(xùn)練和評估實(shí)踐如何促使模型傾向于自信的猜測，而不是校準(zhǔn)的不確定性。研究結(jié)果深入揭示了幻覺的真正來源，以及哪些類型的改變可以在實(shí)踐中減少幻覺。

本文就語言模型幻覺的成因和持續(xù)性提供了幾個(gè)富有洞察力的總體啟示，我們將逐一探討其中的五點(diǎn)。

1. 幻覺的根本原因

簡而言之：幻覺主要是由訓(xùn)練和評估程序引起的，這些程序鼓勵(lì)猜測而不是承認(rèn)不確定性。

論文的核心論點(diǎn)是，幻覺（定義為看似合理但不正確的陳述）之所以持續(xù)存在，是由于用于訓(xùn)練和評估的程序無意中獎(jiǎng)勵(lì)了自信的猜測，而不是承認(rèn)不確定性。語言模型經(jīng)優(yōu)化后充當(dāng)“優(yōu)秀的應(yīng)試者”，這意味著它們會(huì)在不確定時(shí)進(jìn)行猜測，以便在懲罰不確定回答（比如“我不知道”或IDK）的評分方案下獲得最高分?jǐn)?shù)。在常見的二進(jìn)制 0-1 評分方案下，猜測不確定何時(shí)可以最大化預(yù)期分?jǐn)?shù)。

語言模型為何會(huì)產(chǎn)生幻覺？-AI.x社區(qū)

圖1. 提議的提示，緩解“自信猜測”，并鼓勵(lì)“確認(rèn)不確定性”

2. 幻覺的起源

簡而言之：幻覺的統(tǒng)計(jì)起源可以歸結(jié)為二元分類中的簡單錯(cuò)誤。

論文揭開了幻覺的神秘面紗，認(rèn)為幻覺并不神秘，而僅僅是二元分類中的錯(cuò)誤。分析將生成式錯(cuò)誤（比如幻覺）與一個(gè)名為“是否有效（IIV）”二元分類的監(jiān)督學(xué)習(xí)問題聯(lián)系起來。如果系統(tǒng)無法在統(tǒng)計(jì)上區(qū)分錯(cuò)誤陳述和事實(shí)，那么在預(yù)訓(xùn)練過程中最小化的統(tǒng)計(jì)目標(biāo)（交叉熵?fù)p失）自然會(huì)導(dǎo)致生成式錯(cuò)誤。該分析揭示了一種數(shù)學(xué)關(guān)系：生成式錯(cuò)誤率大致與IIV錯(cuò)誤分類率的兩倍成正比。

語言模型為何會(huì)產(chǎn)生幻覺？-AI.x社區(qū)

圖2. 將語句錯(cuò)誤分類為“有效”會(huì)導(dǎo)致幻覺

3. 幻覺不可避免

簡而言之：即使使用無錯(cuò)誤的訓(xùn)練數(shù)據(jù)，經(jīng)過校準(zhǔn)的基礎(chǔ)模型在數(shù)學(xué)上也必然會(huì)產(chǎn)生幻覺。

論文表明，即使訓(xùn)練語料庫完美無誤，在預(yù)訓(xùn)練過程中最小化統(tǒng)計(jì)目標(biāo)的過程仍會(huì)導(dǎo)致語言模型產(chǎn)生錯(cuò)誤。這與校準(zhǔn)概念相關(guān)。由于錯(cuò)誤是標(biāo)準(zhǔn)交叉熵目標(biāo)的自然結(jié)果，任何經(jīng)過良好訓(xùn)練且經(jīng)過校準(zhǔn)的基礎(chǔ)模型（即其預(yù)測概率與現(xiàn)實(shí)相符）都必然會(huì)產(chǎn)生錯(cuò)誤，尤其是在面對本質(zhì)上無法學(xué)習(xí)的事實(shí)時(shí)。相反，能夠避免錯(cuò)誤的基礎(chǔ)模型必然會(huì)被錯(cuò)誤校準(zhǔn)（即其不確定性估計(jì)必然是錯(cuò)誤的）。

4. 幻覺持續(xù)存在

簡而言之：幻覺的持續(xù)存在歸咎于不一致的初級評估這種“流行病”。

盡管訓(xùn)練后技術(shù)通常旨在減少虛假信息，但幻覺依然存在，因?yàn)榻^大多數(shù)現(xiàn)有的、有影響力的基準(zhǔn)測試和排行榜都大量使用二元評分系統(tǒng)（比如準(zhǔn)確率或通過率），這些系統(tǒng)懲罰棄權(quán)和不確定性。這造成了一個(gè)“社會(huì)技術(shù)”問題。

如果模型 A 正確地表示了不確定性，而模型 B 總是猜測何時(shí)不確定，那么在 0-1 評分方案下，模型 B 的表現(xiàn)將優(yōu)于模型 A，從而強(qiáng)化了類似幻覺的猜測行為。這種常見的錯(cuò)位評估是問題的根源，而僅僅通過添加一小部分新的針對幻覺的評估是無法解決這個(gè)問題的。

5. 任意性的作用

簡而言之：任意事實(shí)（低數(shù)據(jù)頻率）引起的統(tǒng)計(jì)不確定性是導(dǎo)致預(yù)訓(xùn)練誤差的關(guān)鍵因素。

導(dǎo)致預(yù)訓(xùn)練誤差的一個(gè)主要統(tǒng)計(jì)因素是任意事實(shí)的存在。任意事實(shí)是指特定的、隨機(jī)的事實(shí)，其中沒有簡潔的模式解釋目標(biāo)函數(shù)，這會(huì)導(dǎo)致認(rèn)知不確定性，因?yàn)橛?xùn)練數(shù)據(jù)中缺乏或鮮有必要的知識(shí)，比如個(gè)人生日。

分析表明，對于任意事實(shí)，預(yù)期的幻覺率其下限是由單例率決定的，即在訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的事實(shí)的比例。比如說，如果 20% 的生日事實(shí)只出現(xiàn)一次，預(yù)計(jì)模型會(huì)對至少 20% 的事實(shí)產(chǎn)生幻覺。其他生成式誤差因素包括較差的模型（模型系列無法很好地表示概念，比如字母計(jì)數(shù)的例子）和 GIGO（垃圾進(jìn)垃圾出，即模型復(fù)制訓(xùn)練數(shù)據(jù)中的錯(cuò)誤）。

幾大心得

論文由幾個(gè)主題串聯(lián)起來。

首先，幻覺并非神秘的失敗；相反，它們源于對有效性的普通錯(cuò)誤分類，與任何分類器在無法可靠地區(qū)分真假時(shí)都會(huì)犯的二元錯(cuò)誤相同。

其次，我們主流的評估文化通過懲罰不確定性的表達(dá)來隱性地獎(jiǎng)勵(lì)自信的猜測，因此，即使有誤，那些從不說“我不知道”的模型在排行榜上也會(huì)表現(xiàn)得更好。

第三，持久的進(jìn)步不會(huì)來自事后添加上去的補(bǔ)??；它需要改變基準(zhǔn)評分，以重視經(jīng)過校準(zhǔn)的不確定性和棄權(quán)，然后根據(jù)這些激勵(lì)機(jī)制調(diào)整訓(xùn)練和部署。

值得思考的問題是：如果您獎(jiǎng)勵(lì)那些知道何時(shí)不回答問題的人和機(jī)器，您的信息消費(fèi)會(huì)是什么樣子？

原文標(biāo)題：??Why Do Language Models Hallucinate???，作者：Matthew Mayo

標(biāo)簽

獎(jiǎng)勵(lì)

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

【深度解析】自然語言生成中的“幻覺”現(xiàn)象

zhcs333 ? 6234瀏覽 ? 0回復(fù)
3D語言模型的新突破：解鎖虛擬現(xiàn)實(shí)中的'幻覺'問題

AI論文解讀 ? 4334瀏覽 ? 0回復(fù)
ICML 2024 Spotlight | 在解碼中重新對齊，讓語言模型更少幻覺、更符合人類偏好

輕薄滴假象 ? 4006瀏覽 ? 0回復(fù)
模型崩潰！泛濫的AI會(huì)反噬自身！牛津大學(xué)研究發(fā)現(xiàn)：用AI生成數(shù)據(jù)來二次訓(xùn)練大模型會(huì)產(chǎn)生無意義的內(nèi)容！

51CTO技術(shù)棧 ? 3691瀏覽 ? 0回復(fù)
相同的 LLM 在「不同 GPU 上」會(huì)產(chǎn)生不同輸出？為什么？

Baihai_IDP ? 5786瀏覽 ? 3回復(fù)
最新研究：大語言模型使用Json格式輸出會(huì)降低模型性能嗎？

大語言模型論文跟蹤 ? 5513瀏覽 ? 0回復(fù)
3D語言模型的新突破：解鎖虛擬現(xiàn)實(shí)中的'幻覺'問題

AI論文解讀 ? 3760瀏覽 ? 0回復(fù)
詳解大規(guī)?；A(chǔ)模型中的幻覺問題（幻覺檢測、緩解、任務(wù)、數(shù)據(jù)集和評估指標(biāo)）

angel ? 6924瀏覽 ? 0回復(fù)
詳解大規(guī)?；A(chǔ)模型中的幻覺問題（幻覺檢測、緩解、任務(wù)、數(shù)據(jù)集和評估指標(biāo)）

angel ? 7052瀏覽 ? 0回復(fù)
精通大型語言模型的準(zhǔn)確性：如何測試、檢測和修復(fù)AI模型的幻覺

丟翅膀的魚 ? 6154瀏覽 ? 0回復(fù)
Kimi的長文本能力：為何優(yōu)于其他大模型

風(fēng)云2002_1 ? 4249瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 1.1w瀏覽 ? 1回復(fù)
EVEv2.0，視覺語言分開編碼，多模態(tài)視覺語言理解；視覺信息引導(dǎo)與標(biāo)記邏輯增強(qiáng)減少大語言模型幻覺

AI研究前瞻 ? 4112瀏覽 ? 0回復(fù)
深度剖析：為何擴(kuò)散模型會(huì)成為語言模型的未來？

AI論文解讀 ? 4404瀏覽 ? 0回復(fù)
AI大語言模型（LLM）幻覺排行榜

AI取經(jīng)路 ? 9456瀏覽 ? 0回復(fù)
谷歌最新研究：大模型為何「學(xué)得會(huì)」卻「用不好」？

sbf_2000 ? 2070瀏覽 ? 0回復(fù)
相同的 LLM 在「不同 GPU 上」會(huì)產(chǎn)生不同輸出？為什么？

Baihai_IDP ? 2005瀏覽 ? 0回復(fù)
為什么語言模型會(huì)產(chǎn)生幻覺，對比 OpenAI 、Google DeepMind 與筆者觀點(diǎn)

ceesoft ? 810瀏覽 ? 0回復(fù)
解構(gòu)AI幻覺，OpenAI發(fā)布《大語言模型為何會(huì)產(chǎn)生幻覺》研究報(bào)告

歐米伽未來研究所 ? 1928瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

RAS 革命：從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng)，破解 LLM 短板的新范式 2天前發(fā)布
利用MCP創(chuàng)建AI代理：C#實(shí)踐指南 2天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊(duì)開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)的智慧農(nóng)業(yè)應(yīng)用

下一篇： DeepCode：靈活的AI編程智能體

社區(qū)精華內(nèi)容

目錄