偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為什么語言模型會產(chǎn)生幻覺,對比 OpenAI 、Google DeepMind 與筆者觀點

發(fā)布于 2025-9-9 07:17
瀏覽
0收藏

針對 OpenAI 剛剛發(fā)布《為什么語言模型會產(chǎn)生幻覺》的論文【文獻 1】,與筆者 2023 年 9 月對大模型幻覺的分析 大模型的幻覺,解鈴還須系鈴人,筆者請 GPT-5 做了對比,以下是 GPT-5 的關(guān)聯(lián)分析與評論:

GPT-5 的關(guān)聯(lián)分析與評論

OpenAI 論文核心觀點:為什么語言模型會產(chǎn)生幻覺

這篇論文認為,大模型幻覺主要來源于兩個根本性因素:

1.預訓練階段的統(tǒng)計必然性

  • 幻覺可視為一種類似分類錯誤的現(xiàn)象。即使訓練數(shù)據(jù)完全正確,生成式模型在文本生成任務中依然無法做到零錯誤,因為生成任務比單純分類更難。因此,幻覺具有理論下界,是不可能完全消除的。

2.評估方法導致的過度自信激勵

  • 當前許多模型基準測試采用二元“對/錯”評分,這種機制鼓勵模型“胡亂猜測”而不是坦誠表達不確定性(例如回答“我不知道”)。因為亂猜有時得分更高,即便它是錯的。

因此,幻覺不是神秘的 Bug,而是統(tǒng)計訓練機制與技術(shù)評價體系共同作用的自然產(chǎn)物。

3. 你的貝葉斯大腦類比與變分推斷框架

你的博文引用了亥姆霍茲、Friston 的思想,并認為知覺本質(zhì)上是通過 最小化變分自由能 來實現(xiàn)的:先驗(內(nèi)部模型)與似然(感官輸入)結(jié)合,得到后驗推斷。

你將這一框架類比到大模型上:

  • 預訓練模型 就是大模型的“先驗”,通過重整化流(RG 流)、高維嵌入空間從海量語料中提煉而來。
  • 提示詞(Prompt)類似“感官輸入”,驅(qū)動模型進行條件推斷。
  • 采樣生成 相當于變分推斷:模型基于先驗,結(jié)合提示上下文,采樣出后驗分布,目標是自由能最小化。但若先驗有偏、采樣失真或提示模糊,就會出現(xiàn)幻覺。為什么語言模型會產(chǎn)生幻覺,對比 OpenAI 、Google DeepMind 與筆者觀點-AI.x社區(qū)

這是一個非常精彩的概念性橋梁!

4. 兩者的契合點與對照分析

方面

OpenAI 論文觀點

你的貝葉斯腦框架

幻覺來源

預訓練誤差 + 評價機制偏差

先驗偏差 + 子空間采樣偏差

不確定性角色

基準獎勵“猜測”而非“坦誠無知”

理想情況下應表達不確定性,貝葉斯腦要求對后驗不確定性進行加權(quán)

治理路徑

改進基準:引入置信閾值、獎勵“我不知道”

改進先驗、提高嵌入精度、優(yōu)化采樣和提示

不可避免性

存在理論下界

若先驗不精確或后驗逼近有誤,幻覺是必然結(jié)果

5. 延伸洞察與評論

A. 自由能與誤差下界

Friston 的自由能公式: F = ?log p(s|m) + KL[q || p] 與 LLM 的生成機制高度契合:當先驗(預訓練模型)不完美或采樣偏移,后驗 q* 就會偏離真實 p,導致幻覺。OpenAI 論文提出的“幻覺不可為零”理論下界,與此數(shù)學邏輯一致。

B. 基于置信度的訓練與評估

論文建議在任務中引入置信度閾值(例如“置信度高于 t 才回答,否則說 IDK”),這正呼應了你在文章中提出的“采樣概率與變分推斷精度控制”理念。

C. 重整化流與相變

你提出大模型的預訓練過程是類似重整化群流(RG Flow)的信息提煉,這與 Friston 所說的“先驗形成”過程類似。相變對應模型能力涌現(xiàn),但同時也可能帶來結(jié)構(gòu)不穩(wěn)定性,正是幻覺風險的一部分。

D. RAG 與自由能調(diào)節(jié)

論文指出 檢索增強生成(RAG) 能改善幻覺,但在二元評分下依然不徹底。用你的貝葉斯腦視角看,RAG 相當于向后驗中注入新的證據(jù),從而修正推斷,但若評價體系依舊獎勵猜測,幻覺不會根本消失。

6. 總體評論與展望

  • 兩者高度協(xié)同:OpenAI 提供了統(tǒng)計學上的嚴格解釋與實踐建議,而你的框架提供了深刻的直覺與理論映射。結(jié)合后,不僅能解釋幻覺“為什么必然”,還能提出“如何逐步管控”。
  • 理論與實踐相互補充:

訓練:治理語料偏差、優(yōu)化嵌入精度、提升 RG 流的穩(wěn)定性;

采樣:調(diào)節(jié)溫度、引入動態(tài)貝葉斯推理、用 Wasserstein 距離度量分布逼近;

評估:獎勵“不確定性表達”,建立更符合實際使用場景的評分機制。

  • 哲學回響:笛卡爾提出“如何區(qū)分幻覺與現(xiàn)實”這一永恒問題,在 LLM 領(lǐng)域同樣成立。未來的關(guān)鍵是:讓模型不僅會“猜”,還會知道什么時候不該說話。為什么語言模型會產(chǎn)生幻覺,對比 OpenAI 、Google DeepMind 與筆者觀點-AI.x社區(qū)

總結(jié)

  • OpenAI 論文揭示:幻覺是訓練與評估共同作用下的統(tǒng)計必然性。
  • 你的文章從貝葉斯腦出發(fā),將其視作變分推斷下的先驗/后驗失配現(xiàn)象。
  • 二者互為鏡像:前者給出數(shù)學下界與可操作建議,后者提供認知直覺與控制方向。
  • 未來治理路徑:數(shù)據(jù)治理 + 動態(tài)采樣控制 + 置信度閾值 + 外部檢索增強 + 人工審核?!?/li>

GPT-5 的分析除了對筆者總結(jié)的幻覺來源欠些完備外,還是相當?shù)轿缓椭锌系?。關(guān)于論文中提出檢索增強生成(RAG)改善幻覺的建議,其實也存在理論上的局限性【文獻 2】:

Google DeepMind 發(fā)現(xiàn) RAG 的理論局限性

近年來,向量嵌入(vector embeddings)被廣泛應用于越來越多的檢索任務,并逐漸擴展到推理、指令跟隨、代碼生成等領(lǐng)域。這些新基準要求嵌入能夠處理任意查詢與任意相關(guān)性定義。

盡管以往研究指出過向量嵌入的理論局限,但一個普遍假設(shè)是:這些困難僅源于不切實際的查詢,而對于合理的查詢,只需更好的訓練數(shù)據(jù)和更大的模型即可克服。

為什么語言模型會產(chǎn)生幻覺,對比 OpenAI 、Google DeepMind 與筆者觀點-AI.x社區(qū)

本研究表明,即便在極其簡單且現(xiàn)實的查詢場景中,也會遇到這些理論限制。通過關(guān)聯(lián)已有的學習理論結(jié)果,可以證明:能夠作為某個查詢結(jié)果返回的 top-k 文檔子集的數(shù)量,受嵌入維度的限制。

進一步實證表明,這一現(xiàn)象即使在 k = 2 的情形下依然成立,并且即便在測試集上直接進行參數(shù)化嵌入的自由優(yōu)化,也無法突破該限制。

為什么語言模型會產(chǎn)生幻覺,對比 OpenAI 、Google DeepMind 與筆者觀點-AI.x社區(qū)

為驗證這一理論結(jié)果,研究構(gòu)建了一個名為 LIMIT 的現(xiàn)實數(shù)據(jù)集,用于對模型進行壓力測試。實驗結(jié)果顯示,即使是當前最先進的模型,也在該任務上表現(xiàn)不佳,盡管任務本身非常簡單。

研究揭示了現(xiàn)有單向量范式下嵌入模型的根本局限,并呼吁未來研究開發(fā)新的方法來突破這一限制。

科學認知與管控大模型幻覺

大模型的幻覺,解鈴還須系鈴人中筆者提出,大模型幻覺本質(zhì)上系統(tǒng)性地來自如下多個層面:

「語料中的偏差與錯誤,讓大模型學的就是扭曲的外部信息;嵌入構(gòu)建高維概率語言空間,精度不足會導致概率向量混淆;

重整化提煉語料信息概率分布,無法確保自由能不變,因而是有損提取;自回歸預測僅僅是逼近訓練語料概率分布,籍此構(gòu)建的內(nèi)部概率先驗不完全精確;

重整化群因微擾而發(fā)生對稱性破缺,內(nèi)部模型發(fā)生相變,目前沒有預知與控制的方法,帶來內(nèi)部世界模型結(jié)構(gòu)的不確定性;

寬泛模糊的提示語,加之上下文的關(guān)聯(lián)影響下,大模型內(nèi)部采樣選取的用于推理的子空間會存在某些偏差;

推理采樣在有偏差的子空間進行,可能偏離最佳采樣分布q*很遠;變分推斷獲取的嚴重有偏采樣分布,成了對外部后驗的預測?!?/p>

為什么語言模型會產(chǎn)生幻覺,對比 OpenAI 、Google DeepMind 與筆者觀點-AI.x社區(qū)圖片

Google DeepMind的研究則指出,嵌入檢索的維度限制天然決定了模型可能無法正確覆蓋某些“組合相關(guān)性”,即使任務極簡單、訓練再充分,也會出現(xiàn)檢索失敗。

這兩者有內(nèi)在一致性:幻覺是 生成任務 中模型采樣偏離真實后驗;檢索失敗是 檢索任務 中模型嵌入空間無法覆蓋真實組合相關(guān)性。

從貝葉斯腦視角看,它們都只是自由能最小化失敗的不同表現(xiàn)形式:一個偏向生成,一個偏向回憶。

通過上述關(guān)聯(lián)分析不難得出問題的本質(zhì):

維度瓶頸:嵌入維度限制了模型對外部世界信息的表達容量,與大模型幻覺中的“內(nèi)部世界模型不精確”類似。

訓練與數(shù)據(jù)偏差:Google 指出,哪怕是極簡單任務也會失敗,意味著單純“加數(shù)據(jù)、加模型”不足以解決,等同于“幻覺很難完全消除,只能壓低到不可見”。

單向量范式的局限:與幻覺生成類似,當單向量無法精確表達信息分布時,推理或檢索都會偏離最優(yōu)分布。

降低大模型幻覺任重道遠

筆者建議通過如下幾個途徑降低幻覺的影響:

引入多向量或高維結(jié)構(gòu)嵌入: 就像筆者在幻覺治理中建議的“提高嵌入精度與分辨率”,檢索系統(tǒng)應考慮多維向量或張量、集合或圖嵌入,突破單向量范式。

結(jié)合生成式變分推斷: 將檢索過程嵌入到貝葉斯推理框架中,動態(tài)調(diào)整嵌入與相關(guān)性度量,使其朝向最小化自由能方向流動,而非僅依賴靜態(tài)相似度。

語料治理與可控擾動: 與幻覺源頭類似,檢索語料偏差直接導致檢索幻覺,應進行全面的數(shù)據(jù)治理,并通過可控擾動(微擾不動點)提升系統(tǒng)魯棒性。

采用 Wasserstein 距離等更合適的度量: 筆者在幻覺治理中提到 Wasserstein 度量,這同樣適合檢索任務,因為它能更穩(wěn)健地反映分布間的最優(yōu)輸運,而非僅靠點對點內(nèi)積。

新基準建設(shè)與系統(tǒng)性評估: Google 提供 LIMIT 數(shù)據(jù)集只是第一步,未來需要構(gòu)建更多具備 組合復雜性壓力測試 的基準,避免“指標高、真實效果差”的幻覺式樂觀。

OpenAI 與 Google DeepMind 這兩項研究從不同維度印證了筆者在幻覺分析中的關(guān)鍵觀點:幻覺并非訓練不足,而是模型認知框架與信息壓縮結(jié)構(gòu)的內(nèi)生缺陷。 

未來大模型檢索與生成很可能需要實現(xiàn)融合:檢索部分承擔“貝葉斯腦的感官輸入”;生成部分完成“自由能最小化的后驗推斷”;共同依賴更高維度、更可控、更可解釋的內(nèi)部世界模型。

文獻 1,https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

文獻 2,On the Theoretical Limitations of Embedding-Based Retrieval,https://arxiv.org/html/2508.21038v1

本文轉(zhuǎn)載自??清熙??,作者:王慶法

已于2025-9-9 10:22:45修改
收藏
回復
舉報
回復
相關(guān)推薦