偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文搞懂大模型為什么出現(xiàn)幻覺?從成因到緩解方案

人工智能
在LLM被大規(guī)模應(yīng)用于生產(chǎn)環(huán)境的當下,幻覺問題所帶來的潛在危害已經(jīng)從學(xué)術(shù)挑戰(zhàn)轉(zhuǎn)變?yōu)楝F(xiàn)實風險。企業(yè)須高度重視大模型幻覺問題的防范工作,將其納入模型部署與應(yīng)用的全生命周期管理中,從數(shù)據(jù)源把控、模型選擇、幻覺風險檢測等多方面出發(fā),建立多層次的幻覺識別與糾偏機制,確保模型輸出的可靠性和可控性。

1、前言

隨著大模型(Large Language Models, 以下簡稱LLM)迅猛發(fā)展的浪潮中,幻覺(Hallucination)問題逐漸成為業(yè)界和學(xué)術(shù)界關(guān)注的焦點。所謂模型幻覺,指的是模型在生成內(nèi)容時產(chǎn)生與事實不符、虛構(gòu)或誤導(dǎo)性的信息。比如,當你詢問“世界上最長的河流是哪條?”模型可能一本正經(jīng)地回答:“是亞馬遜河,位于非洲”,而實際上亞馬遜河在南美洲,同時也并不是最長的河流。又或者,當你讓LLM介紹某個研究方向的最新進展時,它能說得有理有據(jù)并列出參考文獻標題作者等細節(jié)信息,但等你檢索時卻發(fā)現(xiàn)那些文獻根本不存在。這些都是幻覺問題在現(xiàn)實中的典型表現(xiàn)。

隨著LLM被廣泛應(yīng)用于搜索、問答、醫(yī)療、金融等關(guān)鍵領(lǐng)域,這種“一本正經(jīng)胡說八道”的回答不僅影響用戶體驗,也可能帶來嚴重的實際風險。因此,如何識別、抑制甚至消除幻覺,已經(jīng)成為亟待解決的重要課題。

2、幻覺成因與分類

2.1 幻覺成因

大模型的本質(zhì)依然是一個語言模型,它通過計算句子概率建模自然語言概率分布。通過對大量語料的學(xué)習(xí)與分析,它能夠按順序預(yù)測下一個特定token的概率。LLM的主要功能是根據(jù)輸入文本生成連貫且上下文恰當?shù)幕貜?fù),本身可能并不擅長真正理解或傳遞事實信息。本文總結(jié)了多篇文獻對于模型幻覺成因的分析,根據(jù)LLM從預(yù)訓(xùn)練到推理部署的不同階段,將幻覺的來源進行如下劃分[1,2]:

1、預(yù)訓(xùn)練 (Pre-training):

a. 訓(xùn)練數(shù)據(jù)噪聲與偏差:LLM依賴于海量數(shù)據(jù)進行預(yù)訓(xùn)練,但這些數(shù)據(jù)中不可避免地包含了錯誤、虛假、過時或者重復(fù)的信息,導(dǎo)致模型知識有偏差;
b. 領(lǐng)域?qū)I(yè)知識稀疏:預(yù)訓(xùn)練數(shù)據(jù)中缺乏特定領(lǐng)域任務(wù)的專業(yè)知識,導(dǎo)致模型在這些領(lǐng)域的推理能力較差,容易生成虛假或錯誤的內(nèi)容;
c. 事實性驗證能力缺失:預(yù)訓(xùn)練的目標是通過最大化下一個詞的概率來建模自然語言概率分布,這種優(yōu)化目標旨在提升語言生成的流暢性而非準確性,因此模型在生成內(nèi)容時更注重文本的連貫性,可能并不擅長真正理解或傳遞事實信息。

2、有監(jiān)督微調(diào)( SFT  :在這一階段,模型會根據(jù)人工標注的訓(xùn)練數(shù)據(jù)進行調(diào)整。標注錯誤或不一致以及過擬合會導(dǎo)致模型對于錯誤知識過于自信。

3、強化學(xué)習(xí) 與人類反饋( RLHF  :對齊階段可能存在誤導(dǎo)與失配的問題,由于獎勵設(shè)計不完善,模型會為了“迎合”預(yù)定的目標而忽視生成內(nèi)容的正確性和真實性。

4、模型推理 (Inference) :目前,LLM通常是token by token地生成內(nèi)容,這種策略使得它無法修正早期的錯誤,導(dǎo)致滾雪球式的幻覺擴大;此外,基于隨機采樣的生成策略在引入多樣性的同時也增加了幻覺風險。

2.2 幻覺分類

目前,研究學(xué)者們按照輸出內(nèi)容錯誤的類型把LLM幻覺分為以下四大類[1]:

  1. 事實沖突:生成內(nèi)容與客觀世界知識或者給定的參照知識相互沖突
  2. 無中生有:生成內(nèi)容是虛構(gòu)的,無法從世界知識或者給定的參照知識得到驗證和支撐
  3. 指令誤解:對用戶指令理解錯誤,生成內(nèi)容偏離指令主題
  4. 邏輯錯誤:推理過程存在邏輯錯誤或漏洞

Type

Input Prompt

LLM Response

事實沖突

世界上最長的河流是哪條?

位于非洲的亞馬遜河是世界上最長的河流。

無中生有

房源信息:該房源位于江漢區(qū)市民中心,為 86 平的 2 室 1 廳戶型,掛牌價為 169 萬元。房源優(yōu)勢在于休閑相對方便、就醫(yī)相對方便、樓層相對合適。根據(jù)以上信息回答:這個房源是幾樓的?

該房源位于 4 樓,共 7 層。

指令誤解

將下文翻譯成英語:“法國的首都是哪里?”

法國的首都是巴黎。

邏輯錯誤

逐步解方程 2x + 3 = 11。

步驟 1:兩邊減去 3 得到:2x = 8。步驟 2:兩邊除以 2 得到:x = 3。所以等式的結(jié)果是 x = 3。

3、幻覺緩解方案

從前文的分析可以看到,導(dǎo)致幻覺問題的成因貫穿了LLM從預(yù)訓(xùn)練到推理的整個生命周期,對應(yīng)的緩解方案也可以從不同的階段入手,例如在預(yù)訓(xùn)練階段加強數(shù)據(jù)去重與清洗,在有監(jiān)督微調(diào)階段引入部分“誠實導(dǎo)向”的樣本,引導(dǎo)LLM識別無法回答的問題并表達自己的能力局限性。考慮到對LLM重新訓(xùn)練或微調(diào)的成本過高,目前大部分的幻覺緩解方案聚焦于推理階段,以下主要對該階段的方案進行展開介紹。

3.1 檢索增強生成

大模型通常存在知識邊界,單純依賴其訓(xùn)練期間學(xué)習(xí)到的“參數(shù)記憶”可能導(dǎo)致模型在面對最新或特定領(lǐng)域的信息時產(chǎn)生幻覺。檢索增強生成(RAG)通過在生成過程中引入外部知識源(如數(shù)據(jù)庫、文檔或網(wǎng)頁),使模型能夠訪問和利用最新的、相關(guān)的信息,從而提高回答的準確性[3,4]。例如,企業(yè)可以將其內(nèi)部政策文檔作為RAG的知識庫,使得AI在回答相關(guān)問題時能夠引用這些文檔,提供更準確的回答。

通俗來說,RAG 技術(shù)將LLM問答從“閉卷考試”更改為“開卷考試”,模型的角色從知識源轉(zhuǎn)變?yōu)閷z索知識的分析者,只需從中找到相應(yīng)答案并進行總結(jié)以簡潔地回答用戶的問題。這種方法顯著提高了回答的準確性和時效性,尤其適用于需要最新信息或特定領(lǐng)域知識的場景。

3.2 后驗幻覺檢測

盡管RAG在緩解幻覺方面具有顯著優(yōu)勢,但它并非萬能,幻覺問題仍可能發(fā)生。如果檢索到的信息存在沖突、與查詢無關(guān)或者部分信息缺失,都可能會導(dǎo)致模型生成不準確的回答。即使引入了外部知識,模型仍可能在理解或生成過程中產(chǎn)生幻覺,特別是在面對復(fù)雜或模糊的問題時。因此后驗幻覺檢測機制也不可或缺。

3.2.1 白盒方案

Lookback Ratio: 基于上下文與生成內(nèi)容注意力分配比例的白盒檢測方案[7]

1.基于模型不確定性:通過衡量LLM生成內(nèi)容的不確定性來評估幻覺風險。

a.為了聚焦關(guān)鍵信息,可以先利用NER模型或關(guān)鍵詞提取模型提取生成內(nèi)容中的關(guān)鍵概念,然后用LLM在這些關(guān)鍵概念每個token上的概率來評估幻覺風險,生成的概率越小則幻覺風險越大[5]。

b.文獻[6]基于生成文本中每個Token的概率提出了4個指標來評估幻覺風險,包括最小Token概率、平均Token概率、最大Token概率偏差、最小Token概率差距。

2.基于模型內(nèi)部隱藏狀態(tài):LLM在生成內(nèi)容時,其內(nèi)部隱藏狀態(tài)能夠反映生成內(nèi)容的準確性。

a.有研究者認為在RAG場景下幻覺的發(fā)生與模型在生成過程中對上下文與新生成內(nèi)容的注意力分配比例相關(guān)[7]。具體而言,如果模型在生成過程中更多地關(guān)注自己生成的內(nèi)容而忽視上下文,則產(chǎn)生幻覺的風險就更大。因此本文通過引入lookback ratio這一特征捕捉模型在每個生成步驟中對上下文和新生成內(nèi)容的注意力分布情況,并以此作為是否產(chǎn)生幻覺的依據(jù)。

b.文獻[8]提出LLM推理時內(nèi)部隱藏狀態(tài)的上下文激活銳度能夠反映生成內(nèi)容的準確性,正確生成的內(nèi)容往往伴隨著較低的上下文熵值(更為銳利的激活模式),而錯誤的生成內(nèi)容則具有較高的上下文熵值(模糊的激活模式)。

c.此外,也有研究利用LLM的內(nèi)部嵌入表示來度量生成內(nèi)容的語義一致性,通過計算多個生成內(nèi)容的嵌入表示之間的協(xié)方差矩陣的特征值來量化它們的語義差異[9]。特征值越大,表明生成內(nèi)容的語義越分散,幻覺風險越高。

3.2.2 黑盒方案

基于外部知識/工具增強的黑盒檢測方案[14]

  1. 基于模型不確定性:

a.考慮到在黑盒調(diào)用LLM的場景下無法獲得輸出token的概率,文獻[10]提出了一種基于簡單采樣的幻覺檢測方法,主要基于以下假設(shè):當 LLM對于生成內(nèi)容不自信或者在捏造事實時,它對同一問題的多個回答有較大概率會出現(xiàn)邏輯上不一致。

  1. 基于規(guī)則:

a.采用ROUGE、BLEU等多種統(tǒng)計學(xué)指標,通過衡量輸出結(jié)果和RAG中源信息的重疊度來評估幻覺風險[5]。

b.基于命名實體識別的規(guī)則進行幻覺檢測,如果模型生成的命名實體未出現(xiàn)在知識源中,那么該模型就存在幻覺風險[11]。

  1. 基于知識/工具增強:利用外部知識庫或工具對LLM生成內(nèi)容進行驗證。

a.文獻[12,13]提出了一種基于外部知識的幻覺檢測方法,主要利用智能體完成以下步驟:將模型回答分解為一組獨立的原子陳述 ; 使用搜索引擎或知識庫檢索每一條陳述對應(yīng)的證據(jù);根據(jù)檢索證據(jù)評估每個陳述是否正確。

b.在此基礎(chǔ)上,有研究者集成了搜索引擎、代碼執(zhí)行器、計算器等多個外部工具對模型生成內(nèi)容進行驗證,可以應(yīng)用于問答、代碼生成、數(shù)學(xué)問題求解等多種任務(wù)[14]。

  1. 基于檢測模型:利用領(lǐng)域?qū)<夷P瓦M行幻覺風險檢測。

a.基于自然語言推理任務(wù)中的蘊含概念,文獻[15]提出了一種叫做AlignScore的指標,用于評估任意一對文本的信息對齊程度。論文收集整合不同語言任務(wù)下的數(shù)據(jù)構(gòu)建成了一個統(tǒng)一的對齊訓(xùn)練語料庫,并以此訓(xùn)練了相應(yīng)的專家模型。在RAG場景下,模型生成內(nèi)容與RAG知識的對齊程度能夠有效地反應(yīng)幻覺風險大小。

b.由于現(xiàn)有的幻覺檢測方法缺少對于結(jié)果的可解釋性以及對源知識的篩選,有研究者訓(xùn)練了一個專家模型作為幻覺critique模型,通過選擇相關(guān)證據(jù)并提供詳細的解釋來增強幻覺檢測能力[16]。

3.3 火山的實踐

基于上述幻覺檢測和環(huán)節(jié)方案,火山引擎云安全團隊聚焦RAG場景,構(gòu)建了一種模型幻覺風險檢測方案。該檢測方案由文本解析、信息提取、風險檢測等關(guān)鍵模塊構(gòu)成,主要通過比對RAG知識與模型回答,識別模型回答中與知識沖突或者缺乏依據(jù)的風險內(nèi)容。目前該方案已在客服、廣告等多個業(yè)務(wù)場景上取得了較好的落地效果。

  1. 文本解析:將模型回答解析為獨立陳述。
  2. 信息提?。壕劢鼓P突卮鹬械年P(guān)鍵信息。
  3. 風險檢測:根據(jù)上下文信息或RAG知識,識別模型回答中的風險內(nèi)容。

4、總結(jié)

在LLM被大規(guī)模應(yīng)用于生產(chǎn)環(huán)境的當下,幻覺問題所帶來的潛在危害已經(jīng)從學(xué)術(shù)挑戰(zhàn)轉(zhuǎn)變?yōu)楝F(xiàn)實風險。一方面,LLM生成的看似權(quán)威但實際虛假的信息,可能會誤導(dǎo)用戶做出錯誤決策并造成實際危害,尤其是在法律、醫(yī)療、金融等領(lǐng)域;另一方面,LLM虛假或錯誤的回答也會給企業(yè)帶來法律糾紛、品牌形象受損、合規(guī)性問題等風險。目前,“清朗·整治AI技術(shù)濫用”專項行動明確指出AI產(chǎn)品要嚴格管控“AI幻覺”問題。因此,企業(yè)須高度重視大模型幻覺問題的防范工作,將其納入模型部署與應(yīng)用的全生命周期管理中,從數(shù)據(jù)源把控、模型選擇、幻覺風險檢測等多方面出發(fā),建立多層次的幻覺識別與糾偏機制,確保模型輸出的可靠性和可控性。

目前,火山引擎云安全團隊推出了大模型應(yīng)用防火墻,供大模型產(chǎn)品及應(yīng)用的一站式安全防護解決方案。點擊原文鏈接,了解更多大模型應(yīng)用防火墻詳情。

*本文撰寫得到豆包的輔助。

產(chǎn)品文檔:https://www.volcengine.com/docs/84990/1520619

參考文獻

[1] Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM Transactions on Information Systems, 2025, 43(2): 1-55.

[2] Zhang Y, Li Y, Cui L, et al. Siren's song in the AI ocean: a survey on hallucination in large language models[J]. arXiv preprint arXiv:2309.01219, 2023.

[3] Shuster K, Poff S, Chen M, et al. Retrieval augmentation reduces hallucination in conversation[J]. arXiv preprint arXiv:2104.07567, 2021.

[4] Béchard P, Ayala O M. Reducing hallucination in structured outputs via Retrieval-Augmented Generation[J]. arXiv preprint arXiv:2404.08189, 2024.

[5] Liang X, Song S, Niu S, et al. Uhgeval: Benchmarking the hallucination of chinese large language models via unconstrained generation[J]. arXiv preprint arXiv:2311.15296, 2023.

[6] Quevedo E, Salazar J Y, Koerner R, et al. Detecting hallucinations in large language model generation: A token probability approach[C]//World Congress in Computer Science, Computer Engineering & Applied Computing. Cham: Springer Nature Switzerland, 2024: 154-173.

[7] Chuang Y S, Qiu L, Hsieh C Y, et al. Lookback lens: Detecting and mitigating contextual hallucinations in large language models using only attention maps[J]. arXiv preprint arXiv:2407.07071, 2024.

[8] Chen S, Xiong M, Liu J, et al. In-context sharpness as alerts: An inner representation perspective for hallucination mitigation[J]. arXiv preprint arXiv:2403.01548, 2024.

[9] Chen C, Liu K, Chen Z, et al. INSIDE: LLMs' internal states retain the power of hallucination detection[J]. arXiv preprint arXiv:2402.03744, 2024.

[10] Manakul P, Liusie A, Gales M J F. Selfcheckgpt: Zero-resource black-box hallucination detection for generative large language models[J]. arXiv preprint arXiv:2303.08896, 2023.

[11] Lee N, Ping W, Xu P, et al. Factuality enhanced language models for open-ended text generation[J]. Advances in Neural Information Processing Systems, 2022, 35: 34586-34599.

[12] Wei J, Yang C, Song X, et al. Long-form factuality in large language models[J]. arXiv preprint arXiv:2403.18802, 2024.

[13] Min S, Krishna K, Lyu X, et al. Factscore: Fine-grained atomic evaluation of factual precision in long form text generation[J]. arXiv preprint arXiv:2305.14251, 2023.

[14] Chern I, Chern S, Chen S, et al. FacTool: Factuality Detection in Generative AI--A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios[J]. arXiv preprint arXiv:2307.13528, 2023.

[15] Zha Y, Yang Y, Li R, et al. AlignScore: Evaluating factual consistency with a unified alignment function[J]. arXiv preprint arXiv:2305.16739, 2023.

[16] Wang B, Chern S, Chern E, et al. Halu-j: Critique-based hallucination judge[J]. arXiv preprint arXiv:2407.12943, 2024.

責任編輯:龐桂玉 來源: 字節(jié)跳動技術(shù)團隊
相關(guān)推薦

2025-03-26 10:57:40

PyTorchGGUF

2023-11-03 12:29:48

Java虛擬線程

2024-09-04 16:19:06

語言模型統(tǒng)計語言模型

2022-05-09 13:25:27

Vue3.0前端

2022-03-24 08:51:48

Redis互聯(lián)網(wǎng)NoSQL

2024-01-04 16:41:29

大型語言模型自然語言處理

2024-04-12 12:19:08

語言模型AI

2025-03-31 08:50:00

模型量化神經(jīng)網(wǎng)絡(luò)AI

2025-06-04 03:21:00

RAGRetrievalGeneratio

2025-03-18 10:00:00

Embedding向量嵌入

2021-03-22 10:05:59

netstat命令Linux

2023-09-08 08:20:46

ThreadLoca多線程工具

2023-09-15 12:00:01

API應(yīng)用程序接口

2024-11-05 14:00:56

2020-11-24 10:13:02

Redis集群數(shù)據(jù)庫

2024-09-13 17:02:29

2025-03-12 02:00:00

經(jīng)營分析模型策略

2023-09-02 21:27:09

2020-09-03 06:35:44

Linux權(quán)限文件

2023-05-22 13:27:17

點贊
收藏

51CTO技術(shù)棧公眾號