AI海洋中的海妖之歌:騰訊AI Lab大模型幻覺問題綜述
大規(guī)模語言模型在眾多下游任務(wù)中展現(xiàn)了驚人的能力,但它們?cè)谑褂弥腥匀槐┞读艘恍﹩栴}。其中,幻覺是目前影響大模型落地的重要問題之一。ChatGPT 的發(fā)布使學(xué)術(shù)界和工業(yè)界關(guān)注大模型實(shí)際落地的潛能,大量關(guān)于幻覺的工作也開始涌現(xiàn)。
近期,騰訊 AI Lab 聯(lián)合國內(nèi)外多家學(xué)術(shù)機(jī)構(gòu)發(fā)布了面向大模型幻覺工作的綜述,對(duì)幻覺的評(píng)估、溯源、緩解等進(jìn)行了全面的探討。

- 論文鏈接:https://arxiv.org/abs/2309.01219
- Github 鏈接:https://github.com/HillZhang1999/llm-hallucination-survey

什么是大模型幻覺問題?
根據(jù)相關(guān)工作和平時(shí)對(duì)大模型的使用體驗(yàn),研究人員總結(jié)了大模型常見的三類幻覺:
- 和用戶輸入沖突的幻覺 (Input-Conflicting Hallucination):大模型生成的回復(fù)違背了用戶輸入中的任務(wù)指示或者任務(wù)輸入。
- 和已生成的上下文沖突的幻覺 (Context-Conflicting Hallucination):大模型生成的回復(fù)出現(xiàn)了自我矛盾。
- 和事實(shí)知識(shí)沖突的幻覺 (Fact-Confilicting Hallucination):大模型生成的回復(fù)與公認(rèn)的事實(shí)知識(shí)出現(xiàn)了沖突。

在上述三類幻覺中,和事實(shí)知識(shí)沖突的幻覺是目前大模型幻覺研究的核心熱點(diǎn)。研究人員認(rèn)為是因?yàn)檫@一類幻覺研究的難度更大,對(duì)用戶實(shí)際使用體驗(yàn)的干擾也最大。例如,大模型在生成醫(yī)療建議時(shí)可能會(huì)捏造錯(cuò)誤的藥品劑量,誤導(dǎo)缺少專業(yè)醫(yī)學(xué)知識(shí)的用戶,產(chǎn)生風(fēng)險(xiǎn)。
大模型幻覺和傳統(tǒng)幻覺的主要區(qū)別在哪里?
在大模型時(shí)代前 (以 ChatGPT 的發(fā)布為節(jié)點(diǎn)),幻覺問題在傳統(tǒng)的自然語言生成任務(wù)中也有一定的研究積累。研究人員總結(jié)了大模型幻覺和傳統(tǒng)幻覺研究的幾點(diǎn)重要區(qū)別:
- 大模型使用海量訓(xùn)練數(shù)據(jù):與傳統(tǒng)任務(wù)不同,大模型需要在海量數(shù)據(jù)上進(jìn)行大規(guī)模預(yù)訓(xùn)練。這些海量數(shù)據(jù)往往采集于互聯(lián)網(wǎng),可能包含大量偽造的、有偏見、過時(shí)的內(nèi)容,從而導(dǎo)致幻覺。由于數(shù)據(jù)規(guī)模過大,上述問題內(nèi)容也難以分析和篩除。
- 大模型的通用性:傳統(tǒng)模型往往只面向單一的任務(wù),而大模型則被應(yīng)用于多任務(wù)、多語言、多領(lǐng)域的通用場(chǎng)景。大模型的通用性給幻覺的全面評(píng)估、消除帶來了全新挑戰(zhàn)。
- 大模型幻覺不易被察覺:由于大模型的強(qiáng)悍能力,大模型生成的幻覺看上去非常合理,有的時(shí)候甚至人類都很難發(fā)現(xiàn)。
- 其他區(qū)別:大模型的一些新特性,例如額外引入的基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 過程、模糊的知識(shí)邊界、以及潛在的黑盒屬性,也給幻覺研究帶來了新的挑戰(zhàn)。
大模型幻覺如何評(píng)估
大模型幻覺問題的研究基石是可靠的評(píng)估基準(zhǔn)?,F(xiàn)有研究工作提出了多個(gè)針對(duì)性的評(píng)估基準(zhǔn),主要面向事實(shí)沖突類型的幻覺。研究人員從多個(gè)方面對(duì)這些基準(zhǔn)進(jìn)行了總結(jié)。

- 評(píng)估形式 (Evaluation):現(xiàn)有評(píng)估基準(zhǔn)往往有兩類方式評(píng)估大模型的幻覺,即生成式 (generation) 和判別式 (discrimination)。生成式的基準(zhǔn)直接評(píng)估大模型生成回復(fù)中出現(xiàn)幻覺的傾向,而判別式的基準(zhǔn)則評(píng)估大模型判斷一段文本是否存在幻覺的能力。
- 應(yīng)用任務(wù) (Task Format):現(xiàn)有評(píng)估基準(zhǔn)在不同的下游任務(wù)中評(píng)估大模型的幻覺現(xiàn)象,例如問答、指令遵循、文本續(xù)寫等。
- 評(píng)測(cè)指標(biāo) (Metrics):現(xiàn)有評(píng)估基準(zhǔn)各自設(shè)計(jì)了特殊的指標(biāo),用于判斷大模型出現(xiàn)幻覺的程度,包括:1)人工評(píng)估;2) 基于模型的自動(dòng)評(píng)估;3)基于規(guī)則的自動(dòng)評(píng)估。
大模型幻覺來源于什么
研究人員也對(duì)大模型產(chǎn)生幻覺的原因進(jìn)行了一些初步分析,例如:
- 大模型缺乏相關(guān)知識(shí)或者記憶錯(cuò)誤知識(shí):在大模型回答用戶問題或者解決更復(fù)雜的下游任務(wù)時(shí),如果缺少了所需要的知識(shí)或者從訓(xùn)練數(shù)據(jù)中記憶了錯(cuò)誤的知識(shí),則有可能出現(xiàn)幻覺。
- 大模型高估了自己的能力:一些工作發(fā)現(xiàn),大模型往往無法準(zhǔn)確地估計(jì)自己的能力邊界。因此,大模型在回復(fù)超出自己能力的問題時(shí),往往會(huì)高估自己,從而自信地編造幻覺回復(fù)。
- 對(duì)齊過程中引入幻覺:大模型在預(yù)訓(xùn)練階段外,還需要進(jìn)行對(duì)齊,包括指令微調(diào)和 RLHF。這些步驟可能誤導(dǎo)大模型出現(xiàn)幻覺。例如不恰當(dāng)?shù)闹噶钗⒄{(diào)可能讓大模型學(xué)會(huì)捏造自己不會(huì)的答案,RLHF 也可能讓大模型學(xué)會(huì)為了討好人類而編造內(nèi)容。
- 生成過程中引入幻覺:一些工作認(rèn)為,不恰當(dāng)?shù)纳刹呗砸部赡軐?dǎo)致大模型出現(xiàn)幻覺。例如,基于采樣的解碼生成方式中引入的隨機(jī)性被證明可能導(dǎo)致幻覺,而大模型常用的自回歸生成方式也可能導(dǎo)致幻覺的累積傳播現(xiàn)象。
有什么方法可以緩解大模型幻覺
為了盡可能減少大模型的幻覺現(xiàn)象,從而促進(jìn)大模型的落地應(yīng)用,近期出現(xiàn)了大量新的研究工作嘗試緩解幻覺。針對(duì)緩解幻覺的方法貫穿了包括預(yù)訓(xùn)練、指令微調(diào)、強(qiáng)化學(xué)習(xí)以及推理在內(nèi)的整個(gè)大模型生命周期,研究人員對(duì)此進(jìn)行了如下總結(jié):
預(yù)訓(xùn)練階段的緩解
已有工作認(rèn)為,大模型的知識(shí)主要來自基于海量文本的自監(jiān)督預(yù)訓(xùn)練??紤]到錯(cuò)誤和缺失的知識(shí)可能導(dǎo)致幻覺的產(chǎn)生,預(yù)訓(xùn)練階段的幻覺緩解工作主要關(guān)注如何自動(dòng)提高預(yù)訓(xùn)練語料質(zhì)量。例如,Llama 2 在構(gòu)建預(yù)訓(xùn)練語料時(shí),特地對(duì)事實(shí)性更好的數(shù)據(jù)源 (如維基百科) 進(jìn)行了上采樣。
指令微調(diào)階段的緩解
在微調(diào)階段,現(xiàn)有工作也探討了如何提高指令微調(diào)數(shù)據(jù)的質(zhì)量,從而減少大模型的幻覺。與預(yù)訓(xùn)練階段的一個(gè)不同點(diǎn)在于,指令微調(diào)數(shù)據(jù)的規(guī)模較小,可以人工進(jìn)行清洗。

此外,OpenAI 也指出,指令微調(diào)階段存在著因?yàn)樾袨榭寺‖F(xiàn)象而導(dǎo)致幻覺的風(fēng)險(xiǎn)。這一現(xiàn)象代表:指令微調(diào)的數(shù)據(jù)中存在著超過大模型能力的樣本,如果一味地強(qiáng)迫大模型學(xué)習(xí)這類樣本,則有可能導(dǎo)致大模型學(xué)會(huì)對(duì)任何問題都以非??隙ǖ恼Z氣進(jìn)行回復(fù)。那么反映到實(shí)際使用時(shí),大模型就會(huì)對(duì)自己不會(huì)的問題捏造回復(fù),從而導(dǎo)致幻覺。
強(qiáng)化學(xué)習(xí)階段的緩解

針對(duì)行為克隆現(xiàn)象導(dǎo)致的幻覺,OpenAI 的強(qiáng)化學(xué)習(xí)負(fù)責(zé)人 John Schulman 在伯克利大學(xué)的演講中分享了 OpenAI 在訓(xùn)練 ChatGPT 時(shí)緩解幻覺的一種方法。他們?cè)趶?qiáng)化學(xué)習(xí)時(shí),給大模型不同語氣回復(fù)的錯(cuò)誤以不同的懲罰力度。這樣做的目的是鼓勵(lì)大模型表達(dá)不確定性、質(zhì)疑問題、承認(rèn)錯(cuò)誤,從而緩解過度自信而出現(xiàn)幻覺。

雖然強(qiáng)化學(xué)習(xí)通過讓模型學(xué)會(huì)拒絕回答問題一定程度上緩解了幻覺,但也帶來了額外的問題。由于強(qiáng)化學(xué)習(xí)主要依賴獎(jiǎng)勵(lì)模型提供監(jiān)督信號(hào),然而獎(jiǎng)勵(lì)模型并不能達(dá)到 100% 的準(zhǔn)確率,導(dǎo)致生成模型可能被過優(yōu)化 (over-optimization)。這種情況下,大模型會(huì)過度保守,拒絕回答一些它本可以回答正確的問題。
推理階段的緩解
由于在推理階段幻覺最為靈活,許多現(xiàn)有工作集中于此方向。代表性的做法有:
1. 改進(jìn)解碼策略:研究人員嘗試通過設(shè)計(jì)更好的解碼策略來緩解幻覺,例如 Inference-Time-Intervention 方法在解碼時(shí)通過讓模型激活值在和事實(shí)性更為相關(guān)的注意力頭上傳播,從而緩解幻覺。
2. 借助外部知識(shí):通過在模型解碼時(shí),檢索和用戶問題相關(guān)的知識(shí),讓模型在回復(fù)時(shí)予以參考,可以顯著解決幻覺問題。這里的知識(shí)源可以是無結(jié)構(gòu)文本、結(jié)構(gòu)化文本 (網(wǎng)頁或數(shù)據(jù)庫),甚至是各類工具。

檢索到相關(guān)知識(shí)后,一類做法是直接在模型生成回復(fù)時(shí)提供給模型。另一類做法是在模型生成回復(fù)后,提供給模型,讓模型自我糾正先前回復(fù)中存在的幻覺。

3. 度量不確定性:通過衡量大模型輸出回復(fù)時(shí)的不確定度 (uncertainty),可以使用戶了解到回復(fù)中哪些部分是不能信任的。常見的不確定度度量方法有:1)基于輸出分?jǐn)?shù)的;2) 基于描述的;3)基于一致性的。

此外,還有更多的緩解方案,如多智能體交互、指令設(shè)計(jì)、人在回路、分析模型內(nèi)部狀態(tài)等,都在論文中有著更詳細(xì)的介紹。
總結(jié)和挑戰(zhàn)
該綜述系統(tǒng)性地探討了大模型幻覺問題的評(píng)估、解釋和緩解策略,希望能給后續(xù)的研究人員以啟發(fā)。此外,大模型幻覺問題的研究也有著一些新的研究方向和挑戰(zhàn),如:
1. 可靠評(píng)估:大模型的幻覺問題的評(píng)估仍然留有大量挑戰(zhàn),比如怎樣設(shè)計(jì)健壯的、和人類偏好對(duì)齊的自動(dòng)指標(biāo),以及判別式和生成式評(píng)估方式的取舍和關(guān)系等。
2. 多語言和跨語言幻覺:大模型往往可被用于多語言和跨語言場(chǎng)景,但研究人員發(fā)現(xiàn),在英文上表現(xiàn)良好的大模型,在其他語言上可能出現(xiàn)幻覺。

3. 多模態(tài)幻覺:大語言模型的到來使研究者們開始研究多模態(tài)大模型,如語言和圖像、視頻、語音的結(jié)合。在這些多模態(tài)場(chǎng)景下,幻覺問題的研究迎來了新的定義和挑戰(zhàn)。

4. 模型編輯:模型編輯技術(shù)通過直接編輯大模型參數(shù),來改變它蘊(yùn)含的知識(shí),從而改變其行為。模型編輯可能是緩解幻覺的一種有潛力的方法。
5. 面向幻覺的攻防:盡管現(xiàn)有的商業(yè)大模型,如 GPT4,已經(jīng)在面向事實(shí)性問題時(shí)展現(xiàn)了良好的可靠性,但已有研究表明可以通過一些方式來繞過大模型的安全策略。面向幻覺的攻防也可能是一個(gè)有趣的研究方向。




































