LLM幻覺(jué)問(wèn)題全梳理!哈工大團(tuán)隊(duì)50頁(yè)綜述重磅發(fā)布
幻覺(jué),老朋友了。
自打LLM進(jìn)入我們的視野,幻覺(jué)問(wèn)題就一直是一道坎,困擾著無(wú)數(shù)開(kāi)發(fā)人員。
當(dāng)然,有關(guān)大語(yǔ)言模型幻覺(jué)的問(wèn)題已經(jīng)有了無(wú)數(shù)研究。
最近,來(lái)自哈工大和華為的團(tuán)隊(duì)發(fā)表了一篇50頁(yè)的大綜述,對(duì)有關(guān)LLM幻覺(jué)問(wèn)題的最新進(jìn)展來(lái)了一個(gè)全面而深入的概述。
這篇綜述從LLM幻覺(jué)的創(chuàng)新分類方法出發(fā),深入探究了可能導(dǎo)致幻覺(jué)的因素,并對(duì)檢測(cè)幻覺(jué)的方法和基準(zhǔn)進(jìn)行了概述。
這其中肯定也少不了業(yè)內(nèi)比較有代表性的減輕幻覺(jué)的方法。
論文地址:https://arxiv.org/abs/2311.05232
下面,我們就來(lái)看一看本篇綜述中主要講了些什么內(nèi)容。
想深入學(xué)習(xí)的朋友,可以移步文章底部的參考鏈接,閱讀論文原文。
幻覺(jué)大分類
首先,先來(lái)看看有哪些種類的幻覺(jué)。
上圖中,左邊是事實(shí)性的幻覺(jué)。當(dāng)LLM被問(wèn)到誰(shuí)是第一個(gè)在月球上漫步的人時(shí),LLM編了個(gè)人物出來(lái),甚至還說(shuō)得有模有樣。
右邊則是文本摘要模型中的忠實(shí)度問(wèn)題,可以看到LLM在看到這段新聞后,直接把年份概括錯(cuò)了。
在本篇綜述中,研究人員深入分析了LLM中幻覺(jué)的起源,涵蓋了從數(shù)據(jù)、訓(xùn)練到推理階段的一系列促成因素。
在這一框架內(nèi),研究人員指出了與數(shù)據(jù)相關(guān)的潛在原因。例如,有缺陷的數(shù)據(jù)源和未優(yōu)化的數(shù)據(jù)利用,或是在預(yù)訓(xùn)練和對(duì)齊過(guò)程中可能會(huì)誘發(fā)幻覺(jué)的訓(xùn)練策略,以及源于解碼策略的隨機(jī)性和推理過(guò)程中不完善的表征等等。
此外,研究人員還全面概述了專為檢測(cè)LLM中的幻覺(jué)而設(shè)計(jì)的各種有效方法,以及與LLM幻覺(jué)相關(guān)的基準(zhǔn)的詳盡概述,和作為評(píng)估LLM產(chǎn)生幻覺(jué)的程度和檢測(cè)方法有效性的試驗(yàn)平臺(tái)。
下圖即為本篇綜述所涉及到的內(nèi)容、前人研究,以及論文。
下圖是一張更為詳細(xì)的LLM幻覺(jué)種類圖。
在事實(shí)型幻覺(jué)和忠實(shí)度幻覺(jué)下,還包括更為細(xì)致的分類。
事實(shí)型幻覺(jué):
a)事實(shí)不一致
當(dāng)問(wèn)LLM,誰(shuí)是第一位登月的人時(shí),LLM回答說(shuō)是加加林,而非阿姆斯特朗。這種屬于答案與事實(shí)不一致,因?yàn)榇_有加加林其人,所以不屬于捏造。
b)事實(shí)捏造
當(dāng)讓LLM介紹一下獨(dú)角獸的起源時(shí),LLM并沒(méi)有指出世界上沒(méi)有獨(dú)角獸這種生物,反倒是編了一大段。這種現(xiàn)實(shí)世界中沒(méi)有的,稱之為捏造。
忠實(shí)度幻覺(jué)又包括:指令-答案的不一致、文本不一致,以及邏輯不一致。
a)指令-答案不一致
當(dāng)LLM被要求翻譯一個(gè)問(wèn)句時(shí),LLM輸出的答案實(shí)際上回答了問(wèn)題,沒(méi)有進(jìn)行翻譯。因此是一種指令和答案的不一致。
b)文本不一致
這類不一致更多出現(xiàn)在概括類任務(wù)中。LLM可能會(huì)罔顧給出的文本,總結(jié)一個(gè)錯(cuò)的出來(lái)。
c)邏輯不一致
在被要求給出2x+3=11的方程解法時(shí),第一步LLM指出,兩邊同時(shí)減去3,得到2x=8.接下來(lái)在兩邊除以2的操作中,LLM輸出的答案是3.
8除以2怎么會(huì)等于3呢?
幻覺(jué)產(chǎn)生原理
數(shù)據(jù)
接下來(lái),綜述開(kāi)始梳理有關(guān)幻覺(jué)產(chǎn)生原理的內(nèi)容。
第一類,數(shù)據(jù)問(wèn)題。
·錯(cuò)誤信息和偏見(jiàn)。鑒于對(duì)大規(guī)模語(yǔ)料庫(kù)的需求日益增長(zhǎng),啟發(fā)式數(shù)據(jù)收集方法被用來(lái)有效收集大量數(shù)據(jù)。
這種方法在提供大量數(shù)據(jù)的同時(shí),可能會(huì)無(wú)意中引入錯(cuò)誤信息,增加出現(xiàn)模仿性錯(cuò)誤的風(fēng)險(xiǎn)。此外,社會(huì)偏見(jiàn)也會(huì)在無(wú)意中被引入LLMs的學(xué)習(xí)過(guò)程。
這些偏差主要包括重復(fù)偏差和各種社會(huì)偏差(Social Biases)。
要知道,LLM預(yù)訓(xùn)練的主要目的是模仿訓(xùn)練分布。所以當(dāng)LLM在事實(shí)不正確的數(shù)據(jù)上接受訓(xùn)練時(shí),它們可能會(huì)無(wú)意中放大這些不準(zhǔn)確的數(shù)據(jù),從而可能導(dǎo)致事實(shí)不正確的幻覺(jué)。
神經(jīng)網(wǎng)絡(luò),尤其是大型語(yǔ)言模型,具有記憶訓(xùn)練數(shù)據(jù)的內(nèi)在傾向。研究表明,這種記憶趨勢(shì)會(huì)隨著模型規(guī)模的擴(kuò)大而增強(qiáng)。
然而,在預(yù)訓(xùn)練數(shù)據(jù)中存在重復(fù)信息的情況下,固有的記憶能力就會(huì)出現(xiàn)問(wèn)題。這種重復(fù)會(huì)使 LLM 從泛化轉(zhuǎn)向記憶,最終產(chǎn)生重復(fù)偏差,即LLM會(huì)過(guò)度優(yōu)先回憶重復(fù)的數(shù)據(jù),導(dǎo)致幻覺(jué),最終偏離所需的內(nèi)容。
除了這些偏見(jiàn),數(shù)據(jù)分布的差異也是產(chǎn)生幻覺(jué)的潛在原因。
下一種情況是,LLM通常會(huì)存在知識(shí)邊界。
雖然大量的預(yù)培訓(xùn)語(yǔ)料庫(kù)為法律碩士提供了廣泛的事實(shí)知識(shí),但它們本身也有局限性。這種局限性主要體現(xiàn)在兩個(gè)方面:缺乏最新的事實(shí)知識(shí)和專業(yè)領(lǐng)域知識(shí)。
雖說(shuō)LLM在通用領(lǐng)域的各種下游任務(wù)中表現(xiàn)出了卓越的性能,但由于這些通用型LLMs主要是在廣泛的公開(kāi)數(shù)據(jù)集上進(jìn)行訓(xùn)練,它們?cè)趯I(yè)領(lǐng)域的專業(yè)知識(shí)受到缺乏相關(guān)訓(xùn)練數(shù)據(jù)的內(nèi)在限制。
因此,當(dāng)遇到需要特定領(lǐng)域知識(shí)的問(wèn)題時(shí),如醫(yī)學(xué)和法律問(wèn)題,這些模型可能會(huì)表現(xiàn)出明顯的幻覺(jué),通常表現(xiàn)為捏造事實(shí)。
此外,還有過(guò)時(shí)的事實(shí)知識(shí)。除了特定領(lǐng)域知識(shí)的不足,LLMs知識(shí)邊界的另一個(gè)內(nèi)在限制是其獲取最新知識(shí)的能力有限。
蘊(yùn)含在LLM中的事實(shí)知識(shí)具有明確的時(shí)間界限,隨著時(shí)間的推移可能會(huì)過(guò)時(shí)。
這些模型一旦經(jīng)過(guò)訓(xùn)練,其內(nèi)部知識(shí)就永遠(yuǎn)不會(huì)更新。
而鑒于我們這個(gè)世界的動(dòng)態(tài)性和不斷變化的本質(zhì),這就構(gòu)成了一個(gè)挑戰(zhàn)。當(dāng)面對(duì)超越其時(shí)間范圍的領(lǐng)域知識(shí)時(shí),LLMs往往會(huì)采用捏造事實(shí)或提供過(guò)去可能正確,但現(xiàn)在已經(jīng)過(guò)時(shí)的答案的方法來(lái)試圖「蒙混過(guò)關(guān)」。
下圖中,上半部分即為L(zhǎng)LM缺失特定領(lǐng)域內(nèi)的專業(yè)知識(shí)——phenylketonuria(苯丙酮尿)。
下半部分即為最簡(jiǎn)單的一個(gè)知識(shí)過(guò)時(shí)的案例。2018年韓國(guó)平昌舉辦冬奧會(huì),2022年北京舉辦冬奧會(huì)。LLM并沒(méi)有有關(guān)后者的知識(shí)儲(chǔ)備。
由此可見(jiàn),LLM中與數(shù)據(jù)有關(guān)的幻覺(jué)主要源于錯(cuò)誤的數(shù)據(jù)源和不佳的數(shù)據(jù)利用情況。數(shù)據(jù)源中的錯(cuò)誤信息和固有偏差不僅會(huì)傳播模仿性虛假信息,還會(huì)引入有偏差的輸出,從而導(dǎo)致各種形式的幻覺(jué)。
在處理特定領(lǐng)域的知識(shí)或遇到快速更新的事實(shí)知識(shí)時(shí),LLM所擁有知識(shí)的局限性就會(huì)變得很明顯。
在數(shù)據(jù)利用方面,LLMs 往往會(huì)捕捉到虛假的相關(guān)性,在回憶知識(shí)(尤其是長(zhǎng)尾信息)和復(fù)雜推理場(chǎng)景中表現(xiàn)出困難,從而進(jìn)一步加劇幻覺(jué)。
這些挑戰(zhàn)突出表明,亟需提高數(shù)據(jù)質(zhì)量,增強(qiáng)模型更有效地學(xué)習(xí)和回憶事實(shí)知識(shí)的能力。
訓(xùn)練
現(xiàn)在,綜述把目光轉(zhuǎn)向LLM的訓(xùn)練階段。
LLM的訓(xùn)練過(guò)程主要包括兩個(gè)主要階段:
預(yù)訓(xùn)練階段,LLMs在這一階段學(xué)習(xí)通用表征并捕捉廣泛的知識(shí)。
對(duì)齊階段,LLMs在這一階段進(jìn)行調(diào)整,以更好地使用戶指令和人類的基本價(jià)值觀保持一致。雖然這一過(guò)程使LLM 具備了還算不錯(cuò)的性能,但這些階段中的任何不足都可能無(wú)意中導(dǎo)致幻覺(jué)的發(fā)生。
預(yù)訓(xùn)練是LLM的基礎(chǔ)階段,通常采用基于transformer的架構(gòu),在龐大的語(yǔ)料庫(kù)中進(jìn)行因果語(yǔ)言建模。
然而,固有的架構(gòu)設(shè)計(jì)和研究人員所采用的特定訓(xùn)練策略,可能會(huì)產(chǎn)生與幻覺(jué)相關(guān)的問(wèn)題。如上所說(shuō),LLM通常采用基于transformer的架構(gòu),遵循GPT建立的范式,它們通過(guò)因果語(yǔ)言建模目標(biāo)獲取表征,OPT和Llama-2等模型都是這一框架的典范。
除了結(jié)構(gòu)缺陷,訓(xùn)練策略也起著至關(guān)重要的作用。值得注意的是,自回歸生成模型的訓(xùn)練和推理之間的差異導(dǎo)致了暴露偏差(Exposure Bias)現(xiàn)象。
而在對(duì)齊階段,一般涉及兩個(gè)主要過(guò)程,即監(jiān)督微調(diào)和從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF),是釋放LLM能力并使其符合人類偏好的關(guān)鍵一步。
雖然對(duì)齊能顯著提高 LLM 響應(yīng)的質(zhì)量,但也會(huì)帶來(lái)產(chǎn)生幻覺(jué)的風(fēng)險(xiǎn)。
主要分為兩方面:能力不對(duì)齊和信念不對(duì)齊(Capability Misalignment、Belief Misalignment)。
如何檢測(cè)幻覺(jué)?
檢測(cè)LLM中的幻覺(jué)對(duì)于確保生成內(nèi)容的可靠性和可信度來(lái)說(shuō)至關(guān)重要。
傳統(tǒng)的衡量標(biāo)準(zhǔn)主要依賴于詞語(yǔ)重疊,無(wú)法區(qū)分可信內(nèi)容和幻覺(jué)內(nèi)容之間的細(xì)微差別。
這一挑戰(zhàn)凸顯了針對(duì)LLM幻覺(jué)采用更先進(jìn)的檢測(cè)方法的必要性。研究人員指出,鑒于這些幻覺(jué)的多樣性,檢測(cè)方法也相應(yīng)地有所不同。
這里僅詳細(xì)介紹一例——
·檢索外部事實(shí)
如下圖所示,為了有效地指出LLM輸出中不準(zhǔn)確的事實(shí),一種比較直觀的策略是,直接將模型生成的內(nèi)容與可靠的知識(shí)來(lái)源進(jìn)行比較。
這種方法與事實(shí)檢查任務(wù)的工作流程非常吻合。然而,傳統(tǒng)的事實(shí)核查方法往往出于實(shí)用性考慮而采用了簡(jiǎn)化假設(shè),導(dǎo)致在應(yīng)用于復(fù)雜的現(xiàn)實(shí)世界場(chǎng)景時(shí)有可能會(huì)出現(xiàn)偏差。
在認(rèn)識(shí)到這些限制因素以后,一些研究者提出,要更加重視真實(shí)世界的場(chǎng)景,即從時(shí)間受限、未經(jīng)整理的網(wǎng)絡(luò)資源中獲取證據(jù)。
他們首創(chuàng)了一種全自動(dòng)的工作流,集成多個(gè)組成部分,包括原始文檔檢索、細(xì)粒度檢索、真實(shí)性分類等等。
當(dāng)然,還有不少其他研究者提出了另外一些辦法,比如FACTSCORE,專門用于長(zhǎng)文本生成的細(xì)粒度事實(shí)度量。
其它方法還包括不確定性估計(jì),如下圖所示。
有關(guān)忠實(shí)度幻覺(jué)的檢測(cè),也有不少相關(guān)研究,如下圖所示。
其中包括基于事實(shí)度量:通過(guò)檢測(cè)生成內(nèi)容與源內(nèi)容之間的事實(shí)重疊度來(lái)評(píng)估忠實(shí)度。
基于分類器的度量:利用經(jīng)過(guò)訓(xùn)練的分類器來(lái)區(qū)分生成內(nèi)容與源內(nèi)容之間的關(guān)聯(lián)程度。
基于QA的度量方法:利用問(wèn)題解答系統(tǒng)來(lái)驗(yàn)證源內(nèi)容與生成內(nèi)容之間的信息一致性。
不確定性估計(jì):通過(guò)測(cè)量模型對(duì)其生成輸出的置信度來(lái)評(píng)估忠實(shí)度。
基于prompt的度量方法:讓LLM充當(dāng)評(píng)估者,通過(guò)特定的prompt策略來(lái)評(píng)估生成內(nèi)容的忠實(shí)度。
之后,哈工大團(tuán)隊(duì)還將較為前沿的減輕幻覺(jué)的方法進(jìn)行了整理,針對(duì)上述提到的各類問(wèn)題,分別提供可行的解決辦法。
總結(jié)
總而言之,在論文的最后,哈工大的研究人員表示,在這份全面的綜述中,他們對(duì)大型語(yǔ)言模型中的幻覺(jué)現(xiàn)象進(jìn)行了深入研究,深入探討了其潛在原因的復(fù)雜性、開(kāi)創(chuàng)性的檢測(cè)方法和相關(guān)基準(zhǔn),以及有效的緩解策略。
雖然開(kāi)發(fā)者們?cè)谶@個(gè)問(wèn)題上已經(jīng)有了不少進(jìn)步,但大型語(yǔ)言模型中的幻覺(jué)問(wèn)題仍然是一個(gè)令人關(guān)注的持續(xù)性問(wèn)題,需要繼續(xù)研究。
此外,本篇論文還可以作為推進(jìn)安全可信的AI的指路明燈。
哈工大團(tuán)隊(duì)表示,希望通過(guò)對(duì)幻覺(jué)這一復(fù)雜問(wèn)題的探索,為這些有志之士提供寶貴的見(jiàn)解,推動(dòng)AI技術(shù)向更可靠、更安全的方向發(fā)展。