偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI海洋中的海妖之歌:騰訊AI Lab大模型幻覺(jué)問(wèn)題綜述

人工智能 新聞
在古希臘的神話中,有一種名為塞壬 (Serin) 的海妖,她們通過(guò)美麗的歌喉制造幻像,誘導(dǎo)往來(lái)的船只觸礁沉沒(méi)。

大規(guī)模語(yǔ)言模型在眾多下游任務(wù)中展現(xiàn)了驚人的能力,但它們?cè)谑褂弥腥匀槐┞读艘恍﹩?wèn)題。其中,幻覺(jué)是目前影響大模型落地的重要問(wèn)題之一。ChatGPT 的發(fā)布使學(xué)術(shù)界和工業(yè)界關(guān)注大模型實(shí)際落地的潛能,大量關(guān)于幻覺(jué)的工作也開始涌現(xiàn)。

近期,騰訊 AI Lab 聯(lián)合國(guó)內(nèi)外多家學(xué)術(shù)機(jī)構(gòu)發(fā)布了面向大模型幻覺(jué)工作的綜述,對(duì)幻覺(jué)的評(píng)估、溯源、緩解等進(jìn)行了全面的探討。

圖片

  • 論文鏈接:https://arxiv.org/abs/2309.01219
  • Github 鏈接:https://github.com/HillZhang1999/llm-hallucination-survey

圖片

什么是大模型幻覺(jué)問(wèn)題?

根據(jù)相關(guān)工作和平時(shí)對(duì)大模型的使用體驗(yàn),研究人員總結(jié)了大模型常見的三類幻覺(jué):

  1. 和用戶輸入沖突的幻覺(jué) (Input-Conflicting Hallucination):大模型生成的回復(fù)違背了用戶輸入中的任務(wù)指示或者任務(wù)輸入。
  2. 和已生成的上下文沖突的幻覺(jué) (Context-Conflicting Hallucination):大模型生成的回復(fù)出現(xiàn)了自我矛盾。
  3. 和事實(shí)知識(shí)沖突的幻覺(jué) (Fact-Confilicting Hallucination):大模型生成的回復(fù)與公認(rèn)的事實(shí)知識(shí)出現(xiàn)了沖突。

圖片

在上述三類幻覺(jué)中,和事實(shí)知識(shí)沖突的幻覺(jué)是目前大模型幻覺(jué)研究的核心熱點(diǎn)。研究人員認(rèn)為是因?yàn)檫@一類幻覺(jué)研究的難度更大,對(duì)用戶實(shí)際使用體驗(yàn)的干擾也最大。例如,大模型在生成醫(yī)療建議時(shí)可能會(huì)捏造錯(cuò)誤的藥品劑量,誤導(dǎo)缺少專業(yè)醫(yī)學(xué)知識(shí)的用戶,產(chǎn)生風(fēng)險(xiǎn)。

大模型幻覺(jué)和傳統(tǒng)幻覺(jué)的主要區(qū)別在哪里?

在大模型時(shí)代前 (以 ChatGPT 的發(fā)布為節(jié)點(diǎn)),幻覺(jué)問(wèn)題在傳統(tǒng)的自然語(yǔ)言生成任務(wù)中也有一定的研究積累。研究人員總結(jié)了大模型幻覺(jué)和傳統(tǒng)幻覺(jué)研究的幾點(diǎn)重要區(qū)別:

  1. 大模型使用海量訓(xùn)練數(shù)據(jù):與傳統(tǒng)任務(wù)不同,大模型需要在海量數(shù)據(jù)上進(jìn)行大規(guī)模預(yù)訓(xùn)練。這些海量數(shù)據(jù)往往采集于互聯(lián)網(wǎng),可能包含大量偽造的、有偏見、過(guò)時(shí)的內(nèi)容,從而導(dǎo)致幻覺(jué)。由于數(shù)據(jù)規(guī)模過(guò)大,上述問(wèn)題內(nèi)容也難以分析和篩除。
  2. 大模型的通用性:傳統(tǒng)模型往往只面向單一的任務(wù),而大模型則被應(yīng)用于多任務(wù)、多語(yǔ)言、多領(lǐng)域的通用場(chǎng)景。大模型的通用性給幻覺(jué)的全面評(píng)估、消除帶來(lái)了全新挑戰(zhàn)。
  3. 大模型幻覺(jué)不易被察覺(jué):由于大模型的強(qiáng)悍能力,大模型生成的幻覺(jué)看上去非常合理,有的時(shí)候甚至人類都很難發(fā)現(xiàn)。
  4. 其他區(qū)別:大模型的一些新特性,例如額外引入的基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 過(guò)程、模糊的知識(shí)邊界、以及潛在的黑盒屬性,也給幻覺(jué)研究帶來(lái)了新的挑戰(zhàn)。

大模型幻覺(jué)如何評(píng)估

大模型幻覺(jué)問(wèn)題的研究基石是可靠的評(píng)估基準(zhǔn)。現(xiàn)有研究工作提出了多個(gè)針對(duì)性的評(píng)估基準(zhǔn),主要面向事實(shí)沖突類型的幻覺(jué)。研究人員從多個(gè)方面對(duì)這些基準(zhǔn)進(jìn)行了總結(jié)。

圖片


  1. 評(píng)估形式 (Evaluation):現(xiàn)有評(píng)估基準(zhǔn)往往有兩類方式評(píng)估大模型的幻覺(jué),即生成式 (generation) 和判別式 (discrimination)。生成式的基準(zhǔn)直接評(píng)估大模型生成回復(fù)中出現(xiàn)幻覺(jué)的傾向,而判別式的基準(zhǔn)則評(píng)估大模型判斷一段文本是否存在幻覺(jué)的能力。
  2. 應(yīng)用任務(wù) (Task Format):現(xiàn)有評(píng)估基準(zhǔn)在不同的下游任務(wù)中評(píng)估大模型的幻覺(jué)現(xiàn)象,例如問(wèn)答、指令遵循、文本續(xù)寫等。
  3. 評(píng)測(cè)指標(biāo) (Metrics):現(xiàn)有評(píng)估基準(zhǔn)各自設(shè)計(jì)了特殊的指標(biāo),用于判斷大模型出現(xiàn)幻覺(jué)的程度,包括:1)人工評(píng)估;2) 基于模型的自動(dòng)評(píng)估;3)基于規(guī)則的自動(dòng)評(píng)估。

大模型幻覺(jué)來(lái)源于什么

研究人員也對(duì)大模型產(chǎn)生幻覺(jué)的原因進(jìn)行了一些初步分析,例如:

  1. 大模型缺乏相關(guān)知識(shí)或者記憶錯(cuò)誤知識(shí):在大模型回答用戶問(wèn)題或者解決更復(fù)雜的下游任務(wù)時(shí),如果缺少了所需要的知識(shí)或者從訓(xùn)練數(shù)據(jù)中記憶了錯(cuò)誤的知識(shí),則有可能出現(xiàn)幻覺(jué)。
  2. 大模型高估了自己的能力:一些工作發(fā)現(xiàn),大模型往往無(wú)法準(zhǔn)確地估計(jì)自己的能力邊界。因此,大模型在回復(fù)超出自己能力的問(wèn)題時(shí),往往會(huì)高估自己,從而自信地編造幻覺(jué)回復(fù)。
  3. 對(duì)齊過(guò)程中引入幻覺(jué):大模型在預(yù)訓(xùn)練階段外,還需要進(jìn)行對(duì)齊,包括指令微調(diào)和 RLHF。這些步驟可能誤導(dǎo)大模型出現(xiàn)幻覺(jué)。例如不恰當(dāng)?shù)闹噶钗⒄{(diào)可能讓大模型學(xué)會(huì)捏造自己不會(huì)的答案,RLHF 也可能讓大模型學(xué)會(huì)為了討好人類而編造內(nèi)容。
  4. 生成過(guò)程中引入幻覺(jué):一些工作認(rèn)為,不恰當(dāng)?shù)纳刹呗砸部赡軐?dǎo)致大模型出現(xiàn)幻覺(jué)。例如,基于采樣的解碼生成方式中引入的隨機(jī)性被證明可能導(dǎo)致幻覺(jué),而大模型常用的自回歸生成方式也可能導(dǎo)致幻覺(jué)的累積傳播現(xiàn)象。

有什么方法可以緩解大模型幻覺(jué)

為了盡可能減少大模型的幻覺(jué)現(xiàn)象,從而促進(jìn)大模型的落地應(yīng)用,近期出現(xiàn)了大量新的研究工作嘗試緩解幻覺(jué)。針對(duì)緩解幻覺(jué)的方法貫穿了包括預(yù)訓(xùn)練、指令微調(diào)、強(qiáng)化學(xué)習(xí)以及推理在內(nèi)的整個(gè)大模型生命周期,研究人員對(duì)此進(jìn)行了如下總結(jié):

預(yù)訓(xùn)練階段的緩解

已有工作認(rèn)為,大模型的知識(shí)主要來(lái)自基于海量文本的自監(jiān)督預(yù)訓(xùn)練??紤]到錯(cuò)誤和缺失的知識(shí)可能導(dǎo)致幻覺(jué)的產(chǎn)生,預(yù)訓(xùn)練階段的幻覺(jué)緩解工作主要關(guān)注如何自動(dòng)提高預(yù)訓(xùn)練語(yǔ)料質(zhì)量。例如,Llama 2 在構(gòu)建預(yù)訓(xùn)練語(yǔ)料時(shí),特地對(duì)事實(shí)性更好的數(shù)據(jù)源 (如維基百科) 進(jìn)行了上采樣。

指令微調(diào)階段的緩解

在微調(diào)階段,現(xiàn)有工作也探討了如何提高指令微調(diào)數(shù)據(jù)的質(zhì)量,從而減少大模型的幻覺(jué)。與預(yù)訓(xùn)練階段的一個(gè)不同點(diǎn)在于,指令微調(diào)數(shù)據(jù)的規(guī)模較小,可以人工進(jìn)行清洗。

圖片

此外,OpenAI 也指出,指令微調(diào)階段存在著因?yàn)樾袨榭寺‖F(xiàn)象而導(dǎo)致幻覺(jué)的風(fēng)險(xiǎn)。這一現(xiàn)象代表:指令微調(diào)的數(shù)據(jù)中存在著超過(guò)大模型能力的樣本,如果一味地強(qiáng)迫大模型學(xué)習(xí)這類樣本,則有可能導(dǎo)致大模型學(xué)會(huì)對(duì)任何問(wèn)題都以非??隙ǖ恼Z(yǔ)氣進(jìn)行回復(fù)。那么反映到實(shí)際使用時(shí),大模型就會(huì)對(duì)自己不會(huì)的問(wèn)題捏造回復(fù),從而導(dǎo)致幻覺(jué)。

強(qiáng)化學(xué)習(xí)階段的緩解

圖片

針對(duì)行為克隆現(xiàn)象導(dǎo)致的幻覺(jué),OpenAI 的強(qiáng)化學(xué)習(xí)負(fù)責(zé)人 John Schulman 在伯克利大學(xué)的演講中分享了 OpenAI 在訓(xùn)練 ChatGPT 時(shí)緩解幻覺(jué)的一種方法。他們?cè)趶?qiáng)化學(xué)習(xí)時(shí),給大模型不同語(yǔ)氣回復(fù)的錯(cuò)誤以不同的懲罰力度。這樣做的目的是鼓勵(lì)大模型表達(dá)不確定性、質(zhì)疑問(wèn)題、承認(rèn)錯(cuò)誤,從而緩解過(guò)度自信而出現(xiàn)幻覺(jué)。

圖片

雖然強(qiáng)化學(xué)習(xí)通過(guò)讓模型學(xué)會(huì)拒絕回答問(wèn)題一定程度上緩解了幻覺(jué),但也帶來(lái)了額外的問(wèn)題。由于強(qiáng)化學(xué)習(xí)主要依賴獎(jiǎng)勵(lì)模型提供監(jiān)督信號(hào),然而獎(jiǎng)勵(lì)模型并不能達(dá)到 100% 的準(zhǔn)確率,導(dǎo)致生成模型可能被過(guò)優(yōu)化 (over-optimization)。這種情況下,大模型會(huì)過(guò)度保守,拒絕回答一些它本可以回答正確的問(wèn)題。

推理階段的緩解

由于在推理階段幻覺(jué)最為靈活,許多現(xiàn)有工作集中于此方向。代表性的做法有:

1. 改進(jìn)解碼策略:研究人員嘗試通過(guò)設(shè)計(jì)更好的解碼策略來(lái)緩解幻覺(jué),例如 Inference-Time-Intervention 方法在解碼時(shí)通過(guò)讓模型激活值在和事實(shí)性更為相關(guān)的注意力頭上傳播,從而緩解幻覺(jué)。

2. 借助外部知識(shí):通過(guò)在模型解碼時(shí),檢索和用戶問(wèn)題相關(guān)的知識(shí),讓模型在回復(fù)時(shí)予以參考,可以顯著解決幻覺(jué)問(wèn)題。這里的知識(shí)源可以是無(wú)結(jié)構(gòu)文本、結(jié)構(gòu)化文本 (網(wǎng)頁(yè)或數(shù)據(jù)庫(kù)),甚至是各類工具。

圖片

檢索到相關(guān)知識(shí)后,一類做法是直接在模型生成回復(fù)時(shí)提供給模型。另一類做法是在模型生成回復(fù)后,提供給模型,讓模型自我糾正先前回復(fù)中存在的幻覺(jué)。

圖片

3. 度量不確定性:通過(guò)衡量大模型輸出回復(fù)時(shí)的不確定度 (uncertainty),可以使用戶了解到回復(fù)中哪些部分是不能信任的。常見的不確定度度量方法有:1)基于輸出分?jǐn)?shù)的;2) 基于描述的;3)基于一致性的。

圖片


此外,還有更多的緩解方案,如多智能體交互、指令設(shè)計(jì)、人在回路、分析模型內(nèi)部狀態(tài)等,都在論文中有著更詳細(xì)的介紹。

總結(jié)和挑戰(zhàn)

該綜述系統(tǒng)性地探討了大模型幻覺(jué)問(wèn)題的評(píng)估、解釋和緩解策略,希望能給后續(xù)的研究人員以啟發(fā)。此外,大模型幻覺(jué)問(wèn)題的研究也有著一些新的研究方向和挑戰(zhàn),如:

1. 可靠評(píng)估:大模型的幻覺(jué)問(wèn)題的評(píng)估仍然留有大量挑戰(zhàn),比如怎樣設(shè)計(jì)健壯的、和人類偏好對(duì)齊的自動(dòng)指標(biāo),以及判別式和生成式評(píng)估方式的取舍和關(guān)系等。

2. 多語(yǔ)言和跨語(yǔ)言幻覺(jué):大模型往往可被用于多語(yǔ)言和跨語(yǔ)言場(chǎng)景,但研究人員發(fā)現(xiàn),在英文上表現(xiàn)良好的大模型,在其他語(yǔ)言上可能出現(xiàn)幻覺(jué)。

圖片

3. 多模態(tài)幻覺(jué):大語(yǔ)言模型的到來(lái)使研究者們開始研究多模態(tài)大模型,如語(yǔ)言和圖像、視頻、語(yǔ)音的結(jié)合。在這些多模態(tài)場(chǎng)景下,幻覺(jué)問(wèn)題的研究迎來(lái)了新的定義和挑戰(zhàn)。

圖片

4. 模型編輯:模型編輯技術(shù)通過(guò)直接編輯大模型參數(shù),來(lái)改變它蘊(yùn)含的知識(shí),從而改變其行為。模型編輯可能是緩解幻覺(jué)的一種有潛力的方法。

5. 面向幻覺(jué)的攻防:盡管現(xiàn)有的商業(yè)大模型,如 GPT4,已經(jīng)在面向事實(shí)性問(wèn)題時(shí)展現(xiàn)了良好的可靠性,但已有研究表明可以通過(guò)一些方式來(lái)繞過(guò)大模型的安全策略。面向幻覺(jué)的攻防也可能是一個(gè)有趣的研究方向。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-06-19 16:11:22

2025-03-12 12:10:13

2025-06-13 08:06:41

2024-08-05 09:14:14

2025-01-17 13:53:11

AI大模型檢測(cè)工具

2024-08-20 07:47:12

AI零代碼網(wǎng)關(guān)

2023-06-05 10:09:03

研究人工智能

2023-05-24 15:15:55

2022-03-25 15:07:05

神經(jīng)網(wǎng)絡(luò)AI數(shù)據(jù)

2025-05-08 06:00:00

AI幻覺(jué)AI人工智能

2024-12-25 08:02:17

人工智能AI運(yùn)維

2023-05-10 14:40:40

AI模型算力

2021-08-03 13:45:15

AI 數(shù)據(jù)人工智能

2023-05-16 12:11:22

2025-04-22 08:08:37

2023-08-03 10:59:49

人工智能

2018-03-17 17:33:13

云計(jì)算AI人工智能

2024-01-04 16:41:29

大型語(yǔ)言模型自然語(yǔ)言處理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)