OpenAI翁荔提出大模型「外在幻覺」:萬字blog詳解抵抗辦法、產(chǎn)幻原因和檢測(cè)方式
大模型幻覺還分內(nèi)在、外在了——
OpenAI華人科學(xué)家翁荔最新Blog,提出LLM外在幻覺(extrinsic hallucination)。

有別于代指模型生成與現(xiàn)實(shí)不符、虛構(gòu)、不一致或者毫無意義的內(nèi)容,翁荔將LLM“幻覺”問題具體化為模型輸出內(nèi)容是虛構(gòu)的,并且不基于所提供的上下文或世界知識(shí)。
由此,幻覺有兩種類型:
- 上下文內(nèi)幻覺:模型輸出應(yīng)該與上下文中的源內(nèi)容一致(出現(xiàn)上下文內(nèi)幻覺時(shí),輸出與源內(nèi)容不一致)。
- 外在幻覺:模型輸出應(yīng)該基于預(yù)訓(xùn)練數(shù)據(jù)集。然而,考慮到預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模,檢索并識(shí)別每次生成的沖突成本過高。如果將預(yù)訓(xùn)練數(shù)據(jù)集看作是世界知識(shí)的象征,那么本質(zhì)上是試圖確保模型輸出是事實(shí)性的并可以通過外部世界知識(shí)進(jìn)行驗(yàn)證。同樣重要的是,當(dāng)模型不了解某個(gè)事實(shí)時(shí),它應(yīng)該明確表示不知道。

之前,翁荔還提出過Agent公式:Agent=大模型+記憶+主動(dòng)規(guī)劃+工具使用,被一些網(wǎng)友稱為是“看到的有關(guān)Agent的最好的文章”。


而這次關(guān)于大模型幻覺的這篇Blog,同樣“重工”,文章超長(zhǎng),足足24篇參考文獻(xiàn):

翁荔重點(diǎn)關(guān)注外在幻覺,討論了三個(gè)問題:產(chǎn)生幻覺的原因是什么?幻覺檢測(cè),抵抗幻覺的方法。

量子位在不改變?cè)獾那闆r下,對(duì)原文進(jìn)行了編譯整理。
量子位已獲原作者授權(quán)翻譯轉(zhuǎn)載。
原文在這里:
https://lilianweng.github.io/posts/2024-07-07-hallucination/
產(chǎn)生幻覺的原因是什么?
考慮到一個(gè)標(biāo)準(zhǔn)的可部署LLM需要經(jīng)過預(yù)訓(xùn)練和微調(diào)來進(jìn)行對(duì)齊和改進(jìn),所以原因分析從這兩個(gè)階段入手。
預(yù)訓(xùn)練數(shù)據(jù)問題
預(yù)訓(xùn)練數(shù)據(jù)集旨在代表所有可獲得的書面形式的世界知識(shí),因此體量巨大。
從公共互聯(lián)網(wǎng)爬取數(shù)據(jù)是最常見的選擇,但這就導(dǎo)致可能會(huì)出現(xiàn)一些過時(shí)、缺失或錯(cuò)誤的信息。由于模型可能僅僅通過最大化對(duì)數(shù)似然來錯(cuò)誤地記憶這些信息,所以模型可能會(huì)犯錯(cuò)誤。
微調(diào)新知識(shí)
通過監(jiān)督微調(diào)(SFT)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)來微調(diào)預(yù)訓(xùn)練LLM是提高模型某些能力(例如指令跟蹤)的常用技術(shù)。微調(diào)階段難免引入新知識(shí)。
而微調(diào)通常消耗的計(jì)算資源較少,通過小規(guī)模的微調(diào)模型是否能可靠地學(xué)習(xí)新知識(shí)還有待商榷。
Gekhman等人在今年的一項(xiàng)研究中討論了一個(gè)問題:用新知識(shí)進(jìn)行LLM微調(diào)是否會(huì)促使幻覺現(xiàn)象的發(fā)生。
他們發(fā)現(xiàn):LLM學(xué)習(xí)帶有新知識(shí)的微調(diào)示例,要比學(xué)習(xí)與模型預(yù)先存在的知識(shí)一致的示例,學(xué)得更慢;一旦學(xué)習(xí)了這些帶有新知識(shí)的示例,模型產(chǎn)生幻覺的傾向就會(huì)增加。
具體來說,給定一個(gè)封閉式問答數(shù)據(jù)集(即EntityQuestions)??=(??,??),將??Correct(??,??;??,??) 定義為模型M準(zhǔn)確生成正確答案的可能性的估計(jì),當(dāng)使用隨機(jī)示例和一定的解碼溫度??來提示時(shí),問題??的正確答案是??。
他們根據(jù)??Correct(??,??;??,??) 不同條件將示例分為4個(gè)類別:Known組(包括三個(gè)子組:HighlyKnown、MaybeKnown、WeakKnown)、Unknown組。

實(shí)驗(yàn)中的一些有趣觀察,其中驗(yàn)證集(dev set)的準(zhǔn)確率被視為幻覺的象征性指標(biāo):
- Unknown擬合速度明顯比Known慢得多;
- 當(dāng)LLM擬合了大多數(shù)Known訓(xùn)練示例,但只擬合了少數(shù)Unknown示例時(shí),可以獲得最佳表現(xiàn);
- 當(dāng)大多數(shù)Unknown示例被學(xué)習(xí)后,模型開始產(chǎn)生幻覺。

這些來自Gekhman等人的研究結(jié)果,指出了使用監(jiān)督微調(diào)來更新LLM知識(shí)的風(fēng)險(xiǎn)。
幻覺檢測(cè)
檢索增強(qiáng)評(píng)估
為量化模型的幻覺現(xiàn)象,Lee等人2022年引入了一個(gè)新的基準(zhǔn)數(shù)據(jù)集FactualityPrompt,該數(shù)據(jù)集包含了事實(shí)性和非事實(shí)性的提示,使用維基百科文檔或句子作為事實(shí)性的基礎(chǔ)知識(shí)庫(kù)。
維基百科文檔是來自FEVER數(shù)據(jù)集的已知真實(shí)信息,而句子則是通過tf-idf或基于句子嵌入的相似度選擇的。

在給定模型續(xù)寫和配對(duì)的維基百科文本的情況下,考慮了兩種評(píng)估幻覺的指標(biāo):幻覺命名實(shí)體(NE)錯(cuò)誤率、蘊(yùn)含比率(Entailment ratios)。
較高的NE錯(cuò)誤率和較低的蘊(yùn)含比率表明事實(shí)性較高,研究發(fā)現(xiàn)這兩個(gè)指標(biāo)都與人類注釋相關(guān),較大模型在此基準(zhǔn)上表現(xiàn)更佳。
此外,Min等人2023提出了FActScore,將長(zhǎng)文生成分解成多個(gè)原子事實(shí),并根據(jù)維基百科等知識(shí)庫(kù)單獨(dú)驗(yàn)證每個(gè)事實(shí)。然后可以測(cè)量每個(gè)模型生成的知識(shí)來源支持的句子的比率(精度),F(xiàn)ActScore是一組提示中模型生成的平均精度。
該論文在人物傳記生成任務(wù)上試驗(yàn)了多種事實(shí)性驗(yàn)證方式,發(fā)現(xiàn)使用檢索比無上下文LLM具有更好的一致性。在檢索增強(qiáng)方法中,最佳估計(jì)器的選擇取決于模型。
- 無上下文LLM:直接使用“True or False?”提示LLM,無需附加上下文
- 檢索→LLM:以從知識(shí)來源檢索的??相關(guān)段落作為上下文進(jìn)行提示
- 非參數(shù)概率 (NP):通過掩碼LM計(jì)算原子事實(shí)中標(biāo)記的平均似然度,并用其進(jìn)行預(yù)測(cè)
- 檢索→LLM+NP:兩種方法的集成
關(guān)于模型幻覺行為的一些有趣的觀察:
- 在傳記生成任務(wù)中,越稀有的實(shí)體的錯(cuò)誤率越高
- 在生成內(nèi)容中較晚提及的事實(shí)的錯(cuò)誤率也較高
- 使用檢索來為模型生成提供基礎(chǔ)可以顯著幫助減少幻覺現(xiàn)象
Wei等人2024年還提出了一種評(píng)估LLM長(zhǎng)篇事實(shí)性的方法,名為SAFE(Search-Augmented Factuality Evaluator)。
與FActScore相比,主要區(qū)別在于SAFE使用語(yǔ)言模型作為Agent,通過多步驟過程迭代地發(fā)出谷歌搜索查詢,并推理搜索結(jié)果是支持還是不支持該事實(shí)。
在每一步中,Agent基于待檢查的事實(shí)以及之前獲得的搜索結(jié)果生成搜索查詢。經(jīng)過若干步驟后,模型進(jìn)行推理以確定該事實(shí)是否得到搜索結(jié)果的支持。
根據(jù)實(shí)驗(yàn),盡管SAFE方法的成本比人類注釋低20倍,但其效果卻優(yōu)于人類注釋:與人類的一致率為72%,在意見不一致時(shí)勝過人類的比率為76%。

SAFE評(píng)估指標(biāo)是F1@K。對(duì)于長(zhǎng)篇事實(shí)性的模型響應(yīng),理想情況下應(yīng)同時(shí)達(dá)到精確度和召回率,因?yàn)轫憫?yīng)應(yīng)同時(shí)滿足:
- 事實(shí)性的:通過精確度衡量,即整個(gè)響應(yīng)中被支持的事實(shí)占所有事實(shí)的百分比。
- 長(zhǎng)篇的:通過召回率衡量,即提供的事實(shí)占應(yīng)出現(xiàn)在響應(yīng)中的所有相關(guān)事實(shí)的百分比。因此,要考慮最多支持的事實(shí)數(shù)量??。
給定模型響應(yīng)??,指標(biāo)F1@K定義為:


另外,Chern等人2023年提出了遵循標(biāo)準(zhǔn)的事實(shí)核查工作流程FacTool。它旨在檢測(cè)包括基于知識(shí)的問答、代碼生成、解決數(shù)學(xué)問題以及科學(xué)文獻(xiàn)審查等多種任務(wù)中的事實(shí)錯(cuò)誤。步驟包括:
- 聲明提?。和ㄟ^提示LLM提取所有可驗(yàn)證的聲明。
- 查詢生成:將每個(gè)聲明轉(zhuǎn)換為適合外部工具的一系列查詢,例如搜索引擎查詢、單元測(cè)試用例、代碼片段和論文標(biāo)題。
- 工具查詢與證據(jù)收集:查詢外部工具,如搜索引擎、代碼解釋器、谷歌學(xué)術(shù),并獲取返回結(jié)果。
- 一致性驗(yàn)證:根據(jù)外部工具提供的證據(jù)支持程度,為每個(gè)聲明分配一個(gè)二進(jìn)制的事實(shí)性標(biāo)簽。

基于采樣的檢測(cè)
Manakul等人2023年提出了依賴于對(duì)來自黑盒LLM的多個(gè)樣本進(jìn)行一致性檢查——SelfCheckGPT,以識(shí)別事實(shí)性錯(cuò)誤。
考慮到灰盒事實(shí)核查測(cè)量需要訪問LLM的token級(jí)別的logprob,SelfCheckGPT僅需使用不依賴外部知識(shí)庫(kù)的樣本,因此黑盒訪問就足夠了,無需外部知識(shí)庫(kù)。
該方法使用不同的指標(biāo)來衡量模型響應(yīng)與其它隨機(jī)模型樣本之間的一致性,包括BERTScore、NLI、提示(詢問是/否)等。在對(duì)GPT-3生成的WikiBio段落進(jìn)行實(shí)驗(yàn)檢測(cè)時(shí),使用提示的SelfCheckGPT似乎表現(xiàn)最佳。

校準(zhǔn)未知知識(shí)
讓模型對(duì)無法回答或未知問題生成答案可能會(huì)引發(fā)幻覺。TruthfulQA(Lin等人,2021年)和SelfAware(Yin等人,2023年)是兩個(gè)基準(zhǔn)測(cè)試,用以衡量模型在這類情況下生成真實(shí)回應(yīng)的能力,前者是為了強(qiáng)調(diào)人類的錯(cuò)誤而對(duì)抗性構(gòu)建的,后者包含了因其性質(zhì)而無法回答的問題。
面對(duì)這些問題時(shí),模型應(yīng)該拒絕回答或提供相關(guān)信息。
在TruthfulQA中,測(cè)試問題是根據(jù)人類常見的誤解或錯(cuò)誤對(duì)抗性地設(shè)計(jì)的。這個(gè)基準(zhǔn)包含了覆蓋健康、法律、金融和政治等38個(gè)話題的817個(gè)問題。
在進(jìn)行測(cè)試時(shí),最佳LLM的準(zhǔn)確率為58%,而人類可以達(dá)到94%。研究團(tuán)隊(duì)發(fā)現(xiàn),由于常見的誤解,較大的模型不太真實(shí),但這種趨勢(shì)并未在其它標(biāo)準(zhǔn)(非對(duì)抗性)事實(shí)基準(zhǔn)中顯示出來。
以下是GPT-3在TruthfulQA上的錯(cuò)誤答案示例:

Yin等人2023年研究了SelfAware的概念,指的是語(yǔ)言模型是否知道它們知道什么或不知道什么。
SelfAware包含了五個(gè)類別中的1032個(gè)無法回答的問題和2337個(gè)可回答的問題。無法回答的問題來源于在線論壇并附有人類注釋,可回答的問題來源于SQuAD、HotpotQA和TriviaQA。
一個(gè)問題可能因?yàn)楦鞣N原因而無法回答,例如沒有科學(xué)共識(shí)、對(duì)未來的想象、完全主觀、可能產(chǎn)生多種回應(yīng)的哲學(xué)原因等。
研究將區(qū)分可回答和不可回答的問題視為二元分類任務(wù),并使用F1分?jǐn)?shù)或準(zhǔn)確率來評(píng)估模型的表現(xiàn),實(shí)驗(yàn)表明更大的模型在這項(xiàng)任務(wù)上表現(xiàn)得更好。

評(píng)估模型對(duì)未知知識(shí)的認(rèn)知程度的另一種方式是測(cè)量模型輸出的不確定性。當(dāng)一個(gè)問題介于已知和未知之間時(shí),模型應(yīng)表現(xiàn)出正確的置信度。
Kadavath等人2022年的實(shí)驗(yàn)表明,在具有可見字母答案選項(xiàng)的多種多選題格式(MMLU、TruthfulQA、QuALITY、LogiQA)中,LLM在估計(jì)答案正確性的概率上表現(xiàn)得很好,這意味著預(yù)測(cè)的概率與該答案為真的頻率一致。
RLHF微調(diào)使模型校準(zhǔn)效果較差,但較高的采樣溫度會(huì)帶來更好的校準(zhǔn)結(jié)果。

Lin等人2022年提出了CalibratedMath任務(wù)套件。CalibrateMath是一套以編程方式生成的數(shù)學(xué)問題,具有不同的難度級(jí)別,用以測(cè)試模型輸出概率的校準(zhǔn)程度。
對(duì)于每個(gè)問題,模型必須提供一個(gè)數(shù)值答案及其對(duì)該答案的置信度。考慮了三種類型的概率:
- 用文字表述的數(shù)字或詞(例如“最低”,“低”,“中等”,“高”,“最高”),如“置信度:60% / 中等”。
- 答案token的歸一化對(duì)數(shù)概率。注意,微調(diào)實(shí)驗(yàn)中沒有使用這種參數(shù)。
- 在原始答案之后的間接”True/False”標(biāo)記的Logprob。實(shí)驗(yàn)側(cè)重于校準(zhǔn)在任務(wù)難度或內(nèi)容的分布變化下的泛化程度。每個(gè)微調(diào)數(shù)據(jù)點(diǎn)是一個(gè)問題、模型的答案(可能是錯(cuò)誤的)和校準(zhǔn)的置信度。在兩種情況下,文字表述的概率都能很好地泛化,而所有設(shè)置在乘除任務(wù)轉(zhuǎn)換上表現(xiàn)良好。在模型預(yù)測(cè)置信度方面,F(xiàn)ew-shot比微調(diào)模型弱。包含更多示例很有幫助,50-shot幾乎與微調(diào)版本一樣好。

間接查詢
Agrawal等人2023年專門研究了LLM生成中出現(xiàn)的幻覺引用案例,包括虛構(gòu)的書籍、文章和論文標(biāo)題。他們使用兩種基于一致性的方法來檢測(cè)幻覺,即直接查詢與間接查詢。這兩種方法在T>0時(shí)多次運(yùn)行檢查,并驗(yàn)證一致性。

直接查詢要求模型判斷生成的參考資料是否存在,間接查詢則要求提供輔助細(xì)節(jié),如參考資料的作者是誰。
假設(shè)是,對(duì)于一個(gè)幻覺參考資料,多次生成同一作者的一致性要小于直接查詢多次回應(yīng)顯示參考資料存在的可能性。
實(shí)驗(yàn)表明,間接查詢方法效果更好,更大的模型能力更強(qiáng),且幻覺現(xiàn)象更少。
抵抗幻覺的方法
接下來,回顧一組提升LLM響應(yīng)真實(shí)性的方法,這些方法包括從外部知識(shí)庫(kù)檢索、特殊的采樣方法、對(duì)齊微調(diào)。在這里暫不討論一些通過神經(jīng)元編輯來減少幻覺的可解釋性方法。
RAG→編輯與歸因
RAG(檢索增強(qiáng)生成)是一種非常常見的提供基礎(chǔ)信息的方法,即檢索相關(guān)文檔,然后利用額外的相關(guān)文檔作為上下文進(jìn)行生成。
RARR(Retrofit Attribution using Research and Revision)是Gao等人2022年提出的一個(gè)框架,通過編輯歸因使LLM能夠追溯地支持對(duì)外部證據(jù)的歸因。
給定一個(gè)模型生成的文本??,RARR分兩步處理,輸出一個(gè)修訂后的文本 ??和一個(gè)歸因報(bào)告??:
1、研究階段:查找相關(guān)文檔作為證據(jù)。
首先使用查詢生成模型(通過少樣本提示, ??→??1,…,???? )構(gòu)建一組搜索查詢 ??1,…,????來驗(yàn)證每個(gè)句子的各個(gè)方面。
運(yùn)行Google搜索,每個(gè)查詢??=5個(gè)結(jié)果????。
利用預(yù)訓(xùn)練的查詢-文檔相關(guān)性模型來分配相關(guān)性分?jǐn)?shù),并且每個(gè)查詢????僅保留一個(gè)最相關(guān)的??=1文檔 ????1,…,??????。
2、修訂階段:編輯輸出以糾正不受證據(jù)支持的內(nèi)容,同時(shí)盡可能保留原始內(nèi)容。初始化修訂后的文本??=??。
根據(jù) (????,??????) ,協(xié)議模型(通過few-shot提示+CoT, (??,??,??)→0,1 ) 檢查證據(jù)????是否與當(dāng)前修訂后的文本不一致。
僅當(dāng)檢測(cè)到不一致時(shí),編輯模型(通過少數(shù)提示+CoT, (??,??,??)→ new ?? )輸出新版本的?? ,旨在與證據(jù)同時(shí)最小限度地改變?? 。
最后只有有限數(shù)量的??=5證據(jù)進(jìn)入歸因報(bào)告??。

在評(píng)估修訂后的文本??時(shí),歸因和保留都很重要。
歸因使用AIS(歸因于已識(shí)別來源)分?jǐn)?shù)來衡量??中有多少可歸因于????梢允占斯ぷ⑨尰蚴褂肗LI模型來近似自動(dòng)AIS評(píng)分。
保留是指??保留??原始文本的程度,以Previntent×PrevLev衡量,其中Previntent需要人工注釋,而PrevLev基于字符級(jí)Levenshtein編輯距離。與兩個(gè)基線相比,RARR會(huì)帶來更好的平衡結(jié)果,特別是在保留指標(biāo)方面。
與使用搜索+編輯的RARR類似,Mishra等人2024提出的FAVA(Factuality Verification with Augmented Knowledge)也會(huì)檢索相關(guān)文檔,然后編輯模型輸出以避免幻覺錯(cuò)誤。FAVA模型由一個(gè)檢索器和一個(gè)編輯器組成。
給定提示??和模型輸出??,檢索最相關(guān)的文檔:

編輯器生成增強(qiáng)輸出:

RARR不需要訓(xùn)練,但是FAVA中的編輯器模型??edit需要微調(diào)。通過更詳細(xì)地分類不同類型的幻覺錯(cuò)誤,可以為編輯模型生成合成訓(xùn)練數(shù)據(jù),方法是在模型生成中插入隨機(jī)錯(cuò)誤。
每個(gè)示例都是一個(gè)三元組 (??,??,???) ,其中??是作為黃金上下文的原始維基百科段落,??是帶錯(cuò)誤的LM輸出,而???是帶有錯(cuò)誤標(biāo)簽和正確編輯的輸出。

He等人2022年提出的RR(Rethinking with retrieval)方法同樣依賴于檢索相關(guān)的外部知識(shí),但不涉及額外的編輯。
RR的檢索不是利用搜索查詢生成模型,而是基于分解的CoT提示。
給定輸入提示??,RR使用CoT提示在溫度>0時(shí)生成多個(gè)推理路徑??1,…,???? ,其中每個(gè)????推理路徑包含一個(gè)解釋????(即推理部分),然后是預(yù)測(cè)????(即實(shí)際模型輸出)。檢索外部知識(shí)??1,…,????來支持每個(gè)解釋。然后,根據(jù)檢索到的知識(shí)??1,…,???? 的契合程度選擇最忠實(shí)的答案。
- 知識(shí)檢索:RR的實(shí)驗(yàn)應(yīng)用稀疏檢索BM25對(duì)維基百科進(jìn)行搜索,然后通過預(yù)訓(xùn)練的MPNet模型提供的嵌入余弦相似度進(jìn)行重新排序。
- 忠實(shí)度評(píng)分:每個(gè)推理路徑的忠實(shí)度通過蘊(yùn)含得分、矛盾得分和MPNet相似度的組合來估計(jì)。蘊(yùn)含得分和矛盾得分均由預(yù)訓(xùn)練的NLI模型提供。

Self-RAG(Asai等人,2024)通過端到端訓(xùn)練一個(gè)語(yǔ)言模型,使其學(xué)會(huì)通過輸出任務(wù)結(jié)果和間歇性的特殊反思標(biāo)記來反思自身的生成。
研究團(tuán)隊(duì)通過提示GPT-4創(chuàng)建了一個(gè)用于評(píng)判模型和生成模型的監(jiān)督數(shù)據(jù)集,然后將其蒸餾到一個(gè)內(nèi)部模型中,以降低推理成本。

給定輸入提示??,生成的輸出??由多個(gè)部分(例如,一個(gè)段是一個(gè)句子)。反思標(biāo)記總共有四種類型,一種用于檢索,三種用于評(píng)價(jià):
- Retrieve:決定是否并行運(yùn)行檢索來獲取一組文檔;輸出值:{yes, no, continue}。
- IsRel:判斷提示??與檢索到的文檔??是否相關(guān);輸出值:{relevant, irrelevant}。
- IsSup:判斷??是否支持輸出文本??;輸出值:{fully supported, partially supported, no support}。
- IsUse:判斷輸出文本??是否對(duì)??有用;輸出值:{5, 4, 3, 2, 1}。
Self-RAG一次生成一段????。根據(jù)給定的??和前面的生成??<?? ,模型對(duì)Retrieve token進(jìn)行解碼:
- 如果Retrieve==no,直接生成????;
- 如果Retrieve==yes,模型并行檢索多個(gè)段落,并使用IsRel token檢查檢索到的文檔是否相關(guān)。如果相關(guān),生成????并使用其它評(píng)價(jià)token來評(píng)分、排名并選擇多個(gè)輸出中的最佳結(jié)果。
動(dòng)作鏈
在沒有外部檢索知識(shí)的基礎(chǔ)上,可以設(shè)計(jì)一個(gè)利用模型本身進(jìn)行驗(yàn)證和修訂的過程,以減少幻覺。
Dhuliawala等人2023年提出了一種基于動(dòng)作鏈進(jìn)行規(guī)劃和執(zhí)行驗(yàn)證的方法,名為Chain-of-Verification(CoVe)。CoVe包括四個(gè)核心步驟:
- 基線響應(yīng):模型生成一個(gè)初始響應(yīng)草稿,稱為“baseline”。
- 規(guī)劃驗(yàn)證:基于這個(gè)原始生成,模型設(shè)計(jì)非模板化的驗(yàn)證問題進(jìn)行事實(shí)核查;可以通過少量示例提示(回答,驗(yàn)證問題)來實(shí)現(xiàn)。
- 執(zhí)行驗(yàn)證:模型獨(dú)立回答這些問題。有幾種設(shè)置變體:
1)聯(lián)合:與步驟2結(jié)合,其中few-shot示例結(jié)構(gòu)為(響應(yīng),驗(yàn)證問題,驗(yàn)證答案);缺點(diǎn)是原始響應(yīng)在上下文中,模型可能會(huì)重復(fù)類似的幻覺。
2)兩步法:將驗(yàn)證規(guī)劃和執(zhí)行步驟分開,如不影響原始響應(yīng)。
3)分解:分別回答每個(gè)驗(yàn)證問題。例如,如果長(zhǎng)篇基本生成結(jié)果產(chǎn)生多個(gè)驗(yàn)證問題,將逐一回答每個(gè)問題。
4)分解+修訂:在分解驗(yàn)證執(zhí)行后添加一個(gè)“交叉檢查”步驟,根據(jù)基線響應(yīng)和驗(yàn)證問題及答案進(jìn)行條件限制,檢測(cè)不一致性。
- 最終輸出:生成最終的、精煉的輸出。如果發(fā)現(xiàn)任何不一致,則在此步驟中將修改輸出。
CoVe之所以這樣設(shè)計(jì),是因?yàn)槭褂瞄L(zhǎng)篇驗(yàn)證鏈生成可能會(huì)導(dǎo)致重復(fù)幻覺,因?yàn)槌跏嫉幕糜X響應(yīng)仍在上下文中,并且在新生成過程中可以被關(guān)注,而單獨(dú)回答每個(gè)驗(yàn)證問題被發(fā)現(xiàn)比長(zhǎng)篇生成能帶來更好的結(jié)果。

以下是來自CoVe實(shí)驗(yàn)的一些有趣觀察:
- 指令調(diào)整和CoT并未減少幻覺。
- 分解和兩步法的CoVe提高了性能,并且對(duì)不一致性檢測(cè)的進(jìn)一步明確推理也有所幫助(“分解+修訂”方法)。
- 簡(jiǎn)短形式的驗(yàn)證問題比長(zhǎng)形式問題,得到的回答更準(zhǔn)確。
- 自由格式的LLM生成的驗(yàn)證問題比啟發(fā)式問題(例如,X是否回答了問題?)更好,需要開放式生成的問題比“是/否”問題更好。
此外,Sun等人2023年提出了RECITE的方法,依賴于復(fù)述作為中間步驟,以提高模型生成的事實(shí)正確性并減少幻覺。
其動(dòng)機(jī)是將Transformer的記憶作為信息檢索模型來使用。在RECITE的復(fù)述與回答方案中,首先要求LLM復(fù)述相關(guān)信息,然后生成輸出。
具體來說,可以使用few-shot的上下文提示來教導(dǎo)模型進(jìn)行復(fù)述,然后基于復(fù)述來生成答案。此外,它還可以與自我一致性的集成方法結(jié)合,這種方法使用多個(gè)樣本,并且可以擴(kuò)展以支持多跳問答。

生成的復(fù)述與基于BM25的檢索模型相當(dāng),但兩者在使用真實(shí)段落時(shí)都存在差距。根據(jù)研究團(tuán)隊(duì)進(jìn)行的錯(cuò)誤分析,大約7-10%的問題雖然復(fù)述正確,但無法生成正確的答案;大約12%的問題復(fù)述不正確,但仍然可以正確回答。
抽樣方法
Lee等人2022年發(fā)現(xiàn),在FactualityPrompt基準(zhǔn)測(cè)試中,核采樣(top-??采樣)的表現(xiàn)不如貪婪采樣,盡管核采樣增加了額外的隨機(jī)性,實(shí)現(xiàn)了更好的多樣性和較少的重復(fù)。
因此,他們提出了基于假設(shè)的事實(shí)核采樣算法,該假設(shè)認(rèn)為采樣的隨機(jī)性對(duì)句子后半部分的事實(shí)性的影響大于句子開頭。事實(shí)核采樣旨在動(dòng)態(tài)調(diào)整每個(gè)句子中采樣詞匯的概率??。對(duì)于一個(gè)句子中的第??個(gè)token,有????=max(??,????????1),其中??用于防止采樣回退到損害生成質(zhì)量和多樣性的貪婪采樣。

Li等人2023年提出Inference-Time Intervention(ITI),通過在每層上對(duì)激活進(jìn)行線性探測(cè),以區(qū)分真實(shí)與虛假的輸出,研究了某些注意力頭與事實(shí)性是否更相關(guān)。
他們發(fā)現(xiàn),對(duì)于許多注意力頭來說,探測(cè)器的表現(xiàn)不比隨機(jī)選擇更好,而有些則表現(xiàn)出很強(qiáng)的性能。在識(shí)別出一組在真實(shí)性線性探測(cè)準(zhǔn)確性高的稀疏注意力頭后,ITI在推理時(shí)會(huì)將top ??選定的注意力頭的激活沿著“真實(shí)”方向進(jìn)行調(diào)整。

針對(duì)事實(shí)性的微調(diào)
Lee等人2022年提出了兩個(gè)事實(shí)增強(qiáng)訓(xùn)練的想法:
- 引入TopicPrefix以更好地了解事實(shí):在該文檔的每個(gè)句子前添加主題(即維基百科文檔標(biāo)題)。
- 將句子完成損失作為訓(xùn)練目標(biāo):更新訓(xùn)練損失以便聚焦于句子的后半部分,假設(shè)句子的后半部分包含更多的事實(shí)知識(shí)。實(shí)現(xiàn)非常簡(jiǎn)單,決定一個(gè)樞軸點(diǎn)??,并且第?? token之前的所有token都應(yīng)用零掩碼。在他們的實(shí)驗(yàn)中,最佳的樞軸點(diǎn)??被選擇為0.5x句子長(zhǎng)度。
Lin等人2024年提出進(jìn)行關(guān)注事實(shí)性的SFT+RLHF對(duì)齊訓(xùn)練,命名為FLAME。
- SFT階段(Factuality-aware SFT):目標(biāo)是生成比模型自身生成更具事實(shí)性的訓(xùn)練數(shù)據(jù)(通過FActScore衡量)。
- RLHF階段(Factuality-aware DPO):測(cè)試了兩種方法,方法1表現(xiàn)不佳,方法2表現(xiàn)還可以,可能是因?yàn)榉椒?試圖在沒有足夠訓(xùn)練的情況下將新知識(shí)蒸餾到模型中。
前文也有提到過,有一些證據(jù)表明,微調(diào)新知識(shí)可能會(huì)導(dǎo)致幻覺,而RAG的監(jiān)督包含了LLM未知的信息。
方法1:使用RAG數(shù)據(jù)樣本作為正樣本,原始模型生成作為負(fù)樣本作為RM數(shù)據(jù)。
方法2:使用FActScore作為事實(shí)性的獎(jiǎng)勵(lì)信號(hào)。

為了避免在對(duì)齊訓(xùn)練期間意外將未知知識(shí)蒸餾到模型中,他們建議使用模型生成的響應(yīng)來構(gòu)建SFT/DPO數(shù)據(jù)集。

Tian&Mitchell等人2024年提出的Factuality tuning同樣依賴于微調(diào)語(yǔ)言模型以提高事實(shí)性。他們?cè)囼?yàn)了不同的方法來估計(jì)每個(gè)模型樣本中原子聲明的真實(shí)性,然后運(yùn)行DPO。

事實(shí)性調(diào)整過程:
1、給定提示集的模型完成示例對(duì)(例如”Write a bio of Yo-Yo Ma”)
2、根據(jù)兩種無需人工干涉的方法對(duì)其進(jìn)行真實(shí)性標(biāo)注:
基于參考:檢查外部知識(shí)庫(kù)是否支持模型聲明,類似于上述基于檢索的幻覺評(píng)估部分。(a) 提取一系列原子聲明;(b) 查找維基百科參考;(c) 使用一個(gè)微調(diào)過的小型NLI模型來檢查參考文本是否支持原子聲明。
不基于參考的:使用模型自身的置信度作為其真實(shí)性的象征,類似于間接查詢方法。(a) 將每個(gè)聲明轉(zhuǎn)換成相應(yīng)的問題/需要仔細(xì)改寫以確保問題明確;使用few-shot提示;(b) 從模型中多次采樣以回答該問題;(c) 計(jì)算聚合分?jǐn)?shù)/使用字符串匹配或詢問GPT判斷兩個(gè)答案是否語(yǔ)義等價(jià)。
3、通過從模型生成多個(gè)樣本并根據(jù)真實(shí)性分?jǐn)?shù)分配偏好,構(gòu)建一個(gè)訓(xùn)練數(shù)據(jù)集。然后在這個(gè)數(shù)據(jù)集上使用DPO對(duì)模型進(jìn)行微調(diào)。

針對(duì)歸因的微調(diào)
在生成依賴于搜索結(jié)果的模型輸出時(shí),賦予歸因是減少幻覺的一個(gè)好方法。有一系列工作旨在訓(xùn)練LLM更好地利用檢索到的內(nèi)容并分配高質(zhì)量的歸因。
Nakano等人2022年提出WebGPT,將用于文檔檢索的Web搜索與微調(diào)的GPT模型相結(jié)合,旨在回答長(zhǎng)篇問題以減少幻覺并提高事實(shí)精度。
該模型與基于文本的Web瀏覽器中的互聯(lián)網(wǎng)搜索進(jìn)行交互,并學(xué)會(huì)引用網(wǎng)頁(yè)來回答問題。當(dāng)模型正在瀏覽時(shí),它可以采取的一種行動(dòng)是引用當(dāng)前頁(yè)面的摘錄。執(zhí)行此操作時(shí),會(huì)記錄頁(yè)面標(biāo)題、域名和摘錄,以便稍后作為參考使用。WebGPT的核心是使用參考資料幫助人們判斷事實(shí)正確性。
該模型首先在人類使用Web瀏覽環(huán)境回答問題的演示上進(jìn)行監(jiān)督微調(diào),以進(jìn)行行為克隆。
收集同一問題的兩個(gè)模型生成的答案(每個(gè)答案都有自己的參考集)之間的比較數(shù)據(jù),其中答案會(huì)根據(jù)其事實(shí)精度、連貫性和整體有用性進(jìn)行評(píng)判。獎(jiǎng)勵(lì)模型用于RL訓(xùn)練和best-of-n拒絕采樣。相比之下,RL效果有限,并且當(dāng)使用拒絕抽樣時(shí),效果更有限。

Menick等人2022年提出GopherCite,在使用搜索引擎創(chuàng)建支持材料和教模型提供參考資料方面與WebGPT非常相似。兩者都對(duì)引導(dǎo)進(jìn)行監(jiān)督微調(diào),并且都應(yīng)用RLHF訓(xùn)練。
與依賴人類演示進(jìn)行行為克隆的WebGPT不同的是,GopherCite通過few-shot提示生成演示,并且每次生成都使用相關(guān)文檔的上下文填充,然后使用獎(jiǎng)勵(lì)模型來評(píng)分哪些是最好的。

為避免低質(zhì)量響應(yīng)的另一個(gè)技巧將模型配置為拒絕使用預(yù)設(shè)答案 “I don’t know” 進(jìn)行回答,該答案由全局RM閾值決定,稱為選擇性預(yù)測(cè)(selective prediction)。
RL實(shí)證結(jié)果與WebGPT類似,即RL只帶來有限的改進(jìn),或者當(dāng)與拒絕抽樣結(jié)合使用時(shí)不帶來改進(jìn)。

翁荔是誰?
翁荔是OpenAI華人科學(xué)家、ChatGPT的貢獻(xiàn)者之一,北大畢業(yè)。

她是OpenAI人工智能應(yīng)用研究的負(fù)責(zé)人,2018年加入OpenAI,在GPT-4項(xiàng)目中主要參與預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)&對(duì)齊、模型安全等方面的工作。
在OpenAI去年底成立的安全顧問團(tuán)隊(duì)中,她領(lǐng)導(dǎo)安全系統(tǒng)團(tuán)隊(duì)(Safety Systems),解決減少現(xiàn)有模型如ChatGPT濫用等問題。



































