AAAI2025|小紅書搜索廣告團隊提出幻覺檢測新方法:基于語義圖增強的不確定建模

大型語言模型(LLMs)在生成文本時容易出現(xiàn)“幻覺”,即生成不真實或不忠實的內(nèi)容,這限制了其在實際場景中的應(yīng)用?,F(xiàn)有的研究主要基于不確定性進行幻覺檢測,利用 LLMs 的輸出概率計算不確定性,無需依賴外部知識或頻繁采樣。然而,這些方法通常只關(guān)注單個 Token 的不確定性,忽略了 Token 和句子之間復(fù)雜的語義關(guān)系,導(dǎo)致在多 Token 和跨句子的幻覺檢測中存在不足。
在 AAAI2025 上,小紅書搜索廣告算法團隊提出了一種基于語義圖增強不確定性建模的幻覺檢測方法。首先構(gòu)建語義圖,捕捉實體和句子之間的關(guān)系;然后通過實體間的關(guān)系進行不確定性傳播,提升句子級別的幻覺檢測;最后,基于句子與其鄰居句子在語義圖中的矛盾概率,提出一種圖不確定性校準(zhǔn)方法,用于不確定性計算。在 WikiBio 和 NoteSum 兩個數(shù)據(jù)集上的實驗表明,該方法在段落級別幻覺檢測中取得了顯著提升,性能提高了 19.78%。
論文標(biāo)題:Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection
論文地址:https://arxiv.org/abs/2501.02020
01、背景
大型語言模型憑借其龐大的參數(shù)量和先進的訓(xùn)練方式,在互聯(lián)網(wǎng)行業(yè)的各大業(yè)務(wù)中得到了廣泛應(yīng)用。然而,由于現(xiàn)有技術(shù)的局限性,大語言模型的“幻覺”問題依然無法完全避免。幻覺問題指的是模型生成不真實或忠實性低的內(nèi)容,這嚴(yán)重影響了模型在實際應(yīng)用中的可靠性。例如,在小紅書的廣告創(chuàng)意文本生成中(標(biāo)題生成、封面二創(chuàng)、筆記輔助創(chuàng)作等業(yè)務(wù)中),幻覺問題可能導(dǎo)致用戶體驗下降。因此,幻覺檢測成為了一項至關(guān)重要的工作。
目前,業(yè)內(nèi)的幻覺檢測方法主要分為三類:
1. 基于檢索增強的方法:依賴外部知識源,且需要復(fù)雜的驗證步驟。
2. 基于多次采樣的方法:需要多次調(diào)用語言模型API進行改寫,資源消耗巨大。
3. 基于不確定性的方法:利用文本中每個 Token 的輸出概率,通過不確定性度量計算幻覺得分。該方法只需模型執(zhí)行一次推理,相對高效,因此備受關(guān)注。
然而,現(xiàn)有的不確定性方法仍存在兩個主要問題:
1. Token 間依賴關(guān)系未被充分建模:現(xiàn)有方法通常只關(guān)注單個 Token 的不確定性,忽略了 Token 之間復(fù)雜的語義關(guān)系。
2. 篇章級別不確定性計算不足:現(xiàn)有方法通常通過簡單平均句子不確定性來計算篇章級別的不確定性,忽略了句子之間的復(fù)雜關(guān)系。

02、方法
我們的方法從 Token、句子和篇章三個粒度依次進行不確定性建模,結(jié)合語義圖技術(shù),顯著提升了幻覺檢測的準(zhǔn)確性。
Token:受幻覺隨序列長度增加而累積的啟發(fā),我們結(jié)合基于 LLMs 的條件概率分布統(tǒng)計與序列衰減,進行 Token 級別的不確定性計算。
句子:考慮到大部分幻覺由句子和段落中的實體及關(guān)系引發(fā),我們進一步構(gòu)建語義圖,用于句子和段落級不確定性計算。在句子級別,語義圖捕捉實體間的語義關(guān)系,支持幻覺傳播與計算,實體不確定性沿依賴關(guān)系傳播至相關(guān)實體。
篇章:在段落級別的幻覺檢測中,我們結(jié)合句子在語義圖中的鄰居節(jié)點進行不確定性校準(zhǔn)與匯總。

2.1 Token 級別不確定性
受幻覺隨序列長度增加而累積的啟發(fā),我們結(jié)合基于LLMs的條件概率分布統(tǒng)計與序列衰減,進行 Token 級不確定性計算。具體公式如下:

其中,我們抽取當(dāng)前 Token 位置的所有詞表 Token 中的 Top-K 概率值,計算其最大值和方差。最大值和方差越大,表明模型對該 Token 的置信度越高,幻覺概率越低。同時,我們還引入了序列衰減項,隨著序列長度的增加,模型的不確定性也會相應(yīng)增加。
2.2 句子級別不確定性
考慮到大部分幻覺由句子和段落中的實體及關(guān)系引發(fā),我們構(gòu)建了語義圖,用于句子和段落級不確定性計算。在句子級別,語義圖捕捉實體間的語義關(guān)系,支持不確定性傳播與計算。具體公式如下:

其中,實體不確定性通過語義路徑進行傳播,路徑強度由頭實體到謂詞的注意力分?jǐn)?shù)和謂詞到尾實體的注意力分?jǐn)?shù)求平均得到。全局不確定性則通過句子概率的分位點進行計算:

最后,我們將實體不確定性和全局不確定性進行加權(quán)求和,得到句子級別的不確定性,如下所示:

2.3 篇章級別不確定性
在篇章級別,我們通過指代消解和實體鏈接,構(gòu)建篇章級別的語義圖。圖中每個節(jié)點代表一個句子,邊表示句子之間的語義關(guān)聯(lián)強度。我們使用自然語言推理(NLI)模型計算句子之間的沖突概率,并結(jié)合句子不確定性進行篇章級別的幻覺檢測。具體公式如下:

03、實驗
我們在 WikiBio 和 NoteSum 兩個數(shù)據(jù)集上進行了實驗。WikiBio 是目前最廣泛使用的幻覺檢測公開數(shù)據(jù)集,而 NoteSum 是小紅書構(gòu)建的中文筆記數(shù)據(jù)集,專門用于驗證我們方法的有效性和泛化能力。
3.1 數(shù)據(jù)集構(gòu)建
NoteSum 數(shù)據(jù)集的構(gòu)建過程分為三個步驟:
- 搜集熱門筆記:我們首先收集站內(nèi)各行業(yè)熱門的廣告筆記素材,并對可能涉及用戶隱私的信息進行過濾。
- 生成筆記摘要:利用 LLM 從這些長筆記中生成較短的摘要用于研究,采用了與 WikiBio 相同的標(biāo)注方法,即也包含事實性和忠實性幻覺。
- 標(biāo)注幻覺程度:依據(jù) WikiBio 數(shù)據(jù)集的標(biāo)注方式,我們對每一條筆記中的每個句子和整個篇章進行了詳細(xì)標(biāo)注。每個句子被標(biāo)注為 Factual(無幻覺)、Non-Factual*(部分幻覺)或 Non-Factual(嚴(yán)重幻覺),而每個篇章則被標(biāo)注為一個介于 0 到 1 之間的連續(xù)性分?jǐn)?shù),表示整個篇章的幻覺程度。
3.2 評估指標(biāo)
句子級別:我們使用傳統(tǒng)的分類AUC指標(biāo),分別評估模型對 Factual、Non-Factual* 和 Non-Factual 三個類別的分類能力。
篇章級別:由于篇章級別的幻覺分?jǐn)?shù)是連續(xù)值,我們使用皮爾森相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)來評估模型預(yù)測的幻覺分?jǐn)?shù)與人工標(biāo)注的一致性。
3.3 基線方法
我們選擇了以下最新的幻覺檢測方法作為基線進行對比:
- GPT-3 Uncertainty:該方法使用 GPT-3 模型輸出每個 Token 的概率,然后計算各種傳統(tǒng)的不確定性分?jǐn)?shù)(如負(fù)對數(shù)概率和熵)作為幻覺的程度。
- SelfCheckGPT:這是一種基于多次采樣的方法,依賴于LLM頻繁采樣進行一致性檢查。我們使用 Gpt-3.5-turbo 進行采樣,并應(yīng)用四種方法來測量一致性,包括 BertScore、QA、Unigram 及它們的組合。
- FOCUS:這是 SelfCheckGPT 的不確定性改良版本,是目前性能最優(yōu)的基于不確定性的檢測方法。我們使用 LLaMA-13B 和 LLaMA-30B 作為其方法的基座模型。
3.4 實驗結(jié)果
我們的方法在 WikiBio 和 NoteSum 數(shù)據(jù)集上均取得了最佳性能,尤其在篇章級別幻覺檢測中,性能提升了 19.78%,顯著優(yōu)于現(xiàn)有方法。具體實驗結(jié)果如下:
句子級別:我們的方法在 Factual、Non-Factual* 和 Non-Factual 三個類別上的AUC指標(biāo)均優(yōu)于基線方法,尤其是在 Non-Factual 類別上,AUC提升了 12.85%。
篇章級別:我們的方法在皮爾森相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)上均取得了最高分,分別達到了 77.60 和 74.44 ,顯著優(yōu)于其他基線方法。

我們還從 Token、句子、篇章三個維度進行了消融實驗,驗證了各個模塊的有效性:
Token 級別不確定性:移除最大值、方差或序列衰減項后,性能顯著下降,表明這些項對 Token 級別不確定性建模至關(guān)重要。
句子級別不確定性:移除實體不確定性或全局不確定性后,性能均有所下降,尤其是實體不確定性對篇章級別幻覺檢測的影響更大。
篇章級別不確定性:移除語義圖中的鄰居句子矛盾概率后,性能下降了約 2 個百分點,表明圖不確定性校準(zhǔn)對篇章級別幻覺檢測的有效性。

我們進一步對句子級別中的基于語義關(guān)系的不確定傳播方法、實體和全局不確定性方法和篇章級別中的基于語義圖的不確定性檢測方法分別進行了可視化分析。
1. 基于語義關(guān)系的不確定性傳播
與基線方法 FOCUS(所有前置關(guān)鍵詞傳播到后置關(guān)鍵詞)對比,兩者對于NonFact(嚴(yán)重幻覺)樣本都能有效識別嚴(yán)重幻覺,對于 NonFact*(中等幻覺)和 Factual(無幻覺)樣本,F(xiàn)OCUS方法傾向于高估不確定性,導(dǎo)致與真實標(biāo)簽之間存在較大差距。且FOCUS方法的三種不確定性得分非常接近,難以區(qū)分不同程度的幻覺。
本文提出的方法通過捕捉語義關(guān)系,減少了不確定性高估,能夠更精確地檢測不同程度的幻覺。

2. 實體和全局不確定性
隨著幻覺程度的增加(Factual → NonFact* → NonFact),實體不確定性和全局不確定性的得分均顯著上升,且基于兩者的分?jǐn)?shù),三種樣本類型之間的重疊較少,能夠被較好地區(qū)分。進一步驗證了實體不確定性和全局不確定性在句子級別幻覺檢測中的有效性,能夠有效區(qū)分不同程度的幻覺。

3. 基于語義圖的句子間不確定性檢測
與 Adjacent(僅考慮當(dāng)前句子與前后相鄰句子的關(guān)系)和 Average(簡單平均所有句子的不確定性)兩種基線方法相對比,本文提出的基于語義圖的句子間不確定性檢測在 Pearson 和 Spearman 相關(guān)系數(shù)上均優(yōu)于前者,更能有效捕捉長距離語義關(guān)系,顯著提升了段落級別幻覺檢測的性能。

04、結(jié)語
本文首次探索了語義圖在捕捉 Token 與句子之間復(fù)雜關(guān)系方面的潛力,提出了一種基于語義圖增強不確定性建模的幻覺檢測方法。通過對 Token、句子和篇章三個粒度的不確定性建模,我們顯著提升了幻覺檢測的準(zhǔn)確性。實驗結(jié)果表明,該方法在多個數(shù)據(jù)集上均取得了顯著效果,尤其在篇章級別幻覺檢測中表現(xiàn)突出。未來,我們將進一步探索如何將現(xiàn)有知識圖與 AMR 圖結(jié)合,用于事實核查和幻覺檢測。
05、作者簡介
陳可迪
現(xiàn)碩士就讀于華東師范大學(xué),小紅書搜索廣告團隊實習(xí)生。在 EMNLP、NAACL、COLING、AAAI 等機器學(xué)習(xí)、自然語言處理領(lǐng)域頂級會議上發(fā)表數(shù)篇一作論文,主要研究方向為大語言模型幻覺,大語言模型推理能力增強。
一帆(陶鑫琪)
小紅書 NLP 算法工程師(廣告創(chuàng)意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
法明(丁博文)
小紅書 NLP 算法工程師(廣告創(chuàng)意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
清良(謝靜文)
小紅書 NLP 算法工程師(廣告創(chuàng)意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
神宗(謝明宸)
小紅書算法工程師(搜索廣告方向),主要研究方向:創(chuàng)意生成、模型預(yù)估、廣告冷啟動。
































