偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="l55g2"></big>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

語義熵識破LLM幻覺！牛津大學(xué)新研究登Nature

作者：新智元 2024-07-10 13:20:45

近日，來自牛津大學(xué)的研究人員推出了利用語義熵來檢測LLM幻覺的新方法。作為克服混淆的策略，語義熵建立在不確定性估計(jì)的概率工具之上，可以直接應(yīng)用于基礎(chǔ)模型，無需對架構(gòu)進(jìn)行任何修改。

時(shí)至今日，大語言模型胡編亂造的情況仍屢見不鮮。

不知大家面對LLM的一本正經(jīng)胡說八道，是輕皺眉頭，還是一笑而過？

俗話說，大風(fēng)起兮云飛揚(yáng)，安得猛士兮走四方。LLM幻覺任何時(shí)候都要除掉，不除不行。

試想，當(dāng)你搜索一個(gè)簡單語法時(shí)，網(wǎng)頁上排名前幾的都是由大模型生成的錯(cuò)誤答案，測過之后才發(fā)覺浪費(fèi)了生命。

如果LLM涉及了醫(yī)學(xué)、法律等專業(yè)領(lǐng)域，幻覺將造成嚴(yán)重的后果，所以相關(guān)的研究也從未停止。

近日，來自牛津大學(xué)的研究人員在Nature上發(fā)表了利用語義熵來檢測LLM幻覺的新方法。

圖片

論文地址：https://www.nature.com/articles/s41586-024-07421-0

牛津大學(xué)計(jì)算機(jī)科學(xué)家Sebastian Farquhar等人，通過設(shè)計(jì)基于LLM確定的語義熵（相似性），來度量大模型答案中語義層面的不確定性。

做法是讓第一個(gè)LLM針對同一問題多次產(chǎn)生答案，并由第二個(gè)LLM（裁判）來分析這些答案的語義相似性。

同時(shí)，為了驗(yàn)證以上判斷的準(zhǔn)確性，再啟用第三個(gè)LLM，同時(shí)接收人類的答案和第二個(gè)LLM的評判結(jié)果進(jìn)行比較，做到了無監(jiān)督，但有理有據(jù)。

圖片

整個(gè)過程簡單來說就是：如果我想檢查你是否在胡編亂造，我就會(huì)反復(fù)問你同一個(gè)問題。如果你每次給出的答案都不一樣......那就不對勁了。

實(shí)驗(yàn)結(jié)果表明，本文采用的語義熵方案優(yōu)于所有基線方法：

圖片

在Nature的一篇評論文章中，皇家墨爾本理工大學(xué)計(jì)算機(jī)技術(shù)學(xué)院院長Karin Verspoor教授表示，這是一種「Fighting fire with fire」的方法：

「結(jié)果表明，與這些簇相關(guān)的不確定性（語義熵）比標(biāo)準(zhǔn)的基于單詞的熵更能有效地估計(jì)第一個(gè)LLM的不確定性。這意味著即使第二個(gè)LLM的語義等價(jià)計(jì)算并不完美，但它仍然有幫助。」

不過Karin Verspoor也指出，用一個(gè)LLM來評估一種基于LLM的方法似乎是在循環(huán)論證，而且可能有偏差。

「但另一方面，我們確實(shí)能從中受到很多啟發(fā)，這將有助于其他相關(guān)問題的研究，包括學(xué)術(shù)誠信和抄襲，使用LLM創(chuàng)建誤導(dǎo)或捏造的內(nèi)容」。

Fighting fire with fire

LLM的幻覺通常被定義為生成「無意義或不忠實(shí)于所提供的源內(nèi)容的內(nèi)容」，本文關(guān)注幻覺的一個(gè)子集——「虛構(gòu)」，即答案對不相關(guān)的內(nèi)容很敏感（比如隨機(jī)種子）。

檢測虛構(gòu)可以讓基于LLM構(gòu)建的系統(tǒng)，避免回答可能導(dǎo)致虛構(gòu)的問題，讓用戶意識到問題答案的不可靠性，或者通過更有根據(jù)的搜索，來補(bǔ)充或恢復(fù)LLM給出的回答。

語義熵和混淆檢測

為了檢測虛構(gòu)，研究人員使用概率工具，來定義并測量LLM所產(chǎn)生內(nèi)容的語義熵——根據(jù)句子含義計(jì)算的熵。

因?yàn)閷τ谡Z言來說，盡管表達(dá)方式不同（語法或詞匯上不同），但答案可能意味著相同的事情（語義上等效）。

而語義熵傾向于估計(jì)自由形式答案的含義分布，而不是單詞或單詞片段的分布，符合實(shí)際情況，同時(shí)也可以看作是隨機(jī)種子變異的一種語義一致性檢查。

如下圖所示，一般的不確定性衡量方法會(huì)將「巴黎」、「這是巴黎」和「法國首都巴黎」視為不同的回答，這并不適合語言任務(wù)。

圖片

而本文的方法可以讓答案在計(jì)算熵之前根據(jù)含義進(jìn)行聚類。

另外，語義熵還可以檢測較長段落中的混淆。如下圖所示，將生成的長答案分解為事實(shí)陳述。

對于每個(gè)事實(shí)陳述，LLM會(huì)生成對應(yīng)的問題。然后另一個(gè)LLM對這些問題給出M個(gè)可能的答案。

圖片

最后，計(jì)算每個(gè)特定問題答案的語義熵（包括原始事實(shí)），與該事實(shí)相關(guān)的問題的平均語義熵較高表明為虛構(gòu)。

直觀上，本文方法的工作原理是對每個(gè)問題的幾個(gè)可能答案進(jìn)行采樣，并通過算法將它們聚類為具有相似含義的答案，然后根據(jù)同一聚類（簇）中的答案是否雙向相互關(guān)聯(lián)來確定答案。

——如果句子A的含義包含句子B（或者相反），那么我們認(rèn)為它們位于同一語義簇中。

研究人員使用通用LLM和專門開發(fā)的自然語言推理 (NLI) 工具來測量語義關(guān)聯(lián)性。

實(shí)驗(yàn)評估

語義熵可以檢測跨一系列語言模型和領(lǐng)域的自由格式文本生成中的混淆，而無需先前的領(lǐng)域知識。

本文的實(shí)驗(yàn)評估涵蓋了問答知識（TriviaQA）、常識（SQuAD 1.1 ）、生命科學(xué)（BioASQ）和開放知識域自然問題 (NQ-Open)。

還包括檢測數(shù)學(xué)文字問題 (SVAMP) 和傳記生成數(shù)據(jù)集（FactualBio）中的混淆。

TriviaQA、SQuAD、BioASQ、NQ-Open和SVAMP均在上下文無關(guān)的情況下進(jìn)行評估，句子長度96±70個(gè)字符，模型使用LLaMA 2 Chat（7B、13B和70B）、Falcon Instruct（7B和40B）以及Mistral Instruct（7B）。

實(shí)驗(yàn)采用嵌入回歸方法作為強(qiáng)監(jiān)督基線。

評估指標(biāo)

首先，對于給定答案不正確的二元事件，使用AUROC來同時(shí)捕獲精確度和召回率，范圍從0到1，其中1代表完美的分類器，0.5代表無信息的分類器。

第二個(gè)衡量標(biāo)準(zhǔn)是拒絕精度曲線下的面積 (AURAC)，AURAC表示如果使用語義熵來過濾掉導(dǎo)致最高熵的問題，用戶將體驗(yàn)到的準(zhǔn)確性改進(jìn)。

上圖結(jié)果是五個(gè)數(shù)據(jù)集的平均值，表明語義熵及其離散近似都優(yōu)于句子長度生成的最佳基線。

其中AUROC衡量方法預(yù)測LLM錯(cuò)誤的程度（與虛構(gòu)相關(guān)），而AURAC衡量拒絕回答被認(rèn)為可能導(dǎo)致混淆的問題，所帶來的系統(tǒng)性能改進(jìn)。

對實(shí)驗(yàn)中的30種任務(wù)和模型組合進(jìn)行平均，語義熵達(dá)到了0.790的最佳AUROC值，而樸素熵為0.691、P(True) 為0.698、嵌入回歸基線為0.687。

在我們不同模型系列（LLaMA、Falcon和Mistral）和尺度（從7B到70B參數(shù)）中，語義熵具有穩(wěn)定的性能（AUROC在0.78到0.81之間）。

圖片

上表給出了TriviaQA、SQuAD和BioASQ在LLaMA 2 Chat 70B上測試的問題和答案示例。

我們可以從中發(fā)現(xiàn)語義熵如何檢測含義不變但形式變化的情況（表的第一行），

當(dāng)形式和含義一起變化時(shí)（第二行），熵和樸素熵都正確預(yù)測了虛構(gòu)的存在；

當(dāng)形式和含義在幾個(gè)重新采樣的代中都保持不變時(shí)，熵和樸素熵都正確預(yù)測了虛構(gòu)的不存在（第三行）。

而最后一行的示例顯示了上下文和判斷在聚類中的重要性，以及根據(jù)固定參考答案進(jìn)行評估的缺點(diǎn)。

上圖展示了語義熵的離散變體有效地檢測了FactualBio數(shù)據(jù)集上的虛構(gòu)。

離散語義熵的AUROC和AURAC高于簡單的自檢基線（僅詢問LLM事實(shí)是否可能為真）或P(True) 的變體，具有更好的拒絕準(zhǔn)確性性能。

結(jié)論

語義熵在檢測錯(cuò)誤方面的成功表明：LLM更擅長「知道他們不知道什么」，——他們只是不知道他們知道他們不知道什么（狗頭）。

語義熵作為克服混淆的策略建立在不確定性估計(jì)的概率工具的基礎(chǔ)上。它可以直接應(yīng)用于任何LLM或類似的基礎(chǔ)模型，無需對架構(gòu)進(jìn)行任何修改。即使當(dāng)模型的預(yù)測概率不可訪問時(shí)，語義不確定性的離散變體也可以應(yīng)用。

參考資料：

https://www.science.org/content/article/is-your-ai-hallucinating-new-approach-can-tell-when-chatbots-make-things-up

責(zé)任編輯：武曉燕來源：新智元

語義 LLM 幻覺

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tt id="te3qp"><em id="te3qp"></em></tt>

<pre id="te3qp"></pre>

<thead id="te3qp"></thead>