科學(xué)美國人: 大模型永遠(yuǎn)不會停止幻覺
去年夏天,一名聯(lián)邦法官對紐約市一家律師事務(wù)所處以 5,000 美元的罰款,原因是一名律師使用人工智能工具 ChatGPT 起草了一起人身傷害案件的摘要。文本中充滿了虛假信息,包括超過六個完全捏造的過去案例,旨在為人身傷害訴訟建立判例。斯坦福大學(xué)(Stanford University)和耶魯大學(xué)(Yale University)的研究人員在最近對三種流行的大語言模型(LLM)的研究預(yù)印本中發(fā)現(xiàn),類似的錯誤在人工智能生成的法律輸出中非常普遍。當(dāng)生成式 AI 模型產(chǎn)生與現(xiàn)實不符的響應(yīng)時,有一個術(shù)語:“幻覺 hallucination”。
幻覺通常被描述為人工智能的一個技術(shù)問題,一個勤奮的開發(fā)人員最終會解決的問題。但許多機器學(xué)習(xí)專家并不認(rèn)為幻覺是可以修復(fù)的,因為它源于LLMs只是在做他們被開發(fā)和訓(xùn)練應(yīng)該做的事情:盡可能地響應(yīng)用戶提示。根據(jù)一些人工智能研究人員的說法,真正的問題存在于我們的共同想法 - 對這些模型是什么以及如何使用它們的決定。研究人員表示,為了減輕幻覺,生成式人工智能工具必須與事實核查系統(tǒng)配對,避免任何不受監(jiān)督的聊天機器人。
許多與人工智能幻覺有關(guān)的沖突都源于營銷和炒作??萍脊緦⑺麄兊腖LM描繪成數(shù)字瑞士軍刀,能夠解決無數(shù)問題或取代人類工作。但是應(yīng)用在錯誤的設(shè)置中,這些工具就會失敗。聊天機器人為用戶提供了不正確且可能有害的醫(yī)療建議,媒體機構(gòu)發(fā)布了人工智能生成的文章,其中包括不準(zhǔn)確的財務(wù)指導(dǎo),具有人工智能界面的搜索引擎發(fā)明了虛假引文。隨著越來越多的人和企業(yè)依賴聊天機器人來獲取事實信息,他們編造事情的傾向變得更加明顯和具有破壞性。
但今天的 LLM 從來都不是為了純粹準(zhǔn)確而設(shè)計的。它們被創(chuàng)造出來是為了創(chuàng)造——為了生成——亞利桑那州立大學(xué)(Arizona State University)研究人工智能的計算機科學(xué)教授Subbarao Kambhampati說?!艾F(xiàn)實情況是:沒有辦法保證所生成內(nèi)容的真實性,”他解釋說,并補充說,所有計算機生成的“創(chuàng)造力在某種程度上都是幻覺”。【譯者注:譯者一直強調(diào)GenAI的應(yīng)用場景選擇的一個最重要的原則是:創(chuàng)意大于準(zhǔn)確性。當(dāng)前有人建議你將GenAI應(yīng)用于數(shù)據(jù)分析的時候,請三思。】
在一月份發(fā)布的一項研究預(yù)印本中,新加坡國立大學(xué)的三名機器學(xué)習(xí)研究人員提出了一個證據(jù),證明在大型語言模型中,幻覺是不可避免的。該證明應(yīng)用了學(xué)習(xí)理論中的一些經(jīng)典結(jié)果,例如康托爾的對角化論證(Cantor’s diagonalization argument),以證明 LLM 根本無法學(xué)習(xí)所有可計算函數(shù)。換句話說,它表明總會有超出模型能力的可解決的問題?!皩τ谌魏未笳Z言模型來說,現(xiàn)實世界中都有一部分是它無法學(xué)習(xí)的,在那里它不可避免地會產(chǎn)生幻覺,”該研究的合著者Ziwei Xu,Sanjay Jain和Mohan Kankanhalli在給《科學(xué)美國人》的一封聯(lián)合電子郵件中寫道。
盡管這個證明看起來是準(zhǔn)確的,Kambhampati說,但它提出的 - 某些難題總能難倒計算機的論點 - 過于寬泛,無法深入了解為什么會發(fā)生特定的虛構(gòu)。而且,他繼續(xù)說,這個問題比證明所顯示的更為普遍,因為大語言模型即使面對簡單的請求也會產(chǎn)生幻覺?!咀g者注:譯者在“??大模型的幻覺,解鈴還須系鈴人??”文中從生成的數(shù)理框架的機理出發(fā),對幻覺的主要來源,比如跨范疇采樣與變分推理,以及如何管控幻覺做了詳細(xì)的邏輯推演?!?nbsp;
伊利諾伊大學(xué)香檳分校(University of Illinois at Urbana-Champaign)研究自然語言和語音處理的計算機科學(xué)教授迪萊克·哈卡尼-圖爾(Dilek Hakkani-Tür)說,人工智能聊天機器人經(jīng)常產(chǎn)生幻覺的一個主要原因源于它們的基本結(jié)構(gòu)。LLM 基本上是超高級的自動完成工具;他們經(jīng)過訓(xùn)練,可以預(yù)測序列中接下來應(yīng)該出現(xiàn)什么,例如文本字符串。如果模型的訓(xùn)練數(shù)據(jù)包含有關(guān)某個主題的大量信息,則可能會產(chǎn)生準(zhǔn)確的輸出。但是 LLM 的構(gòu)建是為了始終產(chǎn)生答案,即使是在其訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)的主題上也是如此。哈卡尼-圖爾說,這增加了出現(xiàn)錯誤的可能性。
添加更多基于事實的訓(xùn)練數(shù)據(jù)似乎是一個顯而易見的解決方案。但是,LLM可以容納多少信息存在實際和物理限制,計算機科學(xué)家Amr Awadallah說,他是AI平臺Vectara的聯(lián)合創(chuàng)始人兼首席執(zhí)行官,該平臺在排行榜上跟蹤LLM的幻覺率。(在跟蹤的AI模型中,最低的幻覺率約為3%至5%。為了達(dá)到語言的流暢性,這些龐大的模型用來訓(xùn)練的數(shù)據(jù)比它們能存儲的數(shù)據(jù)多得多,數(shù)據(jù)壓縮是不可避免的結(jié)果。當(dāng) LLM 無法“像在培訓(xùn)中一樣回憶起一切時,他們會編造東西并填補空白,”Awadallah 說。而且,他補充說,這些模型已經(jīng)在我們計算能力的邊緣運行;試圖通過使 LLM 變大來避免幻覺會產(chǎn)生更慢的模型,這些模型更昂貴且對環(huán)境更有害。
【譯者注:舉一個真實例子,大模型幫助審閱合同的時候,找到合同中的問題,稱是根據(jù)某某法典某條某款的判斷,判斷確實是對的,但大模型無法完整復(fù)述該法典該條該款。其實這很類似人類的理解式學(xué)習(xí)】
幻覺的另一個原因是校準(zhǔn),佐治亞理工學(xué)院計算機科學(xué)教授Santosh Vempala說。校準(zhǔn)是調(diào)整 LLM 以偏愛某些輸出而不是其他輸出的過程(以匹配訓(xùn)練數(shù)據(jù)的統(tǒng)計數(shù)據(jù)或生成更逼真的人類短語)。【譯者注:作者后來修正注釋這是一個單獨的過程,稱為對齊】 在去年 11 月首次發(fā)布的一篇預(yù)印本論文中,Vempala 和一位合著者認(rèn)為,任何經(jīng)過校準(zhǔn)的語言模型都會產(chǎn)生幻覺——因為準(zhǔn)確性本身有時與自然流暢且看起來是原創(chuàng)的文本不一致。減少校準(zhǔn)可以提高真實性,同時在 LLM 生成的文本中引入其他缺陷。Vempala說,未經(jīng)校準(zhǔn)的模型可能會公式化地寫作,比人更頻繁地重復(fù)單詞和短語。問題在于,用戶希望人工智能聊天機器人既真實又流暢。
Kambhampati 說,接受 LLM 可能永遠(yuǎn)無法產(chǎn)生完全準(zhǔn)確的輸出意味著重新考慮我們何時、何地以及如何部署這些生成工具。他補充說,他們是很棒的創(chuàng)意創(chuàng)造者,但他們不是獨立的問題解決者?!澳憧梢酝ㄟ^把它們放到一個有驗證者的架構(gòu)中來利用它們,”他解釋說,無論這意味著讓更多的人參與進來,還是使用其他自動化程序?!咀g者注:重要的事情說三遍:譯者一直強調(diào)GenAI的應(yīng)用場景選擇的一個最重要的原則是:創(chuàng)意大于準(zhǔn)確性。而且RAG 在事實校驗中的作用是十分局限的。】
在Vectara公司,Awadallah正在為此努力。他說,他的團隊的排行榜項目是幻覺檢測器的早期概念驗證,而檢測幻覺是能夠修復(fù)幻覺的第一步。未來的檢測器可能會與自動化 AI 編輯器配對,該編輯器可以在錯誤到達(dá)最終用戶之前糾正錯誤。他的公司還在開發(fā)一個名為AskNews的混合聊天機器人和新聞數(shù)據(jù)庫,該數(shù)據(jù)庫將LLM與檢索引擎相結(jié)合,該引擎從最近發(fā)表的文章中挑選最相關(guān)的事實來回答用戶的問題。阿瓦達(dá)拉說,AskNews提供的時事描述比LLM本身所能產(chǎn)生的要準(zhǔn)確得多,因為聊天機器人的響應(yīng)僅基于數(shù)據(jù)庫搜索工具挖掘的來源。
Hakkani-Tür也在研究基于事實的系統(tǒng),將專門的語言模型與相對可靠的信息源(如公司文件、經(jīng)過驗證的產(chǎn)品評論、醫(yī)學(xué)文獻或維基百科帖子)配對,以提高準(zhǔn)確性。她希望,一旦所有的問題都得到解決,這些接地氣的網(wǎng)絡(luò)有朝一日可以成為實現(xiàn)健康獲取和教育公平等方面的有用工具?!拔掖_實看到了語言模型的力量,它是讓我們的生活更美好、更有成效、更公平的工具,”她說。
在未來,專業(yè)系統(tǒng)會驗證LLM輸出,為特定環(huán)境設(shè)計的人工智能工具將部分取代今天的通用模型。人工智能文本生成器的每個應(yīng)用程序(無論是客戶服務(wù)聊天機器人、新聞?wù)?wù)還是法律顧問)都將成為定制架構(gòu)的一部分,從而實現(xiàn)其實用性。同時,不那么接地氣的通才聊天機器人將能夠回答你提出的任何問題,但不能保證真實性。他們將繼續(xù)成為強大的創(chuàng)意伙伴或靈感和娛樂的來源——但不是神諭或百科全書——完全遵照其設(shè)計目標(biāo)。
【譯者注:譯者在“??大模型的幻覺,解鈴還須系鈴人??”文中運用自己總結(jié)的大模型數(shù)學(xué)物理原理的思維框架,從原理層面分析了大模型幻覺產(chǎn)生的機理和控制方法,與本文中眾多學(xué)者的學(xué)術(shù)分析吻合,印證了思維框架的重要價值?!?nbsp;
作者勞倫·萊弗(LAUREN LEFFER)是《科學(xué)美國人》的特約撰稿人和前技術(shù)報道研究員。她報道了許多主題,包括人工智能、氣候和奇怪的生物學(xué),因為她對錯誤感到好奇。
