偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="e9poo"></pre>

<u id="e9poo"></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

科學(xué)美國人: 大模型永遠(yuǎn)不會停止幻覺

發(fā)布于 2024-7-5 09:56

瀏覽

0收藏

去年夏天，一名聯(lián)邦法官對紐約市一家律師事務(wù)所處以 5,000 美元的罰款，原因是一名律師使用人工智能工具 ChatGPT 起草了一起人身傷害案件的摘要。文本中充滿了虛假信息，包括超過六個完全捏造的過去案例，旨在為人身傷害訴訟建立判例。斯坦福大學(xué)（Stanford University）和耶魯大學(xué)（Yale University）的研究人員在最近對三種流行的大語言模型（LLM）的研究預(yù)印本中發(fā)現(xiàn)，類似的錯誤在人工智能生成的法律輸出中非常普遍。當(dāng)生成式 AI 模型產(chǎn)生與現(xiàn)實不符的響應(yīng)時，有一個術(shù)語：“幻覺 hallucination”。

幻覺通常被描述為人工智能的一個技術(shù)問題，一個勤奮的開發(fā)人員最終會解決的問題。但許多機器學(xué)習(xí)專家并不認(rèn)為幻覺是可以修復(fù)的，因為它源于LLMs只是在做他們被開發(fā)和訓(xùn)練應(yīng)該做的事情：盡可能地響應(yīng)用戶提示。根據(jù)一些人工智能研究人員的說法，真正的問題存在于我們的共同想法 - 對這些模型是什么以及如何使用它們的決定。研究人員表示，為了減輕幻覺，生成式人工智能工具必須與事實核查系統(tǒng)配對，避免任何不受監(jiān)督的聊天機器人。

許多與人工智能幻覺有關(guān)的沖突都源于營銷和炒作?？萍脊緦⑺麄兊腖LM描繪成數(shù)字瑞士軍刀，能夠解決無數(shù)問題或取代人類工作。但是應(yīng)用在錯誤的設(shè)置中，這些工具就會失敗。聊天機器人為用戶提供了不正確且可能有害的醫(yī)療建議，媒體機構(gòu)發(fā)布了人工智能生成的文章，其中包括不準(zhǔn)確的財務(wù)指導(dǎo)，具有人工智能界面的搜索引擎發(fā)明了虛假引文。隨著越來越多的人和企業(yè)依賴聊天機器人來獲取事實信息，他們編造事情的傾向變得更加明顯和具有破壞性。

但今天的 LLM 從來都不是為了純粹準(zhǔn)確而設(shè)計的。它們被創(chuàng)造出來是為了創(chuàng)造——為了生成——亞利桑那州立大學(xué)（Arizona State University）研究人工智能的計算機科學(xué)教授Subbarao Kambhampati說?！艾F(xiàn)實情況是：沒有辦法保證所生成內(nèi)容的真實性，”他解釋說，并補充說，所有計算機生成的“創(chuàng)造力在某種程度上都是幻覺”。【譯者注：譯者一直強調(diào)GenAI的應(yīng)用場景選擇的一個最重要的原則是：創(chuàng)意大于準(zhǔn)確性。當(dāng)前有人建議你將GenAI應(yīng)用于數(shù)據(jù)分析的時候，請三思。】

在一月份發(fā)布的一項研究預(yù)印本中，新加坡國立大學(xué)的三名機器學(xué)習(xí)研究人員提出了一個證據(jù)，證明在大型語言模型中，幻覺是不可避免的。該證明應(yīng)用了學(xué)習(xí)理論中的一些經(jīng)典結(jié)果，例如康托爾的對角化論證（Cantor’s diagonalization argument），以證明 LLM 根本無法學(xué)習(xí)所有可計算函數(shù)。換句話說，它表明總會有超出模型能力的可解決的問題?！皩τ谌魏未笳Z言模型來說，現(xiàn)實世界中都有一部分是它無法學(xué)習(xí)的，在那里它不可避免地會產(chǎn)生幻覺，”該研究的合著者Ziwei Xu，Sanjay Jain和Mohan Kankanhalli在給《科學(xué)美國人》的一封聯(lián)合電子郵件中寫道。

盡管這個證明看起來是準(zhǔn)確的，Kambhampati說，但它提出的 - 某些難題總能難倒計算機的論點 - 過于寬泛，無法深入了解為什么會發(fā)生特定的虛構(gòu)。而且，他繼續(xù)說，這個問題比證明所顯示的更為普遍，因為大語言模型即使面對簡單的請求也會產(chǎn)生幻覺?！咀g者注：譯者在“??大模型的幻覺，解鈴還須系鈴人??”文中從生成的數(shù)理框架的機理出發(fā)，對幻覺的主要來源，比如跨范疇采樣與變分推理，以及如何管控幻覺做了詳細(xì)的邏輯推演?！?nbsp;

科學(xué)美國人: 大模型永遠(yuǎn)不會停止幻覺-AI.x社區(qū)

伊利諾伊大學(xué)香檳分校（University of Illinois at Urbana-Champaign）研究自然語言和語音處理的計算機科學(xué)教授迪萊克·哈卡尼-圖爾（Dilek Hakkani-Tür）說，人工智能聊天機器人經(jīng)常產(chǎn)生幻覺的一個主要原因源于它們的基本結(jié)構(gòu)。LLM 基本上是超高級的自動完成工具；他們經(jīng)過訓(xùn)練，可以預(yù)測序列中接下來應(yīng)該出現(xiàn)什么，例如文本字符串。如果模型的訓(xùn)練數(shù)據(jù)包含有關(guān)某個主題的大量信息，則可能會產(chǎn)生準(zhǔn)確的輸出。但是 LLM 的構(gòu)建是為了始終產(chǎn)生答案，即使是在其訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)的主題上也是如此。哈卡尼-圖爾說，這增加了出現(xiàn)錯誤的可能性。

添加更多基于事實的訓(xùn)練數(shù)據(jù)似乎是一個顯而易見的解決方案。但是，LLM可以容納多少信息存在實際和物理限制，計算機科學(xué)家Amr Awadallah說，他是AI平臺Vectara的聯(lián)合創(chuàng)始人兼首席執(zhí)行官，該平臺在排行榜上跟蹤LLM的幻覺率。（在跟蹤的AI模型中，最低的幻覺率約為3%至5%。為了達(dá)到語言的流暢性，這些龐大的模型用來訓(xùn)練的數(shù)據(jù)比它們能存儲的數(shù)據(jù)多得多，數(shù)據(jù)壓縮是不可避免的結(jié)果。當(dāng) LLM 無法“像在培訓(xùn)中一樣回憶起一切時，他們會編造東西并填補空白，”Awadallah 說。而且，他補充說，這些模型已經(jīng)在我們計算能力的邊緣運行；試圖通過使 LLM 變大來避免幻覺會產(chǎn)生更慢的模型，這些模型更昂貴且對環(huán)境更有害。

【譯者注：舉一個真實例子，大模型幫助審閱合同的時候，找到合同中的問題，稱是根據(jù)某某法典某條某款的判斷，判斷確實是對的，但大模型無法完整復(fù)述該法典該條該款。其實這很類似人類的理解式學(xué)習(xí)】

科學(xué)美國人: 大模型永遠(yuǎn)不會停止幻覺-AI.x社區(qū)

幻覺的另一個原因是校準(zhǔn)，佐治亞理工學(xué)院計算機科學(xué)教授Santosh Vempala說。校準(zhǔn)是調(diào)整 LLM 以偏愛某些輸出而不是其他輸出的過程（以匹配訓(xùn)練數(shù)據(jù)的統(tǒng)計數(shù)據(jù)或生成更逼真的人類短語）。【譯者注：作者后來修正注釋這是一個單獨的過程，稱為對齊】在去年 11 月首次發(fā)布的一篇預(yù)印本論文中，Vempala 和一位合著者認(rèn)為，任何經(jīng)過校準(zhǔn)的語言模型都會產(chǎn)生幻覺——因為準(zhǔn)確性本身有時與自然流暢且看起來是原創(chuàng)的文本不一致。減少校準(zhǔn)可以提高真實性，同時在 LLM 生成的文本中引入其他缺陷。Vempala說，未經(jīng)校準(zhǔn)的模型可能會公式化地寫作，比人更頻繁地重復(fù)單詞和短語。問題在于，用戶希望人工智能聊天機器人既真實又流暢。

Kambhampati 說，接受 LLM 可能永遠(yuǎn)無法產(chǎn)生完全準(zhǔn)確的輸出意味著重新考慮我們何時、何地以及如何部署這些生成工具。他補充說，他們是很棒的創(chuàng)意創(chuàng)造者，但他們不是獨立的問題解決者?！澳憧梢酝ㄟ^把它們放到一個有驗證者的架構(gòu)中來利用它們，”他解釋說，無論這意味著讓更多的人參與進來，還是使用其他自動化程序?！咀g者注：重要的事情說三遍：譯者一直強調(diào)GenAI的應(yīng)用場景選擇的一個最重要的原則是：創(chuàng)意大于準(zhǔn)確性。而且RAG 在事實校驗中的作用是十分局限的。】

在Vectara公司，Awadallah正在為此努力。他說，他的團隊的排行榜項目是幻覺檢測器的早期概念驗證，而檢測幻覺是能夠修復(fù)幻覺的第一步。未來的檢測器可能會與自動化 AI 編輯器配對，該編輯器可以在錯誤到達(dá)最終用戶之前糾正錯誤。他的公司還在開發(fā)一個名為AskNews的混合聊天機器人和新聞數(shù)據(jù)庫，該數(shù)據(jù)庫將LLM與檢索引擎相結(jié)合，該引擎從最近發(fā)表的文章中挑選最相關(guān)的事實來回答用戶的問題。阿瓦達(dá)拉說，AskNews提供的時事描述比LLM本身所能產(chǎn)生的要準(zhǔn)確得多，因為聊天機器人的響應(yīng)僅基于數(shù)據(jù)庫搜索工具挖掘的來源。

科學(xué)美國人: 大模型永遠(yuǎn)不會停止幻覺-AI.x社區(qū)

Hakkani-Tür也在研究基于事實的系統(tǒng)，將專門的語言模型與相對可靠的信息源（如公司文件、經(jīng)過驗證的產(chǎn)品評論、醫(yī)學(xué)文獻或維基百科帖子）配對，以提高準(zhǔn)確性。她希望，一旦所有的問題都得到解決，這些接地氣的網(wǎng)絡(luò)有朝一日可以成為實現(xiàn)健康獲取和教育公平等方面的有用工具?！拔掖_實看到了語言模型的力量，它是讓我們的生活更美好、更有成效、更公平的工具，”她說。

在未來，專業(yè)系統(tǒng)會驗證LLM輸出，為特定環(huán)境設(shè)計的人工智能工具將部分取代今天的通用模型。人工智能文本生成器的每個應(yīng)用程序（無論是客戶服務(wù)聊天機器人、新聞?wù)?wù)還是法律顧問）都將成為定制架構(gòu)的一部分，從而實現(xiàn)其實用性。同時，不那么接地氣的通才聊天機器人將能夠回答你提出的任何問題，但不能保證真實性。他們將繼續(xù)成為強大的創(chuàng)意伙伴或靈感和娛樂的來源——但不是神諭或百科全書——完全遵照其設(shè)計目標(biāo)。

【譯者注：譯者在“??大模型的幻覺，解鈴還須系鈴人??”文中運用自己總結(jié)的大模型數(shù)學(xué)物理原理的思維框架，從原理層面分析了大模型幻覺產(chǎn)生的機理和控制方法，與本文中眾多學(xué)者的學(xué)術(shù)分析吻合，印證了思維框架的重要價值?！?nbsp;

作者勞倫·萊弗（LAUREN LEFFER）是《科學(xué)美國人》的特約撰稿人和前技術(shù)報道研究員。她報道了許多主題，包括人工智能、氣候和奇怪的生物學(xué)，因為她對錯誤感到好奇。

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了！

zhangyannni ? 5287瀏覽 ? 0回復(fù)
不會吧！不會吧！不會吧！阿里已經(jīng)火到國外的 Emo 模型，你不會還沒玩過吧~

wsp_ping ? 2870瀏覽 ? 0回復(fù)
除了RAG，還有這五種方法消除大模型幻覺

51CTO技術(shù)棧 ? 5574瀏覽 ? 0回復(fù)
GPT4技術(shù)原理：大模型的幻覺，解鈴還須系鈴人

ceesoft ? 3049瀏覽 ? 0回復(fù)
GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠(yuǎn)無法模擬世界

duhorse ? 2517瀏覽 ? 0回復(fù)
對比Streamlit，利用Taipy創(chuàng)建數(shù)據(jù)科學(xué)和大模型應(yīng)用

小虎哦哦 ? 4071瀏覽 ? 0回復(fù)
AI科學(xué)家：大模型全自動化撰寫科研論文

AIRoobt ? 4492瀏覽 ? 0回復(fù)
OpenAI新大模型，需要美國政府審查才能發(fā)布

Aceryt ? 2430瀏覽 ? 0回復(fù)
撤出OpenAI后，蘋果繼續(xù)潑冷水：大模型不會推理?？萍冀缯ㄥ仯?em>大模型只會檢索拼湊答案

51CTO技術(shù)棧 ? 2570瀏覽 ? 0回復(fù)
大模型真能模擬人類語言？中國人民大學(xué)提出新的數(shù)據(jù)增強方法

AI論文解讀 ? 2739瀏覽 ? 0回復(fù)
NASA和IBM推出INDUS：高級科學(xué)研究的綜合大模型

魯班模錘1 ? 2480瀏覽 ? 0回復(fù)
《自然》科學(xué)報告：大模型在社會情境判斷方面可以勝過人類

xuxiangda ? 2736瀏覽 ? 0回復(fù)
詳解大規(guī)?；A(chǔ)模型中的幻覺問題（幻覺檢測、緩解、任務(wù)、數(shù)據(jù)集和評估指標(biāo)）

angel ? 5139瀏覽 ? 0回復(fù)
減少LLM幻覺的五大技巧和方法

51CTO內(nèi)容精選 ? 2596瀏覽 ? 0回復(fù)
人工智能可能永遠(yuǎn)無法擁有意識

ceesoft ? 2812瀏覽 ? 0回復(fù)
突發(fā)，美國開始拉黑國產(chǎn)大模型公司！智譜官方回應(yīng)：手握全鏈路大模型核心技術(shù)，無實質(zhì)影響！

51CTO技術(shù)棧 ? 2351瀏覽 ? 0回復(fù)
大模型是一場新的搜索戰(zhàn)爭，OpenAI不會贏家通吃，一家最好被收購！

51CTO技術(shù)棧 ? 2352瀏覽 ? 0回復(fù)
LawLLM：面向美國法律體系的法律大語言模型

AIRoobt ? 1861瀏覽 ? 0回復(fù)
Agent不會在2025爆發(fā)

51CTO技術(shù)棧 ? 1791瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Nature: 精度不受熱力學(xué)第二定律限制 8天前發(fā)布
Nvidia的具身推理模型還缺什么？ 2025-05-29 07:20:59發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：新智能模型可能顛覆生物學(xué)、遺傳學(xué)、醫(yī)學(xué)和人工智能

下一篇：從CUDA到Keras,這些年你應(yīng)該了解的深度學(xué)習(xí)工具

社區(qū)精華內(nèi)容

目錄