國際研究:AI 助手常歪曲新聞內(nèi)容,45% 回答存重大問題

10 月 27 日消息,由歐洲廣播聯(lián)盟(EBU)協(xié)調(diào)、英國廣播公司(BBC)主導(dǎo)的一項最新研究發(fā)現(xiàn),如今作為數(shù)百萬人日常信息獲取渠道的人工智能助手,無論在測試哪種語言、哪個地區(qū)或哪個人工智能平臺時,都經(jīng)常歪曲新聞內(nèi)容。

這項史無前例、覆蓋范圍最廣、規(guī)模最大的國際研究于 EBU 新聞大會在那不勒斯發(fā)布。來自 18 個國家、使用 14 種語言的 22 家公共媒體機構(gòu)(PSM)共同參與了該研究,揭示了四款主流 AI 工具中存在的多項系統(tǒng)性問題。
據(jù)IT之家了解,來自各參與公共媒體的專業(yè)記者,依據(jù)準確性、信息來源標注、區(qū)分事實與觀點以及背景信息提供等關(guān)鍵標準,評估了 ChatGPT、Copilot、Gemini 和 Perplexity 生成的超過 3,000 條回答。
主要研究發(fā)現(xiàn):
- 所有人工智能回答中,有 45% 存在至少一個重大問題。
- 31% 的回答存在嚴重的信息來源問題,包括缺失、誤導(dǎo)或錯誤引用來源。
- 20% 的回答存在重大準確性問題,包括虛構(gòu)的細節(jié)和過時的信息。
- Gemini 表現(xiàn)最差,其 76% 的回答存在顯著問題,是其他 AI 助手的兩倍以上,主要歸因于其糟糕的信息溯源能力。
- 與 BBC 今年早些時候的研究結(jié)果相比,部分 AI 工具有所改進,但錯誤率仍處于高位。
人工智能助手已逐漸取代傳統(tǒng)搜索引擎,成為許多用戶的首選信息入口。根據(jù)路透社新聞研究所《2025 年數(shù)字新聞報告》,全球有 7% 的在線新聞消費者通過 AI 助手獲取新聞,而在 25 歲以下人群中,這一比例高達 15%。
EBU 媒體總監(jiān)兼副總干事讓?菲利普?德滕德爾(Jean Philip De Tender)表示:“這項研究明確表明,這些問題并非孤立事件,而是具有系統(tǒng)性、跨國性和多語種特征。我們認為,這正在危及公眾對媒體的信任。當人們無法判斷什么值得信賴時,最終可能什么都不再相信,而這將削弱民主社會的參與基礎(chǔ)。”
BBC 生成式人工智能項目總監(jiān)彼得?阿徹(Peter Archer)表示:“我們對 AI 充滿期待,相信它能幫助我們?yōu)槭鼙妱?chuàng)造更多價值。但前提是,人們必須能夠信任他們所閱讀、觀看和接觸到的內(nèi)容。盡管已有一定改善,但這些 AI 助手仍存在顯著問題。我們希望這些技術(shù)能夠成功,并愿意與 AI 企業(yè)合作,共同為受眾和社會創(chuàng)造積極影響?!?/p>
研究團隊同時發(fā)布了《AI 助手中的新聞完整性工具包》(News Integrity in AI Assistants Toolkit),旨在為解決報告中揭示的問題提供實用方案。該工具包涵蓋提升 AI 助手回應(yīng)質(zhì)量及增強用戶媒介素養(yǎng)兩個方面?;诒敬窝芯恐惺占拇罅堪咐c洞察,工具包聚焦兩大核心問題:“什么樣的 AI 助手回應(yīng)才算優(yōu)質(zhì)?”以及“哪些問題亟需修復(fù)?”
此外,EBU 及其成員機構(gòu)正敦促歐盟及各國監(jiān)管機構(gòu)嚴格執(zhí)行有關(guān)信息真實性、數(shù)字服務(wù)法規(guī)和媒體多元化的現(xiàn)有法律。鑒于 AI 技術(shù)發(fā)展迅速,持續(xù)開展獨立監(jiān)測至關(guān)重要。為此,EBU 正在探索建立常態(tài)化、滾動式的研究機制,以長期跟蹤 AI 助手的表現(xiàn)。
本研究建立在 BBC 于 2025 年 2 月發(fā)布的初步研究基礎(chǔ)之上,當時首次揭示了 AI 在處理新聞內(nèi)容方面的嚴重缺陷。此次第二階段研究將范圍擴展至全球,進一步證實此類問題具有普遍性,并非局限于特定語言、市場或某一款 AI 助手。
另據(jù) BBC 同日發(fā)布的補充研究顯示,公眾對 AI 助手用于新聞的使用習(xí)慣與認知也令人擔(dān)憂:目前已有超過三分之一的英國成年人相信 AI 生成的新聞?wù)邆錅蚀_性,而在 35 歲以下人群中,這一比例接近一半。
這些發(fā)現(xiàn)引發(fā)了重大關(guān)切:許多人誤以為 AI 生成的新聞?wù)獪蚀_可靠,而事實上并非如此;當他們發(fā)現(xiàn)錯誤時,往往同時責(zé)怪新聞機構(gòu)和 AI 開發(fā)者 —— 即便錯誤完全由 AI 助手造成。長此以往,這類問題可能嚴重損害公眾對新聞本身及其品牌的信任。






















