偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部頂流模型統(tǒng)統(tǒng)中招!BBC研究:AI系統(tǒng)性錯誤把媒體拖下水,信任滑坡

原創(chuàng) 精選
人工智能
在如今這個數(shù)字時代,我們時刻都離不開網(wǎng)絡。在家里,有光纖寬帶。在戶外,有移動蜂窩通信。在公司、校園、醫(yī)院、廠區(qū)等場所,同樣也需要部署網(wǎng)絡,例如校園網(wǎng)、醫(yī)院網(wǎng)等。這些也被稱為園區(qū)網(wǎng)(Campus Network)。

編輯 | 云昭 

相信大家都碰到過類似這種情況,當你問 ChatGPT 或 Copilot:“最近 XXX 大火的新聞,后來進展怎么樣了?”

你得到的,可能是一篇語氣權威、邏輯完整的摘要。但如果你追問一句:“這些信息來自哪?”——答案卻要么含糊其辭,要么干脆編造出處。

這并非個例。

10月22日,BBC 與歐洲廣播聯(lián)盟(EBU)聯(lián)合發(fā)布了《News Integrity in AI Assistants》報告,對全球四大AI助手——ChatGPT、Copilot、Gemini和Perplexity——進行了系統(tǒng)測試。

他們向這些助手提出了 3000個與新聞相關的問題,覆蓋 18個國家、14種語言。

結果令人不安:幾乎有一半的內(nèi)容存在誤導或失實。

45% 的AI回答存在重大錯誤,81% 含有某種程度的問題。

報告指出,無論測試哪種語言、地區(qū)或人工智能平臺,我們平時在用的主流大模型,都會經(jīng)常歪曲新聞內(nèi)容。

圖片圖片

本次研究由來自法國、德國、西班牙、烏克蘭、英國和美國等 18 個國家的 22 家公共媒體機構共同參與。這項國際研究分析了 3,000 條 AI 助手對“新聞類問題”的回應。

研究團隊評估了 14 種語言環(huán)境下的多款主流 AI 助手,包括 ChatGPT、Copilot、Gemini 和 Perplexity,重點考察它們在新聞準確性、信息來源可靠性以及區(qū)分事實與觀點能力方面的表現(xiàn)。

研究顯示,45% 的 AI 回答至少存在一個嚴重問題,若計入較輕微的偏差或遺漏,總體有問題的比例高達 81%。

圖片圖片

圖片圖片

可怕之處在于:錯誤不是偶然,而是系統(tǒng)性的

在這份長達60頁的報告中,BBC指出——這些錯誤幾乎出現(xiàn)在所有語言、所有助手身上。

其中,最主要的錯誤是“信息來源問題”(近三分之一的回答),包括遺漏、誤導性引用或錯誤署名。

  • 31%的回答引用了不存在、錯誤或誤導性的來源;
  • 部分AI甚至偽造新聞鏈接或引用諷刺節(jié)目作為事實;
  • Gemini(谷歌)表現(xiàn)最差:

72%的回答存在來源錯誤;

總體錯誤率高達76%。

圖片圖片

其次是20% 的回答存在準確性問題,包括使用過時信息。

  • ChatGPT在方濟各去世數(shù)月后仍稱他為“現(xiàn)任教皇”;
  • Gemini誤報英國“一次性電子煙法規(guī)修改”;
  • Perplexity在報道捷克代孕法時直接“立法造句”。

報告指出,這些問題“不是孤立bug,而是AI新聞生成的系統(tǒng)性偏差”。

圖片圖片

AI越來越自信,寧愿胡說也不愿拒絕

更危險的,是AI助手的“過度自信”。

BBC研究團隊發(fā)現(xiàn),即使面對不確定或缺乏信息的情況,AI助手仍然會一本正經(jīng)地給出答案——拒答率從2024年底的3%下降到僅0.5%。

ps:

小編注意到,此前BBC就曾在6個月前做過初版研究。這次最新的研究數(shù)據(jù)整體質(zhì)量略有提升。

  • 嚴重問題比例從 51% 降至 37%(BBC 內(nèi)部數(shù)據(jù));
  • 但在多語種、多國家樣本下,系統(tǒng)性問題依舊存在;
  • “拒答率”從 3% 降至 0.5%,AI 更傾向于“瞎答”,導致錯誤率上升。

也就是說,AI寧愿胡說,也不愿沉默。

例如,當被問及“NASA宇航員為何被困太空”時,Gemini的回答是:

“這是一種誤解,你可能把科幻電影當成新聞?!?/p>

事實上,當時確實有兩位宇航員因飛船故障滯留九個月。

BBC評語:“Gemini不僅錯,還在反諷用戶?!?/p>

失實危機:大模型正在替代搜索成為新聞入口

EBU 表示,隨著 AI 助手逐漸取代傳統(tǒng)搜索引擎成為新聞入口,這一問題可能侵蝕公眾信任。


“這項研究最終表明,這些失職并非孤立事件。它們具有系統(tǒng)性、跨境性和多語言性,我們認為這會危及公眾信任。當人們不知道該信任什么時,他們最終會變得什么都不信任,這會阻礙民主參與。”

——EBU 媒體總監(jiān) Jean Philip De Tender


根據(jù)路透新聞研究所發(fā)布的《2025年數(shù)字新聞報告》,約 7% 的線上新聞用戶、以及 25 歲以下人群中的 15%,會使用 AI 助手來獲取新聞。

連鎖坍塌:AI出錯,也把媒體機構拖下水

問題不只在技術。它已經(jīng)開始動搖公眾的信任結構。

另一項BBC同步調(diào)查顯示:

  • 35%的英國成年人完全信任AI生成的新聞摘要;
  • 在35歲以下人群中,這一比例升至 近一半;
  • 42% 的受訪者表示,如果AI摘要出錯,他們會連帶對原新聞源失去信任。

換句話說,當AI講錯新聞,不僅AI信譽受損,連BBC、路透社、FT這樣的新聞機構也會被“拖下水”。

而與此同時,《金融時報》發(fā)現(xiàn):

來自搜索引擎的流量下降了 25%–30%,部分原因正是“AI直接回答”帶走了原始點擊。

AI 在重寫新聞入口,但也在重塑信任坍塌的路徑。

各大AI助手廠商聲明

據(jù)悉,路透社已聯(lián)系相關公司以征求回應。

谷歌的 AI 助手 Gemini 此前在其官網(wǎng)上表示,平臺歡迎用戶反饋,以便持續(xù)改進并提高實用性。

OpenAI 與 微軟 也曾表示,所謂“幻覺”(即模型生成錯誤或誤導性內(nèi)容)是當前努力解決的技術挑戰(zhàn)之一。

Perplexity 則在官網(wǎng)稱,其 “Deep Research” 模式在事實準確率方面可達 93.9%。

AI要學會說“我不知道”

BBC在結語中寫道:

“AI助手模仿了新聞的權威語氣,卻缺乏新聞的求證精神。這是一種危險的幻覺。”

這份最新報告呼吁:AI 公司應對其助手的新聞回應承擔更高的透明度與責任,并改進其在新聞類查詢上的表現(xiàn)。

  1. AI公司應承擔新聞責任,定期公開各語言版本的準確率數(shù)據(jù);
  2. 媒體機構需獲得內(nèi)容使用與溯源權,建立標準化引用格式;
  3. 監(jiān)管層應介入,防止“AI答案”取代“新聞過程”;
  4. 公眾教育刻不容緩——讓人們知道,AI的語氣并不等于真相。

BBC 生成式人工智能節(jié)目總監(jiān) Peter Archer 則表示愿意跟AI公司一道合作推進這一問題的改進。

人們必須能夠信任他們所讀、所看和所見的內(nèi)容。盡管取得了一些進步,但這些助手顯然仍然存在重大問題。我們希望這些工具能夠取得成功,并愿意與人工智能公司合作,為觀眾和更廣泛的社會提供服務。

當真相被算法包裝成答案

AI 正在取代搜索,但它同時也在削弱“可驗證的真相”。在這個人人都能生成內(nèi)容、人人都可能被誤導的時代,

所以能想象得到,各大新聞媒體、甚至是搜索引擎的下一步轉型,不是要和AI競爭內(nèi)容產(chǎn)出,而是要守住最后的驗證體系。

當45%的答案都是錯的,“信任”,才是人類信息系統(tǒng)中最稀缺的資源。

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2025-08-13 18:30:56

OpenAIAI馬斯克

2024-02-27 18:42:45

人工智能

2012-11-19 10:44:02

移動設備社交網(wǎng)絡網(wǎng)絡接入

2023-07-20 12:32:42

Linux桌面

2014-11-18 10:02:28

2010-07-12 09:28:59

Windows 764位

2012-04-09 10:06:05

英國密碼工作密碼

2018-03-23 10:28:27

京東圖片技術

2024-04-17 15:58:02

2023-10-21 12:42:19

模型訓練

2023-03-09 11:21:08

ChatGPT員工業(yè)務

2023-08-11 10:50:12

ChatGPT

2023-08-08 12:34:18

ChatGPT人工智能

2025-08-08 02:22:00

ResearchAI應用

2023-07-12 10:04:20

模型訓練

2015-07-27 10:24:01

蘋果中國

2020-12-04 10:11:26

Unsafejava并發(fā)包

2013-02-25 10:11:35

4GLTE商用網(wǎng)絡

2024-04-25 08:57:04

2023-10-31 20:15:13

阿里云云棲大會通義千問
點贊
收藏

51CTO技術棧公眾號