編輯 | 云昭
相信大家都碰到過類似這種情況,當你問 ChatGPT 或 Copilot:“最近 XXX 大火的新聞,后來進展怎么樣了?”
你得到的,可能是一篇語氣權威、邏輯完整的摘要。但如果你追問一句:“這些信息來自哪?”——答案卻要么含糊其辭,要么干脆編造出處。
這并非個例。
10月22日,BBC 與歐洲廣播聯(lián)盟(EBU)聯(lián)合發(fā)布了《News Integrity in AI Assistants》報告,對全球四大AI助手——ChatGPT、Copilot、Gemini和Perplexity——進行了系統(tǒng)測試。
他們向這些助手提出了 3000個與新聞相關的問題,覆蓋 18個國家、14種語言。
結果令人不安:幾乎有一半的內(nèi)容存在誤導或失實。
45% 的AI回答存在重大錯誤,81% 含有某種程度的問題。
報告指出,無論測試哪種語言、地區(qū)或人工智能平臺,我們平時在用的主流大模型,都會經(jīng)常歪曲新聞內(nèi)容。
圖片
本次研究由來自法國、德國、西班牙、烏克蘭、英國和美國等 18 個國家的 22 家公共媒體機構共同參與。這項國際研究分析了 3,000 條 AI 助手對“新聞類問題”的回應。
研究團隊評估了 14 種語言環(huán)境下的多款主流 AI 助手,包括 ChatGPT、Copilot、Gemini 和 Perplexity,重點考察它們在新聞準確性、信息來源可靠性以及區(qū)分事實與觀點能力方面的表現(xiàn)。
研究顯示,45% 的 AI 回答至少存在一個嚴重問題,若計入較輕微的偏差或遺漏,總體有問題的比例高達 81%。
圖片
圖片
可怕之處在于:錯誤不是偶然,而是系統(tǒng)性的
在這份長達60頁的報告中,BBC指出——這些錯誤幾乎出現(xiàn)在所有語言、所有助手身上。
其中,最主要的錯誤是“信息來源問題”(近三分之一的回答),包括遺漏、誤導性引用或錯誤署名。
- 31%的回答引用了不存在、錯誤或誤導性的來源;
- 部分AI甚至偽造新聞鏈接或引用諷刺節(jié)目作為事實;
- Gemini(谷歌)表現(xiàn)最差:
72%的回答存在來源錯誤;
總體錯誤率高達76%。
圖片
其次是20% 的回答存在準確性問題,包括使用過時信息。
- ChatGPT在方濟各去世數(shù)月后仍稱他為“現(xiàn)任教皇”;
- Gemini誤報英國“一次性電子煙法規(guī)修改”;
- Perplexity在報道捷克代孕法時直接“立法造句”。
報告指出,這些問題“不是孤立bug,而是AI新聞生成的系統(tǒng)性偏差”。
圖片
AI越來越自信,寧愿胡說也不愿拒絕
更危險的,是AI助手的“過度自信”。
BBC研究團隊發(fā)現(xiàn),即使面對不確定或缺乏信息的情況,AI助手仍然會一本正經(jīng)地給出答案——拒答率從2024年底的3%下降到僅0.5%。
ps:
小編注意到,此前BBC就曾在6個月前做過初版研究。這次最新的研究數(shù)據(jù)整體質(zhì)量略有提升。
- 嚴重問題比例從 51% 降至 37%(BBC 內(nèi)部數(shù)據(jù));
- 但在多語種、多國家樣本下,系統(tǒng)性問題依舊存在;
- “拒答率”從 3% 降至 0.5%,AI 更傾向于“瞎答”,導致錯誤率上升。
也就是說,AI寧愿胡說,也不愿沉默。
例如,當被問及“NASA宇航員為何被困太空”時,Gemini的回答是:
“這是一種誤解,你可能把科幻電影當成新聞?!?/p>
事實上,當時確實有兩位宇航員因飛船故障滯留九個月。
BBC評語:“Gemini不僅錯,還在反諷用戶?!?/p>
失實危機:大模型正在替代搜索成為新聞入口
EBU 表示,隨著 AI 助手逐漸取代傳統(tǒng)搜索引擎成為新聞入口,這一問題可能侵蝕公眾信任。
“這項研究最終表明,這些失職并非孤立事件。它們具有系統(tǒng)性、跨境性和多語言性,我們認為這會危及公眾信任。當人們不知道該信任什么時,他們最終會變得什么都不信任,這會阻礙民主參與。”
——EBU 媒體總監(jiān) Jean Philip De Tender
根據(jù)路透新聞研究所發(fā)布的《2025年數(shù)字新聞報告》,約 7% 的線上新聞用戶、以及 25 歲以下人群中的 15%,會使用 AI 助手來獲取新聞。
連鎖坍塌:AI出錯,也把媒體機構拖下水
問題不只在技術。它已經(jīng)開始動搖公眾的信任結構。
另一項BBC同步調(diào)查顯示:
- 35%的英國成年人完全信任AI生成的新聞摘要;
- 在35歲以下人群中,這一比例升至 近一半;
- 42% 的受訪者表示,如果AI摘要出錯,他們會連帶對原新聞源失去信任。
換句話說,當AI講錯新聞,不僅AI信譽受損,連BBC、路透社、FT這樣的新聞機構也會被“拖下水”。
而與此同時,《金融時報》發(fā)現(xiàn):
來自搜索引擎的流量下降了 25%–30%,部分原因正是“AI直接回答”帶走了原始點擊。
AI 在重寫新聞入口,但也在重塑信任坍塌的路徑。
各大AI助手廠商聲明
據(jù)悉,路透社已聯(lián)系相關公司以征求回應。
谷歌的 AI 助手 Gemini 此前在其官網(wǎng)上表示,平臺歡迎用戶反饋,以便持續(xù)改進并提高實用性。
OpenAI 與 微軟 也曾表示,所謂“幻覺”(即模型生成錯誤或誤導性內(nèi)容)是當前努力解決的技術挑戰(zhàn)之一。
Perplexity 則在官網(wǎng)稱,其 “Deep Research” 模式在事實準確率方面可達 93.9%。
AI要學會說“我不知道”
BBC在結語中寫道:
“AI助手模仿了新聞的權威語氣,卻缺乏新聞的求證精神。這是一種危險的幻覺。”
這份最新報告呼吁:AI 公司應對其助手的新聞回應承擔更高的透明度與責任,并改進其在新聞類查詢上的表現(xiàn)。
- AI公司應承擔新聞責任,定期公開各語言版本的準確率數(shù)據(jù);
- 媒體機構需獲得內(nèi)容使用與溯源權,建立標準化引用格式;
- 監(jiān)管層應介入,防止“AI答案”取代“新聞過程”;
- 公眾教育刻不容緩——讓人們知道,AI的語氣并不等于真相。
BBC 生成式人工智能節(jié)目總監(jiān) Peter Archer 則表示愿意跟AI公司一道合作推進這一問題的改進。
人們必須能夠信任他們所讀、所看和所見的內(nèi)容。盡管取得了一些進步,但這些助手顯然仍然存在重大問題。我們希望這些工具能夠取得成功,并愿意與人工智能公司合作,為觀眾和更廣泛的社會提供服務。
當真相被算法包裝成答案
AI 正在取代搜索,但它同時也在削弱“可驗證的真相”。在這個人人都能生成內(nèi)容、人人都可能被誤導的時代,
所以能想象得到,各大新聞媒體、甚至是搜索引擎的下一步轉型,不是要和AI競爭內(nèi)容產(chǎn)出,而是要守住最后的驗證體系。
當45%的答案都是錯的,“信任”,才是人類信息系統(tǒng)中最稀缺的資源。






























