偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部頂流模型統(tǒng)統(tǒng)中招!BBC研究:AI系統(tǒng)性錯(cuò)誤把媒體拖下水 原創(chuàng)

發(fā)布于 2025-10-27 12:35
瀏覽
0收藏

編輯 | 云昭 

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

相信大家都碰到過(guò)類(lèi)似這種情況,當(dāng)你問(wèn) ChatGPT 或 Copilot:“最近 XXX 大火的新聞,后來(lái)進(jìn)展怎么樣了?”

你得到的,可能是一篇語(yǔ)氣權(quán)威、邏輯完整的摘要。但如果你追問(wèn)一句:“這些信息來(lái)自哪?”——答案卻要么含糊其辭,要么干脆編造出處。

這并非個(gè)例。

10月22日,BBC 與歐洲廣播聯(lián)盟(EBU)聯(lián)合發(fā)布了《News Integrity in AI Assistants》報(bào)告,對(duì)全球四大AI助手——ChatGPT、Copilot、Gemini和Perplexity——進(jìn)行了系統(tǒng)測(cè)試。

他們向這些助手提出了 3000個(gè)與新聞相關(guān)的問(wèn)題,覆蓋 18個(gè)國(guó)家、14種語(yǔ)言。

結(jié)果令人不安:幾乎有一半的內(nèi)容存在誤導(dǎo)或失實(shí)。

45% 的AI回答存在重大錯(cuò)誤,81% 含有某種程度的問(wèn)題。

報(bào)告指出,無(wú)論測(cè)試哪種語(yǔ)言、地區(qū)或人工智能平臺(tái),我們平時(shí)在用的主流大模型,都會(huì)經(jīng)常歪曲新聞內(nèi)容。

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部頂流模型統(tǒng)統(tǒng)中招!BBC研究:AI系統(tǒng)性錯(cuò)誤把媒體拖下水-AI.x社區(qū)圖片

本次研究由來(lái)自法國(guó)、德國(guó)、西班牙、烏克蘭、英國(guó)和美國(guó)等 18 個(gè)國(guó)家的 22 家公共媒體機(jī)構(gòu)共同參與。這項(xiàng)國(guó)際研究分析了 3,000 條 AI 助手對(duì)“新聞?lì)悊?wèn)題”的回應(yīng)。

研究團(tuán)隊(duì)評(píng)估了 14 種語(yǔ)言環(huán)境下的多款主流 AI 助手,包括 ChatGPT、Copilot、Gemini 和 Perplexity,重點(diǎn)考察它們?cè)谛侣劀?zhǔn)確性、信息來(lái)源可靠性以及區(qū)分事實(shí)與觀點(diǎn)能力方面的表現(xiàn)。

研究顯示,45% 的 AI 回答至少存在一個(gè)嚴(yán)重問(wèn)題,若計(jì)入較輕微的偏差或遺漏,總體有問(wèn)題的比例高達(dá) 81%。

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部頂流模型統(tǒng)統(tǒng)中招!BBC研究:AI系統(tǒng)性錯(cuò)誤把媒體拖下水-AI.x社區(qū)圖片

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部頂流模型統(tǒng)統(tǒng)中招!BBC研究:AI系統(tǒng)性錯(cuò)誤把媒體拖下水-AI.x社區(qū)圖片

可怕之處在于:錯(cuò)誤不是偶然,而是系統(tǒng)性的

在這份長(zhǎng)達(dá)60頁(yè)的報(bào)告中,BBC指出——這些錯(cuò)誤幾乎出現(xiàn)在所有語(yǔ)言、所有助手身上。

其中,最主要的錯(cuò)誤是“信息來(lái)源問(wèn)題”(近三分之一的回答),包括遺漏、誤導(dǎo)性引用或錯(cuò)誤署名。

  • 31%的回答引用了不存在、錯(cuò)誤或誤導(dǎo)性的來(lái)源;
  • 部分AI甚至偽造新聞鏈接或引用諷刺節(jié)目作為事實(shí);
  • Gemini(谷歌)表現(xiàn)最差:
  • 72%的回答存在來(lái)源錯(cuò)誤;
  • 總體錯(cuò)誤率高達(dá)76%。

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部頂流模型統(tǒng)統(tǒng)中招!BBC研究:AI系統(tǒng)性錯(cuò)誤把媒體拖下水-AI.x社區(qū)圖片

其次是20% 的回答存在準(zhǔn)確性問(wèn)題,包括使用過(guò)時(shí)信息。

  • ChatGPT在方濟(jì)各去世數(shù)月后仍稱(chēng)他為“現(xiàn)任教皇”;
  • Gemini誤報(bào)英國(guó)“一次性電子煙法規(guī)修改”;
  • Perplexity在報(bào)道捷克代孕法時(shí)直接“立法造句”。

報(bào)告指出,這些問(wèn)題“不是孤立bug,而是AI新聞生成的系統(tǒng)性偏差”。

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部頂流模型統(tǒng)統(tǒng)中招!BBC研究:AI系統(tǒng)性錯(cuò)誤把媒體拖下水-AI.x社區(qū)圖片

AI越來(lái)越自信,寧愿胡說(shuō)也不愿拒絕

更危險(xiǎn)的,是AI助手的“過(guò)度自信”。

BBC研究團(tuán)隊(duì)發(fā)現(xiàn),即使面對(duì)不確定或缺乏信息的情況,AI助手仍然會(huì)一本正經(jīng)地給出答案——拒答率從2024年底的3%下降到僅0.5%。

ps:

小編注意到,此前BBC就曾在6個(gè)月前做過(guò)初版研究。這次最新的研究數(shù)據(jù)整體質(zhì)量略有提升。

  • 嚴(yán)重問(wèn)題比例從 51% 降至 37%(BBC 內(nèi)部數(shù)據(jù));
  • 但在多語(yǔ)種、多國(guó)家樣本下,系統(tǒng)性問(wèn)題依舊存在;
  • “拒答率”從 3% 降至 0.5%,AI 更傾向于“瞎答”,導(dǎo)致錯(cuò)誤率上升。

也就是說(shuō),AI寧愿胡說(shuō),也不愿沉默。

例如,當(dāng)被問(wèn)及“NASA宇航員為何被困太空”時(shí),Gemini的回答是:

“這是一種誤解,你可能把科幻電影當(dāng)成新聞。”

事實(shí)上,當(dāng)時(shí)確實(shí)有兩位宇航員因飛船故障滯留九個(gè)月。

BBC評(píng)語(yǔ):“Gemini不僅錯(cuò),還在反諷用戶(hù)?!?/p>

失實(shí)危機(jī):大模型正在替代搜索成為新聞入口

EBU 表示,隨著 AI 助手逐漸取代傳統(tǒng)搜索引擎成為新聞入口,這一問(wèn)題可能侵蝕公眾信任。

“這項(xiàng)研究最終表明,這些失職并非孤立事件。它們具有系統(tǒng)性、跨境性和多語(yǔ)言性,我們認(rèn)為這會(huì)危及公眾信任。當(dāng)人們不知道該信任什么時(shí),他們最終會(huì)變得什么都不信任,這會(huì)阻礙民主參與?!?/p>

——EBU 媒體總監(jiān) Jean Philip De Tender

根據(jù)路透新聞研究所發(fā)布的《2025年數(shù)字新聞報(bào)告》,約 7% 的線(xiàn)上新聞?dòng)脩?hù)、以及 25 歲以下人群中的 15%,會(huì)使用 AI 助手來(lái)獲取新聞。

連鎖坍塌:AI出錯(cuò),也把媒體機(jī)構(gòu)拖下水

問(wèn)題不只在技術(shù)。它已經(jīng)開(kāi)始動(dòng)搖公眾的信任結(jié)構(gòu)。

另一項(xiàng)BBC同步調(diào)查顯示:

  • 35%的英國(guó)成年人完全信任AI生成的新聞?wù)?/li>
  • 在35歲以下人群中,這一比例升至 近一半;
  • 42% 的受訪(fǎng)者表示,如果AI摘要出錯(cuò),他們會(huì)連帶對(duì)原新聞源失去信任。

換句話(huà)說(shuō),當(dāng)AI講錯(cuò)新聞,不僅AI信譽(yù)受損,連BBC、路透社、FT這樣的新聞機(jī)構(gòu)也會(huì)被“拖下水”。

而與此同時(shí),《金融時(shí)報(bào)》發(fā)現(xiàn):

來(lái)自搜索引擎的流量下降了 25%–30%,部分原因正是“AI直接回答”帶走了原始點(diǎn)擊。

AI 在重寫(xiě)新聞入口,但也在重塑信任坍塌的路徑。

各大AI助手廠(chǎng)商聲明

據(jù)悉,路透社已聯(lián)系相關(guān)公司以征求回應(yīng)。

谷歌的 AI 助手 Gemini 此前在其官網(wǎng)上表示,平臺(tái)歡迎用戶(hù)反饋,以便持續(xù)改進(jìn)并提高實(shí)用性。

OpenAI 與 微軟 也曾表示,所謂“幻覺(jué)”(即模型生成錯(cuò)誤或誤導(dǎo)性?xún)?nèi)容)是當(dāng)前努力解決的技術(shù)挑戰(zhàn)之一。

Perplexity 則在官網(wǎng)稱(chēng),其 “Deep Research” 模式在事實(shí)準(zhǔn)確率方面可達(dá) 93.9%。

AI要學(xué)會(huì)說(shuō)“我不知道”

BBC在結(jié)語(yǔ)中寫(xiě)道:

“AI助手模仿了新聞的權(quán)威語(yǔ)氣,卻缺乏新聞的求證精神。這是一種危險(xiǎn)的幻覺(jué)。”

這份最新報(bào)告呼吁:AI 公司應(yīng)對(duì)其助手的新聞回應(yīng)承擔(dān)更高的透明度與責(zé)任,并改進(jìn)其在新聞?lì)惒樵?xún)上的表現(xiàn)。

  1. AI公司應(yīng)承擔(dān)新聞責(zé)任,定期公開(kāi)各語(yǔ)言版本的準(zhǔn)確率數(shù)據(jù);
  2. 媒體機(jī)構(gòu)需獲得內(nèi)容使用與溯源權(quán),建立標(biāo)準(zhǔn)化引用格式;
  3. 監(jiān)管層應(yīng)介入,防止“AI答案”取代“新聞過(guò)程”;
  4. 公眾教育刻不容緩——讓人們知道,AI的語(yǔ)氣并不等于真相。

BBC 生成式人工智能節(jié)目總監(jiān) Peter Archer 則表示愿意跟AI公司一道合作推進(jìn)這一問(wèn)題的改進(jìn)。

人們必須能夠信任他們所讀、所看和所見(jiàn)的內(nèi)容。盡管取得了一些進(jìn)步,但這些助手顯然仍然存在重大問(wèn)題。我們希望這些工具能夠取得成功,并愿意與人工智能公司合作,為觀眾和更廣泛的社會(huì)提供服務(wù)。

當(dāng)真相被算法包裝成答案

AI 正在取代搜索,但它同時(shí)也在削弱“可驗(yàn)證的真相”。在這個(gè)人人都能生成內(nèi)容、人人都可能被誤導(dǎo)的時(shí)代,

所以能想象得到,各大新聞媒體、甚至是搜索引擎的下一步轉(zhuǎn)型,不是要和AI競(jìng)爭(zhēng)內(nèi)容產(chǎn)出,而是要守住最后的驗(yàn)證體系。

當(dāng)45%的答案都是錯(cuò)的,“信任”,才是人類(lèi)信息系統(tǒng)中最稀缺的資源。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-10-27 13:45:06修改
1
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄