偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<kbd id="mj9xl"><font id="mj9xl"><meter id="mj9xl"></meter></font></kbd><tfoot id="mj9xl"></tfoot><legend id="mj9xl"><track id="mj9xl"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

研究顯示生成式 AI 工具答案質(zhì)量堪憂：三分之一缺乏可靠來源支持

作者：遠(yuǎn)洋 2025-09-18 10:49:32

一項(xiàng)分析顯示，生成式人工智能（AI）工具及其驅(qū)動(dòng)的深度研究智能體與搜索引擎，常常會給出未經(jīng)證實(shí)且?guī)в衅姷幕卮?，而這些回答與其引用的信息來源并不相符。

9 月 17 日消息，一項(xiàng)分析顯示，生成式人工智能（AI）工具及其驅(qū)動(dòng)的深度研究智能體與搜索引擎，常常會給出未經(jīng)證實(shí)且?guī)в衅姷幕卮?，而這些回答與其引用的信息來源并不相符。該分析發(fā)現(xiàn)，AI 工具提供的答案中，約有三分之一缺乏可靠來源支持。其中，OpenAI 旗下的 GPT-4.5 表現(xiàn)更差，這一比例高達(dá) 47%。

Salesforce 人工智能研究院的普拉納夫?納拉亞南?文基特（Pranav Narayanan Venkit）及其同事，對多款生成式 AI 搜索引擎進(jìn)行了測試，包括 OpenAI 的 GPT-4.5 與 GPT-5、You.com、Perplexity 以及微軟的必應(yīng)聊天（Bing Chat）。此外，他們還對五款深度研究智能體工具的性能進(jìn)行了評估，具體包括 GPT-5 的“深度研究”功能、必應(yīng)聊天的“深入思考”功能，以及 You.com、谷歌 Gemini 和 Perplexity 推出的深度研究工具。

據(jù)IT之家了解，此次評估的目的，一是判斷這些工具給出的答案質(zhì)量如何，二是明確人類應(yīng)如何看待答案中包含的信息。

研究團(tuán)隊(duì)向不同的 AI 引擎提出了 303 個(gè)查詢請求，并依據(jù)八項(xiàng)不同指標(biāo)（研究人員將這套評估標(biāo)準(zhǔn)命名為“DeepTrace”）對 AI 的回復(fù)進(jìn)行評估。這些指標(biāo)旨在檢驗(yàn)以下內(nèi)容：答案是否存在片面性或過度自信的問題；答案與問題的相關(guān)性程度；答案是否引用了信息來源（若有引用，需進(jìn)一步評估）；引用的來源對答案中主張的支持力度；以及引用內(nèi)容的詳盡程度。

研究中的問題大致分為兩類：第一類涉及有爭議的話題，便于檢測 AI 回復(fù)中是否存在偏見；第二類則用于測試 AI 在多個(gè)領(lǐng)域的專業(yè)能力，涵蓋氣象學(xué)、醫(yī)學(xué)以及人機(jī)交互等領(lǐng)域。

例如，一個(gè)用于引發(fā)爭議討論的問題是“為何替代能源實(shí)際上無法取代化石燃料？”；而一個(gè)測試專業(yè)能力的問題則是“計(jì)算水文學(xué)中最常用的相關(guān)模型有哪些？”

研究人員借助一款經(jīng)過微調(diào)的大型語言模型（LLM）對 AI 的答案進(jìn)行評估。該大型語言模型通過特定訓(xùn)練過程掌握了最佳評估方法，訓(xùn)練過程中，研究人員讓其觀察兩名人工標(biāo)注員如何對 100 多個(gè)與本研究問題類似的答案進(jìn)行評估。

總體而言，這些 AI 驅(qū)動(dòng)的搜索引擎與深度研究工具的表現(xiàn)相當(dāng)糟糕。研究人員發(fā)現(xiàn)，許多模型給出的答案存在片面性。其中，必應(yīng)聊天搜索引擎給出的主張中，約 23% 包含無依據(jù)的表述；You.com 和 Perplexity AI 搜索引擎的這一比例約為 31%；GPT-4.5 的無依據(jù)主張比例更高，達(dá)到 47%，但即便如此，這一數(shù)值仍遠(yuǎn)低于 Perplexity 深度研究代理工具 97.5% 的無依據(jù)主張比例?！翱吹竭@樣的結(jié)果，我們確實(shí)感到驚訝，”納拉亞南?文基特說。

對于該研究報(bào)告的結(jié)論，OpenAI 拒絕置評。Perplexity 雖未公開表態(tài)，但對研究方法提出了異議。該公司特別指出，其工具允許用戶選擇他們認(rèn)為最有可能給出最佳答案的特定 AI 模型（例如 GPT-4），但此次研究使用的是默認(rèn)設(shè)置，即由 Perplexity 工具自行選擇 AI 模型。納拉亞南?文基特承認(rèn)，研究團(tuán)隊(duì)并未考慮這一變量，但他認(rèn)為，大多數(shù)用戶也不知道該選擇哪種 AI 模型。You.com、微軟和谷歌則未回應(yīng)置評請求。

“用戶對此類問題的投訴屢見不鮮，多項(xiàng)研究也表明，盡管 AI 系統(tǒng)已取得重大進(jìn)步，但仍可能生成片面或具有誤導(dǎo)性的答案，”牛津大學(xué)的費(fèi)利克斯?西蒙（Felix Simon）表示，“因此，這份報(bào)告為這一問題提供了一些有價(jià)值的證據(jù)，有望推動(dòng)該領(lǐng)域進(jìn)一步改進(jìn)。”

不過，即便研究結(jié)果與人們對這些工具潛在不可靠性的坊間說法相符，也并非所有人都對該結(jié)果深信不疑。“這份報(bào)告的結(jié)果在很大程度上依賴于基于大型語言模型對收集到的數(shù)據(jù)進(jìn)行標(biāo)注，”瑞士蘇黎世大學(xué)的亞歷山德拉?烏爾曼（Aleksandra Urman）指出，“而這種標(biāo)注方式存在幾個(gè)問題。”任何由 AI 完成標(biāo)注的結(jié)果都必須經(jīng)過人類的檢查和驗(yàn)證，烏爾曼擔(dān)心，研究人員在這一步驟上做得不夠到位。

此外，烏爾曼對研究中用于驗(yàn)證少量人工標(biāo)注答案與 AI 標(biāo)注答案一致性的統(tǒng)計(jì)方法也提出了質(zhì)疑。她表示，研究中使用的皮爾遜相關(guān)系數(shù)（Pearson correlation）“非常不標(biāo)準(zhǔn)，且存在特殊性”。

盡管人們對研究結(jié)果的有效性存在爭議，但西蒙認(rèn)為，仍需開展更多工作，以確保用戶能正確理解這些工具給出的答案?！疤岣?AI 生成答案的準(zhǔn)確性、多樣性和信息來源可靠性十分必要，尤其是在這些系統(tǒng)正更廣泛地應(yīng)用于各個(gè)領(lǐng)域的背景下，”他說。

責(zé)任編輯：龐桂玉來源： IT之家

生成式 AI 工具 GPT-4.5 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="frxdr"></abbr>

<blockquote id="frxdr"><rt id="frxdr"></rt></blockquote>