偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<s id="hfftu"><li id="hfftu"></li></s><p id="hfftu"><li id="hfftu"></li></p>

<cite id="hfftu"></cite>

^{<blockquote id="hfftu"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型集體“掛科”！全新中文網(wǎng)頁檢索測試：GPT-4o準確率僅6.2%

2025-05-06 15:32:23

人工智能新聞

BrowseComp-ZH是一項由港科大（廣州）、北大、浙大、阿里、字節(jié)跳動、NIO等機構(gòu)聯(lián)合發(fā)布的新基準測試集，讓20多個中外主流大模型集體“掛科”。

你以為大模型已經(jīng)能輕松“上網(wǎng)沖浪”了？

新基準測試集BrowseComp-ZH直接打臉主流AI。

BrowseComp-ZH是一項由港科大（廣州）、北大、浙大、阿里、字節(jié)跳動、NIO等機構(gòu)聯(lián)合發(fā)布的新基準測試集，讓20多個中外主流大模型集體“掛科”：

GPT-4o在測試中準確率僅6.2%；多數(shù)國產(chǎn)/國際模型準確率跌破10%；即便是目前表現(xiàn)最好的OpenAI DeepResearch，也僅得42.9%。

目前，BrowseComp-ZH的全部數(shù)據(jù)已開源發(fā)布。

研究團隊直言：

為什么我們需要中文網(wǎng)頁能力測試？

如今的大模型越來越擅長“用工具”：能連搜索引擎、能調(diào)用插件、能“看網(wǎng)頁”。

但眾多評估工具都只在英文語境下建立，對中文語境、中文搜索引擎、中文平臺生態(tài)考慮甚少。

然而，中文互聯(lián)網(wǎng)信息碎片化嚴重、搜索入口多樣、語言表達復雜。

中文網(wǎng)頁世界到底有多難？舉幾個例子你就明白了：

信息碎片化，分散在百度百科、微博、地方政府網(wǎng)站、視頻號等多平臺
常見的語言結(jié)構(gòu)中含有省略、典故、代指，關(guān)鍵詞檢索常?！芭芷?/span>
搜索引擎本身質(zhì)量參差，信息“沉底”或“走丟”都是常事

因此，英文測試集“翻譯一下”根本不夠。

需要從中文語境原生設(shè)計，才能真正衡量大模型是否能在中文網(wǎng)頁上“看得懂”、“搜得到”、“推得準”。

BrowseComp-ZH是怎么煉成的？

研究團隊采用了“逆向設(shè)計法”：從一個明確、可驗證的事實答案出發(fā)（如某個畫種、機構(gòu)、影視劇名），反向構(gòu)造出多個約束條件的復雜問題，確保以下三點：

百度/Bing/Google三大搜索引擎首屏無法直接命中答案
多個主流大模型在檢索模式下也無法直接答對
經(jīng)過人工驗證，問題結(jié)構(gòu)清晰，且僅有唯一答案

最終，他們構(gòu)建了289道高難度中文多跳檢索題目，覆蓋影視、藝術(shù)、醫(yī)學、地理、歷史、科技等11大領(lǐng)域。

大模型集體“翻車”？DeepResearch勉強破四成，絕大多數(shù)連10%都不到

在BrowseComp-ZH的測試下，多款國內(nèi)外主流大模型集體“翻車”：

盡管這些模型在對話理解、生成表達方面已展現(xiàn)強大實力，但在面對中文互聯(lián)網(wǎng)的復雜檢索任務(wù)時，準確率普遍低得驚人：

多數(shù)模型準確率低于10%，僅少數(shù)能突破20%
OpenAI DeepResearch以42.9%位列第一，仍遠未“及格”

研究者指出，這一結(jié)果說明：模型不僅需要會“查資料”，更要會“多跳推理”與“信息整合”，才能在中文互聯(lián)網(wǎng)中真正找到答案。

四大發(fā)現(xiàn)，揭示中文網(wǎng)頁任務(wù)的“模型死角”

1. 僅靠記憶不行，得真本事

純靠參數(shù)記憶（無搜索）的模型準確率往往低于10%，說明“硬背”不靠譜。

2. 有推理的模型，表現(xiàn)更好

DeepSeek-R1（23.2%）比DeepSeek-V3（8.7%）整整高出14.5%，Claude-3.7也比Claude-3.5提升了12.2%，推理能力成為關(guān)鍵變量。

3. 搜得多 ≠ 搜得準，多輪策略才是王道

具備多輪檢索能力的AI搜索產(chǎn)品全面勝出：

DeepResearch：42.9%
豆包Deep Search：26.0%
Perplexity Research模式：22.6%

相比之下，只檢索一次的模型（如Kimi、Yuanbao）準確率低至個位數(shù)。

4. 搜索功能“翻車”？接入反而變差

最典型的反例是DeepSeek-R1，開啟搜索功能后準確率從23.2%斷崖式跌至7.6%。

研究指出，模型未能將網(wǎng)頁檢索信息與已有知識有效融合，反而被誤導。

數(shù)據(jù)集開放！歡迎模型開發(fā)者挑戰(zhàn)

BrowseComp-ZH的全部數(shù)據(jù)已開源發(fā)布。

研究者希望此基準測試能成為推動LLM在中文信息環(huán)境落地的試金石，助力構(gòu)建真正“會用中文上網(wǎng)”的智能體。

下一步，他們計劃擴充樣本規(guī)模，拓展問答形式，并深入分析模型推理路徑與失敗案例。

論文地址：https://arxiv.org/abs/2504.19314

代碼地址：https://github.com/PALIN2018/BrowseComp-ZH

責任編輯：張燕妮來源：量子位

模型 AI 測試

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營