偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大發(fā)布學(xué)術(shù)搜索評(píng)測(cè)ScholarSearch:難倒一眾DeepResearch的“開(kāi)卷考試”

人工智能 新聞
北京大學(xué)DS-Lab發(fā)布ScholarSearch,這是首個(gè)專(zhuān)門(mén)用于評(píng)估大語(yǔ)言模型在學(xué)術(shù)研究中復(fù)雜信息檢索能力的數(shù)據(jù)集,包含223道高難度的學(xué)術(shù)檢索題目及其答案。

LLMs能當(dāng)科研助手了?

北大出考題,結(jié)果顯示:現(xiàn)有模型都不能勝任。

北京大學(xué)DS-Lab發(fā)布ScholarSearch,這是首個(gè)專(zhuān)門(mén)用于評(píng)估大語(yǔ)言模型在學(xué)術(shù)研究中復(fù)雜信息檢索能力的數(shù)據(jù)集,包含223道高難度的學(xué)術(shù)檢索題目及其答案。

它對(duì)具備聯(lián)網(wǎng)搜索能力的代表性模型及純推理模型進(jìn)行了評(píng)估,結(jié)果顯示,頂尖的純推理模型,如GPT-4.1、DeepSeek-R1,在處理這些問(wèn)題時(shí)準(zhǔn)確率普遍低于9%。

具備搜索功能的模型,相較于其無(wú)搜索能力的版本,準(zhǔn)確率有顯著提升,例如,GPT-4o-mini的準(zhǔn)確率提升超過(guò)四倍。

盡管瀏覽能力帶來(lái)了顯著改進(jìn),但即便是最先進(jìn)的搜索增強(qiáng)型模型,如GPT-4o-search-preview,其準(zhǔn)確率僅為18.83%

圖片

方法

OpenAI的Deep Research、Grok的DeepSearch、Gemini的Deep Research以及月之暗面的Kimi-Researcher等,以“深度搜索”功能為核心,為攻克高難度信息檢索任務(wù)提供了新的范式。

然而,學(xué)術(shù)界與業(yè)界目前尚未建立起一套公認(rèn)的評(píng)估體系與標(biāo)準(zhǔn)數(shù)據(jù)集,用以系統(tǒng)性地檢驗(yàn)這些新興模型在真實(shí)學(xué)術(shù)研究場(chǎng)景下的實(shí)際效能。

北京大學(xué)DS-Lab發(fā)布ScholarSearch,旨在對(duì)LLMs的檢索、信息整合及推理能力進(jìn)行綜合性、極限性考驗(yàn)。

研究團(tuán)隊(duì)招募了來(lái)自北京大學(xué)各個(gè)學(xué)院的本科和研究生志愿者,并為他們提供了集中培訓(xùn)。志愿者從公開(kāi)可訪問(wèn)的在線(xiàn)出版物和網(wǎng)站中選擇材料,以制定需要網(wǎng)絡(luò)搜索解答的學(xué)術(shù)問(wèn)題。

為確保問(wèn)題能真正考驗(yàn)?zāi)P偷纳疃妊芯磕芰?,所有初步?gòu)建的問(wèn)題必須通過(guò)以下雙重負(fù)向篩選標(biāo)準(zhǔn)的驗(yàn)證:

1.不能通過(guò)Grok 3的Thinking模式獲得正確答案,確保問(wèn)題需要深入廣泛的信息檢索能力。

2.Grok 3的DeepSearch模式或Gemini 2.5 Pro的Deep Research功能至少有一個(gè)未能提供正確答案,確保問(wèn)題的高難度。

成功滿(mǎn)足上述標(biāo)準(zhǔn)的問(wèn)題隨后提交給專(zhuān)門(mén)的審核團(tuán)隊(duì)進(jìn)行數(shù)據(jù)審核,以確保以下幾點(diǎn):

答案唯一性:每個(gè)問(wèn)題對(duì)應(yīng)唯一的、明確無(wú)誤的答案。來(lái)源可訪問(wèn)性:回答問(wèn)題所需的參考來(lái)源可通過(guò)互聯(lián)網(wǎng)公開(kāi)獲取。學(xué)術(shù)正確性:?jiǎn)栴}的學(xué)術(shù)價(jià)值和答案的正確性根據(jù)提供的來(lái)源進(jìn)行驗(yàn)證。

任何未能達(dá)標(biāo)的問(wèn)題都將被退回進(jìn)行迭代修訂,直至合格。

圖片

圖片

ScholarSearch具有以下核心特點(diǎn):

高度的真實(shí)性與應(yīng)用價(jià)值:數(shù)據(jù)集中的所有問(wèn)題均源于真實(shí)的學(xué)術(shù)研究與學(xué)習(xí)情境。其設(shè)計(jì)旨在忠實(shí)反映研究者面臨的實(shí)際信息挑戰(zhàn),保證了評(píng)估結(jié)果能夠真實(shí)地反映模型在實(shí)際應(yīng)用中的效能。

卓越的挑戰(zhàn)性與深度ScholarSearch的難度經(jīng)過(guò)嚴(yán)格審查,確保即便是頂尖的模型(如 Grok DeepSearch 或 Gemini Deep Research)也難以一次性給出正確答案。大多數(shù)問(wèn)題需要進(jìn)行多次深度搜索才能得出答案,充分考驗(yàn)?zāi)P偷膹?fù)雜推理和信息整合能力。

廣泛的學(xué)科覆蓋:為確保評(píng)估的全面性與代表性,ScholarSearch圍繞科學(xué)與工程領(lǐng)域(Science & Engineering)和社會(huì)科學(xué)與人文學(xué)科領(lǐng)域(Social Sciences & Humanities)兩大門(mén)類(lèi)進(jìn)行構(gòu)建,共涵蓋了15個(gè)不同的細(xì)分學(xué)科。

圖片

結(jié)果

研究團(tuán)隊(duì)使用ScholarSearch對(duì)具備聯(lián)網(wǎng)搜索能力的代表性模型及純推理模型進(jìn)行了評(píng)估,結(jié)果如圖所示。評(píng)估結(jié)果明確揭示,現(xiàn)有模型的整體表現(xiàn)欠佳,其學(xué)術(shù)搜索能力亟待提升。

圖片

僅憑推理無(wú)法解決學(xué)術(shù)研究問(wèn)題: 實(shí)驗(yàn)明確指出,ScholarSearch數(shù)據(jù)集中的問(wèn)題無(wú)法僅通過(guò)模型的預(yù)訓(xùn)練知識(shí)和推理能力解決。頂尖的純推理模型,如GPT-4.1、DeepSeek-R1,在處理這些問(wèn)題時(shí)準(zhǔn)確率極低,普遍低于9%。這表明學(xué)術(shù)查詢(xún)具有高度復(fù)雜性,這超出了靜態(tài)、內(nèi)嵌知識(shí)庫(kù)的能力范疇。

瀏覽能力顯著提升模型性能: 賦予模型訪問(wèn)互聯(lián)網(wǎng)的瀏覽能力可以提高其準(zhǔn)確性。具備搜索功能的模型,相較于其無(wú)搜索能力的版本,準(zhǔn)確率有顯著提升,例如,GPT-4o-mini的準(zhǔn)確率提升超過(guò)四倍。此外,搜索能力也平衡了模型在不同學(xué)科領(lǐng)域的表現(xiàn),在科學(xué)與工程領(lǐng)域和社會(huì)科學(xué)與人文學(xué)科領(lǐng)域達(dá)到了相當(dāng)?shù)乃健_@一結(jié)果證實(shí),對(duì)于解決復(fù)雜的學(xué)術(shù)問(wèn)題,進(jìn)行實(shí)時(shí)信息檢索、訪問(wèn)數(shù)據(jù)并進(jìn)行交叉引用的能力至關(guān)重要。

當(dāng)前搜索模型仍不足以應(yīng)對(duì)深度學(xué)術(shù)探究: 盡管瀏覽能力帶來(lái)了顯著改進(jìn),但即便是最先進(jìn)的搜索增強(qiáng)型模型,如GPT-4o-search-preview,準(zhǔn)確率僅為18.83%。在解決復(fù)雜學(xué)術(shù)問(wèn)題方面仍表現(xiàn)不充分。這揭示了當(dāng)前模型在進(jìn)行深度研究、整合專(zhuān)業(yè)知識(shí)以及執(zhí)行復(fù)雜的多源推理時(shí)存在的差距,也揭示了Deep Research模型的研發(fā)需求。

ScholarSearch作為一個(gè)在深度搜索領(lǐng)域的學(xué)術(shù)基準(zhǔn)測(cè)試集,不僅衡量了模型的當(dāng)前能力,更揭示了現(xiàn)有技術(shù)與真實(shí)學(xué)術(shù)工作流之間的核心差距,為未來(lái)的大語(yǔ)言模型掌握復(fù)雜綜合的語(yǔ)境理解、海量資料來(lái)源的批判準(zhǔn)確性驗(yàn)證,提供了有挑戰(zhàn)的參考。

論文鏈接:https://arxiv.org/abs/2506.13784

數(shù)據(jù)集鏈接:https://huggingface.co/datasets/PKU-DS-LAB/ScholarSearch

課題組huggingface主頁(yè):https://huggingface.co/PKU-DS-LAB

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-10-29 09:00:00

2025-07-03 02:12:00

RAG檢索系統(tǒng)

2025-04-09 13:25:34

2024-10-24 23:37:33

2025-09-25 10:25:29

2024-07-08 08:15:00

2015-03-11 18:49:53

Testin眾測(cè)云測(cè)

2025-01-22 13:40:00

2018-09-27 10:39:25

螞蟻金服開(kāi)放分布式

2015-02-09 10:40:47

Testin眾測(cè)移動(dòng)App

2020-02-14 13:06:05

騰訊面試算法

2025-06-03 08:39:00

2020-11-21 00:47:34

眾安天下SaaS安全

2025-02-03 12:29:29

2025-09-18 09:56:47

2025-05-13 00:51:55

2025-06-25 09:32:11

2025-09-01 08:51:00

2009-10-20 09:32:29

微軟Visual Stud.NET 4.0
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)