北大發(fā)布學(xué)術(shù)搜索評(píng)測(cè)ScholarSearch：難倒一眾DeepResearch的“開(kāi)卷考試”

2025-06-27 08:47:12

北京大學(xué)DS-Lab發(fā)布ScholarSearch，這是首個(gè)專(zhuān)門(mén)用于評(píng)估大語(yǔ)言模型在學(xué)術(shù)研究中復(fù)雜信息檢索能力的數(shù)據(jù)集，包含223道高難度的學(xué)術(shù)檢索題目及其答案。

LLMs能當(dāng)科研助手了？

北大出考題，結(jié)果顯示：現(xiàn)有模型都不能勝任。

它對(duì)具備聯(lián)網(wǎng)搜索能力的代表性模型及純推理模型進(jìn)行了評(píng)估，結(jié)果顯示，頂尖的純推理模型，如GPT-4.1、DeepSeek-R1，在處理這些問(wèn)題時(shí)準(zhǔn)確率普遍低于9%。

具備搜索功能的模型，相較于其無(wú)搜索能力的版本，準(zhǔn)確率有顯著提升，例如，GPT-4o-mini的準(zhǔn)確率提升超過(guò)四倍。

盡管瀏覽能力帶來(lái)了顯著改進(jìn)，但即便是最先進(jìn)的搜索增強(qiáng)型模型，如GPT-4o-search-preview，其準(zhǔn)確率僅為18.83%。

方法

OpenAI的Deep Research、Grok的DeepSearch、Gemini的Deep Research以及月之暗面的Kimi-Researcher等，以“深度搜索”功能為核心，為攻克高難度信息檢索任務(wù)提供了新的范式。

然而，學(xué)術(shù)界與業(yè)界目前尚未建立起一套公認(rèn)的評(píng)估體系與標(biāo)準(zhǔn)數(shù)據(jù)集，用以系統(tǒng)性地檢驗(yàn)這些新興模型在真實(shí)學(xué)術(shù)研究場(chǎng)景下的實(shí)際效能。

北京大學(xué)DS-Lab發(fā)布ScholarSearch，旨在對(duì)LLMs的檢索、信息整合及推理能力進(jìn)行綜合性、極限性考驗(yàn)。

研究團(tuán)隊(duì)招募了來(lái)自北京大學(xué)各個(gè)學(xué)院的本科和研究生志愿者，并為他們提供了集中培訓(xùn)。志愿者從公開(kāi)可訪問(wèn)的在線(xiàn)出版物和網(wǎng)站中選擇材料，以制定需要網(wǎng)絡(luò)搜索解答的學(xué)術(shù)問(wèn)題。

為確保問(wèn)題能真正考驗(yàn)?zāi)Ｐ偷纳疃妊芯磕芰?，所有初步?gòu)建的問(wèn)題必須通過(guò)以下雙重負(fù)向篩選標(biāo)準(zhǔn)的驗(yàn)證：

1.不能通過(guò)Grok 3的Thinking模式獲得正確答案，確保問(wèn)題需要深入廣泛的信息檢索能力。

2.Grok 3的DeepSearch模式或Gemini 2.5 Pro的Deep Research功能至少有一個(gè)未能提供正確答案，確保問(wèn)題的高難度。

成功滿(mǎn)足上述標(biāo)準(zhǔn)的問(wèn)題隨后提交給專(zhuān)門(mén)的審核團(tuán)隊(duì)進(jìn)行數(shù)據(jù)審核，以確保以下幾點(diǎn)：

答案唯一性：每個(gè)問(wèn)題對(duì)應(yīng)唯一的、明確無(wú)誤的答案。來(lái)源可訪問(wèn)性：回答問(wèn)題所需的參考來(lái)源可通過(guò)互聯(lián)網(wǎng)公開(kāi)獲取。學(xué)術(shù)正確性：?jiǎn)栴}的學(xué)術(shù)價(jià)值和答案的正確性根據(jù)提供的來(lái)源進(jìn)行驗(yàn)證。

任何未能達(dá)標(biāo)的問(wèn)題都將被退回進(jìn)行迭代修訂，直至合格。

ScholarSearch具有以下核心特點(diǎn)：

高度的真實(shí)性與應(yīng)用價(jià)值：數(shù)據(jù)集中的所有問(wèn)題均源于真實(shí)的學(xué)術(shù)研究與學(xué)習(xí)情境。其設(shè)計(jì)旨在忠實(shí)反映研究者面臨的實(shí)際信息挑戰(zhàn)，保證了評(píng)估結(jié)果能夠真實(shí)地反映模型在實(shí)際應(yīng)用中的效能。

卓越的挑戰(zhàn)性與深度：ScholarSearch的難度經(jīng)過(guò)嚴(yán)格審查，確保即便是頂尖的模型（如 Grok DeepSearch 或 Gemini Deep Research）也難以一次性給出正確答案。大多數(shù)問(wèn)題需要進(jìn)行多次深度搜索才能得出答案，充分考驗(yàn)?zāi)Ｐ偷膹?fù)雜推理和信息整合能力。

廣泛的學(xué)科覆蓋：為確保評(píng)估的全面性與代表性，ScholarSearch圍繞科學(xué)與工程領(lǐng)域（Science & Engineering）和社會(huì)科學(xué)與人文學(xué)科領(lǐng)域（Social Sciences & Humanities）兩大門(mén)類(lèi)進(jìn)行構(gòu)建，共涵蓋了15個(gè)不同的細(xì)分學(xué)科。

結(jié)果

研究團(tuán)隊(duì)使用ScholarSearch對(duì)具備聯(lián)網(wǎng)搜索能力的代表性模型及純推理模型進(jìn)行了評(píng)估，結(jié)果如圖所示。評(píng)估結(jié)果明確揭示，現(xiàn)有模型的整體表現(xiàn)欠佳，其學(xué)術(shù)搜索能力亟待提升。

僅憑推理無(wú)法解決學(xué)術(shù)研究問(wèn)題：實(shí)驗(yàn)明確指出，ScholarSearch數(shù)據(jù)集中的問(wèn)題無(wú)法僅通過(guò)模型的預(yù)訓(xùn)練知識(shí)和推理能力解決。頂尖的純推理模型，如GPT-4.1、DeepSeek-R1，在處理這些問(wèn)題時(shí)準(zhǔn)確率極低，普遍低于9%。這表明學(xué)術(shù)查詢(xún)具有高度復(fù)雜性，這超出了靜態(tài)、內(nèi)嵌知識(shí)庫(kù)的能力范疇。

瀏覽能力顯著提升模型性能：賦予模型訪問(wèn)互聯(lián)網(wǎng)的瀏覽能力可以提高其準(zhǔn)確性。具備搜索功能的模型，相較于其無(wú)搜索能力的版本，準(zhǔn)確率有顯著提升，例如，GPT-4o-mini的準(zhǔn)確率提升超過(guò)四倍。此外，搜索能力也平衡了模型在不同學(xué)科領(lǐng)域的表現(xiàn)，在科學(xué)與工程領(lǐng)域和社會(huì)科學(xué)與人文學(xué)科領(lǐng)域達(dá)到了相當(dāng)?shù)乃健＿@一結(jié)果證實(shí)，對(duì)于解決復(fù)雜的學(xué)術(shù)問(wèn)題，進(jìn)行實(shí)時(shí)信息檢索、訪問(wèn)數(shù)據(jù)并進(jìn)行交叉引用的能力至關(guān)重要。

當(dāng)前搜索模型仍不足以應(yīng)對(duì)深度學(xué)術(shù)探究：盡管瀏覽能力帶來(lái)了顯著改進(jìn)，但即便是最先進(jìn)的搜索增強(qiáng)型模型，如GPT-4o-search-preview，準(zhǔn)確率僅為18.83%。在解決復(fù)雜學(xué)術(shù)問(wèn)題方面仍表現(xiàn)不充分。這揭示了當(dāng)前模型在進(jìn)行深度研究、整合專(zhuān)業(yè)知識(shí)以及執(zhí)行復(fù)雜的多源推理時(shí)存在的差距，也揭示了Deep Research模型的研發(fā)需求。

ScholarSearch作為一個(gè)在深度搜索領(lǐng)域的學(xué)術(shù)基準(zhǔn)測(cè)試集，不僅衡量了模型的當(dāng)前能力，更揭示了現(xiàn)有技術(shù)與真實(shí)學(xué)術(shù)工作流之間的核心差距，為未來(lái)的大語(yǔ)言模型掌握復(fù)雜綜合的語(yǔ)境理解、海量資料來(lái)源的批判準(zhǔn)確性驗(yàn)證，提供了有挑戰(zhàn)的參考。

論文鏈接：https://arxiv.org/abs/2506.13784

數(shù)據(jù)集鏈接：https://huggingface.co/datasets/PKU-DS-LAB/ScholarSearch

課題組huggingface主頁(yè)：https://huggingface.co/PKU-DS-LAB

責(zé)任編輯：張燕妮來(lái)源：量子位

模型數(shù)據(jù)集 AI

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大發(fā)布學(xué)術(shù)搜索評(píng)測(cè)ScholarSearch：難倒一眾DeepResearch的“開(kāi)卷考試”

方法

結(jié)果