偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大發(fā)布學(xué)術(shù)搜索評測ScholarSearch:難倒一眾DeepResearch的“開卷考試”

人工智能 新聞
北京大學(xué)DS-Lab發(fā)布ScholarSearch,這是首個專門用于評估大語言模型在學(xué)術(shù)研究中復(fù)雜信息檢索能力的數(shù)據(jù)集,包含223道高難度的學(xué)術(shù)檢索題目及其答案。

LLMs能當(dāng)科研助手了?

北大出考題,結(jié)果顯示:現(xiàn)有模型都不能勝任。

北京大學(xué)DS-Lab發(fā)布ScholarSearch,這是首個專門用于評估大語言模型在學(xué)術(shù)研究中復(fù)雜信息檢索能力的數(shù)據(jù)集,包含223道高難度的學(xué)術(shù)檢索題目及其答案。

它對具備聯(lián)網(wǎng)搜索能力的代表性模型及純推理模型進(jìn)行了評估,結(jié)果顯示,頂尖的純推理模型,如GPT-4.1、DeepSeek-R1,在處理這些問題時準(zhǔn)確率普遍低于9%。

具備搜索功能的模型,相較于其無搜索能力的版本,準(zhǔn)確率有顯著提升,例如,GPT-4o-mini的準(zhǔn)確率提升超過四倍。

盡管瀏覽能力帶來了顯著改進(jìn),但即便是最先進(jìn)的搜索增強(qiáng)型模型,如GPT-4o-search-preview,其準(zhǔn)確率僅為18.83%。

圖片

方法

OpenAI的Deep Research、Grok的DeepSearch、Gemini的Deep Research以及月之暗面的Kimi-Researcher等,以“深度搜索”功能為核心,為攻克高難度信息檢索任務(wù)提供了新的范式。

然而,學(xué)術(shù)界與業(yè)界目前尚未建立起一套公認(rèn)的評估體系與標(biāo)準(zhǔn)數(shù)據(jù)集,用以系統(tǒng)性地檢驗這些新興模型在真實學(xué)術(shù)研究場景下的實際效能。

北京大學(xué)DS-Lab發(fā)布ScholarSearch,旨在對LLMs的檢索、信息整合及推理能力進(jìn)行綜合性、極限性考驗。

研究團(tuán)隊招募了來自北京大學(xué)各個學(xué)院的本科和研究生志愿者,并為他們提供了集中培訓(xùn)。志愿者從公開可訪問的在線出版物和網(wǎng)站中選擇材料,以制定需要網(wǎng)絡(luò)搜索解答的學(xué)術(shù)問題。

為確保問題能真正考驗?zāi)P偷纳疃妊芯磕芰?,所有初步?gòu)建的問題必須通過以下雙重負(fù)向篩選標(biāo)準(zhǔn)的驗證:

1.不能通過Grok 3的Thinking模式獲得正確答案,確保問題需要深入廣泛的信息檢索能力。

2.Grok 3的DeepSearch模式或Gemini 2.5 Pro的Deep Research功能至少有一個未能提供正確答案,確保問題的高難度。

成功滿足上述標(biāo)準(zhǔn)的問題隨后提交給專門的審核團(tuán)隊進(jìn)行數(shù)據(jù)審核,以確保以下幾點:

答案唯一性:每個問題對應(yīng)唯一的、明確無誤的答案。來源可訪問性:回答問題所需的參考來源可通過互聯(lián)網(wǎng)公開獲取。學(xué)術(shù)正確性:問題的學(xué)術(shù)價值和答案的正確性根據(jù)提供的來源進(jìn)行驗證。

任何未能達(dá)標(biāo)的問題都將被退回進(jìn)行迭代修訂,直至合格。

圖片

圖片

ScholarSearch具有以下核心特點:

高度的真實性與應(yīng)用價值:數(shù)據(jù)集中的所有問題均源于真實的學(xué)術(shù)研究與學(xué)習(xí)情境。其設(shè)計旨在忠實反映研究者面臨的實際信息挑戰(zhàn),保證了評估結(jié)果能夠真實地反映模型在實際應(yīng)用中的效能。

卓越的挑戰(zhàn)性與深度ScholarSearch的難度經(jīng)過嚴(yán)格審查,確保即便是頂尖的模型(如 Grok DeepSearch 或 Gemini Deep Research)也難以一次性給出正確答案。大多數(shù)問題需要進(jìn)行多次深度搜索才能得出答案,充分考驗?zāi)P偷膹?fù)雜推理和信息整合能力。

廣泛的學(xué)科覆蓋:為確保評估的全面性與代表性,ScholarSearch圍繞科學(xué)與工程領(lǐng)域(Science & Engineering)和社會科學(xué)與人文學(xué)科領(lǐng)域(Social Sciences & Humanities)兩大門類進(jìn)行構(gòu)建,共涵蓋了15個不同的細(xì)分學(xué)科。

圖片

結(jié)果

研究團(tuán)隊使用ScholarSearch對具備聯(lián)網(wǎng)搜索能力的代表性模型及純推理模型進(jìn)行了評估,結(jié)果如圖所示。評估結(jié)果明確揭示,現(xiàn)有模型的整體表現(xiàn)欠佳,其學(xué)術(shù)搜索能力亟待提升。

圖片

僅憑推理無法解決學(xué)術(shù)研究問題: 實驗明確指出,ScholarSearch數(shù)據(jù)集中的問題無法僅通過模型的預(yù)訓(xùn)練知識和推理能力解決。頂尖的純推理模型,如GPT-4.1、DeepSeek-R1,在處理這些問題時準(zhǔn)確率極低,普遍低于9%。這表明學(xué)術(shù)查詢具有高度復(fù)雜性,這超出了靜態(tài)、內(nèi)嵌知識庫的能力范疇。

瀏覽能力顯著提升模型性能: 賦予模型訪問互聯(lián)網(wǎng)的瀏覽能力可以提高其準(zhǔn)確性。具備搜索功能的模型,相較于其無搜索能力的版本,準(zhǔn)確率有顯著提升,例如,GPT-4o-mini的準(zhǔn)確率提升超過四倍。此外,搜索能力也平衡了模型在不同學(xué)科領(lǐng)域的表現(xiàn),在科學(xué)與工程領(lǐng)域和社會科學(xué)與人文學(xué)科領(lǐng)域達(dá)到了相當(dāng)?shù)乃?。這一結(jié)果證實,對于解決復(fù)雜的學(xué)術(shù)問題,進(jìn)行實時信息檢索、訪問數(shù)據(jù)并進(jìn)行交叉引用的能力至關(guān)重要。

當(dāng)前搜索模型仍不足以應(yīng)對深度學(xué)術(shù)探究: 盡管瀏覽能力帶來了顯著改進(jìn),但即便是最先進(jìn)的搜索增強(qiáng)型模型,如GPT-4o-search-preview,準(zhǔn)確率僅為18.83%。在解決復(fù)雜學(xué)術(shù)問題方面仍表現(xiàn)不充分。這揭示了當(dāng)前模型在進(jìn)行深度研究、整合專業(yè)知識以及執(zhí)行復(fù)雜的多源推理時存在的差距,也揭示了Deep Research模型的研發(fā)需求。

ScholarSearch作為一個在深度搜索領(lǐng)域的學(xué)術(shù)基準(zhǔn)測試集,不僅衡量了模型的當(dāng)前能力,更揭示了現(xiàn)有技術(shù)與真實學(xué)術(shù)工作流之間的核心差距,為未來的大語言模型掌握復(fù)雜綜合的語境理解、海量資料來源的批判準(zhǔn)確性驗證,提供了有挑戰(zhàn)的參考。

論文鏈接:https://arxiv.org/abs/2506.13784

數(shù)據(jù)集鏈接:https://huggingface.co/datasets/PKU-DS-LAB/ScholarSearch

課題組huggingface主頁:https://huggingface.co/PKU-DS-LAB

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-09 13:25:34

2024-10-24 23:37:33

2024-07-08 08:15:00

2015-03-11 18:49:53

Testin眾測云測

2025-01-22 13:40:00

2015-02-09 10:40:47

Testin眾測移動App

2020-02-14 13:06:05

騰訊面試算法

2018-09-27 10:39:25

螞蟻金服開放分布式

2020-11-21 00:47:34

眾安天下SaaS安全

2025-02-27 09:45:50

2025-06-25 09:32:11

2009-10-20 09:32:29

微軟Visual Stud.NET 4.0

2025-05-13 00:51:55

2025-06-03 08:39:00

2025-02-03 12:29:29

2016-07-22 09:50:46

華為

2024-03-04 09:15:00

AI模型

2016-07-29 14:59:26

艾媒市場報告神馬

2013-09-05 13:19:04

艾默生UPSGXE
點贊
收藏

51CTO技術(shù)棧公眾號