偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

全球首個歷史基準(zhǔn)!普林復(fù)旦打造AI歷史助手,AI破圈人文學(xué)科

人工智能 新聞
普林斯頓大學(xué)AI實驗室與復(fù)旦大學(xué)歷史學(xué)系聯(lián)手推出了全球首個聚焦歷史研究能力的AI評測基準(zhǔn)——HistBench,并同步開發(fā)了深度嵌入歷史研究場景的AI助手——HistAgent。這一成果不僅填補(bǔ)了人文學(xué)科AI測試的空白,更為復(fù)雜史料處理與多模態(tài)理解建立了系統(tǒng)工具框架。

歷史是關(guān)于時間中的人的科學(xué)。

——馬克·布洛赫

人工智能已在諸多自然科學(xué)領(lǐng)域成為有力的研究助手,然而面對承載著文化意涵與歷史記憶的人文學(xué)科,卻仍舊表現(xiàn)得捉襟見肘。

究其原因,AI當(dāng)前最缺乏的并非工具性能力,而是對人類智慧與文化的理解能力——這正是人文學(xué)科探究的核心。

在眾多人文學(xué)科中,歷史學(xué)因其海量的數(shù)據(jù)規(guī)模、多元的史料類型以及復(fù)雜的跨文化、跨時空特性,成為檢驗AI深度認(rèn)知能力的理想試驗場。

因此,AI不僅需要強(qiáng)大的識記能力,更需要深刻理解、精準(zhǔn)判斷與嚴(yán)謹(jǐn)推理的能力,才能夠處理紛繁復(fù)雜的文獻(xiàn)材料。

為此,普林斯頓大學(xué)AI實驗室與復(fù)旦大學(xué)歷史學(xué)系聯(lián)合打造了HistBench與HistAgent,拉開了歷史研究的AI時代的序幕。

圖片

論文地址:http://arxiv.org/abs/2505.20246

代碼鏈接: https://github.com/CharlesQ9/HistAgent

HistBench作為全球首個歷史領(lǐng)域評測基準(zhǔn),涵蓋414道歷史學(xué)者撰寫的研究問題,橫跨29種古今語言,覆蓋全球多文明的歷史演化脈絡(luò)。

測試顯示,主流大模型HistBench上準(zhǔn)確率不足20%,暴露了通用AI在歷史領(lǐng)域的認(rèn)知短板。

而專為歷史研究打造的HistAgent,集成文獻(xiàn)檢索、OCR識別、多語言翻譯、檔案檢索與圖像解譯等核心工具,首次實現(xiàn)AI智能體在歷史研究領(lǐng)域的深度定制與優(yōu)化,在HistBench測試中準(zhǔn)確率遠(yuǎn)超現(xiàn)有模型,并在GAIA通用基準(zhǔn)斬獲60%成績,充分證明專業(yè)定制與通用能力可兼得!

HistBench:AI與歷史的極限挑戰(zhàn)

HistBench數(shù)據(jù)集共收錄414道高質(zhì)量歷史問題,最初面向全球征集數(shù)千道題目,經(jīng)由三輪篩選流程層層遴選而來:首先是初篩與標(biāo)準(zhǔn)化;其次由大模型初步預(yù)判以剔除低難度問題;最后由歷史學(xué)專家進(jìn)行復(fù)核校正,確保問題具備足夠的研究價值與挑戰(zhàn)強(qiáng)度。

參與出題與審核的專家層級涵蓋面廣,從歷史學(xué)本科生、研究型碩博生,到海內(nèi)外高校青年教師和資深教授,構(gòu)成了一支多維度、跨年齡段的知識共同體,使題目既有理論深度,也具實踐張力。

與傳統(tǒng)知識問答不同,HistBench 強(qiáng)調(diào)方法論挑戰(zhàn)與推理深度,特別注重AI在處理史料中的表現(xiàn),如破損手稿、殘缺碑銘、古地圖、模糊音頻等復(fù)雜材料。

長期以來,AI 評測體系主要由理工科主導(dǎo),人文學(xué)科缺席,評估內(nèi)容缺乏語言、模態(tài)與領(lǐng)域的多樣性,也缺乏針對史學(xué)特點的精細(xì)化設(shè)計。

HistBench 正是在這一背景下誕生,旨在填補(bǔ)這一空白,推動AI在人文領(lǐng)域的系統(tǒng)性測試與能力突破。

全面覆蓋歷史研究的廣度與深度

  • 多語言覆蓋:打破英語中心主義,覆蓋29種語言,體現(xiàn)人文學(xué)科全球視野。
  • 多模態(tài)史料:涵蓋手稿、圖像、音視頻、歷史文物等多種史料,真實模擬歷史研究情境。
  • 精細(xì)分級:問題從基礎(chǔ)史料讀取到跨學(xué)科深度分析均清晰分層,讓模型表現(xiàn)一目了然。

HistBench覆蓋20多個歷史區(qū)域、36個子領(lǐng)域。這些子領(lǐng)域包括但不限于:

  • 古典時代研究,涵蓋古希臘、古羅馬、中原漢唐、印度吠陀、兩河與尼羅河流域等多個文明軸心區(qū)域的語言學(xué)、歷史學(xué)與哲學(xué)文獻(xiàn)傳統(tǒng)
  • 史學(xué)史與史學(xué)理論,歷史學(xué)科的發(fā)展演變、范式更替與方法論革新;
  • 全球史,包括人口遷徙、跨洋貿(mào)易、知識傳播等;
  • 傳統(tǒng)史學(xué)研究,政治史、經(jīng)濟(jì)史和思想史,包括改革與革命、產(chǎn)業(yè)發(fā)展和觀念流變等;
  • 新文化史,包括性別史、城市史、日常生活史和物質(zhì)文化研究等;
  • 藝術(shù)史,包括圖像史、雕塑史、電影史和音樂史等;
  • 環(huán)境史,包括環(huán)保運(yùn)動、生態(tài)思想和能源與資源管理等;
  • 科學(xué)技術(shù)與醫(yī)學(xué)史,包括早期科學(xué)機(jī)構(gòu)、東西方科技交流、生物學(xué)、天文學(xué)、疫病史、衛(wèi)生建制、醫(yī)療社會史等;
  • 交叉學(xué)科:考古學(xué)、文學(xué)史、哲學(xué)史、新聞史、翻譯史和歷史地理學(xué)。

難度分層

圖片

HistBench精心設(shè)計三類難度等級,模擬真實歷史研究挑戰(zhàn):

  • Level 1(基礎(chǔ)):166題,原則上由歷史背景助理設(shè)計,聚焦基本信息檢索和提取。
  • Level 2(進(jìn)階):172題,原則上由研究生撰寫,要求在材料處理或邏輯推理上構(gòu)成一定難度。
  • Level 3(挑戰(zhàn)):76題,原則上由資深學(xué)者設(shè)計,涉及小/死語言語言讀取、多模態(tài)史料處理和跨學(xué)科分析。

HistAgent:AI歷史研究助手

在歷史學(xué)研究中,提出問題只是一個開始,真正重要的是如何處理材料并找到答案。

為此,團(tuán)隊研發(fā)了專為歷史學(xué)研究服務(wù)的智能系統(tǒng)——HistAgent,它不是通用型AI的「人文拓展版」,而是從底層結(jié)構(gòu)就面向史學(xué)研究進(jìn)行功能搭建與優(yōu)化的專業(yè)助手,從任務(wù)分解到工具集成,完全嵌入歷史學(xué)者的工作流程。

HistAgent能夠檢索文獻(xiàn)和史料,處理手稿、圖像和地圖等多模態(tài)材料,并結(jié)合歷史知識輔助推理,幫助研究者梳理線索、整合信息、形成學(xué)術(shù)判斷。

圖片

與GPT-4o、DeepSeek、Grok等通用大模型相比,HistAgent針對性更強(qiáng)。主流模型雖擅長公式和代碼,卻難以處理古希臘碑文、敦煌殘卷、滿文檔案等歷史材料,更缺乏嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)推理能力。

HistAgent 的設(shè)計理念正是要填充AI在歷史研究領(lǐng)域的空白,是一套包含多個子模塊的多智能體協(xié)作系統(tǒng),能夠模擬歷史研究的流程,將復(fù)雜任務(wù)拆解為不同的子任務(wù),并根據(jù)每個子任務(wù)的需求調(diào)用最合適的工具,完成多模態(tài)、多語言和跨學(xué)科的指令。

通過這樣的設(shè)計架構(gòu),HistAgent不僅能檢索學(xué)術(shù)信息和處理歷史材料,更能深入問題、形成推理、得出答案,成為歷史研究者得力的助手。

HistAgent的「多智能體協(xié)作系統(tǒng)」

HistAgent的架構(gòu)由以下幾個核心模塊組成:

  • 文本搜索模塊:支持多步網(wǎng)頁搜索與頁面解析,可檢索學(xué)術(shù)網(wǎng)站和歷史資料,提供權(quán)威背景信息和證據(jù)支持。
  • OCR模塊:支持識別手稿、碑銘和古地圖等文檔。其中針對字母文字材料,專門引入了 Transkribus 平臺——?dú)v史學(xué)界公認(rèn)的一流手稿識別服務(wù)平臺,能顯著提高識別的準(zhǔn)確率與排版轉(zhuǎn)錄質(zhì)量。
  • 翻譯模塊:支持多種語言互譯,包括古典語言與小眾語言。HistAgent不僅能翻譯文本的表面意思,還能結(jié)合語境優(yōu)化譯文,提供流暢準(zhǔn)確的片段。
  • 圖像分析模塊:支持圖片反向搜索、文物識別等任務(wù)。能夠為歷史圖像材料尋找出處、補(bǔ)充背景、解析含義。
  • 音頻處理模塊:支持處理歷史演講和訪談記錄等音頻材料。
  • 視頻分析模塊:支持處理各類影像視頻材料,能從中抽幀、分析場景、輔助理解歷史事件。
  • 文獻(xiàn)搜索模塊:支持解析 PDF、DOCX、XLSX、PPTX 等多種格式,便于處理研究資料。
  • 文件處理模塊:支持PDF、DOCX、XLSX、PPTX等文檔解析,方便處理多格式的歷史材料和研究文件。

圖片

這一切的背后,離不開一個中央調(diào)度模塊(Manager Agent)的有機(jī)協(xié)調(diào):

HistAgent會根據(jù)任務(wù)需求,智能判斷調(diào)用子模塊的范圍和順序、并整合多模態(tài)結(jié)果,從而最終輸出符合歷史學(xué)科規(guī)范的完整回答。

當(dāng)需要OCR時,就會調(diào)用OCR Agent,當(dāng)需要查論文時,就會調(diào)用文獻(xiàn)搜索Agent,當(dāng)需要多語言處理時,就會調(diào)用翻譯Agent。

正如一場舞臺劇,多個「演員」各司其職,共同完成復(fù)雜的歷史研究任務(wù)。

HistAgent如何破解「歷史迷宮」?

為了全面評估 HistAgent 的能力,團(tuán)隊設(shè)計了一輪系統(tǒng)測試,選用了三個評測集,涵蓋不同類型的任務(wù):HistBench、HLE 歷史子集,以及GAIA通用任務(wù)。這三個評測集共同構(gòu)成了對歷史推理能力和通用任務(wù)適應(yīng)能力的全方位檢驗。

實驗結(jié)果顯示,HistAgent在各項測試中均表現(xiàn)出顯著優(yōu)勢。

在HistBench上,GPT-4o(帶網(wǎng)絡(luò)搜索)的準(zhǔn)確率為18.60%,而HistAgent pass@2達(dá)到了36.47%,提升幅度接近一倍。

在HLE歷史子集中,HistAgent的pass@1為28.57%,遠(yuǎn)高于GPT-4o(8.9%)和ODR-smolagents(17.9%);pass@3更是達(dá)到42.86%

圖片

即便在GAIA這類綜合性多模態(tài)任務(wù)上,HistAgent也保持了60.00%的pass@1成績,超過baseline模型ODR-smolagents 5個百分點,展現(xiàn)出良好的通用性。

圖片

這些結(jié)果表明,HistAgent能夠有效處理復(fù)雜的歷史任務(wù),同時具備一定的通用任務(wù)能力,驗證了其作為多模態(tài)歷史推理助手的適用性和優(yōu)勢。

AI與歷史的對話,才剛剛開始

HistBench和HistAgent的發(fā)布,是AI歷史推理領(lǐng)域的重要突破。

它們不僅為AI處理復(fù)雜歷史問題提供了系統(tǒng)性基準(zhǔn)與工具框架,也為評估和提升AI在人文學(xué)科中的能力開辟了新路徑。

HistBench與HistAgent的發(fā)布只是起點,團(tuán)隊計劃將繼續(xù)擴(kuò)展題庫,吸納更多來自全球史學(xué)專家的真實研究問題,并根據(jù)用戶反饋和研究需求,不斷升級HistAgent的各模塊能力。

研究人員的目標(biāo)是打造一個始終與史學(xué)前沿并行進(jìn)化的AI助手,讓它真正成為歷史學(xué)家可信賴的研究伙伴。

AI是否能真正成為歷史學(xué)家?

至少在今天,還遠(yuǎn)未達(dá)到這種程度。但通過HistBench的測試與HistAgent的嘗試,至少擁有了一把探索歷史的新鑰匙,不僅是AI技術(shù)的發(fā)展,更是一次AI與人文學(xué)科共塑認(rèn)知邊界的嘗試。

這只是一個開始,AI與歷史的故事,仍在繼續(xù)。

HistBench和HistAgent的意義絕不僅是提供一個正確的回答本身,而是回應(yīng)了科技與人文的關(guān)系這一宏大而深遠(yuǎn)的議題,勾勒出了AI如何走入和參與人類的文明記憶構(gòu)建的無限可能。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-05-08 16:49:47

AI普林斯頓機(jī)器

2023-02-08 08:00:00

算法人工智能大數(shù)據(jù)

2021-04-16 09:33:15

AI 數(shù)據(jù)人工智能

2025-05-14 09:17:00

2019-04-19 13:05:04

2017-07-28 10:55:49

AITayAlexa

2018-08-28 18:12:58

華為云

2025-08-26 01:11:00

AI應(yīng)用技術(shù)

2020-10-15 15:42:12

天翼云普惠AI

2023-05-25 14:28:47

DarkBERT自暗網(wǎng)AI

2025-09-25 14:15:51

2018-06-28 22:04:25

智能體華為云人工智能

2025-03-06 10:52:02

2018-04-03 11:47:16

AI手機(jī)人工智能

2024-11-07 13:30:07

2025-03-17 00:00:00

ManusAIOllama

2020-11-19 15:21:26

人工智能

2024-07-24 10:51:43

2020-10-23 14:05:39

AI 服務(wù)器測試
點贊
收藏

51CTO技術(shù)棧公眾號