偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML 2025 | 清華、上海AI Lab提出專家級醫(yī)學(xué)基準(zhǔn)MedXpertQA,看o3、R1哪家強(qiáng)

人工智能 新聞
MedXpertQA,一個高難度的、高臨床相關(guān)性的、全面的醫(yī)學(xué)基準(zhǔn)、面向?qū)<壹夅t(yī)學(xué)知識和高級推理能力的評估。當(dāng)前研究已廣泛體現(xiàn)出推理能力對醫(yī)學(xué) AI 模型的重要性。

本文作者來自于清華大學(xué)和上海 AI Lab,通訊作者為清華大學(xué)丁寧助理教授和清華大學(xué)講席教授、上海 AI Lab 主任周伯文教授。

圖片

  • 論文標(biāo)題:MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
  • 論文:https://arxiv.org/abs/2501.18362
  • 代碼: https://github.com/TsinghuaC3I/MedXpertQA
  • 榜單:https://medxpertqa.github.io

論文已被 ICML 2025 接收,并且被 DeepMind MedGemma 采用為評估基準(zhǔn)。

圖片

基準(zhǔn)地址:https://deepmind.google/models/gemma/medgemma/

為什么我們需要一個新的醫(yī)學(xué)基準(zhǔn)?

前沿的 AI 模型距離應(yīng)用于真實(shí)世界的醫(yī)療場景還有多遠(yuǎn)?

1. 現(xiàn)有基準(zhǔn)難度不足:前沿人工智能模型能力的提升,通常依賴于高難度且能夠合理評估模型表現(xiàn)的基準(zhǔn)的引導(dǎo)與推動。然而,即使是最具代表性的高難度醫(yī)學(xué)基準(zhǔn) MedQA 也正在快速飽和(o1 已經(jīng) 96 分)-> 現(xiàn)有醫(yī)學(xué)基準(zhǔn)已難以有效評估和驅(qū)動前沿模型的進(jìn)一步發(fā)展。

2. 現(xiàn)有基準(zhǔn)臨床相關(guān)性不足:醫(yī)學(xué)人工智能的一個核心要求是能夠適應(yīng)真實(shí)世界的臨床診斷場景。然而,現(xiàn)有的文本醫(yī)學(xué)基準(zhǔn)普遍缺乏對真實(shí)臨床環(huán)境的充分覆蓋,而以往的多模態(tài)醫(yī)學(xué)基準(zhǔn)則還停留在自動生成的簡單問答對,臨床相關(guān)性嚴(yán)重不足。

圖片

因此,我們提出了 MedXpertQA,包括涵蓋 17 個專業(yè)和 11 個身體系統(tǒng)的 4,460 個問題。它包括了兩個子集,分別是用于文本醫(yī)學(xué)評估的MedXpertQA Text 和用于多模態(tài)醫(yī)學(xué)評估的 MedXpertQA MM 。

為什么選 MedXpertQA?

怎么實(shí)現(xiàn)高難度和高臨床相關(guān)性?另外,對于一個醫(yī)學(xué)基準(zhǔn)僅有這兩點(diǎn)還不夠。問題的多樣性如何?質(zhì)量如何?

MedXpertQA 面向上述挑戰(zhàn)做出了重大改進(jìn):

  • 極具挑戰(zhàn)性,有效區(qū)分前沿模型:

a.MedXpertQA 引入了高難度醫(yī)學(xué)考試題目,并進(jìn)行了嚴(yán)格的篩選和增強(qiáng),有效解決了現(xiàn)有基準(zhǔn)如 MedQA 難度不足的問題;

b.MedXpertQA 是目前最具挑戰(zhàn)性的醫(yī)學(xué)多選題(MCQA)評測基準(zhǔn) [1],甚至超越 Human's Last Exam (Medical) [2, 3]。下圖展示了前沿模型在各個基準(zhǔn)上的表現(xiàn):

圖片

  • 高臨床相關(guān)性,真實(shí)診斷場景:

a.權(quán)威且廣泛的數(shù)據(jù)來源:收集了累計(jì)超過 20 個美國醫(yī)學(xué)執(zhí)照考試的問題,問題均由高水平專家設(shè)計(jì),首次引入??莆瘑T會問題,以提高臨床相關(guān)性和全面性。

  • 2 個美國醫(yī)師執(zhí)照考試:USMLE 和 COMLEX
  • 17/25 個美國醫(yī)學(xué)??莆瘑T會下屬專科的執(zhí)照考試
  • 多個考察圖像理解的科目考試(歐洲放射學(xué)委員會等)
  • 初始收集了 37543 個問題,為 MedQA-USMLE 的 3 倍左右

圖片

  • 下一代多模態(tài)醫(yī)學(xué)評估:

a.MedXpertQA 使用真實(shí)場景的、專家設(shè)計(jì)的高難度問題構(gòu)建多模態(tài)(MM)子集,相較傳統(tǒng)的多模態(tài)醫(yī)學(xué)評估基準(zhǔn)做出重大改進(jìn);

b.包括多樣化的圖像和豐富的真實(shí)臨床信息,考察專家級知識和高級推理能力。而傳統(tǒng)醫(yī)學(xué)多模態(tài)基準(zhǔn)為由圖像標(biāo)題自動生成的簡單問答對,下圖展示了一個對比:

圖片

  • 「全面的」多樣性:

a.醫(yī)學(xué)屬性:覆蓋了超過 17 個醫(yī)學(xué)??疲采w了權(quán)威醫(yī)學(xué)教科書中定義的所有身體系統(tǒng)(11 種);

b.模態(tài):除了放射學(xué),生命體征等醫(yī)學(xué)影像,還引入了醫(yī)生診斷過程中可能需要的文檔,表格等模態(tài)信息,完全貼近真實(shí)世界的臨床場景;

c.任務(wù):覆蓋了真實(shí)診斷場景中的大量診斷任務(wù)。

圖片

  • 極低數(shù)據(jù)泄露:

a.我們進(jìn)行數(shù)據(jù)合成以減輕數(shù)據(jù)泄露風(fēng)險(xiǎn),并開展多輪專家評審以確保準(zhǔn)確性和可靠性;

b.我們進(jìn)行了數(shù)據(jù)污染分析,發(fā)現(xiàn)經(jīng)過數(shù)據(jù)合成后數(shù)據(jù)泄露的風(fēng)險(xiǎn)進(jìn)一步降低;

c.MedXpertQA 是目前數(shù)據(jù)污染程度最低的醫(yī)學(xué)評估基準(zhǔn) [1],可以極大程度上實(shí)現(xiàn)模型能力客觀和準(zhǔn)確的評估。

  • 面向 o1 類模型的醫(yī)學(xué)推理能力評估:

a.MedXpertQA 中的大量題目不僅考察醫(yī)學(xué)知識記憶,更要求模型進(jìn)行復(fù)雜推理。例如,部分題目需要模型整合文本與圖像中的多重信息線索,排除干擾,形成完整邏輯鏈以正確解答;

b.為此,我們根據(jù)題目考察的核心能力(Reasoning 或 Understanding),對每個問題進(jìn)行了標(biāo)注。大部分題目歸屬 Reasoning 子集,難點(diǎn)在于醫(yī)學(xué)場景下的復(fù)雜推理,尤其適合評估模型的醫(yī)學(xué)推理能力。

MedXpertQA 是怎么構(gòu)建的?

在數(shù)據(jù)收集階段,我們以多樣性和臨床相關(guān)性為核心考量。而在后續(xù)的構(gòu)建階段,我們主要考慮四大核心原則:挑戰(zhàn)性、魯棒性、未見性、準(zhǔn)確性。

數(shù)據(jù)收集之后,MedXpertQA 的構(gòu)建經(jīng)過了過濾、增強(qiáng)和專家審查四個步驟:

  • 挑戰(zhàn)性:

a.三重過濾機(jī)制問題篩選:

1)人類作答分布:利用真實(shí)用戶回答的對錯分布,計(jì)算 Brier score 等指標(biāo)分析問題的難易程度;

2)專家標(biāo)注難度:醫(yī)學(xué)專家對問題難度進(jìn)行分級;

3)AI 模型測試結(jié)果:選取 8 個領(lǐng)先的 AI 模型,完成 14 次獨(dú)立實(shí)驗(yàn),識別高難度問題。

b.選項(xiàng)擴(kuò)充:額外生成干擾的錯誤項(xiàng),文本(Text)子集擴(kuò)充至 10 個選項(xiàng),多模態(tài)(MM)子集擴(kuò)充至 5 個選項(xiàng)。

  • 魯棒性:

a.相似問題過濾:從文本編輯距離和語義層面識別并移除高度相似的問題,降低模型識別 shortcut 進(jìn)而 hacking 的風(fēng)險(xiǎn)。

  • 未見性:

a.問題改寫:為了降低數(shù)據(jù)泄漏風(fēng)險(xiǎn),客觀評測模型能力,我們對每道題的表述進(jìn)行了徹底的改寫。改寫后的句子內(nèi)容保持信息完整,但形式上有明顯差異,有助于客觀評估模型的能力;

  • 準(zhǔn)確性:

a.多輪專家審查:

1)持有醫(yī)學(xué)執(zhí)照的專家組成審查組,對完整題庫進(jìn)行了多輪審查,修正數(shù)據(jù)增強(qiáng)過程中引入的錯誤或原始數(shù)據(jù)錯誤,檢查并修復(fù)信息缺失、不一致、敘述混亂等問題;

2)發(fā)現(xiàn)并修改近千個問題,專家對問題進(jìn)行了細(xì)致的統(tǒng)計(jì),錯誤歸類與人工糾錯,保證最終基準(zhǔn)的準(zhǔn)確性。

經(jīng)過嚴(yán)格篩選與審查,MedXpertQA 最終保留了原始題庫約 12% 的題目,共計(jì) 4,460 題,體現(xiàn)了對質(zhì)量而非數(shù)量的優(yōu)先考量。下表展示了和現(xiàn)存基準(zhǔn)的對比,可以看到 MedXpertQA 展現(xiàn)出了巨大的優(yōu)勢:

圖片

圖片

前沿模型表現(xiàn)如何?

我們在 MedXpertQA 上評測了領(lǐng)先的多模態(tài)及純文本模型,包括 o3、DeepSeek-R1 等推理模型,更多分?jǐn)?shù)細(xì)節(jié)可以參考 Leaderboard:https://medxpertqa.github.io。

圖片

  • 模型表現(xiàn)差距顯著: 多模態(tài)模型中,o1 得分最高,但在兩個子集上的總體準(zhǔn)確率未超過 50%,表明前沿模型在醫(yī)學(xué)領(lǐng)域仍有較大提升空間。在 Text 子集上,DeepSeek-R1 是最優(yōu)開源模型,但與 o1 存在一定差距;
  • 人類性能基線:我們根據(jù)構(gòu)建基準(zhǔn)時收集的每個問題的作答數(shù)據(jù)計(jì)算了人類醫(yī)學(xué)生在原始試題上的準(zhǔn)確率,進(jìn)而構(gòu)建了一個人類性能的極限,其中每個問題的作答數(shù)量最高達(dá)到 23 萬個,因此具有高度代表性;
  • 推理增強(qiáng)模型在 Reasoning 子集優(yōu)勢明顯: 對比三組基座模型及其推理模型版本得知,增強(qiáng)模型在 Reasoning 子集上展現(xiàn)出顯著且穩(wěn)定的性能提升,而在 Understanding 子集上則沒有這一趨勢,這表明 Reasoning 子集尤其適合 o1 類模型評估;

圖片

  • 錯誤分析揭示推理密集特性: 我們利用 LLM 對 GPT-4o 的完整回復(fù)進(jìn)行了錯誤類型標(biāo)注,發(fā)現(xiàn)推理過程錯誤和圖像理解錯誤最為常見,純粹的醫(yī)學(xué)知識性錯誤則相對較少。

以上結(jié)果從多角度印證了 MedXpertQA 的價(jià)值,尤其凸顯了 Reasoning 子集的必要性。

總結(jié)

MedXpertQA,一個高難度的、高臨床相關(guān)性的、全面的醫(yī)學(xué)基準(zhǔn)、面向?qū)<壹夅t(yī)學(xué)知識和高級推理能力的評估。當(dāng)前研究已廣泛體現(xiàn)出推理能力對醫(yī)學(xué) AI 模型的重要性。

我們進(jìn)一步提出:醫(yī)學(xué)作為一個復(fù)雜、豐富且至關(guān)重要的領(lǐng)域,有潛力成為評估模型推理能力的新場景,從而拓寬當(dāng)前以數(shù)學(xué)和編程為主的評測范式。我們期待 MedXpertQA 能成為推動專業(yè)醫(yī)學(xué)模型與通用推理模型共同發(fā)展的重要資源。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-05-09 08:19:00

2025-06-10 05:00:00

2025-07-23 10:07:31

2025-03-10 08:10:00

AI研究安全

2025-02-17 09:33:00

AI算法模型

2025-04-07 05:00:00

2025-08-15 14:53:43

2025-06-25 09:02:05

2025-07-21 08:47:00

AI框架模型

2025-05-14 10:09:12

2025-04-10 09:38:37

2021-12-24 11:50:57

滲透測試工具安全工具 防御系統(tǒng)

2009-07-10 11:27:00

專家級程序員

2025-06-04 04:25:00

Claude 4ChatGPT o3模型

2020-04-25 20:57:37

機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)工具

2025-02-12 12:12:59

2025-04-21 08:22:25

2025-01-08 13:08:55

2025-07-29 09:10:00

2025-08-15 12:50:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號