偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

斯坦福臨床醫(yī)療AI橫評,DeepSeek把谷歌OpenAI都秒了

人工智能
體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫(yī)學研究輔助、管理與工作流程等醫(yī)療實踐的各個方面,且26位臨床醫(yī)生對子類別分類達成96.7%的一致性。

斯坦福最新大模型醫(yī)療任務全面評測,DeepSeek R1以66%勝率拿下第一!

歪國網(wǎng)友紛紛被驚艷住了,原因在于該評測重點聚焦臨床醫(yī)生的日常工作場景,而非僅局限于傳統(tǒng)醫(yī)療執(zhí)照考試題。

圖片圖片

要評測就要全 方 位。

團隊構(gòu)建了含35個基準測試的綜合評估框架,覆蓋22個子類別醫(yī)療任務。

整個評測的分類體系還經(jīng)過了臨床醫(yī)生驗證,由29名來自14個醫(yī)學??频膱?zhí)業(yè)醫(yī)師共同參與開發(fā)。

光作者名單就老長,斯坦福大學醫(yī)學院、斯坦福醫(yī)療中心、斯坦福大學基礎模型研究中心(CRFM)、微軟的研究人員均在列。

圖片圖片

31頁論文最終得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在內(nèi)的9個前沿大模型,DeepSeek R1以66%勝率、0.75宏觀平均分領先。

為當前的基準測試結(jié)果,團隊還打造了一個可公開訪問的排行榜。

圖片圖片

除DeepSeek R1領先外,o3-mini緊隨其后,以64%勝率及最高0.77宏觀平均分緊追;Claude 3.5和3.7 Sonnet則達到了63%、64%的勝率。

看了具體研究,網(wǎng)友表示這些評估很有幫助。

圖片圖片

下面來看更多細節(jié)。

大模型臨床醫(yī)療任務大考

此綜合評估框架名為MedHELM,受到了之前斯坦福HELM項目標準化跨領域評估思路的啟發(fā)。

圖片圖片

研究核心貢獻之一是構(gòu)建了一個經(jīng)過臨床醫(yī)生驗證的分類體系。

該體系模擬了臨床醫(yī)生日常工作邏輯,包含三個層級:

  • 類別:醫(yī)療活動的廣泛領域(如“臨床決策支持”);
  • 子類別:類別下的相關任務組(如“支持診斷決策”);
  • 任務:醫(yī)療服務中的離散操作(如“生成鑒別診斷”)。

在初步擬定分類體系時,一名臨床醫(yī)生基于《美國醫(yī)學會雜志》(JAMA)綜述中梳理的任務,將這些任務重組為反映真實醫(yī)療活動的功能主題,形成了一個含5個類別、21個子類別、98項任務的框架。

然后團隊對這個初始分類體系進行驗證。

來自14個醫(yī)學??频?9名執(zhí)業(yè)臨床醫(yī)生參與問卷調(diào)研,從分類邏輯和覆蓋全面性兩方面評估體系合理性。

根據(jù)反饋,體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫(yī)學研究輔助、管理與工作流程等醫(yī)療實踐的各個方面,且26位臨床醫(yī)生對子類別分類達成96.7%的一致性。

圖片圖片

核心貢獻二,在分類體系基礎上,團隊構(gòu)建了一個含35個基準測試的綜合評估套件,包括:

  • 17個現(xiàn)有基準測試
  • 5個基于現(xiàn)有數(shù)據(jù)集重新構(gòu)建的基準測試
  • 13個全新開發(fā)的基準測試

值得一提的是,13個全新開發(fā)的基準測試中有12個基于真實的電子健康記錄數(shù)據(jù),有效彌補了現(xiàn)有評估中真實醫(yī)療數(shù)據(jù)使用不足的問題。

最終這整套基準測試,完全覆蓋了分類體系中的所有22個子類別,同時根據(jù)數(shù)據(jù)的敏感性和訪問限制,這些基準測試被劃分為14個公開、7個需要審批和14個私有的不同訪問級別。

圖片圖片

考試題準備就緒后,研究團隊對9個前沿大語言模型進行了系統(tǒng)性評估。

評測結(jié)果如何?

評估顯示,模型表現(xiàn)存在顯著差異。

DeepSeek R1表現(xiàn)最佳,在兩兩對比中以66%的勝率領先,宏觀平均分為0.75,且勝率標準差較低(0.10)。

其中勝率指模型在全部35個基準測試的兩兩對比中表現(xiàn)更優(yōu)的比例。勝率標準差(SD)衡量模型獲勝的穩(wěn)定性(值越低=穩(wěn)定性越高)。宏觀平均分是所有35個基準測試的平均性能得分。標準差(SD)反映模型在不同基準測試中的性能波動(值越低=跨基準一致性越高)。

o3-mini緊隨其后,在臨床決策支持類別基準中表現(xiàn)較優(yōu),以64%的勝率和最高宏觀平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet勝率分別為64%、63%,宏觀平均分均為0.73;GPT-4o勝率為57%;Gemini 2.0 Flash和GPT-4o mini勝率較低,分別為42%、39%。

另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標準差最低(0.08),顯示出最穩(wěn)定的競爭表現(xiàn)。

圖片圖片

團隊還以熱圖形式展示了每個模型在35個基準測試中的標準化得分,深綠色表示性能更高,深紅色表示低性能。

圖片圖片

結(jié)果顯示,模型在以下基準測試中表現(xiàn)較差:

  • MedCalc-Bench(從患者病歷中計算醫(yī)學值)
  • EHRSQL(根據(jù)自然語言指令生成用于臨床研究的SQL查詢——原設計為代碼生成數(shù)據(jù)集)
  • MIMIC-IV Billing Code(為臨床病例分配ICD-10代碼)

在NoteExtract基準測試(從臨床病歷中提取特定信息)中表現(xiàn)最佳。

更深入的分析顯示,不同類別的任務中模型表現(xiàn)呈現(xiàn)明顯的層次性差異。

在臨床病例生成任務中,大多數(shù)模型達到了0.74-0.85的高分表現(xiàn);在患者溝通教育任務中表現(xiàn)同樣出色,得分在0.76-0.89之間;在醫(yī)學研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現(xiàn)中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。

這種差異反映了自由文本生成任務(如臨床病例生成、患者溝通)更適合發(fā)揮大語言模型的自然語言優(yōu)勢,而結(jié)構(gòu)化推理任務則需要更強的領域特定知識整合和邏輯推理能力。

圖片圖片

對于13個開放式基準測試,團隊采用了大語言模型評審團(LLM-jury)評估方法。

為評估該方法的有效性,團隊收集了臨床醫(yī)生對部分模型輸出的獨立評分。其中,從ACI-Bench中選取了31個實例,從MEDIQA-QA中選取了25個實例,以比較臨床醫(yī)生給出的分數(shù)與評審團的綜合評分。

圖片圖片

結(jié)果顯示,LLM陪審團方法與臨床醫(yī)生評分的一致性達到0.47的組內(nèi)相關系數(shù),不僅超過了臨床醫(yī)生之間的平均一致性(ICC=0.43),也明顯優(yōu)于傳統(tǒng)的自動化評估指標如ROUGE-L(0.36)和BERTScore-F1(0.44)。

團隊由此認為,大語言模型評審團比標準詞匯指標更能反映臨床醫(yī)生的判斷,證明了其作為臨床醫(yī)生評分替代方法的有效性。

成本效益分析是該研究的另一個創(chuàng)新,基于2025年5月12日的公開定價,團隊結(jié)合基準測試運行和大語言模型評審團評估過程中消耗的輸入總token數(shù)和最大輸出token數(shù),估算了每個模型所需的成本。

圖片圖片

正如預期,非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低,勝率分別為0.39和0.42。

推理模型成本較高,DeepSeek R1(1806美元)和o3-mini(1722美元)的勝率分別為0.66和0.64。

綜合來看,Claude 3.5 Sonnet(1571美元)和Claude 3.7 Sonnet(1537美元)在性價比上表現(xiàn)良好,以較低成本實現(xiàn)了約0.63的勝率。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2505.23802

Blog鏈接:https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications

排行榜鏈接:https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard

參考鏈接:https://x.com/iScienceLuvr/status/1929388406032810046

責任編輯:武曉燕 來源: 量子位
相關推薦

2019-12-16 14:33:01

AI人工智能斯坦福

2025-04-09 04:22:00

2025-04-08 13:16:34

2023-08-10 14:01:08

開源虛擬

2017-11-28 14:18:29

2024-04-24 09:47:36

2018-01-23 16:48:47

AI

2019-03-24 12:11:47

AI 數(shù)據(jù)人工智能

2025-02-28 09:52:00

2025-01-14 12:22:10

2022-07-04 09:12:09

AI技術論文

2021-03-10 14:48:27

人工智能

2019-03-27 10:47:05

人工智能法律AI

2025-06-04 08:00:00

2021-03-05 10:57:33

AI 數(shù)據(jù)人工智能

2023-08-11 13:27:00

AI論文

2025-04-09 11:25:36

2025-07-21 11:51:12

模型AI工具

2022-07-14 15:08:23

AI模型

2012-03-21 21:38:27

蘋果
點贊
收藏

51CTO技術棧公眾號