偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI 橫掃醫(yī)學(xué)問答,贏麻了?牛津大學(xué)團(tuán)隊實(shí)錘 AI 臨床短板

人工智能
為什么會這樣?研究團(tuán)隊發(fā)現(xiàn),并不是AI本身不行,而是“人和AI”這個配合環(huán)節(jié),掉了鏈子。比如,用戶描述癥狀時信息不全,AI就診斷失誤;AI給了2.2個可能選項(xiàng),用戶只會采納1.33個,其中三分之一還選錯了。模型說得再明白,用戶沒能聽懂,或者沒按建議去做,那些醫(yī)學(xué)知識就像被鎖進(jìn)了黑箱。

原本以為,大模型考過了醫(yī)學(xué)考試,離成為“AI醫(yī)生”也就差臨門一腳。沒想到,牛津大學(xué)最新這項(xiàng)研究,卻狠狠給了一記當(dāng)頭棒喝。

圖片圖片

論文地址:https://arxiv.org/pdf/2504.18919

你在新聞里看到的那些“AI診斷準(zhǔn)確率高達(dá)99%!”“大模型吊打?qū)I(yè)醫(yī)生!”的標(biāo)題,真的靠得住嗎?

牛津的研究團(tuán)隊專門找來了1298個英國普通人,給他們設(shè)了十個真實(shí)的就醫(yī)場景。

他們要像現(xiàn)實(shí)生活中那樣判斷:我現(xiàn)在的癥狀會不會很嚴(yán)重?該自己扛、去社區(qū)醫(yī)院,還是得立刻沖急診?有些人手里有大模型幫忙,有些人只能自己用Google查。

這次拿來PK的,不是什么小模型,而是GPT-4o、Llama 3和Cohere的Command R+。理論上都是“天花板”級別的AI。

可結(jié)果呢?模型單獨(dú)答題時,表現(xiàn)得堪稱完美:GPT-4o能正確識別94.7%的疾病,推薦的處理方式也有64.7%是對的,Llama 3和Command R+的數(shù)字也都不低。你以為AI只要上線,人人有救?

圖片圖片

研究方案:(a) 3名醫(yī)生編寫了10個醫(yī)療案例,經(jīng)反復(fù)修改后對處置方式(從自我護(hù)理到叫救護(hù)車共5級)達(dá)成一致。(b) 另4名醫(yī)生提供鑒別診斷,匯總形成標(biāo)準(zhǔn)答案。(c) 招募1298人隨機(jī)分4組,每組測試1個案例。實(shí)驗(yàn)組用大語言模型輔助判斷,對照組可使用任意方法(多數(shù)用搜索引擎或自身知識)。(d) 受試者選擇處置方式并說明相關(guān)病癥。每人測試2個案例,每組最終收集600例數(shù)據(jù),以標(biāo)準(zhǔn)答案評估結(jié)果。

可一旦讓真實(shí)用戶自己來和大模型互動,情況就變了味:用AI輔助以后,大家反而只在34.5%的場景下能說出正確疾病名,比不看AI、自己查資料的還差。選對處理方式的概率,也沒比對照組更高。AI越聰明,用戶卻越“迷糊”。

大語言模型單獨(dú)使用及與用戶協(xié)作的表現(xiàn)大語言模型單獨(dú)使用及與用戶協(xié)作的表現(xiàn)

為什么會這樣?研究團(tuán)隊發(fā)現(xiàn),并不是AI本身不行,而是“人和AI”這個配合環(huán)節(jié),掉了鏈子。比如,用戶描述癥狀時信息不全,AI就診斷失誤;AI給了2.2個可能選項(xiàng),用戶只會采納1.33個,其中三分之一還選錯了。模型說得再明白,用戶沒能聽懂,或者沒按建議去做,那些醫(yī)學(xué)知識就像被鎖進(jìn)了黑箱。

圖片圖片

如上圖,在多個大語言模型(如 GPT-4o、LLaMA 3 70B 和 Command R+)在醫(yī)學(xué)問答任務(wù)(MedQA)中的表現(xiàn),并與人類用戶進(jìn)行了對比。結(jié)果表明,盡管模型在標(biāo)準(zhǔn)問答任務(wù)中普遍達(dá)到或超過人類通過標(biāo)準(zhǔn)(60%),但在模擬臨床場景中的判斷任務(wù)(如確定最佳處理方式和相關(guān)疾病條件)上表現(xiàn)不穩(wěn)定。此外,模擬用戶的判斷準(zhǔn)確性與真實(shí)人類用戶的表現(xiàn)高度相關(guān),說明模擬用戶在實(shí)驗(yàn)中可以有效代表人類行為。

圖注:交互過程中的相關(guān)病癥識別情況圖注:交互過程中的相關(guān)病癥識別情況

這像不像我們生活里那些“明明有說明書還是裝錯了家具”“菜譜寫得清清楚楚但最后炒糊了”的瞬間?技術(shù)好歸好,人用不明白,一切白搭。你給爸媽買了最新旗艦手機(jī),他們卻只會用來打電話發(fā)微信;AI醫(yī)生再牛,遇到現(xiàn)實(shí)生活的“碎片信息、臨場慌亂、溝通誤會”,一樣抓瞎。

很多人還沉浸在“AI馬上能緩解醫(yī)療資源緊張”的美夢里。但牛津團(tuán)隊潑了一盆冷水:實(shí)驗(yàn)室里的高分,到了現(xiàn)實(shí)世界就打了折扣。用考試題、模擬病人測AI,分?jǐn)?shù)再高,不能代表它能搞定真實(shí)用戶。AI會答題,但不懂得主動追問、不知道怎樣引導(dǎo)患者補(bǔ)全信息——這才是最大短板。

更諷刺的是,模型測評用的MedQA等考試題,AI能刷滿分,輪到和真人互動,反而“翻車”了。你讓AI和模擬病人聊,結(jié)果也比和真實(shí)用戶高。AI和AI之間的交流當(dāng)然順暢,可人類的表達(dá)、記憶、情緒、甚至敷衍,才是現(xiàn)實(shí)世界最大的bug。

當(dāng)然,這項(xiàng)牛津研究本身也還算“半真實(shí)”:參與者是健康人,按照劇本模擬生病,比起真正帶病痛、焦慮、信息混亂的真實(shí)患者,還是有距離。AI用的是API接口,不是像ChatGPT那樣的連續(xù)對話體驗(yàn)。沒有上下文,沒有“鏈?zhǔn)剿伎肌保F(xiàn)實(shí)中的各種“人性化提示”也沒加進(jìn)去。

哪怕如此,這個實(shí)驗(yàn)還是給我們敲了警鐘:AI不是不能用,而是“AI+人”這套流程,才是最難啃的硬骨頭。

我們太習(xí)慣于相信“技術(shù)能一錘定音”,卻忘了現(xiàn)實(shí)世界的混亂、粗糙和不確定。你以為AI醫(yī)生上線就能解放一線醫(yī)生?但在真正的就醫(yī)現(xiàn)場,信息永遠(yuǎn)不全,溝通永遠(yuǎn)混亂,決策永遠(yuǎn)充滿不確定。就像生活中那些手抖拍糊的照片,才是最接近真實(shí)的“醫(yī)學(xué)場景”。

所以,AI醫(yī)學(xué)的未來,絕不只是模型分?jǐn)?shù)的競賽,而是“如何讓普通人和AI好好說話”的漫長修煉。AI要走進(jìn)醫(yī)療的最后一公里,腳下的路,還很長很長。

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-10-22 02:00:00

AI全球大裁員AI就業(yè)影響

2022-09-30 11:55:36

AI算力

2022-04-11 11:37:13

AI研究NLP

2022-12-16 15:25:00

AIScience

2025-08-14 12:03:50

2021-10-29 14:41:17

AI 模型人工智能

2025-09-10 09:14:00

AI硅谷996

2024-07-10 13:20:45

2025-08-25 00:02:00

人工智能AI語言模型

2021-07-05 10:00:17

GitHub代碼AI

2020-05-14 18:50:35

Chrome漏洞瀏覽器

2025-04-01 09:10:00

2021-08-02 19:37:27

AI人工智能新冠檢測

2024-09-05 11:26:08

人工智能

2021-03-23 13:49:21

人工智能機(jī)器學(xué)習(xí)

2024-12-23 14:30:00

AI模型數(shù)據(jù)

2018-10-10 13:57:32

區(qū)塊鏈技術(shù)智能

2019-06-25 08:10:56

AI人工智能

2024-11-29 14:10:00

神經(jīng)網(wǎng)絡(luò)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號