面向疾病管理的對話式人工智能 - Google研究院&DeepMind
摘要
雖然大型語言模型(LLMs)在診斷對話中顯示出潛力,但它們在有效管理推理方面的能力——包括疾病進展、治療反應(yīng)和安全藥物處方——仍有待進一步探索。我們通過一種新的基于LLMs的代理系統(tǒng)推進了之前展示的Articulate Medical Intelligence Explorer(AMIE)的診斷能力,該系統(tǒng)針對臨床管理和對話進行了優(yōu)化,整合了對疾病演變、多次患者就診經(jīng)歷、治療反應(yīng)以及藥物處方專業(yè)能力的推理。AMIE在權(quán)威臨床知識的基礎(chǔ)上進行推理,利用Gemini的長上下文能力,結(jié)合上下文檢索與結(jié)構(gòu)化推理,使其輸出與相關(guān)的最新臨床實踐指南和藥物配方保持一致。在一項隨機、盲法的虛擬客觀結(jié)構(gòu)化臨床考試(OSCE)研究中,AMIE與21名初級保健醫(yī)生進行了比較在100個多診次病例場景中,對初級保健醫(yī)生(PCPs)進行了測試,這些場景旨在反映英國國家衛(wèi)生與臨床優(yōu)化研究所(NICE)指南和《英國醫(yī)學(xué)雜志》(BMJ)最佳實踐指南。由專家醫(yī)生評估,在管理推理方面,人工智能助理(AMIE)不遜于PCPs,并且在治療的精確性和調(diào)查、以及其與管理計劃在臨床指南中的對齊和依據(jù)方面表現(xiàn)更佳。
為了衡量藥物推理能力,我們開發(fā)了RxQA,這是一個基于兩個國家藥品目錄(美國和英國)的多項選擇題基準,并由認證藥劑師驗證。雖然AMIE和PCPs都能從訪問外部藥物信息中受益,但在更高難度的問題上,AMIE的表現(xiàn)優(yōu)于PCPs。盡管在實際應(yīng)用前還需要進一步研究,但AMIE在各項評估中的強勁表現(xiàn)標志著在對話式人工智能作為疾病管理工具方面邁出了重要一步。
??https://arxiv.org/abs/2503.06074??
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何通過大型語言模型(LLMs)在疾病管理中進行有效的對話式人工智能(AI)應(yīng)用,特別是在診斷推理和管理推理方面的能力。
- 研究難點:該問題的研究難點包括:診斷推理雖然重要,但管理推理更為復(fù)雜,涉及疾病的縱向演變、多次患者就診、治療反應(yīng)和藥物處方的專業(yè)能力。此外,現(xiàn)有的研究大多集中在靜態(tài)的非對話環(huán)境中,缺乏對動態(tài)對話環(huán)境中的管理推理能力的評估。
- 相關(guān)工作:該問題的研究相關(guān)工作包括:早期的工作主要集中在將決策理論應(yīng)用于醫(yī)學(xué)中,使用貝葉斯推斷和規(guī)則系統(tǒng)來模擬管理決策;近年來,基于認知心理學(xué)的方法被引入到臨床信息的處理和存儲中;LLMs在特定管理任務(wù)中表現(xiàn)出類似人類的能力,但在更廣泛的推理任務(wù)中表現(xiàn)較差。
研究方法
這篇論文提出了一種基于LLMs的代理系統(tǒng),用于優(yōu)化臨床管理和對話,特別是針對疾病管理中的管理推理。具體來說,
- 對話代理:該代理與患者進行快速、直觀且富有同情心的對話,并在多次就診中保持持續(xù)的對話狀態(tài)。對話代理通過一系列模型調(diào)用來生成最終響應(yīng),這些調(diào)用包括計劃響應(yīng)、生成響應(yīng)和修訂響應(yīng)。
- Mx代理:該代理通過更廣泛的推理時間計算來規(guī)劃患者的護理。它連續(xù)分析患者的病例,從權(quán)威臨床知識庫中推理出臨床指南,并生成詳細且結(jié)構(gòu)化的管理計劃。Mx代理的設(shè)計優(yōu)化包括粗檢索、結(jié)構(gòu)化生成和鏈式推理。
- 鏈式推理:在推理過程中,對話代理使用一系列模型調(diào)用來生成最終響應(yīng)。每個調(diào)用都依賴于對話歷史、內(nèi)部管理的狀態(tài)以及最新的管理計劃。
- 長上下文推理:Mx代理利用Gemini的長上下文推理能力,通過在生成過程中每一步都與上下文數(shù)據(jù)進行交互來實現(xiàn)豐富的跨文檔推理。
實驗設(shè)計
- 數(shù)據(jù)收集:實驗使用了模擬的多就診病例場景,這些場景由加拿大和印度的醫(yī)療提供者編寫,描述了患者病情在三次不同就診中的演變??偣彩褂昧?00個場景,涵蓋了五個醫(yī)學(xué)專業(yè)領(lǐng)域。
- 實驗設(shè)計:實驗采用隨機、盲法設(shè)計的虛擬客觀結(jié)構(gòu)化臨床考試(OSCE),比較了AMIE和21名初級保健醫(yī)生(PCP)在100個多就診病例場景中的表現(xiàn)。每個場景包括三次文本聊天對話,分別對應(yīng)于就診1、2和3,就診間隔約為2天。
- 樣本選擇:實驗涉及21名認證PCP和21名經(jīng)過驗證的患者演員,分別來自印度和加拿大。PCP具有9年的住院醫(yī)師經(jīng)驗,患者演員完成了每個場景的兩次就診,一次與AMIE,一次與PCP。
- 參數(shù)配置:Mx代理在實時用戶交互約束下優(yōu)化,目標響應(yīng)時間不超過一分鐘。對話代理使用Gemini 1.5 Flash作為基礎(chǔ)模型,并通過模擬的多就診醫(yī)患對話和其他臨床相關(guān)數(shù)據(jù)集進行訓(xùn)練。
結(jié)果與分析
- 管理計劃質(zhì)量:AMIE的管理計劃在所有15個評估軸和三次就診中至少與PCP的表現(xiàn)相當。在初次就診中,AMIE在計劃的整體適當性和提供適當?shù)暮罄m(xù)建議方面得分顯著高于PCP。
- 治療和檢查推薦的精確性:AMIE在每次就診結(jié)束時推薦治療和檢查的精確性均高于PCP。例如,在第一次就診中,AMIE的治療精確性得分為94%,而PCP為67%。
- 臨床指南的使用:AMIE在選擇適用的指南和推薦與指南一致的治療方面表現(xiàn)優(yōu)于PCP。在初次就診中,AMIE選擇適用指南的得分為92%,而PCP為76%。
- 患者演員和專家醫(yī)生的偏好:在51個獨特的MXEKF評估軸組合中,AMIE被患者演員和專家醫(yī)生優(yōu)先選擇的頻率顯著高于PCP,中位數(shù)勝率為42%。
- RxQA藥物推理準確性:在RxQA基準測試中,AMIE在高難度問題上的表現(xiàn)顯著優(yōu)于PCP。在閉書設(shè)置中,AMIE的高難度問題準確率為50.6%,而PCP為41.5%。
總體結(jié)論
這篇論文展示了AMIE在多種管理推理挑戰(zhàn)中的一致性表現(xiàn),能夠在多次就診中生成與認證PCP相當?shù)墓芾碛媱?。盡管AMIE尚未準備好用于臨床護理,但這項研究標志著對話式AI作為疾病管理工具的重要一步。AMIE的精確治療和檢查推薦、指南選擇和一致性表現(xiàn)顯示出其在實際臨床環(huán)境中的潛力。未來的研究需要進一步驗證AMIE在實際醫(yī)療環(huán)境中的可行性和安全性。
論文評價
優(yōu)點與創(chuàng)新
- 優(yōu)化了AMIE的診斷能力:通過新的基于LLM的代理系統(tǒng),AMIE在臨床管理和對話方面進行了優(yōu)化,結(jié)合了疾病演變、多次患者就診、治療反應(yīng)和藥物處方的專業(yè)能力。
- 利用Gemini的長上下文能力:AMIE利用Gemini的長上下文能力,結(jié)合上下文檢索和結(jié)構(gòu)化推理,使其輸出與相關(guān)的最新臨床實踐指南和藥物配方保持一致。
- 隨機、盲法的虛擬OSCE研究:通過隨機、盲法的虛擬OSCE研究,將AMIE與21名初級保健醫(yī)生(PCP)在100個多就診案例場景中進行了比較,這些場景涵蓋了英國NICE指南和BMJ最佳實踐指南中的決策。
- RxQA藥物推理基準:開發(fā)了RxQA,一個基于兩個國家藥物配方(美國和英國)的多項選擇題基準,并由認證藥劑師驗證。
- 非劣效性評估:AMIE在管理推理方面的整體表現(xiàn)不亞于PCP,在治療的精確性和調(diào)查與治療計劃的一致性方面得分更高。
- 高難度問題的優(yōu)勢:在RxQA的高難度問題上,AMIE的表現(xiàn)優(yōu)于PCP,尤其是在開放書籍設(shè)置中。
不足與反思
- 患者演員的代表性問題:盡管患者演員是醫(yī)學(xué)教育中評估受訓(xùn)臨床醫(yī)生的黃金標準,但它們并不代表臨床護理。
- 場景構(gòu)建的局限性:臨床場景是構(gòu)建的,意味著它們有明確的答案,并且在評分上存在可靠性限制。
- 就診間隔時間的靜態(tài)性:盡管場景在敘述中描述了數(shù)周或數(shù)月的時間跨度,但實際就診之間的間隔時間為1-2天,這可能增加了人類的表現(xiàn)。
- 文本界面的局限性:使用純文本界面進行AMIE的用戶界面與實際的患者護理存在顯著差異,例如電子提供者訂單輸入系統(tǒng)和藥房實踐警報。
- RxQA基準的局限性:選擇問題的過程可能會使問題偏向于較難的問題,并且不一定代表典型實踐。
- 未來工作的方向:需要進一步的研究來展示MXEKF在現(xiàn)實世界中的可靠性和心理測量特性,并描述其特征。
關(guān)鍵問題及回答
問題1:AMIE的Mx代理在處理患者病例時如何進行長上下文推理?
Mx代理利用Gemini的長上下文推理能力,通過在生成過程中每一步都與上下文數(shù)據(jù)進行交互來實現(xiàn)豐富的跨文檔推理。具體來說,Mx代理的設(shè)計包括以下幾個步驟:
- 粗檢索:首先,Mx代理使用Gecko 1B文本嵌入構(gòu)建一個簡單的檢索器系統(tǒng),索引所有臨床指南文檔?;谏傻牟樵兒驼醪竭^濾掉不相關(guān)的文檔。
- 結(jié)構(gòu)化生成:其次,Mx代理生成四個初步的管理計劃草案。每個草案通過鏈式推理在一個模型調(diào)用中完成,確保生成的內(nèi)容具有結(jié)構(gòu)性和一致性。
- 精細合并:最后,Mx代理使用最終生成步驟將這些草案合并成一個最終的管理計劃。這一過程結(jié)合了長上下文推理和多文檔推理,確保生成的管理計劃全面且細致。
通過這種方式,Mx代理能夠在處理復(fù)雜病例時,整合和分析大量的臨床指南和患者信息,生成高質(zhì)量的管理計劃。
問題2:在多就診OSCE研究中,AMIE和PCP在管理計劃質(zhì)量方面有哪些具體表現(xiàn)差異?
在多就診OSCE研究中,AMIE和PCP在管理計劃質(zhì)量方面的具體表現(xiàn)差異如下:
- 初次就診:在初次就診中,AMIE在計劃的整體適當性(88% vs. 74%,p=0.019)和提供適當?shù)暮罄m(xù)建議(100% vs. 98%,p<0.001)方面得分顯著高于PCP。然而,在后續(xù)就診中,這些差異不再顯著。
- 治療和檢查推薦的精確性:AMIE在每次就診結(jié)束時推薦治療和檢查的精確性均高于PCP。例如,在第一次就診中,AMIE的治療精確性得分為94%,而PCP為67%;在第二次和第三次就診中,AMIE的檢查精確性也顯著高于PCP。
- 臨床指南的使用:AMIE在選擇適用的指南(92% vs. 76%,p=0.016)和推薦與指南一致的治療(89% vs. 75%,p=0.007)方面表現(xiàn)優(yōu)于PCP。在所有三次就診中,AMIE推薦與指南一致的治療的得分均高于PCP。
- 患者演員和專家醫(yī)生的偏好:在51個獨特的MXEKF評估軸組合中,AMIE被患者演員和專家醫(yī)生優(yōu)先選擇的頻率顯著高于PCP,中位數(shù)勝率為42%。
總體而言,AMIE在初次就診中的表現(xiàn)顯著優(yōu)于PCP,而在后續(xù)就診中,兩者表現(xiàn)相當。AMIE在治療和檢查推薦的精確性、臨床指南的使用以及患者和專家的偏好方面均表現(xiàn)出優(yōu)勢。
問題3:RxQA藥物推理基準測試的結(jié)果如何顯示AMIE和PCP在高難度問題上的表現(xiàn)差異?
在RxQA藥物推理基準測試中,AMIE和高難度問題上的表現(xiàn)顯著優(yōu)于PCP,具體結(jié)果如下:
- 高難度問題:在閉書設(shè)置中,AMIE的高難度問題準確率為50.6%,而PCP為41.5%(p=0.013);在開書設(shè)置中,AMIE的高難度問題準確率為57.9%,而PCP為47.8%(p<0.001)。這表明AMIE在高難度問題上的表現(xiàn)顯著優(yōu)于PCP。
- 低難度問題:在閉書設(shè)置中,AMIE的低難度問題準確率為52.8%,而PCP為46.5%(p=0.147);在開書設(shè)置中,AMIE的低難度問題準確率為73.8%,而PCP為67.4%(p=0.071)。雖然AMIE在低難度問題上的表現(xiàn)也優(yōu)于PCP,但差異不如高難度問題顯著。
- 外部知識資源的影響:無論是高難度還是低難度問題,AMIE和PCP在開書設(shè)置中的準確率均顯著高于閉書設(shè)置。這表明訪問外部知識資源對兩者的藥物推理能力都有顯著提升作用。
總體而言,AMIE在高難度問題上的表現(xiàn)顯著優(yōu)于PCP,顯示出其在復(fù)雜藥物推理任務(wù)中的潛力。
參考文獻:
- 百川智能最新醫(yī)學(xué)大模型論文-利用先進的患者模擬器探索醫(yī)療"問診-診療"關(guān)系
- 京東開源醫(yī)學(xué)大模型“京醫(yī)千詢”Citrus: 利用專家認知路徑以支持高級醫(yī)療決策
- AMG-RAG自適應(yīng)知識圖譜增強醫(yī)學(xué)問答:彌合大模型與動態(tài)醫(yī)學(xué)知識的差距 - 多倫多大學(xué)等
- PatientSeek: 海外首個基于Deepseek R1的"KG+LLM"結(jié)合的開源醫(yī)學(xué)法律推理模型 - WhyHow.AI
- AIPatient:基于EHR和知識增強大模型智能體工作流的模擬患者-密歇根、斯坦福、哈佛醫(yī)學(xué)院、山大、港大、醫(yī)科院、北大六院等
- 利用大模型提升護理與老年照護:一個AI驅(qū)動的框架 - 復(fù)旦、上交等
- 護理臨床智能決策的新穎方法:大語言模型與本地知識庫的整合
- Nature - 基于護理大模型的醫(yī)院門診接待機器人和護士的人機協(xié)同新范式
- 使用大模型指導(dǎo)患者創(chuàng)建高效全面的臨床護理信息
- 從“小白”到“專家”:大模型在腫瘤護理中的潛力探索
- [最新論文]探索大模型在乳腺癌腫瘤學(xué)護理領(lǐng)域中的應(yīng)用潛力 - 谷歌DeepMind等
- 廈門·護理信息大會|首都醫(yī)科大學(xué)與柯基數(shù)據(jù)合作的NursGPT項目順利啟動!
- DrHouse虛擬醫(yī)生: 基于傳感器數(shù)據(jù)和專家知識賦能的大模型醫(yī)學(xué)診療推理系統(tǒng) - 香港中文大學(xué)等
- AIPatient:基于EHR和知識增強大模型智能體工作流的模擬患者-密歇根、斯坦福、哈佛醫(yī)學(xué)院、山大、港大、醫(yī)科院、北大六院等
- AIR孵化|Agent Hospital首批AI醫(yī)生上線內(nèi)測
- 2024醫(yī)學(xué)大模型應(yīng)用及挑戰(zhàn)綜述 - Cornell、Duke、Berkeley、MIT等
- KG4Diagnosis - 知識圖譜增強的多智能體大模型在醫(yī)學(xué)診斷中的應(yīng)用
- 上海經(jīng)信局衛(wèi)健委等發(fā)布2024年上海市醫(yī)療大模型應(yīng)用示范場景需求列表
- CMAC中國行-走入“北京人工智能數(shù)據(jù)訓(xùn)練基地”|醫(yī)學(xué)大模型產(chǎn)學(xué)研應(yīng)用落地研討會
- 再發(fā)布!哈佛醫(yī)學(xué)院又一病理大模型TITAN
- Google DeepMind重磅推出AlphaFold3,預(yù)測了所有生命分子的結(jié)構(gòu)和相互作用
- 大模型優(yōu)化肝病臨床指南解讀:一種基于RAG的框架 - Nature NPJ
- 斯坦福&哈佛醫(yī)學(xué)院 - MMedAgent,一個用于醫(yī)療領(lǐng)域的多模態(tài)醫(yī)療AI智能體
- 喜訊|柯基數(shù)據(jù)中標兩個“大模型+醫(yī)學(xué)”國自然面上項目
- 哈佛醫(yī)學(xué)院&輝瑞推出基于知識圖譜的復(fù)雜醫(yī)學(xué)問答智能體MedAI
- 通過知識圖譜自動生成和豐富加速醫(yī)學(xué)知識發(fā)現(xiàn) - 哈佛大學(xué)等
- 醫(yī)療保健和醫(yī)學(xué)領(lǐng)域的大模型綜述 - 斯坦福&加州大學(xué)
- 醫(yī)學(xué)GraphRAG:通過知識圖譜檢索增強實現(xiàn)安全醫(yī)療大語言模型 - 牛津大學(xué)最新論文
- 消除幻覺的知識圖譜增強醫(yī)學(xué)大模型 - "Nature"NPJ數(shù)字醫(yī)學(xué)雜志
- Almanac: 一種用于臨床醫(yī)學(xué)的檢索增強RAG大語言模型(2023vs2024版)
- “大模型+知識圖譜”雙輪驅(qū)動的醫(yī)藥數(shù)智化轉(zhuǎn)型新范式-OpenKG TOC專家談
- 醫(yī)學(xué)AI專家Anthropic CEO萬字長文預(yù)測人工智能將消除癌癥、人類壽命翻倍,世界變得更美好
- 醫(yī)療保健和醫(yī)學(xué)領(lǐng)域的大模型綜述 - 斯坦福&加州大學(xué)
- OpenAI o1模型的醫(yī)學(xué)初步研究:我們離人工智能醫(yī)生更近了嗎?
- 哈佛醫(yī)學(xué)院將生成式人工智能納入課程和臨床實踐,以培訓(xùn)下一代醫(yī)生
本文轉(zhuǎn)載自??知識圖譜科技??,作者:Wolfgang
