偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動模擬器中評估大模型的表現(xiàn) - 阿里、華中科技等

發(fā)布于 2025-4-2 00:54
瀏覽
0收藏


AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動模擬器中評估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)

摘要

人工智能通過大型語言模型(LLMs)顯著改變了醫(yī)療保健領(lǐng)域,尤其在靜態(tài)醫(yī)學問答基準測試中表現(xiàn)出色。然而,由于醫(yī)患互動的復雜性,評估LLMs在現(xiàn)實世界臨床應(yīng)用的潛力仍然具有挑戰(zhàn)性。為此,我們引入了“人工智能醫(yī)院”這一多智能體框架,模擬醫(yī)生(玩家)與包括患者和檢查員在內(nèi)的非玩家角色(NPCs)之間的動態(tài)醫(yī)療互動。這種設(shè)置允許在模擬的臨床場景中更實際地評估LLMs的表現(xiàn)。我們開發(fā)了“多視圖醫(yī)療評估”(MVME)基準測試,利用高質(zhì)量的中文醫(yī)療記錄和多種評估策略來量化由LLM驅(qū)動的醫(yī)生智能體在癥狀收集、檢查建議和診斷方面的表現(xiàn)。此外,提出了一種爭議解決協(xié)作機制,通過迭代討論提升醫(yī)療互動能力。盡管有所改進,當前的LLM(包括GPT-4)在多輪互動場景中的表現(xiàn)與非互動場景相比仍有顯著差距。我們的研究結(jié)果強調(diào)了進一步研究的必要性,以縮小這些差距并提高大型語言模型在臨床決策方面的能力。

數(shù)據(jù)、代碼和實驗結(jié)果均在??https://github.com/LibertFan/AI_Hospital??開源。

??https://aclanthology.org/2025.coling-main.680/??

AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動模擬器中評估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)

核心速覽

研究背景

  1. 研究問題:這篇文章要解決的問題是如何評估大型語言模型(LLMs)在真實世界臨床診斷中的應(yīng)用潛力。盡管LLMs在靜態(tài)醫(yī)學問答基準測試中表現(xiàn)出色,但在動態(tài)的醫(yī)患互動中仍存在顯著挑戰(zhàn)。
  2. 研究難點:該問題的研究難點包括:動態(tài)診斷過程涉及多輪互動,而現(xiàn)有的LLMs在多輪互動場景中的表現(xiàn)遠不如非互動場景;LLMs難以通過互動收集全面的患者信息并推薦正確的醫(yī)學檢查。
  3. 相關(guān)工作:在LLMs應(yīng)用于醫(yī)學領(lǐng)域之前,已有研究嘗試創(chuàng)建醫(yī)療領(lǐng)域的代理,但這些代理通常缺乏靈活性,難以準確模擬復雜的醫(yī)療場景。近年來,隨著LLMs的發(fā)展,其在復雜任務(wù)解決方面取得了顯著進展,但在疾病診斷方面的應(yīng)用仍面臨挑戰(zhàn)。

研究方法

這篇論文提出了AI Hospital框架,用于模擬真實的動態(tài)醫(yī)療互動,并開發(fā)了多視圖醫(yī)學評估(MVME)基準來評估LLMs在臨床診斷中的表現(xiàn)。具體來說:

  1. AI Hospital框架:該框架包括兩個非玩家角色(NPC):患者和檢查員,以及一個玩家角色:醫(yī)生。醫(yī)生通過與患者和檢查員的互動來完成患者的診斷,并生成完整的診斷報告。
  2. AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動模擬器中評估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)
  3. 多視圖醫(yī)學評估(MVME)基準:基于AI Hospital框架,利用高質(zhì)量的中文病歷記錄,評估LLMs驅(qū)動的醫(yī)生代理在癥狀收集、檢查建議和診斷等方面的表現(xiàn)。評估方法包括基于鏈接的自動評估、基于模型的評估和人工評估。
  4. 爭議解決協(xié)作機制:提出了一種協(xié)作機制,通過多個醫(yī)生獨立診斷同一病例,生成不同的對話軌跡和診斷報告,然后通過中心代理促進有效討論,達成共識。

實驗設(shè)計

  1. 數(shù)據(jù)收集:從iyi.com網(wǎng)站收集了506份高質(zhì)量的醫(yī)療記錄,涵蓋12個??啤?8個亞??坪投喾N疾病。AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動模擬器中評估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)
  2. 實驗設(shè)置:使用多個醫(yī)生代理,包括GPT-3.5、GPT-4、Wenxin-4和Qwen-Max,隨機選擇50份病歷樣本,每個代理生成50輪多輪對話軌跡。手動標注所有指標并報告平均值。
  3. 評估指標:包括癥狀收集、檢查建議和診斷等方面的評估?;阪溄拥脑u估使用ICD-10標準計算實體重疊度;基于模型的評估使用GPT-4作為評估器,采用離散評分系統(tǒng);人工評估由專業(yè)醫(yī)生進行,遵循與GPT-4評估器相同的評分標準。

結(jié)果與分析

  1. AI Hospital框架的有效性:實驗結(jié)果表明,AI Hospital框架能夠有效模擬真實的醫(yī)療互動,所有指標的平均值均超過95,表明代理行為可靠且一致。
  2. 各種醫(yī)生代理的性能:在多輪互動場景中,現(xiàn)有LLMs的表現(xiàn)顯著低于一步GPT-4方法。例如,GPT-4在診斷準確性、推理和治療計劃方面的表現(xiàn)不足其一步設(shè)置性能的50%。
  3. AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動模擬器中評估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)
  4. 協(xié)作機制的效果:協(xié)作機制在一定程度上提高了性能,但仍未能達到上限。主要原因是醫(yī)生代理未能準確推薦必要的醫(yī)學檢查,以及在互動過程中未能詢問關(guān)鍵的相關(guān)癥狀。
  5. 診斷性能與信息完整性的關(guān)系:分析表明,患者信息的完整性越高,診斷質(zhì)量越高。當前LLMs難以通過互動動態(tài)收集全面的信息,推薦正確的醫(yī)學檢查也是一個挑戰(zhàn)。

總體結(jié)論

這篇論文通過引入AI Hospital框架和多視圖醫(yī)學評估(MVME)基準,首次系統(tǒng)地評估了LLMs在模擬醫(yī)療互動中的能力。結(jié)果表明,盡管LLMs在靜態(tài)醫(yī)學問答中表現(xiàn)出色,但在動態(tài)診斷場景中仍存在顯著局限性。未來的研究應(yīng)致力于改進LLMs的訓練,以縮小與人類專家在臨床醫(yī)學中的差距。

論文評價

優(yōu)點與創(chuàng)新

  1. 引入AI Hospital框架論文首次提出了基于大型語言模型(LLM)的多代理框架,模擬真實的醫(yī)療互動,全面評估LLM在復雜臨床場景中的能力。
  2. 建立MVME基準開發(fā)了多視圖醫(yī)學評估(MVME)基準,利用高質(zhì)量的中文病歷記錄,評估LLM驅(qū)動的醫(yī)生代理在收集癥狀、推薦檢查和診斷方面的表現(xiàn)。
  3. 提出爭議解決協(xié)作機制提出了一種協(xié)作機制,通過迭代討論提高診斷準確性,展示了LLM在臨床診斷中的應(yīng)用潛力。
  4. 數(shù)據(jù)集可視化與統(tǒng)計對數(shù)據(jù)集進行了詳細的可視化與統(tǒng)計分析,展示了數(shù)據(jù)集的多樣性和復雜性,強調(diào)了醫(yī)生代理在面對數(shù)百種檢查選項時需要具備的強大信息收集能力。
  5. 多部門性能分析分析了不同醫(yī)院部門的LLM性能,揭示了交互能力與診斷能力之間的正相關(guān)性,強調(diào)了考慮每個醫(yī)療專業(yè)的特定要求和復雜性在部署LLM時的重要性。

不足與反思

  1. 數(shù)據(jù)集局限性數(shù)據(jù)集主要來源于中文病歷記錄,可能限制了研究結(jié)果的通用性,難以推廣到其他語言和醫(yī)療系統(tǒng)。
  2. 患者代理設(shè)置的影響未探討不同患者背景、文化和偏見對模型性能的影響。
  3. 外部工具的利用未研究醫(yī)生代理利用外部工具、外部知識或基于多模態(tài)醫(yī)療信息做出決策的能力。
  4. 資源消耗依賴大量LLM API進行新模型的測試會消耗大量資源,并可能增加碳排放。
  5. 框架的復雜性提出的AI Hospital和協(xié)作機制基于相對簡單的框架,可能未能完全捕捉真實世界臨床合作的復雜性,需要在更多樣化和實際的設(shè)置中進一步細化和驗證。

關(guān)鍵問題及回答

問題1:AI Hospital框架是如何設(shè)計的,它如何模擬真實的醫(yī)療互動?

AI Hospital框架包括兩個非玩家角色(NPC):患者和檢查員,以及一個玩家角色:醫(yī)生。醫(yī)生通過與患者和檢查員的互動來完成患者的診斷,并生成完整的診斷報告。具體來說,患者代理會根據(jù)病歷中的基本信息與醫(yī)生進行對話,提供癥狀和既往病史等信息。醫(yī)生則會根據(jù)這些信息詢問更多的細節(jié),并建議進行必要的醫(yī)學檢查。檢查員代理會提供相應(yīng)的檢查結(jié)果,醫(yī)生再根據(jù)這些結(jié)果進行診斷,并最終生成診斷報告。整個對話過程被限制在預(yù)定的最大回合數(shù)內(nèi),以確保對話的結(jié)構(gòu)化和有限性。

問題2:多視圖醫(yī)學評估(MVME)基準是如何構(gòu)建的,它包括哪些評估方法?

多視圖醫(yī)學評估(MVME)基準基于AI Hospital框架,利用高質(zhì)量的中文病歷記錄來評估LLMs驅(qū)動的醫(yī)生代理在癥狀收集、檢查建議和診斷等方面的表現(xiàn)。具體評估方法包括:

  1. 基于鏈接的自動評估計算診斷結(jié)果部分的實體重疊度,使用ICD-10標準提取疾病實體并計算其重疊度,以衡量最終診斷的準確性。
  2. 基于模型的評估使用GPT-4作為評估器,對診斷報告的各個部分(如癥狀收集、檢查建議、診斷結(jié)果等)進行離散評分,評分標準為1到4(從差到優(yōu))。
  3. 人工評估由專業(yè)醫(yī)生進行,遵循與GPT-4評估器相同的評分標準,對診斷報告的各個方面進行詳細評估。

問題3:實驗結(jié)果表明LLMs在多輪互動場景中的表現(xiàn)如何,與一步GPT-4方法相比有哪些差距?

實驗結(jié)果表明,現(xiàn)有LLMs在多輪互動場景中的表現(xiàn)顯著低于一步GPT-4方法。具體來說,GPT-4在診斷準確性、推理和治療計劃方面的表現(xiàn)不足其一步設(shè)置性能的50%。這表明LLMs在動態(tài)診斷場景中仍存在顯著局限性,難以通過互動收集全面的患者信息并推薦正確的醫(yī)學檢查。此外,協(xié)作機制雖然在一定程度上提高了性能,但仍未能達到上限,主要原因是醫(yī)生代理未能準確推薦必要的醫(yī)學檢查,以及在互動過程中未能詢問關(guān)鍵的相關(guān)癥狀。

本文轉(zhuǎn)載自??知識圖譜科技??,作者:Wolfgang

已于2025-4-2 09:57:46修改
收藏
回復
舉報
回復
相關(guān)推薦