偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

入選ICML 2025!哈佛醫(yī)學(xué)院等推出全球首個HIE領(lǐng)域臨床思維圖譜模型,神經(jīng)認(rèn)知結(jié)果預(yù)測任務(wù)上性能提升15% 原創(chuàng)

發(fā)布于 2025-6-23 13:09
瀏覽
0收藏

在人工智能技術(shù)突飛猛進(jìn)的當(dāng)下,大型視覺-語言模型(LVLMs)正以驚人的速度重塑多個領(lǐng)域的認(rèn)知邊界。在自然圖像與視頻分析領(lǐng)域,這類模型依托先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)、海量標(biāo)注數(shù)據(jù)集與強(qiáng)大算力支持,已能精準(zhǔn)完成物體識別、場景解析等高階任務(wù)。而在自然語言處理領(lǐng)域,LVLMs 通過對 TB 級文本語料的學(xué)習(xí),在機(jī)器翻譯、文本摘要、情感分析等任務(wù)上達(dá)到專業(yè)級水準(zhǔn),其生成的學(xué)術(shù)摘要甚至能精準(zhǔn)提煉醫(yī)學(xué)文獻(xiàn)的核心結(jié)論。


然而當(dāng)技術(shù)浪潮涌向醫(yī)學(xué)領(lǐng)域,LVLMs 的落地進(jìn)程卻遭遇顯著阻力。盡管臨床場景對智能化輔助診斷的需求極為迫切,這類模型的醫(yī)學(xué)應(yīng)用仍停留在初級探索階段。核心瓶頸源自醫(yī)學(xué)數(shù)據(jù)的獨特屬性:受患者隱私保護(hù)法規(guī)、醫(yī)療數(shù)據(jù)孤島效應(yīng)及倫理審查機(jī)制的多重制約,公開可用的高質(zhì)量醫(yī)學(xué)數(shù)據(jù)集規(guī)模僅為通用領(lǐng)域的萬分之一量級。現(xiàn)有醫(yī)學(xué)數(shù)據(jù)集大多采用基礎(chǔ)視覺問答架構(gòu),聚焦「這是哪個解剖結(jié)構(gòu)」等初級模式識別任務(wù)——如某公開數(shù)據(jù)集包含 20 萬張 X 光片標(biāo)注,但 90% 的標(biāo)注內(nèi)容停留在器官定位層面,無法觸及病變嚴(yán)重程度分級、預(yù)后風(fēng)險評估等臨床核心需求。


這種數(shù)據(jù)供給與實際需求的錯位,導(dǎo)致模型在面對新生兒缺氧缺血性腦病(HIE)MRI 圖像時,雖能識別基底節(jié)區(qū)異常信號,卻無法整合孕周、圍產(chǎn)期病史等多維度信息進(jìn)行神經(jīng)發(fā)育預(yù)后預(yù)測。


為了突破這一困境,來自波士頓兒童醫(yī)院聯(lián)合哈佛醫(yī)學(xué)院、紐約大學(xué)及 MIT-IBM 沃森實驗室的跨學(xué)科團(tuán)隊,收集了 133 名與缺氧缺血性腦?。℉IE)相關(guān)的個體十年 MRI 圖像及專家解讀,構(gòu)建了一個專業(yè)級醫(yī)學(xué)推理基準(zhǔn)測試數(shù)據(jù)集,旨在精準(zhǔn)評估 LVLMs 在醫(yī)學(xué)專業(yè)領(lǐng)域的推理表現(xiàn)。研究團(tuán)隊還提出了一種臨床思維圖譜模型(CGoT),能夠通過臨床知識引導(dǎo)的思維圖譜提示來模擬診斷過程,可將特定領(lǐng)域的臨床知識作為視覺和文本輸入納入其中,從而顯著增強(qiáng) LVLMs 的預(yù)測能力。


相關(guān)研究成果以「Visual and Domain Knowledge for Professional-level Graph-of-Thought Medical Reasoning」為題,已成功入選 ICML 2025 。


研究亮點:

* 創(chuàng)建全新 HIE 推理基準(zhǔn)測試,首次將臨床視覺感知與專業(yè)醫(yī)學(xué)知識結(jié)合,模擬臨床決策流程,精準(zhǔn)評估 LVLMs 在醫(yī)學(xué)推理中的專業(yè)表現(xiàn)。

* 全面對比先進(jìn)通用和醫(yī)學(xué) LVLMs,揭示其在醫(yī)學(xué)領(lǐng)域知識方面的局限性,為模型改進(jìn)提供方向。

* 提出 CGoT 模型,融合醫(yī)學(xué)專業(yè)知識與 LVLMs,模仿臨床決策過程,有效增強(qiáng)醫(yī)學(xué)決策支持。

入選ICML 2025!哈佛醫(yī)學(xué)院等推出全球首個HIE領(lǐng)域臨床思維圖譜模型,神經(jīng)認(rèn)知結(jié)果預(yù)測任務(wù)上性能提升15%-AI.x社區(qū)

論文地址: ?

??https://openreview.net/forum?id=tnyxtaSve5??

更多 AI 前沿論文:
???https://go.hyper.ai/owxf6??

開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:
???https://github.com/hyperai/awesome-ai4s??

HIE-Reasoning:多模態(tài)數(shù)據(jù)集構(gòu)建與專業(yè)推理任務(wù)體系創(chuàng)設(shè)

在數(shù)據(jù)構(gòu)建層面,該研究聚焦缺氧缺血性腦病(HIE)這一新生兒重癥,歷時 10 年收集了 133 例 HIE 患兒從出生 0-14 天內(nèi)的高質(zhì)量 MRI 影像,同步獲取經(jīng)多學(xué)科專家(包括擁有 30 年經(jīng)驗的資深神經(jīng)放射科醫(yī)生)臨床驗證的解讀報告,形成縱向追蹤的核心數(shù)據(jù)集。


如下圖所示,研究人員定義了 6 項任務(wù)供 LVLMs 執(zhí)行專業(yè)臨床推理:

* 任務(wù) 1:病變分級(Lesion Grading)。該任務(wù)通過估算受 HIE 病變影響的大腦體積百分比以及評估病變的嚴(yán)重程度來量化大腦損傷。

* 任務(wù) 2:病變解剖學(xué)(Lesion Anatomy)。該任務(wù)識別受病變影響的大腦特定區(qū)域。

* 任務(wù) 3:罕見部位病變(Lesion in Rare Locations)。該任務(wù)識別由 HIE 引起的病變,并將受影響區(qū)域分為常見或不常見,幫助確定患者是否需要額外關(guān)注。

* 任務(wù) 4:MRI 損傷評分(MRI Injury Score)。該任務(wù)輸出 MRI 的整體損傷評分,提供一個標(biāo)準(zhǔn)化的損傷嚴(yán)重程度衡量標(biāo)準(zhǔn),以指導(dǎo)治療和預(yù)測結(jié)果。

* 任務(wù) 5:2 年神經(jīng)認(rèn)知結(jié)果(Neurocognitive Outcome)。該任務(wù)預(yù)測患者 2 年后的神經(jīng)認(rèn)知結(jié)果,幫助臨床醫(yī)生預(yù)測長期影響并計劃適當(dāng)?shù)母深A(yù)措施。

* 任務(wù) 6:MRI 解讀總結(jié)(MRI Interpretation)。該任務(wù)基于放射科醫(yī)生推薦的新生兒 MRI 總結(jié)模板,能夠為患者生成全面的 MRI 解讀。

入選ICML 2025!哈佛醫(yī)學(xué)院等推出全球首個HIE領(lǐng)域臨床思維圖譜模型,神經(jīng)認(rèn)知結(jié)果預(yù)測任務(wù)上性能提升15%-AI.x社區(qū)

HIE-Reasoning 數(shù)據(jù)集和任務(wù)概述

最終,研究人員構(gòu)建了全球首個公開的 HIE 數(shù)據(jù)集 HIE-Reasoning,含 749 對問答和 133 個 MRI 解讀總結(jié)。與 VQAmed 、 OmiMed-VQA 等傳統(tǒng)醫(yī)學(xué)數(shù)據(jù)集聚焦成像方式識別、器官定位等基礎(chǔ)問題不同,該數(shù)據(jù)集首次將臨床專家的深度推理過程轉(zhuǎn)化為可計算的評估體系,其數(shù)據(jù)結(jié)構(gòu)創(chuàng)新采用三層架構(gòu)——患者級原始影像與任務(wù)文件、跨案例元知識推理模板、個體病變概率圖譜,既保留醫(yī)學(xué)數(shù)據(jù)的完整性,又為模型提供包含病理機(jī)制的顯性知識輸入。


盡管樣本量僅 133 例,但通過長達(dá) 17 年(2001-2018 年)的多中心回顧性收集,結(jié)合 HIE 在三級醫(yī)院 1-5‰ 的低發(fā)率特征,該數(shù)據(jù)集成為首個整合影像-臨床-預(yù)后多模態(tài)信息的 HIE 專用基準(zhǔn),其標(biāo)注精度與臨床深度足以彌補(bǔ)規(guī)模限制,為 LVLMs 突破「基礎(chǔ)識別」瓶頸、進(jìn)入診療決策深水區(qū)提供了不可或缺的標(biāo)尺。


CGoT 模型:臨床思維圖譜驅(qū)動,構(gòu)建可解釋分層醫(yī)學(xué)推理新框架

為突破傳統(tǒng)大型視覺-語言模型(LVLMs)在醫(yī)學(xué)推理中的解釋性瓶頸(如下圖 A 所示),研究團(tuán)隊提出了臨床思維圖譜模型(CGoT),如下圖 B-C 所示,通過整合臨床知識引導(dǎo)語言模型模擬醫(yī)生診斷流程,從而顯著提升預(yù)測神經(jīng)認(rèn)知結(jié)果的可靠性。該模型創(chuàng)新性地采用結(jié)構(gòu)化「推理思維圖譜」,將醫(yī)學(xué)專家的診斷步驟轉(zhuǎn)化為分層推理管道,通過逐步累積知識解決復(fù)雜任務(wù)。

入選ICML 2025!哈佛醫(yī)學(xué)院等推出全球首個HIE領(lǐng)域臨床思維圖譜模型,神經(jīng)認(rèn)知結(jié)果預(yù)測任務(wù)上性能提升15%-AI.x社區(qū)

LVLM 與 CGoT 的推理圖

文本知識端則分為元臨床知識(含大腦解剖圖譜、病變分布規(guī)律、 MRI 生物標(biāo)志物預(yù)后關(guān)聯(lián)等通用醫(yī)學(xué)背景)與個體臨床知識(通過前序任務(wù)輸出動態(tài)生成的患者特異性診斷線索),兩類知識以 Prompt Engineering 方式結(jié)構(gòu)化輸入,引導(dǎo) LVLM 按照「臨床指南-影像特征-個體病史」的邏輯鏈逐步推導(dǎo)。


整個框架通過臨床圖結(jié)構(gòu)化提示與跨模態(tài)知識融合,將隱性的醫(yī)學(xué)診斷邏輯轉(zhuǎn)化為可計算的模型輸入,既保留了 LVLMs 的跨模態(tài)處理能力,又通過臨床知識錨定避免了推理過程的隨機(jī)性。


CGoT 臨床推理效能評估,在關(guān)鍵任務(wù)上實現(xiàn)突破性提升

為驗證 HIE-Reasoning 基準(zhǔn)測試與 CGoT 模型的有效性,研究團(tuán)隊設(shè)計了多維度實驗體系。


首先,研究人員對 6 個大型視覺語言模型進(jìn)行了零樣本評估,選取了 3 類通用 LVLMs(Gemini1.5-Flash 、 GPT4o-Mini 、 GPT4o)與 3 類醫(yī)學(xué) LVLMs(MiniGPT4-Med 、 LLava-Med 、 Med-Flamingo)作為基線模型,針對病變分級、解剖定位、預(yù)后預(yù)測等 6 大臨床任務(wù),采用準(zhǔn)確率、 MAE 、 F1 分?jǐn)?shù)、 ROUGE-L 等任務(wù)特異性指標(biāo)進(jìn)行評估,其中兩年神經(jīng)認(rèn)知結(jié)果預(yù)測采用類別間平均準(zhǔn)確率以平衡標(biāo)簽分布偏差。


實驗結(jié)果揭示了傳統(tǒng) LVLMs 的顯著局限性:當(dāng)直接輸入 MRI 切片與任務(wù)描述時,所有基線模型在專業(yè)醫(yī)學(xué)推理任務(wù)中表現(xiàn)不佳,部分模型因缺乏臨床知識出現(xiàn)回答幻覺或保守拒答,例如 Med-Flamingo 在解剖定位任務(wù)中生成無意義重復(fù)內(nèi)容,GPT4o 系列因?qū)R策略無法處理高不確定性問題。


與之形成鮮明對比的是,如下表所示,CGoT 模型通過整合臨床思維圖譜與跨模態(tài)知識,在關(guān)鍵任務(wù)上實現(xiàn)突破性提升——尤其在兩年預(yù)后預(yù)測這一核心臨床需求上,其性能較基線模型提升超過 15%,病變分級、損傷評分等任務(wù)的準(zhǔn)確率與一致性也顯著優(yōu)于對照組。

入選ICML 2025!哈佛醫(yī)學(xué)院等推出全球首個HIE領(lǐng)域臨床思維圖譜模型,神經(jīng)認(rèn)知結(jié)果預(yù)測任務(wù)上性能提升15%-AI.x社區(qū)

各種模型在 HIE-Reasoning 基準(zhǔn)上的性能比較

入選ICML 2025!哈佛醫(yī)學(xué)院等推出全球首個HIE領(lǐng)域臨床思維圖譜模型,神經(jīng)認(rèn)知結(jié)果預(yù)測任務(wù)上性能提升15%-AI.x社區(qū)

CGoT 定性結(jié)果

同時,魯棒性實驗顯示,即使在 10%-30% 的中間任務(wù)結(jié)果中引入 ±1 級評分?jǐn)_動,模型性能僅呈現(xiàn)漸進(jìn)式下降,證明其對臨床實踐中常見數(shù)據(jù)噪聲的適應(yīng)能力。這些發(fā)現(xiàn)共同表明,CGoT 通過模擬臨床診斷的分層推理過程,既突破了傳統(tǒng)模型的知識盲區(qū),又構(gòu)建了貼近真實診療場景的可靠決策支持體系。

?

醫(yī)學(xué) LVLMs 的雙輪驅(qū)動,學(xué)術(shù)界與企業(yè)界的創(chuàng)新實踐與趨勢

在全球范圍內(nèi),醫(yī)學(xué)領(lǐng)域的大型視覺-語言模型(LVLMs)研究與應(yīng)用正經(jīng)歷范式變革,學(xué)術(shù)界與企業(yè)界的創(chuàng)新實踐共同推動著這一領(lǐng)域的突破。


在學(xué)術(shù)研究層面,上海人工智能實驗室聯(lián)合華盛頓大學(xué)/莫納什大學(xué)/華東師范大學(xué)等多所科研單位共同發(fā)布的 GMAI-MMBench 基準(zhǔn)測試,整合了 284 個臨床任務(wù)數(shù)據(jù)集,覆蓋 38 種醫(yī)學(xué)影像模態(tài)與 18 項核心臨床需求(如腫瘤診斷、神經(jīng)影像分析等)。該基準(zhǔn)通過詞匯樹分類系統(tǒng),將病例按科室、模態(tài)與任務(wù)類型精準(zhǔn)歸類,為評估 LVLMs 的臨床推理能力提供了標(biāo)準(zhǔn)化框架。
??* 點擊查看完整報道:含 284 個數(shù)據(jù)集,覆蓋 18 項臨床任務(wù),上海 AI Lab 等發(fā)布多模態(tài)醫(yī)療基準(zhǔn) GMAI-MMBench??


此外,埃默里大學(xué)、南加州大學(xué)、東京大學(xué)和約翰霍普金斯大學(xué)聯(lián)合開發(fā)的 Med-R1,針對傳統(tǒng)監(jiān)督式微調(diào)(SFT)方法的局限性,創(chuàng)新性地引入群體相對策略優(yōu)化(GRPO),無需復(fù)雜的價值模型即可通過規(guī)則獎勵和群體比較穩(wěn)定策略更新。香港科技大學(xué)推出的 MedDr 等開源 LVLMs 在特定任務(wù)(如病變分級)上的表現(xiàn)已接近商業(yè)模型,證明了開源生態(tài)在醫(yī)學(xué) AI 領(lǐng)域的潛力。


企業(yè)界則以技術(shù)落地為核心,加速推動 LVLMs 的臨床轉(zhuǎn)化。例如,微軟 Azure 醫(yī)療云平臺通過整合 AI 工具與臨床數(shù)據(jù),實現(xiàn)了醫(yī)學(xué)影像分析、電子病歷自動化等功能的深度融合。其與多家醫(yī)院合作開發(fā)的智能放射學(xué)系統(tǒng),能夠通過 LVLMs 快速識別 MRI 影像中的異常區(qū)域,并生成結(jié)構(gòu)化報告,輔助醫(yī)生完成病變分級與解剖定位任務(wù)。


谷歌推出了開源醫(yī)療模型 MedGemma,基于 Gemma3 架構(gòu),專為醫(yī)療健康領(lǐng)域設(shè)計,旨在通過無縫結(jié)合醫(yī)學(xué)圖像和文本數(shù)據(jù)的分析,來增強(qiáng)醫(yī)療健康應(yīng)用,提升醫(yī)療診斷與治療的效率。
??* 點擊查看詳細(xì)報道:谷歌發(fā)布 MedGemma,基于 Gemma 3 構(gòu)建,專攻醫(yī)學(xué)文本與圖像理解??


這些實踐共同揭示了醫(yī)學(xué) LVLMs 發(fā)展的兩大趨勢:一是臨床知識與模型架構(gòu)的深度融合,例如本文所述研究的 HIE-Reasoning 基準(zhǔn)測試中通過專家標(biāo)注構(gòu)建的任務(wù)體系,以及 CGoT 模型引入的臨床思維圖譜;二是跨學(xué)科協(xié)作與數(shù)據(jù)治理的創(chuàng)新,如 GMAI-MMBench 通過統(tǒng)一標(biāo)注格式與倫理合規(guī)流程整合全球數(shù)據(jù)集,為解決醫(yī)學(xué)數(shù)據(jù)稀缺性提供了范例。未來,隨著聯(lián)邦學(xué)習(xí)、合成數(shù)據(jù)生成等技術(shù)的進(jìn)一步應(yīng)用,學(xué)術(shù)界與企業(yè)界有望在更復(fù)雜的臨床場景(如多模態(tài)預(yù)后預(yù)測、實時手術(shù)導(dǎo)航)中實現(xiàn)突破,真正推動 AI 從輔助工具向智能決策伙伴的角色轉(zhuǎn)變。


參考文章:
1.??https://blog.csdn.net/Python_cocola/article/details/146590017???
2.??https://mp.weixin.qq.com/s/0SGHeV8OcXu8kFk68f-7Ww??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦