MedGemma開源發(fā)布:谷歌推出支持多醫(yī)學(xué)任務(wù)的AI模型套件
谷歌和DeepMind聯(lián)合發(fā)布了一個(gè)全新的開源人工智能模型套件:MedGemma。
這一套件面向醫(yī)療領(lǐng)域打造,不僅支持文本、圖像和多模態(tài)輸入,還能廣泛適配放射學(xué)、皮膚病學(xué)、組織病理學(xué)和眼科學(xué)等多個(gè)分支。
它在今年的I/O開發(fā)者大會(huì)上首次亮相,MedGemma包含兩個(gè)版本:一個(gè)是體量為40億參數(shù)的4B模型,支持圖文混合處理;另一個(gè)是更強(qiáng)大的270億參數(shù)的27B模型,提供文本和多模態(tài)兩種版本。
圖片
地址:https://huggingface.co/google/medgemma-27b-it
谷歌明確表示,MedGemma可以獨(dú)立運(yùn)行,也可以嵌入基于智能體的系統(tǒng)中,作為醫(yī)療AI工具的基礎(chǔ)模塊。
開源,使得這套系統(tǒng)可以被全球研究人員和開發(fā)者自由使用,但不能直接用于診斷和治療,需通過相關(guān)監(jiān)管審批。
圖片
MedGemma在多個(gè)標(biāo)準(zhǔn)模型基準(zhǔn)測(cè)試中表現(xiàn)出色,全面超越同級(jí)別的基礎(chǔ)模型。
在多模態(tài)問答任務(wù)中,準(zhǔn)確率提升達(dá)10%;在X光圖像分類上,提升幅度達(dá)到15.5%至18.1%;在復(fù)雜的智能體任務(wù)中,表現(xiàn)提高10.8%。
在醫(yī)療考試數(shù)據(jù)集MedQA中,4B模型準(zhǔn)確率從原來的50.7%躍升至64.4%;而27B模型則從74.9%提升至87.7%。
圖片
圖注:MedGemma 27B 多模態(tài)模型在醫(yī)學(xué)圖像分類和視覺問答任務(wù)中表現(xiàn)最佳,顯著優(yōu)于其他模型。
在PubMedQA、MedMCQA、MMLU等多個(gè)醫(yī)療子領(lǐng)域的基準(zhǔn)測(cè)試中,MedGemma持續(xù)領(lǐng)先于其基礎(chǔ)模型。
圖片
在X光圖像與報(bào)告的數(shù)據(jù)集MIMIC-CXR中,4B模型的宏觀F1得分達(dá)88.9,相比之下,其基礎(chǔ)模型Gemma 3僅為81.2。
F1得分是衡量模型在多種疾病識(shí)別中的整體準(zhǔn)確率,它的提升意味著模型對(duì)復(fù)雜臨床圖像的理解能力增強(qiáng)。
在自動(dòng)生成X光報(bào)告方面,模型的RadGraph F1從29.5提升到30.3,表明臨床關(guān)鍵信息捕捉能力增強(qiáng)。
對(duì)于氣胸檢測(cè)任務(wù)(即肺部塌陷),準(zhǔn)確率從59.7%提升至71.5%,顯示出實(shí)質(zhì)性的突破。
組織病理圖像分析方面,模型的加權(quán)F1得分從32.8躍升至94.5,幾乎達(dá)到三倍提升。
在電子健康記錄的讀取任務(wù)中,引入強(qiáng)化學(xué)習(xí)后錯(cuò)誤率下降一半,預(yù)示著在臨床數(shù)據(jù)管理中有巨大潛力。
谷歌同步推出了一項(xiàng)重要組件:MedSigLIP
圖注:https://arxiv.org/pdf/2303.15343
這是一個(gè)專為醫(yī)學(xué)圖像設(shè)計(jì)的編碼器,擁有4億參數(shù),是原始SigLIP(Sigmoid Loss for Language Image Pre-training)的醫(yī)療擴(kuò)展版。
MedSigLIP專注于醫(yī)學(xué)圖像的理解,配合MedGemma處理文本,構(gòu)成完整的多模態(tài)AI架構(gòu)。
圖像處理分辨率設(shè)定為448×448像素,比MedGemma高分辨率版本的896×896更高效。
為了構(gòu)建通用能力與醫(yī)學(xué)能力兼具的模型,谷歌以3360萬對(duì)圖文配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,其中包含63.5萬條醫(yī)學(xué)實(shí)例和3260萬個(gè)組織病理圖像塊。
醫(yī)學(xué)數(shù)據(jù)占比約為2%,在保留SigLIP通用圖像識(shí)別能力的基礎(chǔ)上,增強(qiáng)了醫(yī)學(xué)圖像理解能力。
這一平衡策略的關(guān)鍵意義在于:模型不僅能處理醫(yī)療圖像,也可用于通用圖像任務(wù),適配多場景需求。
目前,MedGemma已在Hugging Face上線,開發(fā)者可以依據(jù)其許可協(xié)議用于科研、開發(fā)與一般AI應(yīng)用,但在商業(yè)化和臨床場景中仍需遵循相關(guān)限制。
盡管在多個(gè)測(cè)試中表現(xiàn)驚艷,谷歌也承認(rèn):基準(zhǔn)測(cè)試成績并不能完全代表臨床真實(shí)表現(xiàn)?,F(xiàn)實(shí)中的使用情境更復(fù)雜,模型可能因用戶誤解或交互失誤而出現(xiàn)偏差,限制了實(shí)際療效。
地址:https://huggingface.co/google/medgemma-27b-it

































