7B模型對標(biāo)GPT-4o,全球首個醫(yī)療代碼生成大模型訓(xùn)練平臺來了
醫(yī)療AI場景復(fù)雜,需要“又懂醫(yī)療又懂編程”的agent。
但像GPT這樣現(xiàn)成的大模型難以直接部署,該如何突破技術(shù)壁壘?
答案是:打造一個統(tǒng)一的訓(xùn)練平臺,專門訓(xùn)練能夠生成醫(yī)療代碼的大模型。
最近,來自埃默里大學(xué)、佐治亞理工學(xué)院、耶魯大學(xué)和德克薩斯大學(xué)西南醫(yī)學(xué)中心的研究團(tuán)隊,發(fā)布了全球首個專注于醫(yī)療代碼生成的大模型訓(xùn)練平臺——MedAgentGym。

該平臺不僅提供了全面的評估基準(zhǔn),更重要的是建立了完整的訓(xùn)練生態(tài)系統(tǒng),能夠系統(tǒng)性提升大模型在醫(yī)療領(lǐng)域的代碼生成和推理能力。
實驗結(jié)果表明,經(jīng)過MedAgentGym訓(xùn)練的開源模型Med-Copilot-7B在多項醫(yī)療編程任務(wù)上達(dá)到了與GPT-4o相當(dāng)?shù)男阅芩健?/span>
醫(yī)療AI的”編程瓶頸”
當(dāng)前醫(yī)療AI應(yīng)用面臨著一個關(guān)鍵技術(shù)挑戰(zhàn):如何讓AI系統(tǒng)自動生成可靠的醫(yī)療相關(guān)代碼。
無論是處理電子健康記錄(EHR)查詢、生物信息學(xué)分析,還是構(gòu)建臨床決策支持系統(tǒng),都需要精確的編程能力作為支撐。
然而,現(xiàn)有解決方案存在明顯局限:
商業(yè)模型的現(xiàn)實困境
- 數(shù)據(jù)隱私風(fēng)險:醫(yī)療數(shù)據(jù)的敏感性使得直接調(diào)用商業(yè)API存在合規(guī)風(fēng)險- 成本壓力:大規(guī)模醫(yī)療應(yīng)用的API調(diào)用費用難以承受- 部署限制:無法在本地或私有云環(huán)境中靈活部署
開源模型的能力短板
- 專業(yè)知識不足:缺乏深度的醫(yī)學(xué)領(lǐng)域知識- 編程能力有限:在復(fù)雜的醫(yī)療編程任務(wù)上表現(xiàn)不佳- 訓(xùn)練資源缺乏:缺少專門的醫(yī)療代碼訓(xùn)練數(shù)據(jù)和環(huán)境
研究表明,引入編程能力可以顯著提升模型在計算醫(yī)療推理任務(wù)上的表現(xiàn)。在MIMIC-III、eICU和MedCalcBench等數(shù)據(jù)集中,基于代碼的計算推理成功率遠(yuǎn)高于傳統(tǒng)的自然語言推理方法。

在MIMIC-III、eICU和MedCalcBench三個數(shù)據(jù)集中,基于代碼的計算推理(橙色)成功率遠(yuǎn)高于傳統(tǒng)的敘述式推理(藍(lán)色)。
MedAgentGym:突破性的解決方案

與其他基準(zhǔn)相比,MedAgentGym提供了集成了可執(zhí)行環(huán)境、交互式反饋和任務(wù)隔離運行設(shè)施的編碼訓(xùn)練平臺。為了解決這一系列挑戰(zhàn),MedAgentGym提供了一個前所未有的綜合性解決方案。該平臺的核心創(chuàng)新體現(xiàn)在三個維度:
大規(guī)模真實醫(yī)療任務(wù)集合
MedAgentGym整合了來自12個真實生物醫(yī)學(xué)場景的72,413個編程任務(wù)實例,覆蓋129個不同類別。
任務(wù)范圍橫跨四大核心領(lǐng)域:- 結(jié)構(gòu)化醫(yī)療信息檢索:如EHR數(shù)據(jù)庫查詢、臨床記錄分析- 醫(yī)療數(shù)據(jù)科學(xué):包括統(tǒng)計分析、臨床計算等- 生物信息學(xué)建模:涵蓋序列分析、系統(tǒng)發(fā)育學(xué)等- 機器學(xué)習(xí)應(yīng)用:臨床預(yù)測、風(fēng)險評估等
數(shù)據(jù)模態(tài)極其豐富,包含臨床筆記、實驗室報告、EHR表格、生物序列等多種格式,全面考驗?zāi)P偷木C合處理能力。

高效可擴(kuò)展的訓(xùn)練基礎(chǔ)設(shè)施
MedAgentGym在技術(shù)架構(gòu)上實現(xiàn)了多項突破:
- 容器化隔離環(huán)境:每個任務(wù)都封裝在獨立的Docker容器中,預(yù)裝所有依賴項,確保環(huán)境安全性和可復(fù)現(xiàn)性- 交互式反饋機制:當(dāng)代碼執(zhí)行出錯時,系統(tǒng)能將錯誤信息轉(zhuǎn)化為結(jié)構(gòu)化的自然語言反饋,幫助模型進(jìn)行調(diào)試和優(yōu)化- 并行處理能力:集成Ray和Joblib等后端引擎,支持大規(guī)模并行軌跡采樣和訓(xùn)練

在擁有交互式調(diào)試能力時(藍(lán)色),gpt-4.1-mini模型的性能遠(yuǎn)高于移除該能力后(橙色)的表現(xiàn),證明了MedAgentGym交互式環(huán)境的巨大價值。
此外,錯誤類型分析揭示了當(dāng)前模型在復(fù)雜醫(yī)療代碼任務(wù)中面臨的主要挑戰(zhàn)。其中,“陷入循環(huán)”不能成功debug是最主要的錯誤類型,占比高達(dá)50.39%。
全面的模型評估體系
研究團(tuán)隊系統(tǒng)性評估了超過25個主流大模型,包括:
- API商業(yè)模型:GPT系列
- 開源通用模型:Qwen、LLaMA、Gemma等
- 專業(yè)編程模型:Qwen2.5-Coder等
- 醫(yī)療領(lǐng)域模型:HuatuoGPT、MedReason等
評估結(jié)果揭示了商業(yè)模型與開源模型之間的顯著性能差距,為后續(xù)優(yōu)化指明了方向。

MedAgentGym零樣本(Zero-shot)測試集結(jié)果詳細(xì)列出了超過25個前沿大模型在8個不同任務(wù)上的原始得分,是評估各模型在醫(yī)療代碼生成領(lǐng)域綜合實力的核心依據(jù)。
Med-Copilot:開源模型的逆襲之路
基于MedAgentGym平臺,研究團(tuán)隊開發(fā)了Med-Copilot系列模型,并取得了突破性成果。
訓(xùn)練策略: 采用兩階段精細(xì)化訓(xùn)練框架:
- 監(jiān)督微調(diào)(SFT):使用2,137個成功執(zhí)行的代碼軌跡進(jìn)行初始訓(xùn)練- 強化學(xué)習(xí)優(yōu)化(DPO):通過偏好優(yōu)化進(jìn)一步提升性能
性能突破:
Med-Copilot-7B通過SFT訓(xùn)練,性能提升36.44%結(jié)合DPO后,總體性能提升達(dá)到42.47%最終在MedAgentGym基準(zhǔn)上達(dá)到59.90分,接近GPT-4o的性能水平
關(guān)鍵技術(shù)創(chuàng)新:
研究團(tuán)隊還訓(xùn)練了一個AI驗證器(Verifier),能夠從多次代碼生成嘗試中自動識別最佳解決方案。實驗顯示:
- 在16次嘗試中,模型的潛在成功率可達(dá)45%
- AI驗證器能夠以42%的準(zhǔn)確率識別出正確答案
- 僅有3%的差距證明了驗證器的可靠性

僅使用SFT、僅使用DPO以及SFT與DPO結(jié)合的策略對7B和14B基礎(chǔ)模型性能的提升效果,驗證了SFT+DPO兩階段訓(xùn)練框架的有效性。
可持續(xù)進(jìn)化的藍(lán)圖:自我提升與性能擴(kuò)展
MedAgentGym不僅展示了一次性的成功,更揭示了一條可持續(xù)進(jìn)化的清晰路徑。其中的關(guān)鍵,在于一個強大的“AI裁判”(即驗證器,Verifier)。
性能具備高度可擴(kuò)展性
研究團(tuán)隊讓模型對同一個任務(wù)進(jìn)行多次嘗試(最多16次),并讓“AI裁判”從這些嘗試中選出最佳答案。結(jié)果令人驚喜:
- 潛力上限 (Pass@k):在16次嘗試中,模型只要有一次成功,就算解出。在這種理想情況下,成功率從單次嘗試的17%飆升至45%。這說明模型本身具備解決問題的潛力。- 實際表現(xiàn) (Best@k):更關(guān)鍵的是,在“AI裁判”的幫助下,從這16次嘗試中自動選出的最佳答案,其實際成功率高達(dá)42%!
僅有3%的微小差距證明,這個AI裁判的眼光極其“毒辣”,能夠非常可靠地識別出正確的解決方案。這一成果意義重大,因為它意味著這個驗證器已經(jīng)足夠強大,可以作為獎勵模型(Reward Model)賦能給PPO、GRPO等更先進(jìn)的在線強化學(xué)習(xí)框架,為訓(xùn)練出更強大的醫(yī)療AI鋪平了道路。
- 無論是增加訓(xùn)練數(shù)據(jù)量,還是在推理時增加嘗試次數(shù)(Rollouts),模型的最終成功率都表現(xiàn)出穩(wěn)定、顯著的提升。這為未來進(jìn)一步提升模型性能指明了方向:更多的計算投入和數(shù)據(jù)積累,將帶來更強大的醫(yī)療AI智能體。

推理時增加嘗試次數(shù)(k)能提升成功率(Pass@k);此外,顯示增加訓(xùn)練數(shù)據(jù)量也能穩(wěn)定提升模型表現(xiàn)。
- 模型可以自我提升:這種強大的驗證能力也解鎖了模型的自我提升:AI智能體可以通過“拒絕采樣+迭代DPO”的自我改進(jìn)循環(huán),利用自己生成的軌跡數(shù)據(jù)進(jìn)行持續(xù)學(xué)習(xí)和優(yōu)化,不斷突破性能上限 (3-5%)。

通過“拒絕采樣SFT”和兩輪DPO的自我改進(jìn)循環(huán),模型性能得以持續(xù)增長。
未來展望:加速醫(yī)療AI的普惠化進(jìn)程
MedAgentGym的發(fā)布,為醫(yī)學(xué)的AI和大語言模型智能體的研究者和開發(fā)者提供了一個強大工具。它通過提供一個統(tǒng)一、開放、可擴(kuò)展的平臺,填補了醫(yī)療代碼智能體開發(fā)領(lǐng)域的關(guān)鍵空白。
通過將真實世界的生物醫(yī)學(xué)任務(wù)、高效可復(fù)現(xiàn)的基礎(chǔ)設(shè)施以及對前沿模型的大規(guī)模基準(zhǔn)測試相結(jié)合,MedAgentGym為推動LLM在醫(yī)療領(lǐng)域的應(yīng)用奠定了一個堅實的基礎(chǔ)。
研究團(tuán)隊希望,MedAgentGym能夠激發(fā)更多創(chuàng)新,促進(jìn)高效、可靠、臨床接地的AI智能體的發(fā)展,最終為現(xiàn)實世界的醫(yī)療研究與實踐提供支持。
有理由相信,在MedAgentGym的助力下,一個能夠從成功中學(xué)習(xí)、從失敗中進(jìn)化的,更加智能和高效的未來醫(yī)療新時代,正加速到來。
論文鏈接:https://arxiv.org/abs/2506.04405
項目主頁:https://wshi83.github.io/MedAgentGym-Page/
代碼鏈接:https://github.com/wshi83/MedAgentGym
數(shù)據(jù)及模型:https://huggingface.co/MedAgentGym





































