估值超200億的AI醫(yī)生OpenEvidence已上崗:40%美國醫(yī)生在使用的通過USMLE的臨床級大模型 精華
摘要&前言:
近日,AI醫(yī)療公司OpenEvidence獲得了2.1億美元的B輪融資,估值飆升至35億美元(約合人民幣251億元)。OpenEvidence成立于2022年,總部位于美國邁阿密,致力于為醫(yī)生提供臨床級診斷工具。公司由Daniel Nadler創(chuàng)辦,他是一名哈佛大學經(jīng)濟學博士,也是一位非常成功的連續(xù)創(chuàng)業(yè)者。曾經(jīng)創(chuàng)立了知名AI金融公司Kensho并被標普以5.5億美元收購。
本文深入解讀通過USMLE(美國醫(yī)師執(zhí)照考試)的臨床級大模型OpenEvidence如何為醫(yī)療領域帶來革命性變革。文章詳細拆解其架構創(chuàng)新、數(shù)據(jù)飛輪、模型精調(diào)與安全可信機制,并展望這一技術范式向法律、金融、網(wǎng)絡安全等高風險領域復制的可能性。閱讀后,你將理解“以證據(jù)為本”的智能是醫(yī)療等高風險行業(yè)AI落地的未來。
1. 場景設定:凌晨2點的急診室
一位患有心房顫動且合并復雜基礎病的患者被送至急診。主治醫(yī)生面對兩種抗凝藥物的選擇,標準指南雖明確,但最新發(fā)表(僅一個月前)的研究論文提示:對于該患者特定遺傳標記,應采用另一種方案。這篇論文是當日全球新發(fā)4000篇生物醫(yī)學文獻之一,要在有限時間內(nèi)準確找到、閱讀并解釋其臨床意義,幾乎不可能。
這正是2025年各類高風險專業(yè)的普遍危機:數(shù)據(jù)淹沒,洞察匱乏。通用型大語言模型(LLM)或許能為我們提供某種“救命稻草”,但也暗藏風險。
在當前跨高風險領域的 LLM 部署浪潮中,OpenEvidence 脫穎而出,成為第一個為現(xiàn)實世界的醫(yī)療保健工作流程構建的可靠臨床推理系統(tǒng)。與依賴隨機流暢性的通用模型不同,OpenEvidence 的結構是為認識可追溯性而構建的:每個答案都基于檢索到的、經(jīng)過同行評審的證據(jù),通過研究設計進行過濾,并通過領域微調(diào)推理引擎進行綜合。
2. OpenEvidence:醫(yī)療領域的首個可信推理系統(tǒng)
OpenEvidence以臨床現(xiàn)實工作流為導向,強調(diào)“知識溯源”,區(qū)別于依賴“流暢言辭”的通用模型。每一個答案都基于可檢索的、同行評議的證據(jù),按研究設計過濾,并通過行業(yè)化優(yōu)化的推理引擎綜合得出。
在模擬USMLE Step 2臨床病例、多項選擇題測試中,OpenEvidence準確率超90%。雖然并非真實考場,但這些受控評測模擬了醫(yī)生在不確定環(huán)境下的決策力——成績甚至和持證醫(yī)生相當。
更核心的競爭力,其實是信息篩選和證據(jù)提取的極致效率。
3.架構創(chuàng)新:專科大模型的崛起
3.1 通用型與??菩椭?/h3>
GPT-4、LLaMA等模型是“語言全才”,但難以勝任專業(yè)推理。例如問及具體藥物交互,通用LLM可能會“幻覺”出不存在的論文,甚至誤解重要藥理機制,給出“自信而致命”的建議。
終極分岔:用提示微調(diào)通才,還是重鑄其“神經(jīng)網(wǎng)絡”成專業(yè)選手?OpenEvidence選擇了后者。
3.2 為什么“RAG檢索增強”遠遠不夠
RAG(Retrieval-Augmented Generation)——即為LLM接入動態(tài)學術數(shù)據(jù)庫,讓它在回答問題時可檢索海量文獻。但要是“學生”根本看不懂專業(yè)論文,檢索再準也無用。例如:“A藥患者能否安全服用B藥嗎?”
檢索:RAG 系統(tǒng)正確檢索了兩份文件:藥物 B 的臨床試驗顯示出低副作用,以及一篇指出藥物 A 是 CYP3A4 酶的有效抑制劑的藥理學論文。
生成(失?。悍轮扑幏▽W碩士看到藥物B試驗呈陽性,不了解神秘的藥理學,自信地回應道:“是的,根據(jù)臨床試驗數(shù)據(jù),藥物B總體耐受性良好。
檢索正確論文后,通用LLM卻忽視了A藥嚴重抑制B藥代謝的風險,導致毒性過量,給出錯誤判斷。這種情況下,RAG帶來了信息,但通用模型缺乏專業(yè)理解。
3.3 精調(diào)與“人類數(shù)據(jù)飛輪”
對LLM的精調(diào)不是“死記硬背”,而是通過領域數(shù)據(jù)微調(diào)其概率分布,讓推理方式趨近行業(yè)專家。
大規(guī)模高質(zhì)量“專家數(shù)據(jù)”難以依靠人工。OpenEvidence首創(chuàng)“人-機循環(huán)”數(shù)據(jù)飛輪:用強大的通用LLM先生成大批Q&A,由專家快速驗證/修正,再反哺模型精調(diào)。新一輪模型又更擅長生成高質(zhì)量數(shù)據(jù),形成正向飛輪。
3.4 LoRA輕量精調(diào),“多腦可插拔”
傳統(tǒng)全參精調(diào)像“錘子砸腦子”,易遺忘通識能力且算力成本驚人。OpenEvidence采用LoRA(低秩適配)——只對模型部分參數(shù)注入可訓練小矩陣,實現(xiàn)高效、可控、微損耗的領域微調(diào)。不止成本低,還可快速切換“多科專家大腦”。
技術公式:W = W? + BA(W?為原模型權重,B與A為小型自適應矩陣,通常僅需訓練總參數(shù)的0.1%)
4. 第二代架構:多智能體協(xié)作
OpenEvidence已超越RAG+精調(diào),全面引入多智能體(Multi-Agent)協(xié)作,每個子智能體各司其職:
- 調(diào)度員代理(Dispatcher):解析用戶意圖,分流到不同工作鏈條。接收初始查詢并確定用戶的意圖。這是關于治療效果、副作用或作用機制的問題嗎?它將任務路由到相應的工作流。
- 檢索代理(Retrieval):多庫檢索(如PubMed、ClinicalTrials、院內(nèi)知識庫),理解各自檢索語法
- 摘要代理(Summarization):將檢索到的復雜文獻抽取為結構化摘要(如受試者規(guī)模、p值、主要結論等)?
- 綜合代理(Synthesis):這是核心的、經(jīng)過 LoRA 調(diào)整的“專家推理器”。它看不到完整、凌亂的文檔。它只看到 Summarizer 中干凈、結構化的摘要,使其能夠在多項研究中比較蘋果,并綜合出連貫的、基于證據(jù)的答案。只接收結構化摘要,比較多篇證據(jù),輸出嚴謹推理結論
- 安全代理(Safety):全流程末端校驗,不允許未被證實的信息或暗示
這種“模塊化??茍F隊+專家大腦”方式,比單一大模型更穩(wěn)健、可解釋、易擴展。
5. 信任架構:合規(guī)AI與Red Team攻防
- Constitutional AI(合規(guī)人工智能)先制定“憲法”原則(如不直接給診斷建議僅提供引文證據(jù);必聲明證據(jù)局限性例如,樣本量小、非隨機試驗;碰到證據(jù)矛盾不站隊),再讓一個AI寫答案,另一個AI嚴格依照合規(guī)要求批評指正,強化安全與透明。?
- 專業(yè)Red Team攻擊測試組建專家“黑客團隊”,專門設計容易誘使AI出錯的測試題,持續(xù)迭代安全邊界。這也是高風險領域最有效的安全機制。?
- 源數(shù)據(jù)溯源每條輸出均嚴密追溯到有時戳的學術來源,杜絕“幻覺”造假,真正實現(xiàn)“以證據(jù)為依據(jù)”。?
6. 藍圖復制:法律、金融、網(wǎng)絡安全下一個風口
- 法律行業(yè)專有代理監(jiān)控最新判例、識別活案沖突,憲法規(guī)定嚴禁主動給出法律建議,僅可說明“某判例為約束性先例”等。?
- 網(wǎng)絡安全模型專精CVEs和事故日志,主動預警新威脅,如:“檢測到與Cobalt Strike相關的新C2服務器IP,已于過去24小時映射你的服務器流量?!?
- 金融領域對SEC公告、財報電話會轉錄精調(diào),主動推送如“企業(yè)最新8-K披露新債務條款,可能影響并購擴張”的動態(tài),堅守“不做投資建議”紅線。?
7. 總結:從醫(yī)學檢索問答工具到真正數(shù)字智能分身
OpenEvidence代表了企業(yè)級大模型飛躍的四個階段:
- Phase 1(全才模型):智能玩具
- Phase 2(RAG):信息搜索引擎
- Phase 3(RAG+精調(diào)):擁有專業(yè)推理力的助手
- Phase 4(多智能體&憲法AI):安全、可信、協(xié)作式專家系統(tǒng)



真正的終局,是從被動響應轉向主動預警的數(shù)字孿生體。系統(tǒng)自動追蹤海量上下文,針對你的患者、案件、網(wǎng)絡環(huán)境,主動推送關鍵信號,實現(xiàn)“危中見機”。
OpenEvidence證明了面向“高證據(jù)可追溯性”的智能已可落地——而這只會加速蔓延至每一個高風險專業(yè)。
編譯自:
作者:Karla Ortiz-Flores科技從業(yè)者,兼具講故事的靈性,關注人性連接與行業(yè)進化。
本文轉載自??知識圖譜科技??,作者:KGGPT

















