夸克公開國內(nèi)首個覆蓋全階段醫(yī)師考試的健康大模型測試集
9月16日消息,夸克將其訓(xùn)練健康大模型的醫(yī)師考試測試集悉數(shù)公開,這是國內(nèi)首個覆蓋全階段醫(yī)師考試的大模型測試集。
據(jù)了解,前不久夸克健康大模型成功通過中國 12 門核心學(xué)科的主任醫(yī)師筆試評測,并發(fā)布技術(shù)報告《QuarkMed Technical Report》,公開了“主任醫(yī)師級”能力技術(shù)實(shí)現(xiàn)細(xì)節(jié)。通過公開模型研發(fā)技術(shù)與醫(yī)師考試測試集,夸克旨在推動AI與醫(yī)療相融合的進(jìn)一步發(fā)展。

此前國內(nèi)一直缺少一款時效性高、覆蓋面全的醫(yī)師考試測試集。夸克本次公開的醫(yī)師考試測試集覆蓋執(zhí)業(yè)醫(yī)師、主治醫(yī)師、副主任醫(yī)師、主任醫(yī)師全階段考試,精選普通內(nèi)科學(xué)、普通外科學(xué)、婦產(chǎn)科學(xué)、兒科學(xué)等12門核心學(xué)科,共計約7600道題,真題部分均取自2024年最新考試。
該測試集將不同測試等級有效梯度化。初級考試以單選題、記憶類題目為主,隨著考試級別升高,多選題、案例分析題比例隨之升高,對模型的推理能力也要求越高。梯度化的測試集能為模型測試提供更明確的標(biāo)準(zhǔn),并能有效發(fā)現(xiàn)模型短板、推動模型優(yōu)化升級。
壹生檢康 CEO 王強(qiáng)宇表示,該測試集讓創(chuàng)業(yè)團(tuán)隊(duì)少走很多彎路,豆蔻婦科大模型訓(xùn)練過程中遇到的關(guān)鍵難題是如何評判模型性能,“MedBench這些通用醫(yī)療基準(zhǔn)在婦科場景下適配性很差,無法準(zhǔn)確衡量模型真實(shí)水平。有了夸克這套專業(yè)測試集,我們不用在基礎(chǔ)素材上耗費(fèi)精力,能把更多資源投入到模型算法優(yōu)化、婦科場景深度適配這些核心工作上?!?/span>





























