偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

醫(yī)療復雜推理開源大模型——華佗GPT-o1

人工智能 新聞
為了輔助醫(yī)生實現(xiàn)更高效的推理,香港中文大學(深圳)和深圳市大數(shù)據(jù)研究院聯(lián)合開源了專用于醫(yī)療領(lǐng)域的復雜大模型——華佗GPT-o1。

在醫(yī)學領(lǐng)域涉及大量復雜的推理過程,從癥狀分析到疾病診斷,每一步都需要綜合考慮眾多因素。例如,在診斷一種罕見疾病時,醫(yī)生不僅要熟悉各種疾病的癥狀表現(xiàn),還要了解患者的病史、家族遺傳史、生活環(huán)境等多方面信息,通過層層推理才能做出準確的判斷。

為了輔助醫(yī)生實現(xiàn)更高效的推理,香港中文大學(深圳)和深圳市大數(shù)據(jù)研究院聯(lián)合開源了專用于醫(yī)療領(lǐng)域的復雜大模型——華佗GPT-o1。

圖片

開源地址:https://huggingface.co/FreedomIntelligence/HuatuoGPT-o1-7B

Github:https://github.com/FreedomIntelligence/HuatuoGPT-o1

高質(zhì)量醫(yī)學數(shù)據(jù)集

開發(fā)高質(zhì)量可驗證醫(yī)學數(shù)據(jù)集是華佗GPT-o1實現(xiàn)高質(zhì)量推理的重要基石,研究人員從MedQA-USMLE和MedMCQA訓練集中精心收集了192K醫(yī)學多項選擇題。

涵蓋了內(nèi)科學、外科學、婦產(chǎn)科學、兒科學、神經(jīng)病學等眾多醫(yī)學學科的知識點,能全面地反映了醫(yī)學領(lǐng)域的知識體系。

但原始數(shù)據(jù)存在諸多問題,需要進行嚴格篩選。首先,許多題目過于簡單,無法有效訓練模型的復雜推理能力。例如,一些題目僅考查單一知識點,且答案一目了然,對于模型來說缺乏挑戰(zhàn)性。其次,部分題目答案不唯一或存在歧義,這會給模型的學習和驗證帶來困擾。此外,一些題目不適合轉(zhuǎn)化為開放式問題,不利于模型進行深入推理。

為了篩選出合適的題目,研究人員采用了多輪篩選方法。第一輪,利用小型語言模型對題目進行初步篩選,去除那些所有小型模型都能輕易回答正確的簡單題目。第二輪,由人工對剩余題目進行審核,排除答案不明確或存在歧義的題目。

最后,借助GPT-4o模型對篩選后的題目進行進一步優(yōu)化和驗證,確保每個題目都具有明確的、唯一的正確答案,并且能夠轉(zhuǎn)化為開放式問題。經(jīng)過層層篩選,最終得到了一個包含40K可驗證醫(yī)學問題的數(shù)據(jù)集。

兩階段訓練模式

在第一階段,華佗GPT-o1首先會對給定的可驗證醫(yī)學問題進行初步分析,生成一個初始的思維鏈(CoT)和答案。例如,對于一個關(guān)于患者癥狀分析的問題,模型可能會根據(jù)癥狀的表現(xiàn)、出現(xiàn)的時間順序、伴隨癥狀等因素,初步推測可能的疾病范圍,并給出一個初步診斷。

然后,醫(yī)學驗證器會對這個初始答案進行嚴格驗證。如果答案不正確,模型將啟動迭代優(yōu)化過程。它會從預先設(shè)定的四種搜索策略(探索新路徑、回溯、驗證、修正)中隨機選擇一種,對之前的推理過程進行改進。

圖片

假設(shè)模型在診斷過程中忽略了某個重要癥狀,導致初步診斷錯誤。如果選擇探索新路徑策略,模型會嘗試從新的角度分析癥狀,考慮其他可能的疾病因素;如果選擇回溯策略,模型會回到之前的推理步驟,重新審視癥狀與疾病之間的關(guān)聯(lián);

如果選擇驗證策略,模型會對當前的推理過程進行再次評估,檢查是否存在邏輯漏洞;如果選擇修正策略,模型會根據(jù)驗證器的反饋,糾正之前推理中的錯誤,調(diào)整診斷方向。

模型會不斷重復這個過程,直到找到正確的答案。每次迭代都會生成新的CoT和答案,驗證器會繼續(xù)對新答案進行驗證,直到答案被確認為正確為止。通過這種方式,模型能夠在不斷的嘗試和改進中,學習到正確的醫(yī)學推理方法,提高推理的準確性和可靠性。

圖片

當模型成功找到正確的推理軌跡后,這個軌跡將被重新格式化為一種更加自然、連貫的復雜CoT形式。例如,原始的推理過程可能是一系列分散的步驟和結(jié)論,經(jīng)過格式化后,會變成一個邏輯清晰、語言流暢的推理敘述,使用自然的過渡詞(如“嗯”“而且”“等等”)將各個步驟有機地連接起來,使整個推理過程更加符合人類的思維方式。

在格式化過程中,模型會突出關(guān)鍵的推理步驟和依據(jù),使復雜CoT能夠清晰地展示模型的思考過程。然后,模型會根據(jù)這個復雜CoT生成一個正式的回答,這個回答不僅包含最終的結(jié)論,還會對推理過程進行簡要總結(jié),以便更好地與用戶進行溝通和解釋

通過構(gòu)建SFT訓練數(shù)據(jù),模型能夠?qū)W習到如何在回答問題之前進行深入的思考和推理,將復雜的醫(yī)學知識和推理過程整合起來,形成一個完整的解決方案。這種訓練方式有助于提高模型在實際應(yīng)用中的表現(xiàn),使其能夠更好地應(yīng)對各種復雜的醫(yī)學問題。

實驗數(shù)據(jù)

為了評估華佗GPT-o1的性能,在MedQA、MMLU-Pro、MedMCQA、PubMedQA等醫(yī)學基準中進行了綜合測試。結(jié)果顯示,華佗GPT-o1-70B版本超越了其他所有開源模型,在多個數(shù)據(jù)集上取得了領(lǐng)先成績。

圖片

例如,在MMLU-Pro的健康和生物學賽道上,其準確率分別達到了73.6%和71.0%,在GPQA的遺傳學和分子生物學賽道上,準確率也分別達到了66.5%和56.2%。

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2025-08-07 14:05:40

OpenAI大模型開源

2024-10-17 14:05:34

2024-09-24 11:01:03

2024-09-29 13:07:16

2025-06-06 14:17:11

模型訓練AI

2022-06-01 16:47:53

AI模型開源

2024-12-26 07:10:00

2025-04-30 16:48:07

2023-05-05 13:29:04

模型推理

2024-09-06 13:00:29

2025-04-11 09:10:00

模型開源AI

2024-09-13 06:32:25

2025-02-03 14:17:27

2024-09-13 12:34:54

2025-01-21 10:10:56

2024-08-14 12:54:46

2025-02-08 17:00:11

2025-06-27 03:00:00

2024-11-21 14:00:00

模型AI

2025-07-14 09:00:00

點贊
收藏

51CTO技術(shù)棧公眾號