偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

10 大醫(yī)學(xué)數(shù)據(jù)集匯總:覆蓋問答/推理/真實(shí)臨床記錄/超聲圖像/CT 影像…… 原創(chuàng)

發(fā)布于 2025-5-16 13:31
瀏覽
0收藏

隨著人工智能技術(shù)在醫(yī)療領(lǐng)域的深度融合與醫(yī)學(xué)影像技術(shù)的持續(xù)革新,作為解鎖生命奧秘的關(guān)鍵鑰匙,醫(yī)學(xué)數(shù)據(jù)正以爆發(fā)式的速度累積增長。它突破了傳統(tǒng)醫(yī)學(xué)研究的邊界,為疾病診療與健康管理帶來了革命性的變革。

在醫(yī)學(xué)研究從經(jīng)驗(yàn)驅(qū)動(dòng)邁向數(shù)據(jù)驅(qū)動(dòng)的進(jìn)程中,基礎(chǔ)研究工具的迭代速度逐漸放緩,醫(yī)學(xué)數(shù)據(jù)集質(zhì)量成為決定模型能否從理論構(gòu)想走向臨床實(shí)用的核心要素。 高質(zhì)量的醫(yī)學(xué)數(shù)據(jù)不僅能精準(zhǔn)捕捉疾病特征,更能為個(gè)性化醫(yī)療方案的制定提供可靠支撐。

醫(yī)學(xué)數(shù)據(jù)集的構(gòu)建,絕非簡單的病例羅列。相較于普通數(shù)據(jù)采集,醫(yī)學(xué)數(shù)據(jù)的獲取需要嚴(yán)格遵循倫理規(guī)范,確?;颊唠[私安全與數(shù)據(jù)使用合規(guī)。 為保障數(shù)據(jù)的科學(xué)性與有效性,需對(duì)數(shù)據(jù)采集流程進(jìn)行標(biāo)準(zhǔn)化設(shè)計(jì),合理分配訓(xùn)練集、驗(yàn)證集與測試集,并建立動(dòng)態(tài)更新機(jī)制,定期補(bǔ)充新數(shù)據(jù),以適應(yīng)疾病譜變化與診療技術(shù)發(fā)展。面對(duì)疾病診斷、藥物研發(fā)、健康預(yù)測等復(fù)雜醫(yī)學(xué)任務(wù),構(gòu)建數(shù)據(jù)集時(shí)更要深度剖析各領(lǐng)域需求,整合多模態(tài)信息,模擬真實(shí)臨床場景,為模型訓(xùn)練提供貼合實(shí)際的學(xué)習(xí)樣本。

總而言之,在精準(zhǔn)醫(yī)療時(shí)代,整個(gè)醫(yī)學(xué)界對(duì)高質(zhì)量醫(yī)學(xué)數(shù)據(jù)集的需求呈現(xiàn)井噴式增長。對(duì)此,HyperAI 超神經(jīng)為大家整理了一系列極具價(jià)值且應(yīng)用廣泛的醫(yī)學(xué)數(shù)據(jù)集,涵蓋癌癥、心臟、骨 X 光等多個(gè)醫(yī)學(xué)專業(yè)領(lǐng)域, 部分來自頂尖醫(yī)學(xué)院校與權(quán)威醫(yī)療機(jī)構(gòu)。

點(diǎn)擊查看更多開源數(shù)據(jù)集:

https://go.hyper.ai/g9PvL

醫(yī)學(xué)數(shù)據(jù)集匯總

1 JMED 中文真實(shí)醫(yī)療數(shù)據(jù)數(shù)據(jù)集

下載地址: https://go.hyper.ai/4jJTa

JMED 數(shù)據(jù)集是一個(gè)基于真實(shí)世界醫(yī)療數(shù)據(jù)分布的新型數(shù)據(jù)集,由 Citrus Team 于 2025 年構(gòu)建,該數(shù)據(jù)集源自京東健康互聯(lián)網(wǎng)醫(yī)院的匿名醫(yī)患對(duì)話,經(jīng)過過濾以保留遵循標(biāo)準(zhǔn)化診斷工作流程的咨詢。初始版本包含 1k 份高質(zhì)量臨床記錄,涵蓋所有年齡段(0-90 歲)和多個(gè)專業(yè)。每個(gè)問題包括 21 個(gè)回答選項(xiàng)。

與現(xiàn)有數(shù)據(jù)集不同,JMED 密切模擬真實(shí)的臨床數(shù)據(jù),同時(shí)促進(jìn)有效的模型訓(xùn)練。雖然基于真實(shí)的會(huì)診數(shù)據(jù),但它并不是直接來自實(shí)際的醫(yī)療數(shù)據(jù),因此研究團(tuán)隊(duì)可以整合模型訓(xùn)練所需的關(guān)鍵要素。

2 MedQA 醫(yī)學(xué)文本問答數(shù)據(jù)集

預(yù)估大小: 125.64 MB

下載地址: https://go.hyper.ai/VfIWx

MedQA 數(shù)據(jù)集是一個(gè)面向醫(yī)學(xué)領(lǐng)域的問答數(shù)據(jù)集,模擬了美國醫(yī)療執(zhí)照考試(USMLE)的風(fēng)格,由麻省理工大學(xué)和華中科技大學(xué)的研究團(tuán)隊(duì)于 2020 年發(fā)布,相關(guān)論文成果為「What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams」。

該數(shù)據(jù)集分別包含 12,723 、 34,251 和 14,123 個(gè)問題,旨在評(píng)估模型對(duì)醫(yī)學(xué)知識(shí)的理解和應(yīng)用能力。分為訓(xùn)練集、開發(fā)集和測試集,分別用于模型訓(xùn)練、驗(yàn)證和測試。

3 Medical O1 Reasoning SFT

醫(yī)學(xué)推理數(shù)據(jù)集

預(yù)估大?。?/strong> 21.71 MB

下載地址: https://go.hyper.ai/iVUWA

Medical o1 Reasoning SFT 數(shù)據(jù)集為香港中文大學(xué)和深圳市大數(shù)據(jù)研究院于 2024 年發(fā)布,相關(guān)論文成果為「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」。

該數(shù)據(jù)集專為微調(diào) HuatuoGPT-o1 這一醫(yī)學(xué)大語言模型而設(shè)計(jì),旨在提升其在復(fù)雜醫(yī)學(xué)推理任務(wù)中的表現(xiàn)。數(shù)據(jù)集的構(gòu)建依賴于 GPT-4o,通過搜索可驗(yàn)證的醫(yī)學(xué)問題并利用醫(yī)學(xué)驗(yàn)證器進(jìn)行答案驗(yàn)證,確保了數(shù)據(jù)的準(zhǔn)確性和可靠性。

4 ROCOv2 Radiology

多模態(tài)醫(yī)學(xué)圖像數(shù)據(jù)集

預(yù)估大?。?/strong> 17.29 GB

下載地址: https://go.hyper.ai/xs4zS

ROCOv2(Radiology Object in COntext Version 2)是一個(gè)創(chuàng)新的多模態(tài)醫(yī)學(xué)圖像數(shù)據(jù)集,它融合了放射學(xué)圖像與相關(guān)的醫(yī)學(xué)概念和描述。該數(shù)據(jù)集從 PMC Open Access 子集提取放射圖像和相關(guān)醫(yī)學(xué)概念及說明,在 ROCO 數(shù)據(jù)集基礎(chǔ)上改進(jìn)了概念提取和過濾。

數(shù)據(jù)集包含 79,789 張放射學(xué)圖像,涵蓋多種臨床模式、解剖區(qū)域和方向性(針對(duì) X 射線),每張圖像都有相應(yīng)的醫(yī)學(xué)概念說明??捎糜谟?xùn)練圖像注釋模型、多標(biāo)簽圖像分類、醫(yī)學(xué)領(lǐng)域模型預(yù)訓(xùn)練、深度學(xué)習(xí)模型評(píng)估、圖像檢索和標(biāo)題生成等。

5 MedCalc-Bench 醫(yī)療計(jì)算數(shù)據(jù)集

預(yù)估大?。?/strong> 16.04 MB

下載地址: https://go.hyper.ai/pDbcu

MedCalc-Bench 是一個(gè)專門用于評(píng)估大語言模型 (LLMs) 在醫(yī)療計(jì)算能力方面的數(shù)據(jù)集,由美國國立衛(wèi)生研究院國家醫(yī)學(xué)圖書館 (National Library of Medicine, National Institutes of Health) 和弗吉尼亞大學(xué) (University of Virginia) 等 9 個(gè)機(jī)構(gòu)于 2024 年共同發(fā)布,相關(guān)論文成果為「MEDCALC-BENCH: Evaluating Large Language Models for Medical Calculations」,已被 NeurIPS 2024 接受。

該數(shù)據(jù)集包含了 10,055 個(gè)訓(xùn)練實(shí)例和 1,047 個(gè)測試實(shí)例,涵蓋了 55 種不同的計(jì)算任務(wù)。每個(gè)實(shí)例都包括患者的筆記、一個(gè)計(jì)算特定臨床值的問題、最終答案值以及逐步解決方案。分為訓(xùn)練集和測試集,可以用于微調(diào) LLMs,以提高它們?cè)卺t(yī)療計(jì)算任務(wù)中的表現(xiàn)。

6 AI Medical Chatbot 醫(yī)學(xué)對(duì)話數(shù)據(jù)集

預(yù)估大?。?/strong> 118.35 MB

下載地址: https://go.hyper.ai/W5OnS

這是一個(gè)為運(yùn)行醫(yī)學(xué)聊天機(jī)器人而設(shè)計(jì)的實(shí)驗(yàn)數(shù)據(jù)集,它包含 256,916 條患者與醫(yī)生之間的對(duì)話。

7 TCGA-ESCA 癌癥 CT 影像

預(yù)估大?。?/strong> 3.79 GB

下載地址: https://go.hyper.ai/eJWQt

TCGA – ESCA 癌癥 CT 影像是食道癌相關(guān)的數(shù)據(jù)集,由 GDC Data Portal 發(fā)布。包含來自 185 人共 5271 個(gè)數(shù)據(jù)文件,該數(shù)據(jù)集旨在對(duì)癌癥診治過程進(jìn)行全程數(shù)字化跟蹤,并以數(shù)字檔案的形式記錄檢查結(jié)果、處方和療效。

8 TCGA-KICH 癌癥 CT 影像

預(yù)估大?。?/strong> 1.62 GB

下載地址: https://go.hyper.ai/iVUWA

TCGA – KICH 癌癥 CT 影像是腺瘤和腺癌相關(guān)的數(shù)據(jù)集,由 GDC Data Portal 發(fā)布。包含來自 113 人共 2,325 個(gè)數(shù)據(jù)文件,該數(shù)據(jù)集旨在對(duì)癌癥診治過程進(jìn)行全程數(shù)字化跟蹤,并以數(shù)字檔案的形式記錄檢查結(jié)果、處方和療效。

9 癌癥 CT 圖像數(shù)據(jù)

預(yù)估大小: 367.88 MB

下載地址: https://go.hyper.ai/tsMh5

CT Medical Image Analysis Tutorial: CT images from cancer imaging archive with contrast and patient age Dataset 是一個(gè)癌癥 CT 圖像數(shù)據(jù)集,由 Kaggle 于 2016 年發(fā)布,相關(guān)論文有「Radiology Data from The Cancer Genome Atlas Lung Adenocarcinoma [TCGA-LUAD] collection」。

其包含 69 位患者的 475 個(gè)病例 CT 影響,用于檢查與對(duì)比患者年齡和 CT 圖像數(shù)據(jù)之間的聯(lián)系,它是 TCGA-LUAD 肺癌 CT 影響數(shù)據(jù)庫的一部分。

10 MURA 骨 X 光數(shù)據(jù)集

預(yù)估大?。?/strong> 6.74 GB

下載地址: https://go.hyper.ai/DlGYH

MURA Dataset 是一個(gè)大型骨骼 X 光片數(shù)據(jù)集,旨在通過 X 光片確定骨骼是否正常,該數(shù)據(jù)集由斯坦福大學(xué)于 2017 年發(fā)布,相關(guān)論文有「MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs」。

發(fā)布者希望該數(shù)據(jù)集可以在醫(yī)學(xué)成像技術(shù)上取得重大進(jìn)展,這些技術(shù)可以在專家層面進(jìn)行診斷,以改善放射科醫(yī)生人數(shù)有限地區(qū)的醫(yī)療服務(wù)。

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦