文章目录医学数据集大全做医疗 AI 的人这个仓库该收藏1、 里面有什么2、 几个值得单独说的数据集3、 适合谁用4、 用之前要知道的事医学数据集大全做医疗 AI 的人这个仓库该收藏medical-data 在 GitHub 上拿到了 6000 多 Star。这个仓库把散落在互联网各处的公开医学数据集整理到一起按类别分好附上论文链接和数据入口方便做医学机器学习的人直接找到自己需要的数据。1、 里面有什么仓库把医学数据分成了七大类。医学影像数据是内容最多的部分。心脏 MRI、脑部 CT、视网膜图像、皮肤病变照片、乳腺 X 光片、肺部 CT覆盖了常见医学影像模态。EchoNet-Dynamic 来自斯坦福收录心脏运动视频数据OASIS 提供大脑 MRI 横截面和纵向两套数据集用于阿尔茨海默症研究ISIC Archive 有 23000 张皮肤病变分类图像。挑战赛数据也有不少。MICCAI、ISBI 这些顶会每年办分割、检测竞赛赛后数据集通常公开。Kaggle 上也有糖尿病视网膜病变检测、宫颈癌筛查这类比赛留下的数据。EHR 数据里最知名的是 MIMIC-III包含近 4 万名患者的重症监护数据匿名处理后对外开放。美国国家级医疗数据、UCI 经典医学小数据集、PubMed 全文和医学语音数据也都在里面。2、 几个值得单独说的数据集MIMIC-III重症监护基准数据集包含生命体征、用药记录、实验室检查结果、影像报告和临床笔记。申请需要完成 CITI 在线培训并签署数据使用协议。OASIS两套大脑 MRI 数据横截面那套有 416 个受试者纵向那套跟踪了 150 人至少一年的脑部变化。做阿尔茨海默症早期检测这是少有的纵向公开数据。EchoNet-Dynamic斯坦福出品的心脏超声视频数据附带射血分数标注。做心脏功能评估的深度学习模型这个数据集绕不开。3、 适合谁用做医学影像分割、病灶检测的研究者可以从里面找到对应模态的公开数据集省去到处搜集的时间。做 NLP 的人想处理临床文本或医学问答MIMIC-III、PubMedQA 都是现成的。入门机器学习的学生UCI 那几个经典医学小数据集体量刚好不需要 GPU 集群也能跑。4、 用之前要知道的事这个仓库本身不托管数据它是一个索引。每个数据集都指向原始来源下载、注册、使用协议都要去原始网站看。部分数据集有使用限制比如禁止商业用途或者要求在论文中引用特定文献。拿到数据后先做一轮探索性分析比直接往模型里灌要稳当得多。数据质量参差不齐有些标注很精细有些只有粗略的分类标签。如果你在做医学相关的 AI 研究这个仓库值得当作数据集字典来用。需要的时候来这里翻一翻大概率能找到合适的数据。研究这个仓库值得当作数据集字典来用。需要的时候来这里翻一翻大概率能找到合适的数据。