10个中文医学数据集助力医疗AI发展

10个中文医学数据集,涵盖中医药、问答、推理等领域,助力医疗AI发展。

原文标题:10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……

原文作者:数据派THU

冷月清谈:

医疗AI的快速发展离不开高质量数据集的支持。本文介绍了10个中文医学数据集,涵盖中医药、医学推理、医学问答等多个领域,并提供了数据集的下载地址和简要描述。

这些数据集包括:

1. 首个中文医疗专科(泌尿外科)问答推理数据集:由蚂蚁集团和上海交通大学医学院附属仁济医院合作创建。
2. 中文医疗问答数据集:包含男科、内科、妇产科、肿瘤科、儿科、外科六个科室的问答数据。
3. 医学对话数据集:包含患者与医生之间的对话数据,用于训练医学聊天机器人。
4. 神农中医药数据集:包含以实体为中心的中医药指令数据,用于提升模型在中医药领域的问答能力。
5. 中医药古籍数据集:包含约700项中医药古籍文本,涵盖医学理论、方剂学等内容。
6. 中医诊断数据集:包含中医各个领域临床案例、名家典籍等数据,适用于预训练。
7. 中医对话数据集:包含百科知识、教材文本、医患对话等数据,用于训练医疗领域的对话模型。
8. 医学推理数据集:由香港中文大学和深圳市大数据研究院发布,用于微调医学大语言模型HuatuoGPT-o1。
9. 多语言医学能力测试基准数据集:涵盖6种语言和21种医学子领域,用于评估医学领域多语言模型。
10. MMedC大规模多语言医疗语料库:包含约255亿个tokens,涵盖6种主要语言,用于训练多语言医疗模型。

怜星夜思:

1、这些数据集的质量如何评估?有没有一些具体的指标或者方法?
2、除了文中提到的这些,大家还知道哪些中文医学数据集?
3、如何利用这些数据集更好地推动中文医疗AI的发展?

原文内容

本文约1700字,建议阅读5分钟
本文为大家准备了 10 个中文医学相关的数据集,支持在线使用与加速下载,快来体验吧~



医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发,再到个性化医疗,数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。


医学数据集的形式多样,涵盖了不同维度和领域的数据资源。例如,在疾病诊断领域,像 RJUA-QA 这样的问答数据集推动了复杂医学知识的自动化应用;而在中医药领域,神农中医药数据集整合了传统中医药文献、临床案例和药方数据。


针对于此,本文整理了医学领域的 10 个数据集,涵盖神农中医药、中医药古籍、医学推理、医学问答……旨在帮助研究人员快速了解这些数据资源的分布与特点,并为其在具体研究问题中的应用提供启发。


点击查看更多开源数据集:
https://go.hyper.ai/SjWDr


中文医学数据集汇总


1、首个中文医疗专科问答推理数据集


预估大小:2.34 MB

下载地址:https://go.hyper.ai/rIwcK


该数据集是一个创新的医学泌尿外科专业问答推理数据集,由蚂蚁集团医学 LLM(大语言模型)团队与上海交通大学医学院附属仁济医院泌尿外科专家团队合作创建。其以 Q-context-A(问题-上下文-答案)格式呈现,其中的病例数据由专业医生根据临床经验编写,不涉及患者和医生的任何个人隐私。


2、中文医疗问答数据集


预估大小:279.64 MB

下载地址:https://go.hyper.ai/lM5sd


该数据集为中文医疗问答数据集,包含 6 个不同医疗科室文件夹,分别为:男科 94,596 个问答对、内科 220,606 个问答对、妇产科 183,751 个问答对、肿瘤科 75,553 个问答对、儿科 101,602 个问答对、外科 115,991 个问答对,总计 792,099 条数据。每个文件夹下有一个 csv 文件。


3、医学对话数据集


预估大小:118.35 MB

下载地址:https://go.hyper.ai/MCH57


这是一个为运行医学聊天机器人而设计的实验数据集,它包含 256,916 条患者与医生之间的对话。


4、神农中医药数据集


预估大小:28.98 MB

下载地址:https://go.hyper.ai/iJsGu


该数据集是专门为中医药领域设计的大规模语言模型训练和评估的数据集。包含超 11 万个的指令数据,这些数据通过以实体为中心的自指令方法生成,围绕中医药领域的核心实体和不同意图场景,不仅能够提升模型在中医药相关问题的回答能力,还能辅助中医诊断,提供个性化的医疗建议。


5、中医药古籍数据集


预估大小:80.49 MB

下载地址:https://go.hyper.ai/pyHEs


该数据集包含了约 700 项中医药古籍文本,涵盖了从先秦至清末民国的历代医药典籍。这些文献不仅包括了医学理论、方剂学、药物学等内容,还包含了丰富的临床案例和医学百科知识。


6、中医诊断数据集


预估大小:341.69 MB

下载地址:https://go.hyper.ai/cIHaP


该数据集是一个专注于中医领域的高质量数据集,包含约 1GB 的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集主要由非网络来源的内部数据构成,99% 为简体中文内容,质量优异,信息密度可观,适用于预训练或继续预训练用途。


7、中医对话数据集


预估大小:737.32 MB

下载地址:https://go.hyper.ai/cCrcT


这个中文医疗数据集是一个全面的资源,用于开发和训练能够在医疗领域提供专业对话和建议的语言模型。它结合了多种类型的数据,包括百科知识、教材文本、实际医患对话以及评价数据,旨在提升模型的准确性和实用性。


8、医学推理数据集


下载地址:https://go.hyper.ai/BAVNR


该数据集由香港中文大学和深圳市大数据研究院于 2024 年发布,专为微调 HuatuoGPT-o1 这一医学大语言模型而设计,旨在提升其在复杂医学推理任务中的表现。


9、多语言医学能力测试基准数据集


预估大小:20.69 MB

下载地址:https://go.hyper.ai/ux6FF


该数据集是一个全面多语言医学能力测试基准数据集,由上海交通大学人工智能学院智慧医疗团队于 2024 年开发,旨在评估医学领域多语言模型的发展,涵盖了 6 种语言和 21 种医学子领域。


10、MMedC 大规模多语言医疗语料库


预估大小:31.05 GB

下载地址:https://go.hyper.ai/K8RcQ


该数据集是一个由上海交通大学人工智能学院智慧医疗团队于 2024 年构建的多语言医疗语料库,它包含了约 255 亿个 tokens,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语。

编辑:于腾凯
校对:丁玺茗


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得还得看数据集的规模和代表性,规模太小或者覆盖面太窄的话,训练出来的模型可能泛化能力就不太行。另外,还得考虑数据偏差的问题,如果数据本身存在偏差,那训练出来的模型肯定也好不到哪去。

评估数据集质量,我感觉可以从几个方面入手吧,比如数据完整性、一致性、准确性,还有就是看它跟具体任务的相关性强不强。具体指标的话,可以用准确率、召回率、F1值什么的。

我觉得除了技术上的突破,还需要关注伦理和法律方面的问题,制定相应的规范和标准,确保医疗AI的应用安全可靠。

我补充一个,叫做CMeKG,是一个中文医学知识图谱,可以用来做一些知识推理和问答之类的任务。

我之前做过一些中医药方面的研究,用过一个叫做TCMSP的数据库,里面包含了很多中药成分和靶点信息,还挺好用的。

可以举办一些数据竞赛或者研讨会,促进学术交流和合作,集思广益,共同推动中文医疗AI的发展。

除了上面说的,我觉得对于医学数据集来说,数据的隐私保护和安全性也很重要,毕竟这涉及到病人的敏感信息。还有就是数据的可解释性,模型的决策过程能不能被医生理解和接受,也是一个关键因素。

我了解到有一个叫做CHIP的临床事件数据库,规模挺大的,记录了大量的住院病人的诊疗信息,不过获取起来可能比较麻烦。

我觉得可以鼓励更多的研究机构和企业共享数据,建立一个统一的平台,方便大家访问和使用这些数据。毕竟数据是AI发展的基础。