10个中文医学数据集,涵盖中医药、问答、推理等领域,助力医疗AI发展。
原文标题:10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……
原文作者:数据派THU
冷月清谈:
这些数据集包括:
1. 首个中文医疗专科(泌尿外科)问答推理数据集:由蚂蚁集团和上海交通大学医学院附属仁济医院合作创建。
2. 中文医疗问答数据集:包含男科、内科、妇产科、肿瘤科、儿科、外科六个科室的问答数据。
3. 医学对话数据集:包含患者与医生之间的对话数据,用于训练医学聊天机器人。
4. 神农中医药数据集:包含以实体为中心的中医药指令数据,用于提升模型在中医药领域的问答能力。
5. 中医药古籍数据集:包含约700项中医药古籍文本,涵盖医学理论、方剂学等内容。
6. 中医诊断数据集:包含中医各个领域临床案例、名家典籍等数据,适用于预训练。
7. 中医对话数据集:包含百科知识、教材文本、医患对话等数据,用于训练医疗领域的对话模型。
8. 医学推理数据集:由香港中文大学和深圳市大数据研究院发布,用于微调医学大语言模型HuatuoGPT-o1。
9. 多语言医学能力测试基准数据集:涵盖6种语言和21种医学子领域,用于评估医学领域多语言模型。
10. MMedC大规模多语言医疗语料库:包含约255亿个tokens,涵盖6种主要语言,用于训练多语言医疗模型。
怜星夜思:
2、除了文中提到的这些,大家还知道哪些中文医学数据集?
3、如何利用这些数据集更好地推动中文医疗AI的发展?
原文内容
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发,再到个性化医疗,数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。
医学数据集的形式多样,涵盖了不同维度和领域的数据资源。例如,在疾病诊断领域,像 RJUA-QA 这样的问答数据集推动了复杂医学知识的自动化应用;而在中医药领域,神农中医药数据集整合了传统中医药文献、临床案例和药方数据。
针对于此,本文整理了医学领域的 10 个数据集,涵盖神农中医药、中医药古籍、医学推理、医学问答……旨在帮助研究人员快速了解这些数据资源的分布与特点,并为其在具体研究问题中的应用提供启发。
中文医学数据集汇总
1、首个中文医疗专科问答推理数据集
预估大小:2.34 MB
该数据集是一个创新的医学泌尿外科专业问答推理数据集,由蚂蚁集团医学 LLM(大语言模型)团队与上海交通大学医学院附属仁济医院泌尿外科专家团队合作创建。其以 Q-context-A(问题-上下文-答案)格式呈现,其中的病例数据由专业医生根据临床经验编写,不涉及患者和医生的任何个人隐私。
2、中文医疗问答数据集
预估大小:279.64 MB
下载地址:https://go.hyper.ai/lM5sd
该数据集为中文医疗问答数据集,包含 6 个不同医疗科室文件夹,分别为:男科 94,596 个问答对、内科 220,606 个问答对、妇产科 183,751 个问答对、肿瘤科 75,553 个问答对、儿科 101,602 个问答对、外科 115,991 个问答对,总计 792,099 条数据。每个文件夹下有一个 csv 文件。
3、医学对话数据集
预估大小:118.35 MB
下载地址:https://go.hyper.ai/MCH57
这是一个为运行医学聊天机器人而设计的实验数据集,它包含 256,916 条患者与医生之间的对话。
4、神农中医药数据集
预估大小:28.98 MB
下载地址:https://go.hyper.ai/iJsGu
该数据集是专门为中医药领域设计的大规模语言模型训练和评估的数据集。包含超 11 万个的指令数据,这些数据通过以实体为中心的自指令方法生成,围绕中医药领域的核心实体和不同意图场景,不仅能够提升模型在中医药相关问题的回答能力,还能辅助中医诊断,提供个性化的医疗建议。
5、中医药古籍数据集
预估大小:80.49 MB
下载地址:https://go.hyper.ai/pyHEs
该数据集包含了约 700 项中医药古籍文本,涵盖了从先秦至清末民国的历代医药典籍。这些文献不仅包括了医学理论、方剂学、药物学等内容,还包含了丰富的临床案例和医学百科知识。
6、中医诊断数据集
预估大小:341.69 MB
下载地址:https://go.hyper.ai/cIHaP
该数据集是一个专注于中医领域的高质量数据集,包含约 1GB 的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集主要由非网络来源的内部数据构成,99% 为简体中文内容,质量优异,信息密度可观,适用于预训练或继续预训练用途。
7、中医对话数据集
预估大小:737.32 MB
下载地址:https://go.hyper.ai/cCrcT
这个中文医疗数据集是一个全面的资源,用于开发和训练能够在医疗领域提供专业对话和建议的语言模型。它结合了多种类型的数据,包括百科知识、教材文本、实际医患对话以及评价数据,旨在提升模型的准确性和实用性。
8、医学推理数据集
下载地址:https://go.hyper.ai/BAVNR
该数据集由香港中文大学和深圳市大数据研究院于 2024 年发布,专为微调 HuatuoGPT-o1 这一医学大语言模型而设计,旨在提升其在复杂医学推理任务中的表现。
9、多语言医学能力测试基准数据集
预估大小:20.69 MB
下载地址:https://go.hyper.ai/ux6FF
该数据集是一个全面多语言医学能力测试基准数据集,由上海交通大学人工智能学院智慧医疗团队于 2024 年开发,旨在评估医学领域多语言模型的发展,涵盖了 6 种语言和 21 种医学子领域。
10、MMedC 大规模多语言医疗语料库
预估大小:31.05 GB
下载地址:https://go.hyper.ai/K8RcQ
该数据集是一个由上海交通大学人工智能学院智慧医疗团队于 2024 年构建的多语言医疗语料库,它包含了约 255 亿个 tokens,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语。