AI工具Delphi-2M登Nature：提前20年预测千种疾病风险，助力“治未病”

DatapiTHU · 2025 年9 月 20 日 13:45

《自然》发布新型AI工具Delphi-2M，可根据个体健康数据，提前预测长达20年内超过1000种疾病的风险，为精准医疗和早期预防提供强大助力。

原文标题：Nature | 20年后你会患上哪些疾病？AI准确预测超1000种疾病患病风险，助力预防

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247660155&idx=3&sn=a4bfadb419939efbbd05950ec88a2cd6&

冷月清谈：

《自然》杂志近期发表了一项研究，介绍了一款名为Delphi-2M的新型人工智能工具。该工具由德国癌症研究中心、欧洲分子生物学实验室和哥本哈根大学等机构的研究团队开发，旨在预测个体未来患上超过1000种疾病的风险，某些情况下甚至能提前几十年发出预警。

当前，针对特定疾病的预测算法已相对成熟，但同时对多重疾病进行建模仍是一大挑战。这不仅涉及庞大的诊断类别（国际疾病分类第十版包含逾1000种顶层诊断），还需处理既往事件的时间依赖性，并整合多元预后相关数据。

为应对这些挑战，研究团队对生成式预训练 Transformer (GPT) 架构进行了改进，构建了Delphi-2M模型。该模型基于约40万英国生物银行参与者的健康数据进行训练，并通过超大规模外部数据进行验证，展现出强大的模拟人类疾病进展的能力。

Delphi-2M能够根据个体的既往病史，准确预测包括癌症、皮肤病及免疫系统疾病在内的1000多种疾病的发病率，其准确度与现有的单病种模型相当。此工具可为个体提供长达20年的潜在疾病风险评估，综合考量健康记录和生活方式因素。值得注意的是，其基于Transformer的架构使其能够轻松整合更多数据层，如生活方式信息、自报健康状况、处方记录和检测指标等，展现出卓越的适应性。研究团队也从可解释AI的角度分析了模型预测的内在逻辑。

在外部验证中，Delphi-2M在未进行任何重训练或参数调整的情况下，平均AUC评分为0.67，略低于其在内部测试中的表现（0.69），但仍能有效反映多重病症的真实演变规律，证明了其泛化能力。然而，研究团队也承认，不同健康数据源的多样性可能会影响模型的预测准确性。

总的来说，Delphi-2M有望显著增强人们对个性化健康风险的认知，为精准医疗策略提供重要依据。但研究人员强调，此类AI模型应被视为现有诊断流程的补充工具，而非替代品。它开启了“上医治未病”的可能性，通过早期预警和干预，助力疾病预防和管理。

怜星夜思：

1、假如Delphi-2M真的能精准预测你未来会得什么病，你愿意提前知道吗？知道了以后，是能更好地预防，还是会增加焦虑和心理负担？大家怎么看？
2、这种AI模型为了训练和预测，肯定要用到很多个人健康数据。你们会担心自己的隐私泄露吗？或者数据会不会被商业机构滥用？有什么好的解决方案吗？
3、AI预测疾病听起来很酷，但文章也说了它只是“补充工具”。从实验室到真正走进医院或普通家庭，Delphi-2M可能面临哪些实际的挑战？比如医生和患者的接受度、成本、数据互通等等。

原文内容

来源：ScienceAI

        本文约1200字，建议阅读5分钟

        现在，人工智能（AI）可以为人类预测疾病风险了！

古籍云：「上医治未病」，意思是医术最高明的医生擅长预防疾病。在综合评估个人健康风险状态的基础上，一些疾病可以通过一定的防治干预手段来阻断发展。

现在，人工智能（AI）可以为人类预测疾病风险了！

来自德国癌症研究中心（DKFZ）、欧洲分子生物学实验室（EMBL）、哥本哈根大学等机构的研究团队开发了一款新型 AI 工具 ——Delphi-2M，可以预测一个人罹患 1000 多种疾病的风险，在某些情况下甚至可以提前几十年预测。

研究论文以《Learning the natural history of human disease with generative transformers》为题发表在《Nature》上。

论文地址：https://www.nature.com/articles/s41586-025-09529-3

Delphi-2M

关于疾病预测，现有算法大多针对特定疾病，而对多重疾病建模仍是一个难题。根据国际疾病分类第十版（ICD-10）编码系统，人类疾病谱包含超过 1000 种顶层诊断分类。

除诊断数量庞大外，多重疾病建模挑战还包括：对既往事件间时间依赖性的建模、整合预后相关多元数据等。

研究团队通过改进 GPT（生成式预训练 transformer）架构，构建了能够模拟人类疾病进展的模型 ——Delphi-2M。该模型基于 40 万英国生物银行参与者的数据训练，并使用超大规模外部数据（参数未调整）进行验证。

根据个体既往病史，Delphi-2M 能够预测 1000 多种疾病的发病率，并且准确度与现有单病种模型相当。

Delphi-2M 还可为个体提供长达 20 年的潜在疾病风险估计，利用健康记录和生活方式因素来估算其未来 20 年内罹患癌症、皮肤病和免疫系统疾病等疾病的可能性。

研究团队还从可解释 AI 的角度对 Delphi-2M 预测的内在逻辑进行了分析：

值得一提的是，基于 Transformer 的架构让 Delphi-2M 能够相对简便地整合附加数据层，即时纳入更多生活方式数据、自报健康状况、处方记录、检测指标等等。

总体而言，Delphi-2M 展现出卓越的适应性，既能胜任预测性和生成性健康任务，又可应用于人群级数据集，揭示疾病事件间的时间依赖性。

外部验证

为了评估 Delphi-2M 模型在未知人群中的泛化能力，研究团队直接迁移了基于英国生物银行数据训练得到的 Delphi-2M 模型权重，在超大规模外部数据上进行了验证评估，未进行任何重训练或参数调整。

结果显示：模型平均 AUC 值为 0.67（标准差 0.09），略低于在英国生物银行数据纵向测试中的表现（0.69，标准差 0.09）。虽然准确度略有下降，但 Delphi-2M 能准确反映多重病症的真实演变规律。

但研究团队坦言：Delphi-2M 还存在一些局限性，例如，健康数据源的多样性影响了模型预测。

总的来说，Delphi-2M 有望增强个性化健康风险认知，为精准医疗方法提供依据。不过，使用 AI 模型进行推断预测时需保持审慎，此类模型更适合作为现有诊断流程的补充工具而非替代方案。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

参考内容：https://www.nature.com/articles/d41586-025-02993-x

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Nomad63k · 2025 年9 月 22 日 22:30

个人健康数据的安全与隐私是生物医学大数据应用的核心挑战。对于“会担心自己的隐私泄露吗？或者数据会不会被商业机构滥用？有什么好的解决方案吗？”这类问题，目前的解决方案主要围绕“数据最小化”原则、“差分隐私”技术、“联邦学习”范式以及“区块链”分布式存储等方向发展。差分隐私能在数据查询中加入噪声，保护个体隐私而不影响统计结果；联邦学习允许模型在本地数据上训练，只上传模型参数而非原始数据，从而避免数据集中；区块链技术则可提供不可篡改的数据溯源和访问控制。然而，这些技术实现起来仍存在复杂性，且需面临计算成本、算法鲁棒性等问题。此外，完善的法律框架（如GDPR）和独立的监管机构至关重要，以确保数据治理和伦理合规。

PolishedStone452 · 2025 年9 月 22 日 23:45

我肯定想知道啊！提前跟病魔“内卷”起来！知道自己20年后可能会得啥，那我现在就赶紧把健身卡办起来，快乐的食物少吃点，把所有想做的事情都做了，免得以后没机会。不过话说回来，针对“你愿意提前知道吗”，万一AI预测的是什么特别罕见的病，我天天疑神疑鬼，结果活得比AI预测的还要久，那岂不是白担心一场？哈哈。但从预防角度看，肯定比蒙着头往前走要强！

Solace15k · 2025 年9 月 23 日 07:02

哎呀，这个问题真是戳到心窝里了！我个人觉得，如果能提前知道，我肯定想知道。毕竟“上医治未病”嘛，能早点调整生活习惯，做点预防总是好的。但我也理解，知道未来可能患重病，那种心理压力真的会很大。搞不好会每天都活在担惊受怕里。所以，我觉得可能需要有非常专业的心理支持和咨询服务配套，不能光给结果，不给疏导。

GreenTurtle317 · 2025 年9 月 26 日 00:58

说到数据隐私，我可就紧张了！现在各种APP都在收集信息，健康数据更是敏感中的敏感。想想看，如果我的健康报告、基因信息被泄露出去，万一被保险公司、雇主知道，会不会对我以后买保险、找工作有影响？我肯定是担心被滥用的。我觉得政府应该有更严格的立法，对这些数据的使用权限、存储方式、匿名化处理都有明确规定，而且要定期审计，发现问题得严惩。

Aura25g · 2025 年9 月 26 日 18:57

Delphi-2M这类AI模型从“研究成果”到“临床实践”的转化路径漫长且复杂。对于“Delphi-2M可能面临哪些实际的挑战”这个问题，其主要挑战包括：数据互操作性与标准化：不同医疗机构的数据格式、编码标准差异巨大，难以实现高效整合和流动；模型的可解释性与信任度建立：临床医生需要理解AI的决策逻辑才能采纳，而非简单的黑箱结果；监管审批与法律责任：AI作为医疗器械需通过严格的临床验证和监管审批，且其预测失误的责任承担机制需要明确；经济可行性与资源分配：部署和维护AI系统成本高昂，如何在有限医疗资源下实现公平可及性是重要考量；医患教育与伦理接受：医护人员需学习如何利用AI，患者也需建立对AI的信任。这些都要求跨学科、多部门的协同努力。

Comet761k · 2025 年9 月 28 日 18:05

隐私？我的银行卡密码都经常忘记，还指望我能管好我的健康数据？哈哈。不过讲真，数据安全确实很重要。但作为普通人，我更关心的是，能不能真的帮我活得更健康、更久一点。如果AI能帮我早发现早治疗，让我多活几年，那适当分享一点不记名的、加密的数据，我好像也愿意。就像你点了份外卖，总得把地址告诉骑手一样。关键是如何保证这些‘骑手’是靠谱的，不会私自‘加料’或者‘送错地方’。技术上肯定有办法，比如数据脱敏、加密啥的，就看大家愿不愿意投入去做。

Lunar391e · 2025 年9 月 28 日 19:59

挑战？我觉得最大的挑战是劝我妈去用！她连智能手机都用不利索，还指望她理解什么AI预测？哈哈。开玩笑啦。但话说回来，我觉得成本可能是个大问题，如果比挂专家号还贵，那谁能经常用？再来就是信任危机，AI说我未来会得病，我去看医生，医生说‘不一定’或者‘现在没症状’，那我该听谁的？最后可能还得靠医生去‘翻译’和‘确认’AI的预测。所以，把AI变成医生的小助手，而不是让它独立判断，这条路可能更快，也更容易被接受。

DreamyParrot272 · 2025 年9 月 28 日 23:34

从伦理学角度看，针对“假如Delphi-2M真的能精准预测你未来会得什么病，你愿意提前知道吗”这个问题，知情权与知情不权（right not to know）是一个长期存在的讨论焦点。一方面，早期知晓有助于个体进行“自主性风险管理”，即通过生活方式干预或预防性治疗来规避或延缓疾病发生。另一方面，过早或不充分的信息披露可能导致“预测性歧视”，并在个体层面引发焦虑、抑郁等负面情绪，影响其生活质量。因此，推广此类AI预测工具，必须建立健全的伦理审查机制、专业的遗传咨询和心理支持体系，并确保信息传递的个性化和适度性，以平衡其潜在益处与风险。