AI工具Delphi-2M登Nature:提前20年预测千种疾病风险,助力“治未病”

《自然》发布新型AI工具Delphi-2M,可根据个体健康数据,提前预测长达20年内超过1000种疾病的风险,为精准医疗和早期预防提供强大助力。

原文标题:Nature | 20年后你会患上哪些疾病?AI准确预测超1000种疾病患病风险,助力预防

原文作者:数据派THU

冷月清谈:

《自然》杂志近期发表了一项研究,介绍了一款名为Delphi-2M的新型人工智能工具。该工具由德国癌症研究中心、欧洲分子生物学实验室和哥本哈根大学等机构的研究团队开发,旨在预测个体未来患上超过1000种疾病的风险,某些情况下甚至能提前几十年发出预警。

当前,针对特定疾病的预测算法已相对成熟,但同时对多重疾病进行建模仍是一大挑战。这不仅涉及庞大的诊断类别(国际疾病分类第十版包含逾1000种顶层诊断),还需处理既往事件的时间依赖性,并整合多元预后相关数据。

为应对这些挑战,研究团队对生成式预训练 Transformer (GPT) 架构进行了改进,构建了Delphi-2M模型。该模型基于约40万英国生物银行参与者的健康数据进行训练,并通过超大规模外部数据进行验证,展现出强大的模拟人类疾病进展的能力。

Delphi-2M能够根据个体的既往病史,准确预测包括癌症、皮肤病及免疫系统疾病在内的1000多种疾病的发病率,其准确度与现有的单病种模型相当。此工具可为个体提供长达20年的潜在疾病风险评估,综合考量健康记录和生活方式因素。值得注意的是,其基于Transformer的架构使其能够轻松整合更多数据层,如生活方式信息、自报健康状况、处方记录和检测指标等,展现出卓越的适应性。研究团队也从可解释AI的角度分析了模型预测的内在逻辑。

在外部验证中,Delphi-2M在未进行任何重训练或参数调整的情况下,平均AUC评分为0.67,略低于其在内部测试中的表现(0.69),但仍能有效反映多重病症的真实演变规律,证明了其泛化能力。然而,研究团队也承认,不同健康数据源的多样性可能会影响模型的预测准确性。

总的来说,Delphi-2M有望显著增强人们对个性化健康风险的认知,为精准医疗策略提供重要依据。但研究人员强调,此类AI模型应被视为现有诊断流程的补充工具,而非替代品。它开启了“上医治未病”的可能性,通过早期预警和干预,助力疾病预防和管理。

怜星夜思:

1、假如Delphi-2M真的能精准预测你未来会得什么病,你愿意提前知道吗?知道了以后,是能更好地预防,还是会增加焦虑和心理负担?大家怎么看?
2、这种AI模型为了训练和预测,肯定要用到很多个人健康数据。你们会担心自己的隐私泄露吗?或者数据会不会被商业机构滥用?有什么好的解决方案吗?
3、AI预测疾病听起来很酷,但文章也说了它只是“补充工具”。从实验室到真正走进医院或普通家庭,Delphi-2M可能面临哪些实际的挑战?比如医生和患者的接受度、成本、数据互通等等。

原文内容

图片
来源:ScienceAI
本文约1200字,建议阅读5分钟
现在,人工智能(AI)可以为人类预测疾病风险了!


古籍云:「上医治未病」,意思是医术最高明的医生擅长预防疾病。在综合评估个人健康风险状态的基础上,一些疾病可以通过一定的防治干预手段来阻断发展。

现在,人工智能(AI)可以为人类预测疾病风险了!

来自德国癌症研究中心(DKFZ)、欧洲分子生物学实验室(EMBL)、哥本哈根大学等机构的研究团队开发了一款新型 AI 工具 ——Delphi-2M,可以预测一个人罹患 1000 多种疾病的风险,在某些情况下甚至可以提前几十年预测。

研究论文以《Learning the natural history of human disease with generative transformers》为题发表在《Nature》上。

论文地址:https://www.nature.com/articles/s41586-025-09529-3

Delphi-2M

关于疾病预测,现有算法大多针对特定疾病,而对多重疾病建模仍是一个难题。根据国际疾病分类第十版(ICD-10)编码系统,人类疾病谱包含超过 1000 种顶层诊断分类。

除诊断数量庞大外,多重疾病建模挑战还包括:对既往事件间时间依赖性的建模、整合预后相关多元数据等。

研究团队通过改进 GPT(生成式预训练 transformer)架构,构建了能够模拟人类疾病进展的模型 ——Delphi-2M。该模型基于 40 万英国生物银行参与者的数据训练,并使用超大规模外部数据(参数未调整)进行验证。

根据个体既往病史,Delphi-2M 能够预测 1000 多种疾病的发病率,并且准确度与现有单病种模型相当。

Delphi-2M 还可为个体提供长达 20 年的潜在疾病风险估计,利用健康记录和生活方式因素来估算其未来 20 年内罹患癌症、皮肤病和免疫系统疾病等疾病的可能性。

研究团队还从可解释 AI 的角度对 Delphi-2M 预测的内在逻辑进行了分析:

值得一提的是,基于 Transformer 的架构让 Delphi-2M 能够相对简便地整合附加数据层,即时纳入更多生活方式数据、自报健康状况、处方记录、检测指标等等。

总体而言,Delphi-2M 展现出卓越的适应性,既能胜任预测性和生成性健康任务,又可应用于人群级数据集,揭示疾病事件间的时间依赖性。

外部验证

为了评估 Delphi-2M 模型在未知人群中的泛化能力,研究团队直接迁移了基于英国生物银行数据训练得到的 Delphi-2M 模型权重,在超大规模外部数据上进行了验证评估,未进行任何重训练或参数调整。

结果显示:模型平均 AUC 值为 0.67(标准差 0.09),略低于在英国生物银行数据纵向测试中的表现(0.69,标准差 0.09)。虽然准确度略有下降,但 Delphi-2M 能准确反映多重病症的真实演变规律。

但研究团队坦言:Delphi-2M 还存在一些局限性,例如,健康数据源的多样性影响了模型预测。

总的来说,Delphi-2M 有望增强个性化健康风险认知,为精准医疗方法提供依据。不过,使用 AI 模型进行推断预测时需保持审慎,此类模型更适合作为现有诊断流程的补充工具而非替代方案。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

参考内容:https://www.nature.com/articles/d41586-025-02993-x

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


个人健康数据的安全与隐私是生物医学大数据应用的核心挑战。对于“会担心自己的隐私泄露吗?或者数据会不会被商业机构滥用?有什么好的解决方案吗?”这类问题,目前的解决方案主要围绕“数据最小化”原则、“差分隐私”技术、“联邦学习”范式以及“区块链”分布式存储等方向发展。差分隐私能在数据查询中加入噪声,保护个体隐私而不影响统计结果;联邦学习允许模型在本地数据上训练,只上传模型参数而非原始数据,从而避免数据集中;区块链技术则可提供不可篡改的数据溯源和访问控制。然而,这些技术实现起来仍存在复杂性,且需面临计算成本、算法鲁棒性等问题。此外,完善的法律框架(如GDPR)和独立的监管机构至关重要,以确保数据治理和伦理合规。

我肯定想知道啊!提前跟病魔“内卷”起来!知道自己20年后可能会得啥,那我现在就赶紧把健身卡办起来,快乐的食物少吃点,把所有想做的事情都做了,免得以后没机会。不过话说回来,针对“你愿意提前知道吗”,万一AI预测的是什么特别罕见的病,我天天疑神疑鬼,结果活得比AI预测的还要久,那岂不是白担心一场?哈哈。但从预防角度看,肯定比蒙着头往前走要强!

哎呀,这个问题真是戳到心窝里了!我个人觉得,如果能提前知道,我肯定想知道。毕竟“上医治未病”嘛,能早点调整生活习惯,做点预防总是好的。但我也理解,知道未来可能患重病,那种心理压力真的会很大。搞不好会每天都活在担惊受怕里。所以,我觉得可能需要有非常专业的心理支持和咨询服务配套,不能光给结果,不给疏导。

说到数据隐私,我可就紧张了!现在各种APP都在收集信息,健康数据更是敏感中的敏感。想想看,如果我的健康报告、基因信息被泄露出去,万一被保险公司、雇主知道,会不会对我以后买保险、找工作有影响?我肯定是担心被滥用的。我觉得政府应该有更严格的立法,对这些数据的使用权限、存储方式、匿名化处理都有明确规定,而且要定期审计,发现问题得严惩。

Delphi-2M这类AI模型从“研究成果”到“临床实践”的转化路径漫长且复杂。对于“Delphi-2M可能面临哪些实际的挑战”这个问题,其主要挑战包括:数据互操作性与标准化:不同医疗机构的数据格式、编码标准差异巨大,难以实现高效整合和流动;模型的可解释性与信任度建立:临床医生需要理解AI的决策逻辑才能采纳,而非简单的黑箱结果;监管审批与法律责任:AI作为医疗器械需通过严格的临床验证和监管审批,且其预测失误的责任承担机制需要明确;经济可行性与资源分配:部署和维护AI系统成本高昂,如何在有限医疗资源下实现公平可及性是重要考量;医患教育与伦理接受:医护人员需学习如何利用AI,患者也需建立对AI的信任。这些都要求跨学科、多部门的协同努力。

隐私?我的银行卡密码都经常忘记,还指望我能管好我的健康数据?哈哈。不过讲真,数据安全确实很重要。但作为普通人,我更关心的是,能不能真的帮我活得更健康、更久一点。如果AI能帮我早发现早治疗,让我多活几年,那适当分享一点不记名的、加密的数据,我好像也愿意。就像你点了份外卖,总得把地址告诉骑手一样。关键是如何保证这些‘骑手’是靠谱的,不会私自‘加料’或者‘送错地方’。技术上肯定有办法,比如数据脱敏、加密啥的,就看大家愿不愿意投入去做。

挑战?我觉得最大的挑战是劝我妈去用!她连智能手机都用不利索,还指望她理解什么AI预测?哈哈。开玩笑啦。但话说回来,我觉得成本可能是个大问题,如果比挂专家号还贵,那谁能经常用?再来就是信任危机,AI说我未来会得病,我去看医生,医生说‘不一定’或者‘现在没症状’,那我该听谁的?最后可能还得靠医生去‘翻译’和‘确认’AI的预测。所以,把AI变成医生的小助手,而不是让它独立判断,这条路可能更快,也更容易被接受。

从伦理学角度看,针对“假如Delphi-2M真的能精准预测你未来会得什么病,你愿意提前知道吗”这个问题,知情权与知情不权(right not to know)是一个长期存在的讨论焦点。一方面,早期知晓有助于个体进行“自主性风险管理”,即通过生活方式干预或预防性治疗来规避或延缓疾病发生。另一方面,过早或不充分的信息披露可能导致“预测性歧视”,并在个体层面引发焦虑、抑郁等负面情绪,影响其生活质量。因此,推广此类AI预测工具,必须建立健全的伦理审查机制、专业的遗传咨询和心理支持体系,并确保信息传递的个性化和适度性,以平衡其潜在益处与风险。