EHR数据探索新范式:新加坡国立大学NeuralCohort提升患者队列建模与预测精度

新加坡国立大学NeuralCohort模型,利用多维度EHR数据实现细粒度患者队列建模,将住院时间预测准确率显著提升16.3%。这项创新为医疗AI与精准诊疗开辟新径。

原文标题:新加坡国立大学基于多维度EHR数据实现细粒度患者队列建模,住院时间预测准确率提升16.3%

原文作者:数据派THU

冷月清谈:

电子健康记录(EHR)作为医疗体系的核心,存储着患者全面的医疗数据,对临床决策和患者管理至关重要。然而,传统队列划分方法存在无法细粒度划分、易引入噪声以及未能充分利用队列内外信息的局限性。

为解决这些问题,新加坡国立大学联合浙江大学推出了创新性方法 NeuralCohort,它通过独特的双模块架构,旨在突破现有难题,充分释放EHR数据的潜能。该研究成果已入选 ICML 2025。

NeuralCohort 模型由两大核心模块组成:
1. **预上下文队列合成模块**:该模块通过分层就诊引擎处理复杂的诊断代码本体结构(如ICD-9),整合诊断、药物、检验代码的分层特征,并运用反向时间注意力机制动态聚合历史就诊信息。它还创新性引入伪相似性训练任务,优化患者表征,最终通过Jensen-Shannon散度和学生t分布实现细粒度队列推导。
2. **双尺度队列学习模块**:此模块致力于挖掘队列内部的共性特征和不同队列间的差异特征。局部队列建模将每个队列视为图结构,利用图神经网络捕捉队列内患者交互模式;全局队列建模则采用编码器-解码器架构,通过重构损失保持语义完整性,并结合对比损失强化不同队列的特征分离。最终,通过跨域注意力机制融合多层级队列信息。

研究团队通过多维实验验证了 NeuralCohort 的优越性。在 MIMIC-III 数据集上,针对医院再入院预测和长期住院时间(LOS)预测任务,NeuralCohort 在准确率上相较传统基线模型显著提升了 16.3%,AUPRC 和 AUROC 指标也有显著提高。其优势在于能够进行细粒度队列信息建模,有效地模拟患者相似性。

与传统医学队列构建方法相比,NeuralCohort 能够利用患者从队列内和队列间的序贯就诊层面表征,显著提升队列内患者的临床相似度(23.5%)。可解释性分析也表明,NeuralCohort 生成的队列区分度更高,例如在 t-SNE 可视化中,8 个目标队列的区分度提升了 41.2%。

在临床意义上,NeuralCohort 能识别与临床结果直接相关的队列特定特征,助力医院更精准地分配资源和制定干预措施,从而提高效率和护理质量。这展示了学术界与企业界协同推动医疗数据价值释放的潜力,有望实现医疗服务模式从疾病治疗向健康管理转型。

怜星夜思:

1、这种细粒度的患者队列建模能力,在提升医疗效率和准确性的同时,会不会引发更多关于患者隐私和数据安全的担忧?大家觉得该如何平衡这种技术进步和个人信息的保护呢?
2、NeuralCohort模型在实验室数据上表现亮眼,但实际应用到国内不同等级医院,甚至基层医疗机构时,可能会面临哪些挑战?比如数据标准化、医生接受度或者算力资源等方面,大家有什么看法?
3、除了文章中提到的预测再入院和住院时间,这项技术还能在哪些具体的临床场景发挥作用?比如疾病早期预警、个性化治疗方案推荐,甚至公共卫生管理方面,有哪些值得期待或者需要解决的问题?

原文内容

图片
本文约4400字,建议阅读10+分钟
全球学术界与企业界正通过前沿技术突破与临床实践创新,推动医疗数据价值的深度释放。


新加坡国立大学联合浙江大学提出了创新性的 NeuralCohort 方法,为 EHR 表征学习开辟了新的路径,其同时利用了局部队列内和全局队列间信息,这些关键要素在之前的电子健康记录分析研究中未得到充分关注


在当今医疗信息化飞速发展的时代,电子健康记录(EHR)已然成为医疗体系中举足轻重的核心组成部分。EHR 凭借其系统化的架构,将患者的病历信息以电子形式精准存储,涵盖从基本的人口统计学资料到动态的、随时间变化的医疗特征等多元内容,为医疗实践的各个环节提供了坚实的数据支撑,其在辅助临床决策、优化患者管理等关键领域发挥着不可替代的作用。

回顾 2020 年新冠疫情高峰期的临床实践,医生通过构建不同年龄层的患者队列发现关键规律:50-70 岁患者群体更易出现呼吸困难、认知衰退等重症表现,而 20-40 岁群体多为轻症或无症状感染。这种基于队列的对比分析,不仅为诊疗方案制定提供了直接依据,更揭示了 EHR 表征学习中被长期忽视的核心要素 —— 患者队列。

作为医疗研究的基本单元,队列通过共享特征识别具有相似临床特征的患者群体,其价值远超出个体数据的简单累加:既能够发现特定人群的疾病规律,如发热症状与新冠感染的关联性,更能为精准医疗干预提供靶向依据。但传统的队列划分方法存在诸多局限性,难以满足 EHR 数据处理的精细化要求,如无法实现细粒度队列划分,易引入噪声,且不能充分利用队列内与队列间的宝贵信息

在此背景下,新加坡国立大学联合浙江大学提出了创新性方法 NeuralCohort,为 EHR 表征学习开辟了新的路径。这一方法通过独特的双模块架构,有望突破现有难题,充分释放 EHR 数据的潜能,为医疗分析注入强大动力,其在医疗领域的应用前景备受瞩目,有望深刻变革医疗数据分析与临床决策模式,推动医疗行业迈向更高层次的智能化、精准化发展。

相关研究成果以「NeuralCohort: Cohort-aware Neural Representation Learning for Healthcare Analytics」为题,入选 ICML 2025。

研究亮点:


* 该研究提出的 NeuralCohort 是一种具有队列意识的神经表征学习方法,专注于支持细粒度队列生成

* NeuralCohort 创新性地同时利用了局部队列内和全局队列间信息,这些关键要素在之前的电子健康记录分析研究中未得到充分关注

* NeuralCohort 的优势在于其出色的兼容性,能够无缝集成到各种骨干模型中,作为多功能插件将队列信息纳入医疗分析,进而提高整体性能



论文地址: 

https://openreview.net/forum?id=bqQVa6VRvm


EHR 数据体系:多维度医疗信息整合与临床研究数据集支撑


该研究涉及的核心数据体系以电子健康记录(EHR)为基础,其数据结构整合了患者全周期医疗信息,包括住院、门诊、急诊的详细记录,以及临床诊断、治疗方案、用药历史、检验结果、影像报告和临床笔记等多维度信息,形成纵向追踪患者健康状态的结构化数据库,为临床决策、个性化医疗和人群健康研究提供全链条数据支持。如下表所示,该研究具体使用的数据集包括:


MIMIC-III 数据集作为公开可获取的重要医疗资源,涵盖了 53,423 次独特的住院记录,涉及在 2001 年至 2012 年间入住贝斯以色列迪卡尼医疗中心重症监护病房的 16 岁及以上成年患者,此外还包含 2,083,180 份已脱敏的临床笔记,为研究患者病情发展、治疗过程及临床决策提供了深度洞察。


MIMIC-IV 数据集则聚焦于 2008 年至 2022 年间收集的患者入院信息,其采用模块化数据组织结构,强调数据来源的可追溯性与独立性,便于研究者根据需求灵活调用不同数据源及其联合数据。


Diabetes130 数据集汇集了来自 130 家美国医院和综合医疗网络在 1999 - 2008 年间积累的临床护理数据,专注于糖尿病治疗领域的模式分析,其独特的数据主题与长期的数据积累,为深入研究糖尿病历史护理模式、优化糖尿病患者治疗方案以及实现安全个性化医疗服务提供了精准的数据支撑。


研究所用数据集的数据统计


NeuralCohort 模型:双模块驱动的队列意识 EHR 表征学习框架


为了有效整合患者队列以强化电子健康记录(EHR)数据的表征学习效果,NeuralCohort 由两大核心模块构成:预上下文队列合成模块(Pre-context Cohort Synthesis Module)与双尺度队列学习模块(Biscale Cohort Learning Module)。

NeuralCohort 概述


在预上下文队列合成模块中,NeuralCohort 模型首先引入了分层就诊引擎(Hierarchical Visit Engine),能够处理复杂的诊断代码本体结构,例如 ICD-9 的树状体系。通过结合路径表征与语义相似性度量,该模块能够有效区分具有层级关联的医学术语,如糖尿病及其并发症的不同编码。同时,模型可将诊断、药物、检验代码的分层特征整合,并运用反向时间注意力机制(Reverse Time Attention),以当前就诊为锚点动态聚合历史就诊信息,从而捕捉就诊序列的时间依赖性。

为应对传统患者相似性手动标注的低效问题,模块创新性地引入了伪相似性训练(PseudoSim Training)任务,利用诊断代码生成伪标签,并通过互信息神经估计优化患者表征。最终,借助 Jensen-Shannon 散度和学生 t 分布实现队列推导,为后续分析提供了结构化的患者分组方案。

双尺度队列学习模块则致力于挖掘队列内部的共性特征以及不同队列间的差异特征。在局部队列建模(Local Cohort Modeling)中,模型通过将每个队列视为图结构,并利用患者表征的余弦相似性构建邻接矩阵,图神经网络逐层聚合节点信息,从而捕捉同一队列内患者的交互模式。


全局队列建模(Global Cohort Modeling)采用编码器-解码器架构,通过重构损失保持队列语义完整性,同时结合对比损失强化不同队列的特征分离,确保跨队列的可区分性。

最终,通过跨域注意力机制融合骨干网络初始表征、队列内局部表征和队列间全局表征,形成包含多层级队列信息的最终表征。在模型训练过程中,损失函数集成了伪相似性训练损失、队列推导损失、队列对比损失及下游任务损失,通过权重参数调节实现多目标优化。这使得 NeuralCohort 不仅能够学习到细粒度的患者个体特征,还能捕获具有临床解释性的队列群体模式,为医疗数据分析任务提供了兼具精度与可解释性的解决方案,有望推动医疗决策的科学化与精准化。


多维实验验证:NeuralCohort 模型准确率提升 16.3%,显著增强患者管理的决策制定


为了评估 NeuralCohort 对电子健康记录(EHR)表征学习的优化效果,研究团队构建了一个全面的实验框架。

研究人员选择了 Med2Vec、MiME 和 ClinicalBERT 这 3 个在医疗数据分析领域具有代表性的模型作为基准框架。同时,为了进行有效的对比,实验中纳入了 KNN、K-Means 等 7 种传统队列整合算法作为对比方法。

实验设计聚焦于两个关键的医疗预测任务:医院再入院预测和长期住院时间(LOS)预测,这两个任务对于医疗资源管理和患者护理质量提升具有重要意义。为了全面评估模型的性能,研究人员采用了 AUPRC、AUROC 和准确率这 3 个广泛认可的评估指标,并通过五轮重复实验来获取稳定且可靠的统计结果,从而系统性地评估模型的泛化能力。

总体实验结果如下表所示,NeuralCohort 在 MIMIC-III 数据集的两个预测任务中表现出色,相较于传统基线模型,在 AUPRC 指标上最高提升了 8.0%,在 AUROC 指标上提升了 8.1%,而在准确率方面更是显著高出 16.3%。


进一步的分析揭示,基线模型未能实现一致的性能提升,主要原因在于其在细粒度队列信息建模方面存在不足。例如,KNN 和 K-Means 算法不在相似性感知的特征空间内运行,DGLoS 构建的全局图较为粗粒度,GRASP 仅专注于队列间建模,而 DEC、DEKM 和 IDC 则无法有效对医学语义进行建模。这些缺陷导致基线模型在模拟患者相似性时表现不佳,甚至可能向骨干模型引入噪声,从而降低整体性能。


NeuralCohort 在 MIMIC-III 数据集的两个预测任务的表现

在与传统医学队列构建方法的对比中,NeuralCohort 同样展现出了显著的优势。传统方法通常依据性别、年龄、糖尿病诊断和高血压诊断等有限的特征进行队列划分,这种方法生成的队列较为粗粒度,难以满足队列模式挖掘的需求,并且容易将不相似的患者分到同一队列中,引入噪声。相比之下,NeuralCohort 利用患者从队列内和队列间的序贯就诊层面表征,在细粒度层面上进行操作,使得在 MIMIC-III 数据集中队列内患者的临床相似度提升了 23.5%。


在 MIMIC-III 数据集上对传统队列和 NeuralCohort 进行比较

可解释性分析进一步揭示了 NeuralCohort 的优势。Calinski-Harabasz 评分显示,NeuralCohort 生成的队列在长期 LOS 任务中,较 K-Means 等方法提升了 18.7%-25.4% 的C-H评分。基于 t-SNE 的可视化分析也表明,基线模型直接输出的表征存在显著的聚类重叠,而 NeuralCohort 如下图所示,通过队列信息注入,使得 8 个目标队列的区分度提升了 41.2%,其中心血管疾病队列、慢性代谢疾病队列等临床典型群体的特征边界尤为清晰。



对选定的 8 个队列点预测前的 t-SNE 可视化


在临床意义上,NeuralCohort 能够识别与临床结果直接相关的队列特定特征,从而显著增强患者管理。例如,通过 t 检验识别出的四个队列的独特特征,涵盖了心血管疾病、慢性代谢和血液疾病、肾脏和泌尿问题以及复杂的慢性病和急性病等不同类型的患者群体。


这些特征的识别使得医院能够更加针对性地分配资源,如遥测病床、心脏科会诊、糖尿病教育者、肾脏小组等,并制定相应的干预措施,如及时使用利尿剂、胰岛素滴定、安排影像学检查等,从而显著提高医院效率和患者护理质量。


产研协同,双向驱动的 EHR 创新生态


在电子健康记录(EHR)表征学习与队列分析领域,全球学术界与企业界正通过前沿技术突破与临床实践创新,推动医疗数据价值的深度释放,为精准医疗的发展注入新动力。


厦门大学王晓黎教授团队提出的 MHGRL 模型,通过构建多模态异构图整合 EHR 内部结构与外部医学知识,在 MIMIC-III 等数据集上显著提升了疾病预测精度。该模型采用的逆时间注意力机制,强化了当前就诊与历史记录的关联性,与 NeuralCohort 的预上下文队列合成模块在技术逻辑上形成呼应,均体现了对时间序列信息建模的重视。


康奈尔大学团队基于 800 万真实 EHR 数据构建的 GEMS 模型,展示了队列分析在临床决策中的直接应用。该研究通过图神经网络编码器捕捉晚期肺癌患者的 104 维特征向量,结合聚类模块识别出三类具有显著生存差异的亚表型,其预测总生存期的 c-index 达 0.665,远超传统基线模型,其技术路径与 NeuralCohort 的双尺度队列学习模块在方法论上高度契合,均聚焦于从复杂数据中挖掘具有临床意义的队列特征。


企业界同样成果斐然,正将学术界的前沿技术转化为实际的临床应用工具。例如,英国 NHS 与 Hippocratic AI 合作的 PATH 计划,通过对话智能体自动化病史采集与转诊验证,使专科候诊周期缩短 35%。这种基于 EHR 的智能分诊系统,其内置的队列分析模块可实时识别高风险患者群体,例如通过自然语言处理从临床笔记中提取「慢性阻塞性肺疾病合并急性加重」等复合特征,动态调整患者优先级。


总结来看,学术界通过算法创新构建更精准的队列模型,不断拓展医疗数据挖掘的深度与广度;企业界则凭借其技术转化能力,将这些前沿技术转化为可落地的临床工具,提升医疗服务效率与质量。这种双向驱动的创新生态,不仅有望帮助医生获得更精准的诊断支持,更能从群体特征中发现个体风险的早期预警信号,推动医疗服务模式从疾病治疗向健康管理转变,为全球医疗体系的优化升级提供了有力支撑。


参考文章:
1.https://cdmc.xmu.edu.cn/info/1002/3683.htm
2.https://mp.weixin.qq.com/s/Z1Wl0FIPHpwrvnNDCE5KwA
3.https://mp.weixin.qq.com/s/neCUoGm75mTPwjvlND5_sg


编辑:黄继彦



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得最大的挑战反而是人的因素。医生会愿意用吗?一个全新的人工智能辅助工具摆在面前,他们首先考虑的可能是会不会增加工作量,或者是不是会抢饭碗。而且,如果模型给出的建议和医生经验不符,医生是信AI还是信自己?这种‘信任鸿沟’不是一朝一夕能解决的。还有就是培训成本,如何让医护人员快速上手,理解模型的工作原理和局限性,而不是盲目依赖或者抵触。再者,基层医疗机构的话,医生可能连基本的EHR录入都不规范,让他们用这么复杂的AI工具,是不是有点超前了?

这可太真实了。实验室和实际临床环境简直是天壤之别。首先就是数据标准化的问题,国内各医院的EHR系统千差万别,数据录入规范不一,很多临床笔记都是非结构化的文本,要让NeuralCohort这种模型有效跑起来,需要前期投入巨大的清洗、整合和标注成本。其次是算力资源,训练这种深度学习模型需要高性能计算集群,大型三甲医院可能还好,但中小医院和基层医疗机构根本不具备这样的条件。最后还有模型泛化能力,一个在MIMIC-III(主要是重症监护数据)上训练出来的模型,能否适应国内普外科、内分泌科等不同科室的复杂病种特征,也需要大量真实世界数据的验证和微调。

这就像把F1赛车开到乡间小路一样,路不平哪能跑出好成绩?数据标准化就是这条“路”,现在很多医院这条路还没修好呢。我倒觉得,这种模型的推广可能得从头部医院开始,先跑通流程,做出试点,再逐步向下辐射。就像现在的远程医疗和医联体一样,先让大医院的专家通过技术协助小医院。算力不足可以考虑云服务,但关键还是数据质量。如果数据是‘垃圾’,AI分析出来的也是‘垃圾’。医生接受度嘛,我觉得只要能实实在在帮他们减轻负担,提高诊断效率,大部分医生还是会欢迎的,毕竟谁不想轻松点、准确点呢?未来可能需要国家出台统一标准,像修高铁一样把全国医疗数据的基础设施都建起来才行。

除了住院预测,NeuralCohort 在细粒度队列建模上的优势,确实能拓展到更多临床场景。比如在疾病早期预警方面,模型可以识别出处于疾病进展高风险阶段的患者群体,即使他们尚未出现典型症状,从而实现早期干预。在个性化治疗方案推荐上,模型可以根据患者的详细病史、基因组数据甚至生活方式(如果EHR中能整合的话),推荐最适合其个体的药物选择和治疗路径,避免‘千人一面’的治疗模式。在药物副作用预测上,它能识别出对特定药物反应不良的特殊人群,提前调整用药。这都需要模型能进一步整合多模态数据,并提升其在因果推断方面的能力。

我觉得最值得期待但也最需要解决的问题是,这项技术如何能够促进医疗公平性,而不是加剧医疗鸿沟。如果只在顶级医院应用,那结果就是高水平医疗服务进一步集中。但如果能下沉到基层,帮助到那些医疗资源匮乏的地区,那才是真正的价值。想象一下,一个基层医生,有了AI的辅助,也能对复杂的病例做出更准确的判断,甚至预测患者风险,这简直是革命性的。当然,这里面除了技术能力,还涉及到医疗系统内部的激励机制、责任划分(AI出错了谁负责?)以及公众对AI医疗的认知和信任度等一系列社会问题。技术再好,最终还是要服务于人,并且是所有人都受益,这才是我们真正要思考的。

公共卫生管理绝对是下一个大方向!你想啊,如果模型能实时对全国EHR数据进行有效汇聚和队列分析(当然这涉及数据共享和隐私),那就能实现对流行病爆发的早期趋势预警。比如,监测到某个区域特定发热或呼吸道症状患者数量激增,结合地理信息,可能比传统上报机制更早地发现疫情苗头。再比如,可以用于慢性病管理策略优化,通过分析糖尿病、高血压等大病种患者的地域分布和治疗依从性,精准投放健康教育资源,优化医保政策。它还能帮助医疗资源调配,例如提前预测某个区域对特定科室床位的需求,从而合理规划医院建设或医生配置。但关键难题是全国范围内的EHR数据互联互通和统一标准,这需要政府层面的强力推动。

关于细粒度患者队列建模带来的隐私问题,我觉得确实是值得深思的关键点。技术进步往往伴随着双刃剑效应。理论上说,对EHR数据进行更精细的特征提取和分析,意味着对个体信息的洞察更深,潜在的隐私泄露风险也相应增加。平衡之道在于多方面的制度和技术保障。例如,数据脱敏、加密存储是基础,更重要的是建立健全的法律法规和伦理审查机制,明确数据使用边界和责任归属。此外,差分隐私、联邦学习等新型技术也能在一定程度上实现数据共享和模型训练的同时,保护原始数据的隐私性。最终,需要一个多方参与的治理框架,确保技术向善。

问得好!我第一反应就是“数据安全”这四个字。你想想,如果AI模型能把你的病史、用药都分析得清清楚楚,甚至预测你啥时候会再住院,那万一这些数据被不法分子拿到,后果不堪设想啊!医院的数据系统本身就经常是攻击目标,现在又来个这么“智能”的分析工具,感觉数据躺在医院服务器里就更不安全了。我觉得除了技术加密,最重要的是加强内控,还有病人自己也得有知情权和选择权,我不想我的数据被用作研究,是不是可以拒绝?

隐私?别提了,我感觉现在在网上裸奔跟没穿衣服区别不大了。银行、快递、外卖……哪个没我的数据?医疗数据?那更是重量级了!不过话说回来,以前医生手写病历,你还得担心字迹潦草看不懂呢!现在至少能用AI提升诊断效率,减少误诊,这个大方向是好的。至于隐私,希望国家队能牵头搞一个绝对安全的‘数据保险箱’,然后我们普通人能拿到‘钥匙’,决定什么时候打开,给谁看。不然,我只能祈祷AI别把我分析出来得了什么‘疑难杂症’,然后广告轰炸我吧,哈哈。