机器学习助力肝移植:精准预测HCC患者死亡风险,优化移植分配

法国团队利用机器学习,首次实现基于11647例临床数据的HCC肝移植双重死亡风险精准预测,研究明确双重风险核心驱动因素,并构建全新风险评分ELM-HCC。

原文标题:基于11647例临床数据,法国团队首次实现基于机器学习的HCC肝移植双重死亡风险精准预测

原文作者:数据派THU

冷月清谈:

法国研究团队利用机器学习,结合集成学习和SHAP分析,开发了一套新的HCC肝移植候选者死亡风险评估框架。该研究基于11647例临床数据,通过对比随机森林、XGBoost和LightGBM三种集成模型,并结合SHAP值进行监督聚类,明确了肝功能障碍和肿瘤进展是影响患者死亡的两大核心风险。研究团队构建的ELM-HCC评分系统,预测精度显著优于传统评分方法,并能识别具有不同风险特征的患者亚组,为临床决策提供更精准、可解释的风险评估工具。此外,研究首次将动态变量纳入评估,进一步提升了预测的准确性。这项研究填补了此前机器学习模型在精准评估HCC肝移植双重风险方面的空白,为优化肝移植等待名单和挽救患者生命提供了新思路。

怜星夜思:

1、文章中提到了多种风险评估模型,ELM-HCC模型相比于传统模型,最大的优势是什么?除了文中的数据支撑,你认为在实际应用中,ELM-HCC模型还可能遇到哪些挑战?
2、文章提到AFP_DIFF(甲胎蛋白差值)是关键预测指标,这个指标的引入有什么意义?除了甲胎蛋白,还有哪些类似的“动态变量”可能对预测肝移植风险有帮助?
3、文章中提到该研究能将患者分为7个风险亚组,这种分层对临床实践有什么意义?你认为未来是否有可能根据这些亚组的特征,制定更个性化的治疗方案?

原文内容

图片
来源:OpenBMB开源社区
本文约4500字,建议阅读10分钟
法国南巴黎高等电信学院和巴黎萨克雷大学的研究团队,提出了融合集成学习与 SHapley Additive exPlanations(SHAP)分析的机器学习框架,为 HCC 肝移植候选者的死亡风险评估提供了新解法。


肝癌因早期隐匿、进展迅猛等特点,一直以来素有「癌中之王」的称号。其中,肝细胞癌(HCC)作为最常见的肝癌类型,占到原发性肝癌的 70% - 90%,患者通常需要进行肝移植作为早期阶段的根治性手段,这也是众多 HCC 患者抓住生命希望的最后一根「救命稻草」。


然而,供体器官的极度稀缺让这份生的希望变得弥足珍贵。更棘手的是,HCC 肝移植候选者始终面临着肝功能衰竭与肿瘤进展的双重死亡威胁,两者相互交织、彼此影响,极大增加了患者等待期的死亡风险。因此,精准评估 HCC 肝移植候选者的等待期死亡风险,不仅是优化肝移植等待名单优先级和实现稀缺供体公平分配的关键,更是高效挽救每一位患者、守护来之不易的生命希望的核心挑战。


此前,如 Child-Pugh、Albumin-Bilirubin(ALBI)、Model for End-Stage Liver Disease (MELD) 等传统风险评估手段,已在肝脏疾病风险评估中广泛应用,但面对 HCC 患者的复杂境况却短板尽显:这些方法要么侧重肝功能和肝硬化程度评估,要么仅聚焦于肿瘤进展的预测,无法兼顾双重风险。即便后续诞生了 HALT-HCC、Mehta Model 等能同时考虑两种风险的综合评分系统,也因受限于线性模型、固定变量权重以及单时间点静态测量,无法捕捉影响因素间的相互作用和疾病动态进展的风险变化,难以实现个体化的准确风险评估。


针对这一临床痛点,来自法国南巴黎高等电信学院和巴黎萨克雷大学的研究团队,提出了融合集成学习(Ensemble Learning, EL)与 SHapley Additive exPlanations(SHAP)分析的机器学习框架,为 HCC 肝移植候选者的死亡风险评估提供了新解法。研究基于 11,647 例患者临床数据开展,对比了随机森林(RF)、XGBoost、LightGBM 三种集成模型,同时通过将 SHAP 值嵌入 Uniform Manifold Approximation and Projection(UMAP)低维空间并结合 K-medoids 算法进行监督聚类,明确了肝功能障碍和肿瘤进展是 HCC 患者死亡的两大核心风险。


这一研究针对性填补了此前机器学习模型在精准评估 HCC 肝移植候选者尤其是双重风险研究方面的空白,实现了 HCC 肝移植候选者 3 个月等待期死亡率的精准预测与临床可解释性,为 HCC 患者肝移植临床决策和风险分层提供了新工具。


相关成果以「Explainable Mortality Prediction for Liver Transplant Candidates with Hepatocellular Carcinoma: A Supervised Clustering Approach」为题,发表于 Health Data Science。


研究亮点:


* 本研究是首个通过机器学习模型进行深入分析 HCC 肝移植候选者等待名单死亡风险的综合性研究 

* 通过 SHAP + UMAP + K-medoids 实现 7 个临床可解释的风险亚组分层,明确双重风险核心驱动因素

* 基于 SHAP 筛选 8 个关键变量构建的全新风险评分 ELM-HCC,预测精度显著优于传统评分

* 首次将关键指标动态变量(如 AFP_DIFF)纳入 HCC 肝移植候选者风险评估,明确了其为 HCC 患者等待期死亡的关键预测指标


论文地址:

https://spj.science.org/doi/10.34133/hds.0295


数据集:大样本策略 + 动态变量引入


为减少混杂因素,研究采用了一个基于公共数据库数据的大样本策略。


具体来说,研究数据来自 Organ Procurement and Transplantation Network(OPTN)和 United Network for Organ Sharing(UNOS)的标准移植分析与研究(Standard Transplant Analysis and Research, STAR)文件,范围覆盖 2002 年 2 月 27 日至 2023 年 9 月 30 日期间登记的非多器官移植成年 HCC 患者。


此次研究以预测 HCC 患者肝移植 3 个月等待期的死亡率为核心目标,因此研究团队将研究人群分为两组进行分析,即在等待名单上超过三个月的患者,称为「on waiting list」;3 个月内在等待名单上死亡或因病情加重而无法接受移植的患者,称为「waitlist mortality」。最终,总的研究队列包含了 11,647 名患者,其中 11,199 名患者为「on waiting list」,448 名患者为「waitlist mortality」,数据包含临床、实验室和疾病相关多维度变量。


在数据预处理阶段,为了捕捉患者健康状态的动态特征,研究团队计算了传统评分中涉及的 6 个关键实验室变量的连续测量差值(DIFF),包括血清钠(serum sodium)、肌酐(creatinine)、白蛋白(albumin)、胆红素(bilirubin)、甲胎蛋白(AFP) 和 国际标准化比值(International Normalized Ratio, INR),以此捕获患者健康状态的动态变化轨迹,使总特征数增加到 31 个(25 个原始静态变量 + 6 个新增动态变量)。


对于缺失值的处理,数值变量(缺失率 < 7%)使用类别均值填补;分类变量(缺失率 < 0.1%)直接删除了包含缺失值的观测记录。


模型架构:端到端一体化流程 + 多集成学习模型对比


为了使 HCC 肝移植候选者 3 个月等待期死亡率的预测具有可靠的准确率和可解释性,研究团队构建了一个融合集成学习、SHAP 可解释性分析、UMAP 降维与 K-Medoids 监督聚类的端到端一体化流程,如下图所示:

HCC 肝移植候选者死亡风险评估与分层工作流程


首先,核心模型采用集成学习的树模型,这类模型对于处理表格和异构数据特别有效。为进一步对此类模型性能做出对比,研究共使用了 3 种基础的集成学习模型,包括随机森林、XGBoost 和 LightGBM。实验设置为在两种训练场景下展开,第一种仅使用 25 个原始静态变量;第二种使用 31 个含动态变量的动静态结合变量训练。


其次,可解释性的目的在于对预测结果进行科学、合理的解释,以增强临床决策的依据,为此研究团队将 SHAP 可解释性分析融入框架,用来识别关键风险因素并揭示模型预测。


对于全局解释来说,计算 SHAP 值量化每个特征对模型预测结果的贡献度,可以识别死亡率预测的核心风险因素,明确特征与死亡风险的关联方向;对于局部解释来说,通过 SHAP 总结图、SHAP 力图,可以展示单个特征值高低对于预测结果的具体影响,以及每个患者的特征贡献分布。此外,该环节还将为后续聚类分析提供 SHAP 值特征集,替代原始数据提升聚类的临床可解释性。


最后,为实现对患者的精细化风险分层,从群体水平预测转向亚组特异性分析,研究流程中加入了 UMAP 降维与 K-Medoids 监督聚类方法。首先将模型预测的 SHAP 值嵌入到 UMAP 降维空间中,之后采用 K-Medoids 算法对嵌入 3 维 UMAP 空间的 SHAP 值进行聚类,以发现具有不同临床特征的潜在患者亚组。该方法被称为「监督聚类」,因为聚类基于 SHAP 值而非原始数据。


最优聚类数确定是先通过量化指标 Silhouette coefficient、Davies-Bouldin index 筛选,然后再通过 SHAP 分析聚类特征进行临床验证,最终确定最优聚类数为 7。


实验结果:8 种传统评分作为对比 + 最优特征集训练新模型


风险评分表现对比


研究将所提框架与 8 种传统风险评估方法进行性能对比,包含 ALBI、Child–Pugh、AFP、Hazard associated with LT for HCC(HALT-HCC)、Mehta Model、MELD 及其两个变体 MELD-Na、MELD 3.0 。


考虑到数据集存在严重类别不平衡,研究对多数组(在等待名单上)进行了下采样,生成 30 个与少数组(等待期死亡)规模相当的子集,并针对每个平衡子集执行 3 折交叉验证,以确保同一患者的所有观测值均归为训练集或测试集。之后通过网格搜索确定 3 个集成模型的最优超参数配置,如下图所示:


超参数配置


结果显示,在传统评分系统中,Mehta Model 表现最佳,AUROC 达 0.782,紧随其后的是 HALT-HCC,AUROC 为 0.763。更重要的是,这两种模型在敏感性和特异性方面的表现更为平衡。MELD 3.0 的表现虽然优于基础 MELD 和 MELD-Na,但其敏感性和特异性存在不平衡的问题。


集成学习模型框架与 8 种传统评分系统的实验比较


而当实验扩展到集成学习框架时,首先在 25 个静态变量上的训练,其准确率均超过了传统评分系统。其中 RF 表现最佳,AUROC 为 0.796,且 72.41% 的敏感性和 75.24% 的特异性也表现的相当平衡;在引入包含动态变量的 31 个动静态结合变量后,所有集成学习模型性能更上一层楼。其中 LightGBM 的 AUROC 达到 0.826,敏感性达到最高的 77.42%,是识别高危患者最有效的模型。


识别关键风险因素能力分析

在模型训练完成后,研究将仅使用最相关的特征来评估它们的性能。为此研究团队针对性能最优的 LightGBM 模型,采用 Gain importance 和 SHAP global importance 两种特征重要性评估方法对关键特征进行筛选。


基于 LightGBM 模型(性能最优模型),SHAP global importance 筛选的前 8 个特征使得模型性能达到了最优表现,AUROC 达 0.835,敏感性为 77.14%,特异性为 75.64%,不仅优于 Gain importance 筛选结果(8 个特征时 AUROC 为 0.812;12 个特征时达到最佳,为 0.828),还高于 LightGBM 在 31 个完整变量集上的表现(AUROC 为 0.826),因此被研究团队选择为最优特征集。


利用 SHAP global importance 筛选的 LightGBM 模型的特征重要性排序


最终,研究确定并基于最优特征集训练的 LightGBM 模型,构建了针对 HCC 患者的概率性死亡率评分,称为 ELM-HCC。值得一提的是,LightGBM 在简化后的变量集上比完整的 31 个变量集上的 AUROC 更好,体现了所选取的 8 个变量具备更强的预测影响力,同时,关键相关特征中出现的 AFP_DIFF 也突出了纳入动态信息的重要性。


风险分层与亚组分析


研究基于 SHAP 值的监督聚类识别出 7 个具有不同临床特征和风险水平的患者亚组,如下图 B 清晰的展示了聚类 1 到聚类 7 死亡概率逐渐增加的死亡分析按分层。


A 为基于 SHAP 嵌入值的 UMAP 2D 可视化聚类

B 为 7 个聚类观测值的死亡概率箱型图和群体图


研究基于 Kruskal-Wallis 检验的进一步分析,揭示了不同聚类间变量的差异。如 SHAP 力图所展示:从聚类 1到聚类 7,死亡风险概率呈递进式增长,如代表性患者的死亡概率从 0.03 上升到 0.98。这一趋势与箱型图中所观察到的排名一致,凸显了聚类方法的有效性。


7 个亚组代表的 SHAP 力图


另外,亚组分析还清晰地揭示了导致高死亡率风险的两个主要原因,即严重的肝功能衰竭(以高胆红素、高肌酐和中度腹水为特征,三者均对应正向 SHAP 值,显著增加死亡风险)和活跃的肿瘤进展(以高 AFP 水平为特征)。


总的来说,本研究所提出的基于 LightGBM 和 SHAP 可解释性分析的机器学习框架 ELM-HCC,在预测 HCC 肝移植候选者 3 个月等待期死亡风险方面,展现出显著优于传统评分系统的性能,同时通过监督聚类揭示具有不同风险特征的患者亚组,为临床决策提供了更精准、更具解释性的风险评估工具。


革新肝移植候选者风险评估手段,综合性方法弥补研究空白


如上文所述,肝癌正在成为一项全球性的公共卫生难题,面对日益严峻的疾病挑战和越来越高的医疗要求,科学合理的规划肝移植候选人名单显得弥足珍贵。早在 2002 年,Model for End-Stage Liver Disease(MELD )就已经被应用于肝移植候选名单的优先级排序,然而经过多次修订,MELD 的分配仍然无法公平地满足所有候选人。


而机器学习凭借其对高维和多模态数据的处理能力,如今已成为预测器官移植候选名单死亡风险的最佳方案。


此前已有机器学习模型应用于肝移植死亡率预测,如麻省理工学院、加州大学旧金山分校以及得克萨斯大学的联合团队,提出了基于最优分类树(OCTs)构建的死亡率优化预测模型 OPOM。基于该模型分配肝脏,每年死亡人数比基于 MELD 可减少约 418 例,各 UNOS 区域及各疾病严重程度等级死亡/移除人数均呈显下降。另外,该模型还调整了对非 HCC 和 HCC 患者肝脏分配数量,使肝移植分配得到显著优化,减少了候选者死亡。


论文题目:Development and validation of an optimized prediction of mortality for candidates awaiting liver transplantation

论文地址:

https://www.sciencedirect.com/science/article/pii/S1600613522090335


不过,OPOM 虽表现出色,但该模型基于 HCC 和非 HCC 混合队列,未针对性解决 HCC 患者面临的肝功能衰竭与肿瘤进展双重风险问题。而 ELM-HCC 无疑是对此空白的填补。


最后,本次研究不仅仅是对前人研究的精进和拓展,更难能可贵的是如作者所言,是对当前研究空白的弥补,通过首次实现 HCC 肝移植候选者 3 个月等待期死亡率可解释性精准预测,为机器学习+器官移植候选者风险评估提供了新思路。


参考资料:1.https://spj.science.org/doi/10.34133/hds.02952.https://www.sciencedirect.com/science/article/pii/S1600613522090335


编辑:文婧

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


从纯技术的角度看,ELM-HCC展现了更高的预测精度。然而,医疗决策的复杂性远不止于此。全面取代传统评分系统,需要考虑以下风险:

1. 可解释性与信任度: 传统评分系统通常基于明确的生理指标和临床经验,医生易于理解和信任。而AI模型的决策过程相对隐蔽,可能难以获得医生的充分信任。
2. 数据偏差与泛化能力: AI模型的性能高度依赖于训练数据。如果数据存在偏差,可能导致模型对特定人群的预测不准确。
3. 责任归属: 如果AI模型出现误判,导致不良后果,责任该如何界定?
4. 伦理问题: 完全依赖AI可能导致过度医疗或资源分配不公。

因此,我认为在时机成熟前,应该采取“人机协作”的模式,结合AI的预测能力和医生的临床经验,共同制定决策。同时,需要加强对AI模型的监管,确保其公平、透明和负责任。

我觉得SHAP值就像一个“翻译官”,把AI说的“火星语”翻译成医生能听懂的“地球语”。以后医生看病,不光能知道AI给出的结论,还能知道AI是怎么想的,这样才能更好地用AI来辅助治疗嘛!说不定以后AI还能帮我们中医分析病情呢,想想就觉得神奇!

取代传统评分系统?这事儿我觉得得慎重!AI是厉害,但医疗这行,人命关天,不能光看数据。你想啊,如果AI算出来这个人不行了,直接取消移植资格,但实际上他还有希望呢?这不就耽误事儿了吗?而且,谁来保证AI绝对不出错?所以,我觉得AI可以帮忙,但最终还得医生拍板,毕竟他们更懂病人。

我认为以下动态指标可能在HCC肝移植风险评估中发挥重要作用:

1. 肿瘤标志物变化率: 除了甲胎蛋白(AFP),其他肿瘤标志物(如CEA、CA19-9)的变化速率可能反映肿瘤的活跃程度。
2. 肝功能指标变化趋势: 胆红素、白蛋白、凝血酶原时间等指标的动态变化,可以反映肝功能衰竭的进展速度。
3. 腹水和肝性脑病程度的变化: 这两项指标的恶化程度直接关系到患者的生活质量和生存期。
4. Child-Pugh或MELD评分的动态变化: 这些综合评分的变动可以更全面地反映患者的整体状况。
5. 治疗反应: 患者对TACE、放疗等治疗的反应情况,可以反映肿瘤的侵袭性。

这些指标之所以重要,是因为它们能捕捉到疾病的动态变化,帮助医生更准确地判断患者的病情进展和风险程度。

我觉得吧,病人的精神状态也算一个!你想啊,如果一个病人天天积极向上,配合治疗,那肯定比一个天天唉声叹气、啥也不想干的病人更有希望。虽然这玩意儿没法量化,但医生肯定能看出来。有时候,心态好真的能战胜疾病!

SHAP值在医疗领域的应用潜力巨大:

1. 疾病诊断: 可以帮助医生识别影响诊断结果的关键因素,提高诊断准确率。
2. 治疗方案选择: 可以根据患者的个体特征,评估不同治疗方案的疗效,实现个体化治疗。
3. 药物研发: 可以帮助研究人员理解药物的作用机制,优化药物设计。
4. 预后预测: 可以预测患者的生存期和复发风险,为患者提供更准确的预后信息。
5. 临床决策支持: 可以为医生提供客观、可解释的决策依据,提高临床决策的质量。

SHAP值的优势在于其可解释性。它可以告诉我们每个特征对预测结果的贡献程度,从而帮助医生更好地理解模型的决策过程,并将其与自己的临床经验相结合。

除了AFP_DIFF,我觉得血清钠、肌酐这些指标的变化趋势也很重要。你想啊,肝功能衰竭是个动态过程,今天正常不代表明天也正常。如果这些指标持续恶化,说明病情在快速进展,风险肯定会增加。而且,观察患者的用药情况和并发症发展,也能更全面地评估风险。

我觉得现在就完全取代传统评分系统可能还不太现实。ELM-HCC虽然看起来更准,但毕竟是个“黑盒子”,医生和患者可能更信任用了很久、知根知底的传统方法。而且,AI模型的数据偏差问题也需要重视,万一模型对某些特定人群有偏见,那就更不公平了。所以,我觉得可以先让ELM-HCC作为辅助工具,给医生提供参考,慢慢积累信任,再考虑更深入的应用。

嘿,这个问题有点硬核啊!LightGBM就像一个学霸,它不仅学习能力强(精度高),而且效率还很高(内存占用少,速度快)。这得益于它的直方图算法和leaf-wise生长策略。简单来说,就是它更聪明,更懂得如何高效地利用资源,所以在这种复杂的临床数据分析中脱颖而出。

ELM-HCC除了预测精度更高,还考虑了MELD评分未纳入的动态变量,比如AFP_DIFF,能更好地反映患者病情的动态变化。此外,ELM-HCC结合SHAP分析,提供了更强的可解释性,医生可以更清楚地了解哪些因素影响了患者的风险评估,从而做出更明智的决策。

LightGBM使用基于直方图的决策树算法,减少了内存占用和计算成本,同时使用leaf-wise的生长策略,能够更快地收敛到最优解。对于包含大量患者临床数据的大样本,以及包含多种特征的数据集,LightGBM的效率和精度可能是它胜出的关键。