多模态AI模型Orpheus:基于病理图像革新乳腺癌精准治疗

Nature子刊发布多模态AI模型Orpheus,通过H&E病理图像实现乳腺癌高风险分层与复发预测的重大突破,为精准治疗提供新方案。

原文标题:Nature 子刊重磅发布:多模态AI模型Orpheus革新乳腺癌精准治疗—基于H&E病理图像实现高风险分层与复发预测的重大突破

原文作者:数据派THU

冷月清谈:

《Nature Communications》发表文章介绍了一种名为Orpheus的多模态深度学习工具,旨在利用常规苏木精-伊红(H&E)染色全切片图像,结合文本病理报告,以推断激素受体阳性(HR+)早期乳腺癌的Oncotype DX®复发评分(RS)。该模型通过Transformer架构整合图像和文本信息,在识别高风险患者方面表现出超越传统方法的准确性。Orpheus不仅能有效预测远处复发风险,还具有经济高效性和临床应用潜力。研究结果表明,Orpheus在多个数据集上表现优异,尤其在区分高风险患者和预测复发方面,优于传统的ODX RS和基于临床病理特征的模型。通过可视化注意力机制和核特征分析,该模型揭示了预测背后的生物学意义,如免疫浸润和细胞增殖与高风险疾病的相关性。Orpheus的成功为HR+/HER2-EBC患者提供了一种新的、经济高效的复发风险评估方法,有助于推进个性化医疗的发展,并克服传统检测方法的局限性。该研究强调了多模态数据在医疗领域的重要性,并展示了如何通过深度学习技术整合多模态数据来提高预测性能,为医疗决策提供更科学、准确的支持,并推动乳腺癌研究的进一步发展。

怜星夜思:

1、Orpheus模型主要依赖H&E染色图像和病理报告,那么对于那些病理报告不够详细或者图像质量不高的医院,这个模型的适用性会受到影响吗?如何解决这个问题?
2、文章提到Orpheus模型具有可解释性,能揭示预测背后的生物学意义。那么这些被揭示的生物学意义,比如免疫浸润和细胞增殖,是否能反过来指导新的药物研发或者治疗策略?
3、Orpheus模型在预测远处复发风险方面表现优于ODX RS,那么未来它是否有可能完全取代ODX RS,成为乳腺癌复发风险评估的金标准?

原文内容

来源:葩米学术

本文约3600字,建议阅读6分钟

本文介绍了多模态AI模型Orpheus革新乳腺癌精准治疗—基于H&E病理图像实现高风险分层与复发预测的重大突破

期刊《Nature Communications》上发表的文章《Multimodal histopathologic models stratify hormone receptor-positive early breast cancer》涉及一种多模态的组织病理学模型,该模型用于对激素受体阳性的早期乳腺癌进行分层分析。具体而言,这些模型结合了多种数据类型和分析技术,如组织切片图像、分子特征及临床信息,从而能够更精确地评估患者的病理特征和预后。这种分层方法旨在提高对早期乳腺癌患者的个体化治疗策略,以优化临床决策和治疗效果。通过整合不同的生物标志物和临床数据,这些模型能够识别出不同患者群体的风险程度,从而为激素受体阳性的早期乳腺癌患者提供更为精准的诊断和治疗方案。


01 引言

研究旨在开发一种名为Orpheus的多模态深度学习工具,以利用常规苏木精-伊红(H&E)染色全切片图像推断激素受体阳性(HR+)早期乳腺癌(EBC)的Oncotype DX®复发评分(RS)。研究收集了6172例HR+/HER2-EBC患者的数据,采用基于Transformer的模型,整合H&E图像与文本病理报告进行训练和评估。结果显示,Orpheus在识别高风险患者方面表现优异,其准确性超越传统的ODX RS和基于临床病理特征的模型,为个性化辅助治疗提供了重要依据。此外,Orpheus不仅能识别高风险患者,还在ODX RS≤25的群体中有效预测远处复发风险,揭示了生物学相关性。这一模型的经济高效性和临床应用潜力为未来的癌症管理提供了新的方向。未来研究将进一步验证其临床效用,并探索整合其他生物标志物的可能性。

02 模型介绍

这篇文章中研究的模型名为Orpheus,它是一个多模态深度学习模型,旨在通过整合苏木精-伊红(H&E)染色全切片图像(WSI)和文本病理报告来推断Oncotype DX®(ODX)复发评分(RS)。

一、模型架构

Orpheus模型是一个多模态深度学习架构,它结合了图像数据和文本数据来提高预测性能。

  1. 数据预处理模块:
    • 图像预处理:对H&E染色的WSI进行预处理,包括切片、归一化等步骤,以提取出包含组织的图像块(tiles)。
    • 文本预处理:对病理报告进行文本解析,提取关键信息,如肿瘤大小、淋巴结状态、Nottingham分级等。
  2. 特征提取模块:
    • 图像特征提取:使用预训练的Transformer模型(如CTransPath)对图像块进行特征提取,将图像块映射到高维特征空间。
    • 文本特征提取:使用自然语言处理(NLP)技术,如BERT模型,对病理报告进行特征提取,得到文本的嵌入表示。
  3. 多模态融合模块:
    • 将图像特征和文本特征进行融合,采用的方法包括简单的特征拼接、注意力机制等,以捕获跨模态的相互作用和相关性。
  4. 回归模块:
    • 使用一个全连接神经网络或Transformer的回归头,将融合后的多模态特征映射到连续的ODX RS值。

二、各模块功能

  1. 图像预处理模块:
    • 功能:准备高质量的图像数据供后续的特征提取使用。
    • 具体步骤:切片、归一化、去噪等,以确保图像数据的一致性和可比较性。
  2. 图像特征提取模块(基于Transformer):
    • 功能:从图像块中提取高维特征,以捕获图像中的病理信息。
    • 具体实现:使用预训练的Transformer模型对图像块进行编码,生成具有丰富语义信息的特征向量。
  3. 文本特征提取模块(基于BERT):
    • 功能:从病理报告中提取关键信息,以文本形式表征患者的临床病理特征。
    • 具体实现:使用BERT模型对病理报告进行编码,生成文本的嵌入表示,这些嵌入可以反映报告中的语义信息。
  4. 多模态融合模块:
    • 功能:整合图像特征和文本特征,以充分利用多模态数据中的互补信息。
    • 具体实现:采用注意力机制或简单的特征拼接方法,将图像特征和文本特征进行融合,生成多模态特征表示。
  5. 回归模块:
    • 功能:将多模态特征映射到连续的ODX RS值,以实现复发风险的预测。
    • 具体实现:使用全连接神经网络或Transformer的回归头对多模态特征进行处理,输出预测的ODX RS值。

三、模型特点

  • 多模态:Orpheus模型结合了图像数据和文本数据,充分利用了多模态数据中的互补信息,提高了预测性能。
  • 深度学习:采用先进的深度学习技术,如Transformer和BERT,对图像和文本数据进行高效的特征提取和融合。
  • 可解释性:通过可视化注意力机制和核特征分析,揭示了模型预测背后的生物学意义,提高了模型的可解释性。
总之,Orpheus模型通过整合多模态数据和先进的深度学习技术,实现了对HR+/HER2-EBC患者复发风险的准确预测,具有潜在的临床应用价值。

03 研究结果

研究成果概述

Orpheus模型是一个多模态深度学习工具,旨在克服ODX RS的成本和时间限制,为HR+/HER2-早期乳腺癌(EBC)患者提供一种经济高效的复发风险评估方法。

  1. 模型开发成功:
    • 成功开发了Orpheus多模态深度学习模型,该模型能够整合H&E染色全切片图像(WSI)和文本病理报告来推断ODX RS。
  2. 模型性能优越:
    • 在内部测试集(MSK-BRCA)上,Orpheus模型在识别高风险疾病(RS>25)方面表现出色,AUC达到0.88,显著高于基于临床病理特征的列线图(AUC为0.73)。
    • 在外部验证集(IEO-BRCA和MDX-BRCA)上,Orpheus模型同样表现出优异的性能,AUC分别为0.81和0.80-0.85。
  3. 多模态融合提升性能:
    • 与单模态模型(仅基于WSI或文本报告)相比,多模态Orpheus模型在识别高风险疾病方面的性能显著提升。
    • 多模态融合能够捕获跨模态的相互作用和相关性,从而提供更准确的风险预测。
  4. 临床验证有效:
    • 在具有长期随访数据的患者中,Orpheus模型在识别远处复发风险方面的性能优于ODX RS本身。
    • 对于ODX RS≤25的患者,Orpheus模型的平均时间依赖性AUC为0.75,而ODX RS仅为0.49。
  5. 模型可解释性强:
    • 通过可视化注意力机制和核特征分析,揭示了模型预测背后的生物学意义。
    • 发现免疫浸润和细胞增殖等特征与高风险疾病显著相关,进一步验证了模型的准确性和可靠性。

研究数据

  1. 数据集组成:
    • 研究共收集了6172例HR+/HER2-EBC患者的数据,包括H&E染色的FFPE组织切片、病理报告和ODX RS。
    • 数据集分为训练集(80%)、验证集和测试集(20%)。
  2. 数据集特点:
    • 数据集来自三个不同的机构,确保了数据的多样性和泛化能力。
    • 数据集包含丰富的临床病理信息,为模型的开发和验证提供了坚实的基础。
  3. 模型训练与验证:
    • 使用训练集对Orpheus模型进行训练,并在验证集上进行初步的性能评估。
    • 在内部测试集和外部验证集上全面评估模型的性能,包括AUC、AUPRC、F1分数等多个指标。
  4. 临床数据分析:
    • 对具有长期随访数据的患者进行临床分析,评估Orpheus模型在识别远处复发风险方面的性能。
    • 通过与ODX RS的比较,验证Orpheus模型在临床应用中的优越性。

研究成果的意义

Orpheus模型的开发和验证为HR+/HER2-EBC患者的复发风险评估提供了一种新的、经济高效的方法。该模型不仅性能优异,而且具有高度的可解释性,能够为临床决策提供有力支持。此外,Orpheus模型还具有潜在的临床应用价值,能够扩大ODX RS的应用范围并提高个性化治疗的效果。

04 研究意义

1. 推进个性化医疗的发展

个性化医疗是当前医疗领域的重要趋势,旨在根据患者的个体特征提供定制化的治疗方案。这篇文章通过开发Orpheus多模态深度学习模型,成功实现了对激素受体阳性早期乳腺癌患者复发风险的准确预测,为个性化治疗提供了科学依据。模型的应用可以帮助医生更准确地评估患者的风险状况,从而制定更加个性化的治疗方案,提高治疗效果和患者的生活质量。

2. 克服传统检测方法的局限性

传统的Oncotype DX(ODX)复发评分(RS)检测方法虽然有效,但其高成本和长检测时间限制了其在全球范围内的应用。Orpheus模型的提出,为克服这些局限性提供了新的思路。该模型利用常规苏木精-伊红(H&E)染色全切片图像(WSI)和文本病理报告来推断ODX RS,无需额外的基因检测,大大降低了检测成本和时间。这使得更多患者能够受益于复发风险预测技术,提高了医疗资源的利用效率。

3. 促进多模态数据在医疗领域的应用

这篇文章强调了多模态数据在医疗领域的重要性,并展示了如何通过深度学习技术整合多模态数据来提高预测性能。Orpheus模型的成功开发,为多模态数据在医疗领域的应用提供了有力的支持。未来,随着医疗数据的不断积累和多模态数据整合技术的不断发展,类似的模型有望在更多疾病领域得到应用,推动医疗领域的数字化转型。

4. 提升医疗决策的科学性和准确性

通过整合图像和文本数据,Orpheus模型能够提供更全面、更准确的患者信息,从而帮助医生做出更科学的医疗决策。这种基于大数据和人工智能的决策支持系统,有望在未来成为医疗领域的重要工具,提高医疗服务的质量和效率。

5. 推动乳腺癌研究的发展

乳腺癌是全球范围内最常见的恶性肿瘤之一,对女性健康构成严重威胁。这篇文章的研究成果为乳腺癌的复发风险预测提供了新的思路和方法,有望推动乳腺癌研究的进一步发展。通过深入研究乳腺癌的复发机制和治疗策略,有望在未来开发出更加有效的治疗方法和预防措施,提高患者的生存率和生活质量。

总结

这篇文章的发表不仅为个性化医疗的发展提供了新的思路和方法,还克服了传统检测方法的局限性,促进了多模态数据在医疗领域的应用。同时,该研究成果有望提升医疗决策的科学性和准确性,推动乳腺癌研究的发展。这些意义不仅体现在学术研究层面,更将对临床实践产生深远的影响。

编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


取代ODX RS?我觉得短期内不太可能。ODX RS毕竟是经过长期临床验证的,有大量的真实世界数据支持。Orpheus要成为金标准,还需要更多的前瞻性研究,证明其在不同人群、不同医院的稳定性和可靠性。不过,Orpheus作为一种更经济高效的替代方案,潜力巨大。

绝对有可能!AI模型的可解释性是其最大的价值之一。如果模型发现免疫浸润在高风险患者中更常见,那么针对免疫系统的治疗方法可能更有效。细胞增殖也是一个重要的靶点。关键在于将这些发现转化成具体的实验设计和临床试验。

这不就是AI辅助药物发现的典型应用场景吗?想象一下,如果Orpheus能精准识别出对某种特定药物更敏感的患者亚群,那就能大大提高临床试验的成功率,加速新药的上市。当然,前提是我们要充分理解模型背后的生物学机制,避免盲目相信AI。

理论上是Yes的!模型揭示的生物学关联,为我们提供了新的研究方向。但是从发现靶点到成功上市新药,路还很长。需要大量的实验验证,包括体外细胞实验、动物模型等等。而且别忘了,AI只是辅助工具,最终的决策还得靠科学家和医生。

从工程角度看,数据质量是所有AI模型的基础。如果数据源头有问题,再精妙的模型也无力回天。对于病理报告不够详细的情况,也许可以考虑引入NLP技术,自动从非结构化文本中提取关键信息。至于图像质量,图像增强技术或许能帮上忙,但最根本的还是需要提升图像采集的标准化程度。

金标准?这可不好说。医学领域是很保守的,一项新技术要被广泛接受,需要经历漫长的过程。但Orpheus的出现,至少打破了现有格局,提供了一个新的选择。也许未来,我们会看到更多类似的AI模型出现,共同推动乳腺癌的精准治疗。

这个问题很关键!报告不详细或图像质量差确实会影响模型性能。可能的解决方案包括:1. 增加数据预处理步骤,比如图像增强、去噪;2. 引入迁移学习,用高质量数据预训练模型;3. 考虑加入其他的临床数据,比如患者的用药历史,家族病史等,作为补充信息。

这确实是个实际问题!数据质量的挑战在医疗AI应用里太常见了。我觉得除了技术手段,还得考虑流程上的优化,比如加强对病理医生的培训,提高报告的规范性。另外,引入主动学习,让模型主动挑选需要人工标注的数据,也能提高效率。

个人认为,完全取代不太现实,但可以作为补充或辅助手段。ODX RS提供了基因层面的信息,是Orpheus目前无法触及的。未来更可能的趋势是,将Orpheus和ODX RS结合起来,形成一个更全面的风险评估体系。当然,成本效益也是一个重要的考量因素。