Nature子刊发布多模态AI模型Orpheus,通过H&E病理图像实现乳腺癌高风险分层与复发预测的重大突破,为精准治疗提供新方案。
原文标题:Nature 子刊重磅发布:多模态AI模型Orpheus革新乳腺癌精准治疗—基于H&E病理图像实现高风险分层与复发预测的重大突破
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章提到Orpheus模型具有可解释性,能揭示预测背后的生物学意义。那么这些被揭示的生物学意义,比如免疫浸润和细胞增殖,是否能反过来指导新的药物研发或者治疗策略?
3、Orpheus模型在预测远处复发风险方面表现优于ODX RS,那么未来它是否有可能完全取代ODX RS,成为乳腺癌复发风险评估的金标准?
原文内容
-
数据预处理模块:
-
图像预处理:对H&E染色的WSI进行预处理,包括切片、归一化等步骤,以提取出包含组织的图像块(tiles)。
-
文本预处理:对病理报告进行文本解析,提取关键信息,如肿瘤大小、淋巴结状态、Nottingham分级等。
-
特征提取模块:
-
图像特征提取:使用预训练的Transformer模型(如CTransPath)对图像块进行特征提取,将图像块映射到高维特征空间。
-
文本特征提取:使用自然语言处理(NLP)技术,如BERT模型,对病理报告进行特征提取,得到文本的嵌入表示。
-
多模态融合模块:
-
将图像特征和文本特征进行融合,采用的方法包括简单的特征拼接、注意力机制等,以捕获跨模态的相互作用和相关性。
-
回归模块:
-
使用一个全连接神经网络或Transformer的回归头,将融合后的多模态特征映射到连续的ODX RS值。
-
图像预处理模块:
-
功能:准备高质量的图像数据供后续的特征提取使用。
-
具体步骤:切片、归一化、去噪等,以确保图像数据的一致性和可比较性。
-
图像特征提取模块(基于Transformer):
-
功能:从图像块中提取高维特征,以捕获图像中的病理信息。
-
具体实现:使用预训练的Transformer模型对图像块进行编码,生成具有丰富语义信息的特征向量。
-
文本特征提取模块(基于BERT):
-
功能:从病理报告中提取关键信息,以文本形式表征患者的临床病理特征。
-
具体实现:使用BERT模型对病理报告进行编码,生成文本的嵌入表示,这些嵌入可以反映报告中的语义信息。
-
多模态融合模块:
-
功能:整合图像特征和文本特征,以充分利用多模态数据中的互补信息。
-
具体实现:采用注意力机制或简单的特征拼接方法,将图像特征和文本特征进行融合,生成多模态特征表示。
-
回归模块:
-
功能:将多模态特征映射到连续的ODX RS值,以实现复发风险的预测。
-
具体实现:使用全连接神经网络或Transformer的回归头对多模态特征进行处理,输出预测的ODX RS值。
-
多模态:Orpheus模型结合了图像数据和文本数据,充分利用了多模态数据中的互补信息,提高了预测性能。
-
深度学习:采用先进的深度学习技术,如Transformer和BERT,对图像和文本数据进行高效的特征提取和融合。
-
可解释性:通过可视化注意力机制和核特征分析,揭示了模型预测背后的生物学意义,提高了模型的可解释性。
-
模型开发成功:
-
成功开发了Orpheus多模态深度学习模型,该模型能够整合H&E染色全切片图像(WSI)和文本病理报告来推断ODX RS。
-
模型性能优越:
-
在内部测试集(MSK-BRCA)上,Orpheus模型在识别高风险疾病(RS>25)方面表现出色,AUC达到0.88,显著高于基于临床病理特征的列线图(AUC为0.73)。
-
在外部验证集(IEO-BRCA和MDX-BRCA)上,Orpheus模型同样表现出优异的性能,AUC分别为0.81和0.80-0.85。
-
多模态融合提升性能:
-
与单模态模型(仅基于WSI或文本报告)相比,多模态Orpheus模型在识别高风险疾病方面的性能显著提升。
-
多模态融合能够捕获跨模态的相互作用和相关性,从而提供更准确的风险预测。
-
临床验证有效:
-
在具有长期随访数据的患者中,Orpheus模型在识别远处复发风险方面的性能优于ODX RS本身。
-
对于ODX RS≤25的患者,Orpheus模型的平均时间依赖性AUC为0.75,而ODX RS仅为0.49。
-
模型可解释性强:
-
通过可视化注意力机制和核特征分析,揭示了模型预测背后的生物学意义。
-
发现免疫浸润和细胞增殖等特征与高风险疾病显著相关,进一步验证了模型的准确性和可靠性。
-
数据集组成:
-
研究共收集了6172例HR+/HER2-EBC患者的数据,包括H&E染色的FFPE组织切片、病理报告和ODX RS。
-
数据集分为训练集(80%)、验证集和测试集(20%)。
-
数据集特点:
-
数据集来自三个不同的机构,确保了数据的多样性和泛化能力。
-
数据集包含丰富的临床病理信息,为模型的开发和验证提供了坚实的基础。
-
模型训练与验证:
-
使用训练集对Orpheus模型进行训练,并在验证集上进行初步的性能评估。
-
在内部测试集和外部验证集上全面评估模型的性能,包括AUC、AUPRC、F1分数等多个指标。
-
临床数据分析:
-
对具有长期随访数据的患者进行临床分析,评估Orpheus模型在识别远处复发风险方面的性能。
-
通过与ODX RS的比较,验证Orpheus模型在临床应用中的优越性。