DECODE:通用多组学高精度反卷积框架,助力深层解析复杂生物系统

哈工大等发布DECODE,一款深度学习多组学反卷积框架,统一分析转录组、蛋白组和代谢组数据,填补代谢组学空白,助力精准医学。

原文标题:一个模型搞定各种组学!哈工大等带来通用多组学高精度反卷积框架

原文作者:数据派THU

冷月清谈:

哈尔滨工业大学等团队发布了DECODE,一个基于深度学习的通用反卷积框架,首次实现了对转录组、蛋白组和代谢组数据的统一高精度反卷积。该框架通过构建伪组织训练集、消除批次效应、提升稳健性等手段,解决了传统反卷积方法在跨组学、跨队列比较中存在的系统性偏差问题,并在单细胞参考数据不完整的情况下依然保持稳健性。DECODE在多个数据集和测试场景中表现出色,尤其是在代谢组学反卷积方面取得了突破性进展,为整合海量多组学数据提供了强大的分析平台。

怜星夜思:

1、DECODE框架中,对抗训练在消除批次效应方面起到了关键作用。在实际应用中,对抗训练还有哪些潜在的风险或局限性?
2、DECODE框架在处理代谢组学数据反卷积方面取得了突破。代谢组学反卷积相较于转录组和蛋白组反卷积,其难点主要体现在哪些方面?
3、DECODE框架强调了在单细胞参考数据不完整的情况下,依然能准确估计已知细胞类型的相对丰度。在实际研究中,如果遇到完全没有参考数据的细胞类型,DECODE或者类似的反卷积方法还有发挥空间吗?可以尝试哪些策略来解决这个问题?

原文内容

图片
来源:ScienceAI
本文约2000字,建议阅读5分钟
首次实现了对转录组、蛋白组和代谢组数据的统一、高精度反卷积,并能在参考单细胞数据不完整的情况下依然稳健工作。

在精准医学研究中,一个核心问题是:如何从大量已有的组织样本数据中,解析出其中的细胞类型组成?反卷积算法为此提供了低成本、高通量的解决方案。

不过可惜的是,现有方法大多为单一组学「量身定制」——转录组有 CIBERSORTx、蛋白组有 scpDeconv,而代谢组甚至还没有专用工具。这种「各自为战」的格局,使得跨组学、跨队列的比较充满系统性偏差,严重制约了大规模多组学研究的发展。

来自哈尔滨工业大学等的团队带来了一个名为 DECODE 的通用反卷积框架。它通过精巧的深度学习架构,首次实现了对转录组、蛋白组和代谢组数据的统一、高精度反卷积,并能在参考单细胞数据不完整的情况下依然稳健工作,为充分利用海量多组学组织数据提供了强大工具。

相关研究内容以「DECODE: deep learning-based common deconvolution framework for various omics data」为题,于 2026 年 3 月 2 日发表在《Nature Methods》。

论文链接:https://www.nature.com/articles/s41592-026-03007-y

通用反卷积框架

目前的反卷积工具遵循「针对化」发展路径。转录组工具基于特定分布假设(如泊松分布),蛋白组工具则有不同的数学模型,而代谢组反卷积仍是空白。当研究者想比较不同组学层、不同队列的细胞丰度时,方法的异质性引入了无法量化的系统偏差,破坏了整合分析的可靠性。

而在当下的组学研究中,不同组学数据在尺度、分布、稀疏性和特征维度上差异巨大。并且,单细胞参考数据往往无法覆盖组织中存在的所有细胞类型,参考数据与组织目标数据通常来自不同供体、技术和健康状态,生理和技术变异引入的批次效应会严重干扰真实生物学信号的识别。

这就要求反卷积模型架构需要高度灵活、自适应力强,且必须能在参考数据缺失某些细胞类型(即存在未知细胞类型)的情况下,依然准确估计已知细胞类型的相对丰度。这也就成为了 DECODE 的基础设计需求。

图 1:DECODE 框架。

DECODE 框架主要包含了四个阶段,这些阶段共同确保对不同组学数据的精确且可靠的解卷:

  1. 第一阶段:构建「伪组织」训练集从单细胞数据中随机抽取细胞,根据随机生成的比例向量进行聚合,模拟出具有已知细胞组成的「伪组织」样本。这为模型提供了无限且带有真实标签的训练数据。


  2. 第二阶段:消除批次效应(对抗训练)这是 DECODE 的关键创新之一。框架引入了一个编码器、一个鉴别器和一个反卷积器。编码器提取特征,鉴别器试图判断这些特征来自伪组织还是真实目标组织,而反卷积器则专注于学习细胞组成信息。


    利用对抗训练,迫使鉴别器无法区分数据来源,从而在保留生物学信号的同时,有效消除了训练数据与目标数据之间的批次效应。此阶段完成后,编码器参数被固定。


  3. 第三阶段:提升稳健性(对比学习与降噪)为了应对各种噪声和组学数据差异,DECODE 对每个伪组织样本随机添加不超过 10% 的噪声,构建成对训练数据。


    一个注意力机制降噪器将嵌入特征分离为噪声特征和纯化特征。同时,对比学习策略拉近同一组织样本不同噪声版本的特征表示,推远不同样本的表示,从而增强模型对噪声的抵抗力。


  4. 第四阶段:推理与应用DECODE 提供两条路径——当单细胞参考数据能完全覆盖目标组织细胞类型时,走「标准反卷积」路径;当存在未知细胞类型时,走带有降噪器的「相对反卷积」路径,确保依然能准确估计已知细胞类型的比例。


性能超越

研究团队设计了极其严苛的验证方案,在 15 个数据集上构建了 7 大测试场景,涵盖了转录组、蛋白组、代谢组,以及空间转录组数据。

图 2:DECODE 转录组学和蛋白质组学数据解卷积性能概述。

在跨供体、跨疾病状态、跨健康状态、跨数据集、空间转录组、多细胞类型等几乎所有场景中,DECODE 的一致性相关系数均排名第一。即使在部分方法的「原问题设定」下,DECODE 的表现也优于它们。在真实组织数据上,DECODE 同样展现出卓越的准确性。

图 3:DECODE 代谢组学数据解卷积性能概述。

最为亮眼的是,DECODE 完成了代谢组学反卷积的突破。研究首次在三个单细胞代谢组数据集(小鼠肝脏、骨髓和人类结直肠癌)上验证了反卷积的可能性。在跨细胞类型、跨疾病状态、跨平台的测试中,DECODE 均取得了极高的预测精度。

经过四种扰动场景下的分析与在伪多组学和真实多组学队列中的应用,DECODE 在缺少模拟数据的情况下依然发表现出远超其他模型的精度。在批次效应干扰实验中,DECODE的表现也最为稳定。

通用化范式跃迁

DECODE 是一种能够处理转录组学、蛋白质组学和代谢组学数据的去卷积算法,它首次将反卷积从「组学专属」的工具箱,升级为跨组学的「通用」框架。

它不仅填补了代谢组学反卷积的空白,更重要的是,它为整合海量、异质的现有组学数据提供了统一的分析平台。有了 DECODE,研究者可以更可靠地比较不同疾病队列、不同组学层次的细胞组成变化,从而获得对复杂生物系统更完整的分子层面理解。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


代谢组学数据那可太复杂了!首先代谢物的种类太多了,而且很多细胞类型的代谢特征根本就没搞清楚。再说了,代谢反应又快又受环境影响,变数太多,反卷积起来可不就难上加难嘛。

这个问题很有深度!如果真的一点参考数据都没有,反卷积确实无从下手。但是,可以考虑一些变通的方法,比如用机器学习先聚类,看看能不能把一些未知的细胞类型给区分出来,然后再想办法去找一些相关的marker基因或者代谢物,也许能对未知细胞类型的身份有一些线索。

谢邀,代谢组的反卷积确实是个老大难。转录组和蛋白组好歹有基因和蛋白质做参照,代谢组呢?代谢物种类繁多,而且很多时候和细胞类型之间的关系还没完全搞清楚。此外,代谢物的动态变化也很快,所以反卷积难度自然就上去了。

对抗训练确实挺有效的,但也不是万能的。主要问题在于训练过程不稳定,需要精细调参,一不小心可能就过拟合了。而且,如果判别器太强,编码器可能就学不到有用的特征了,反而适得其反。

这个问题问的好!对抗训练这种方法虽然能消除批次效应,但有时候也会把一些真实的生物信号给干掉,就像好坏都一起扔了。所以在用的时候,得小心把握这个度,免得最后结果失真。

如果完全没有参考数据,那反卷积就有点像盲人摸象了。但也不是完全没招,可以试试先用已知的细胞类型把能解释的部分解释掉,剩下的就当成“未知成分”来分析,看看能不能从中发现新的细胞类型或者状态。或者,干脆就去做一些单细胞测序,自己建参考数据库!

代谢组学的难点主要在于以下几个方面:1. 代谢物种类繁多,结构复杂,检测难度大;2. 代谢过程受环境影响显著,动态范围广;3. 缺乏高质量的单细胞代谢组参考数据,细胞特异性代谢特征难以确定。这些因素都导致代谢组反卷积的准确性和可靠性面临挑战。