SIMO:基于概率对齐的多组学单细胞数据空间整合新方法

浙江大学团队提出SIMO算法,利用概率对齐整合多组学单细胞数据,实现空间重构和基因调控分析,为疾病研究提供新视角。

原文标题:Nat. Commun. | 基于概率对齐的多组学数据空间整合方法

原文作者:数据派THU

冷月清谈:

浙江大学范骁辉、陆晓燕团队在《Nature Communications》上发表文章,介绍了一种名为SIMO(Spatial Integration of Multi-Omics)的新算法,旨在解决多模态单细胞数据空间整合的难题。SIMO通过概率对齐和最优传输算法,能够整合空间转录组数据以及其他单细胞多组学数据,重构细胞类型的空间分布,并揭示基因调控的空间模式。该方法采用分步对齐策略,首先整合空间转录组和单细胞转录组数据,然后整合非转录组数据,如染色质可及性数据。SIMO在模拟和真实数据集上均表现出优于现有工具的性能,尤其在处理非转录组数据和多模态数据时优势明显。研究结果表明,SIMO能够准确重构多组学细胞类型的空间分布,揭示不同组学之间的生物学关系,并能应用于小鼠胚胎、大脑以及人类心肌梗死等生物数据集的分析,为深入理解组织生理和病理状态提供重要依据。该工具为疾病研究和治疗策略开发提供了新的视角。

怜星夜思:

1、SIMO算法中,超参数α如何影响整合结果?实际应用中如何选择合适的α值?
2、SIMO算法在处理不同类型的组学数据时,如何保证整合的准确性和生物学意义?
3、SIMO算法在疾病研究和治疗策略开发方面有哪些潜在应用?除了文中提到的小鼠皮层和人类心肌梗死,还可以应用在哪些疾病或研究方向?

原文内容

来源:IntelliOmics

本文约2000字,建议阅读5分钟

随着单细胞组学测序技术的发展,SIMO有望更全面地整合关键基因调控数据,在疾病研究和治疗策略开发等方面具有巨大潜力。


论文背景

本文由浙江大学范骁辉、陆晓燕团队发表于Nature Communications期刊。文章链接附在本文文末。


文章解析

研究背景
空间组学技术和单细胞组学技术的飞速发展为解析组织微环境的分子机制提供了高分辨率工具。然而,现有的空间组学技术主要聚焦单一模态(如转录组或蛋白质组),难以同时捕获染色质可及性、DNA甲基化等多模态信息,限制了在多模态水平上全面解析组织生物学的能力;单细胞测序技术虽然能提供多种组学数据,但组织解离导致了空间信息的丢失,难以在空间背景下进行综合分析。

现有的计算方法主要集中在整合空间转录组数据与单细胞RNA测序数据,或在已配对的多组学数据上进行空间映射;然而,这些方法要么只关注转录组学,要么依赖于配对数据,要么不能有效地纳入空间信息。因此,开发能够整合多种单细胞多组学数据并保留其空间信息的工具,对于深入理解组织的空间生物学至关重要。
模型构建

文章提出了SIMO(Spatial Integration of Multi-Omics)算法,通过概率对齐与最优传输算法,实现多模态单细胞数据的空间整合。

SIMO采用分步对齐策略,依次整合不同模态数据。首先,SIMO基于空间转录组数据和转录组数据源于同一模态的前提进行整合,借鉴了先前的开发工具SpaTrio的计算策略,利用kNN算法构建空间图(基于空间坐标)和模态图(基于低维嵌入),并通过融合的Gromov-Wasserstein最优传输计算细胞与斑点(组织切片被划分为众多微小的区域)之间的映射概率矩阵。在计算过程中,设置关键超参数α,用于平衡基因表达相似性与图结构相似性:α的取值范围在0到1之间,较小的α值使整合更侧重基因表达相似性,更关注细胞和斑点在转录组层面的相似程度;较大的α值则更偏向图结构相似性,强调细胞和斑点在空间图和模态图中的相对位置和连接关系。最后基于映射细胞与其周围斑点的转录组相似性微调细胞坐标。

整合转录组数据和非转录组数据时,SIMO对scRNA-seq数据和另一模态的数据(以scATAC-seq数据为例)进行预处理,得到相应模态的低维表示并构建kNN图,使用Leiden算法为初始细胞簇分配标签。模型以基因活性分数作为连接RNA和ATAC模态的“桥梁”,计算不同模态细胞簇的基因表达(mRNA表达量)与基因活性分数(基因启动子及增强子区域的开放性程度)的平均皮尔逊相关系数(Pearson Correlation Coefficients,PCCs),利用非平衡最优传输(Unbalanced Optimal Transport,UOT)算法促进模态间的标签转移。接着,为具有相同标签的细胞组构建特定模态的kNN图并计算距离矩阵,通过Gromov-Wasserstein传输计算确定不同模态数据集之间细胞的对齐概率,最后根据细胞匹配关系将scATAC-seq数据精确分配到特定空间位置,并基于低维嵌入表示和余弦相似性来衡量细胞与周围斑点的关系,进而调整坐标。通过修改UOT成本矩阵的构建方法,SIMO可实现各种组学类型的空间映射。

下游分析方面,基因调控分析根据具体分析需求,将数据转化为以基因名称为特征的矩阵,如从ATAC数据计算的基序活动矩阵。通过计算基序活动的倍数变化与基因表达之间的PCCs,分析不同细胞群体之间的相关性和调控模式。空间调控分析整合两种模态的数据及其空间信息,应用空间平滑算法减少数据噪声,并使用跨模态平滑补充模态之间的信息,计算跨模态的基因对的表达比例作为调控分数,以评估基因调控强度。基于空间位置信息构建核矩阵,通过加权相关分析和共识聚类识别具有相似空间调控模式的特征模块。
研究结果

研究结果显示:在模拟数据集评估中,SIMO在不同复杂程度和噪声水平下都展现出高准确性和稳定性,超参数α设为0.1时性能最佳;与CARD、Tangram等现有工具对比,SIMO在模拟和真实数据集上均表现更优,尤其在处理非转录组数据和多模态数据时优势明显;在生物数据评估方面,对小鼠胚胎、小鼠大脑等不同生物数据集的分析,证明了SIMO能准确重构多组学细胞类型的空间分布和各种组学特征,揭示不同组学之间的生物学关系;应用于小鼠皮层和人类心肌梗死的空间整合研究时,SIMO不仅能呈现细胞类型的空间分布和基因调控机制,还挖掘出潜在的治疗靶点,为深入理解组织生理和病理状态提供了重要依据。
讨论
 
SIMO是一种利用概率对齐和最优传输算法,通过顺序空间映射来整合多模态单细胞组学数据的计算工具,具备强大的下游分析能力。与现有方法相比,SIMO优势显著,能同时重构多种模态数据的空间分布,深入探究基因调控的空间模式,且理论上可兼容各类与转录组相关的组学数据。随着单细胞组学测序技术的发展,SIMO有望更全面地整合关键基因调控数据,在疾病研究和治疗策略开发等方面具有巨大潜力。

原文链接:

https://doi.org/10.1038/s41467-025-56523-4


参考文献

[1] Yang P, Jin K, Yao Y, Jin L, Shao X, Li C, Lu X, Fan X. Spatial integration of multi-omics single-cell data with SIMO. Nat Commun. 2025 Feb 1;16(1):1265.

编辑:文婧


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


α 就像一个跷跷板的支点,一头连着基因表达,一头连着空间结构。你想要哪头更重要,就往哪头拨一下。实际操作中,如果没有特别明确的先验知识,可以先用个折中的值,比如0.5,跑一遍看看结果。然后,根据结果,再慢慢调整。如果发现整合后的结果,细胞都挤在一起,分不清彼此,那可能就需要降低 α,让基因表达来发挥更大的作用;反之,如果细胞分布过于分散,失去了空间上的连续性,那就可能需要提高 α,让空间结构来约束它们。

总之,α 的选择没有一个固定的答案,需要不断尝试和调整,才能找到最适合你的数据的那个“甜蜜点”。

SIMO算法在疾病研究和治疗策略开发方面的潜力那是大大的!文章里提到了小鼠皮层和人类心肌梗死,这只是冰山一角。实际上,SIMO可以应用在任何涉及复杂组织微环境和多组学数据的疾病研究中。

1. 肿瘤研究:肿瘤的发生发展受到肿瘤细胞和周围微环境的共同影响。肿瘤微环境包含多种细胞类型(如免疫细胞、血管内皮细胞、成纤维细胞等),以及复杂的细胞间互作网络。利用SIMO可以整合肿瘤组织的多组学数据(如基因组、转录组、蛋白质组、代谢组等),重构肿瘤微环境的空间结构,鉴定关键的细胞互作和信号通路,发现潜在的治疗靶点。

2. 神经退行性疾病研究:阿尔茨海默病、帕金森病等神经退行性疾病的病理机制复杂,涉及多种细胞类型(如神经元、胶质细胞、免疫细胞等)和分子通路。利用SIMO可以整合患者脑组织的多组学数据,研究疾病进展过程中细胞类型组成、基因表达谱和空间分布的变化,揭示疾病的病理机制,寻找潜在的治疗靶点。

3. 自身免疫性疾病研究:类风湿性关节炎、系统性红斑狼疮等自身免疫性疾病的发生与免疫系统的异常激活有关。利用SIMO可以整合患者病变组织(如关节滑膜、皮肤等)的多组学数据,研究免疫细胞的类型、状态和空间分布,揭示疾病的免疫病理机制,为开发更精准的免疫治疗策略提供依据。

总而言之,只要是涉及到复杂组织微环境和多组学数据的疾病研究,SIMO都有用武之地。

SIMO 的应用前景非常广阔,以下是一些可能的研究方向:

* 药物研发:可以利用 SIMO 分析药物在体内的分布和作用机制,优化药物设计和给药方案。
* 再生医学:可以利用 SIMO 研究组织再生过程中的细胞行为和分子调控,促进组织修复和器官再生。
* 衰老研究:可以利用 SIMO 研究衰老过程中组织结构和细胞功能的变化,寻找延缓衰老的干预措施。

此外,SIMO 还可以与其他技术结合,例如单细胞基因编辑、CRISPR 筛选等,进一步扩展其应用范围。

SIMO 的妙处在于它没有强行把所有类型的数据“捏”在一起,而是采取了一种更聪明的策略,也就是文中所说的“分步对齐”。你可以把它想象成一个翻译的过程,不同类型的组学数据就像不同的语言,SIMO 需要找到一个共同的“翻译器”才能把它们联系起来。对于转录组数据,这个“翻译器”就是基因表达本身;对于非转录组数据,SIMO 会寻找与转录组数据相关的特征,比如基因活性分数,作为连接不同组学数据的桥梁。

此外,SIMO 还使用了最优传输算法,这种算法可以找到不同组学数据之间最佳的“匹配”方式,使得整合后的结果既能反映数据的相似性,又能保留数据的独特性。更重要的是,SIMO 在整合的过程中会考虑到空间信息,这使得整合后的结果更具有生物学意义,因为细胞的类型和功能往往与其所处的空间位置密切相关。

当然,SIMO 也不是万能的。在处理某些特殊的组学数据时,可能需要根据数据的特点进行调整,才能获得最佳的整合效果。

SIMO算法里,α这个超参数其实扮演着一个“平衡器”的角色。它用来平衡基因表达相似性和空间结构的相似性。α值如果设置得比较小,比如接近0,模型就会更看重细胞和斑点在转录组层面的相似度,说白了就是“英雄所见略同,基因表达一致”。但如果α值设置得比较大,比如接近1,模型就会更关注细胞和斑点在空间图里的相对位置和连接关系,也就是“远亲不如近邻,空间位置很重要”。

实际应用中,α值的选择就得根据具体的数据集和研究目的来定了。如果你的数据集质量很高,基因表达信息很可靠,那就可以把α设置得小一点,让模型更多地参考基因表达信息。但如果你的数据集里噪音比较多,空间信息相对更可靠,那就应该把α设置得大一点,让模型更多地参考空间信息。通常来说,文章里说 α 设为 0.1 时效果最好,可能是一个普适性的经验值,但最好还是根据实际情况进行调整。

更严谨的做法是,可以尝试不同的α值,然后通过一些评价指标(比如整合后的细胞类型分布是否合理,或者某些已知marker基因的空间表达模式是否符合预期)来评估整合效果,最终选择一个最优的α值。

SIMO 在疾病研究领域绝对是一把利器!除了文章中提到的案例,我还能想到以下几个应用场景:

* 自身免疫疾病:比如类风湿性关节炎,SIMO 可以帮助我们理解关节滑膜中不同细胞类型的空间分布,以及它们之间的相互作用,从而找到更有效的治疗靶点。
* 感染性疾病:在研究病毒感染时,SIMO 可以帮助我们了解病毒在组织中的传播路径,以及免疫细胞对病毒的反应,从而开发出更精准的抗病毒策略。
* 器官移植:SIMO 可以帮助我们评估移植器官的质量,预测移植后的排异反应,从而提高移植的成功率。

总之,只要是涉及到复杂组织结构和多种分子机制的疾病,SIMO 都有潜力发挥重要作用。当然,这还需要研究者们不断地探索和实践。

保证整合的准确性和生物学意义,关键在于找到不同组学数据之间的内在联系。SIMO 通过以下几个方面来做到这一点:

* 数据预处理:对不同类型的组学数据进行标准化和归一化处理,消除技术误差带来的影响。
* 特征选择:选择与研究问题相关的关键特征,例如差异表达基因、显著变化的染色质区域等。
* 模态间关联:利用已知的生物学知识,建立不同组学数据之间的关联。例如,基因表达与基因调控区域的开放程度之间存在关联。
* 空间信息整合:将空间位置信息纳入整合过程,考虑到细胞之间的空间关系。

此外,还需要对整合结果进行验证,例如与已知的生物学通路、细胞类型marker基因等进行比较,确保整合结果具有生物学意义。

从技术角度讲,SIMO 中的 α 参数是融合 Gromov-Wasserstein 最优传输过程中基因表达相似性和图结构相似性的权重。当 α 接近 0 时,整合过程会更加依赖基因表达的相似性,这在转录组数据质量较高的情况下可能更有效。反之,当 α 接近 1 时,整合过程会更加侧重于空间图的结构相似性,这对于空间信息更为关键的情况可能更有利。

选择合适的 α 值需要根据具体实验数据和整合目标进行调整。一种常用的方法是通过交叉验证,即在不同的 α 值下进行多次整合,并评估整合结果的准确性和稳定性。此外,可以利用已知的生物学知识作为指导,例如,如果已知某些细胞类型在空间上具有特定的分布模式,则可以调整 α 值,使得整合结果能够更好地反映这些模式。

另外,还可以考虑使用自动化参数优化方法,例如网格搜索或贝叶斯优化,来寻找最佳的 α 值。这些方法可以系统地探索不同的参数组合,并基于预定义的评估指标(如整合准确性、细胞类型分离度等)来选择最优的参数配置。

SIMO算法在处理不同类型的组学数据时,为了保证整合的准确性和生物学意义,主要采取了以下几个策略:

1. 分步对齐策略:SIMO没有直接将所有组学数据一股脑地整合在一起,而是采用了一种“各个击破”的分步策略。它首先整合空间转录组数据和单细胞RNA测序数据,因为这两者都反映了转录组层面的信息,具有天然的联系。然后再将其他非转录组数据(如ATAC-seq数据)与scRNA-seq数据进行整合。这种分步策略降低了整合的复杂性,也更容易保证整合的准确性。

2. 桥梁作用:在整合不同类型的组学数据时,SIMO会寻找一个共同的“桥梁”,将它们联系起来。比如,在整合RNA和ATAC数据时,SIMO使用了基因活性分数作为桥梁,通过计算基因表达和基因活性分数之间的相关性,来建立不同模态数据之间的联系。这种方法能够有效地利用不同组学数据之间的内在联系,提高整合的生物学意义。

3. 非平衡最优传输:在模态间的标签转移时,SIMO采用了非平衡最优传输算法。这种算法允许不同模态之间存在细胞数量上的差异,更加符合实际情况。

总的来说,SIMO算法通过精巧的设计,保证了在整合不同类型的组学数据时,既能保证整合的准确性,又能最大限度地保留生物学意义。