深度学习模型SUICA:突破空间转录组数据瓶颈,实现基因表达高精度预测

SUICA模型结合INR与图自编码器,精准预测空间转录组基因表达,提升数据质量,克服零膨胀与高成本难题。

原文标题:数据降噪/生物信号强化/缓解dropout,深度学习模型SUICA实现空间转录组切片中任一位置基因表达的预测

原文作者:数据派THU

冷月清谈:

SUICA模型是由东京大学与麦吉尔大学团队共同提出的深度学习方法,旨在解决空间转录组数据面临的挑战。该模型结合了隐式神经表征(INR)和图自编码器,能够预测空间转录组切片中任意位置的基因表达。文章指出,尽管空间转录组技术提供了前所未有的空间分辨分子视角,但仍存在分辨率与成本的矛盾、信号稀疏与噪声大,以及跨平台异质性等瓶颈。SUICA通过降噪、缓解基因表达缺失(dropout)以及增强生物信号,有效提升了数据的质量和可用性,尤其在未知点位预测和真实基因表达恢复方面表现突出。具体而言,图自编码器负责对高维空间转录组数据进行降维,并融入局部空间上下文,加强稀疏信号。随后,隐式神经表征网络学习测序点坐标与低维表征之间的映射,结合解码器实现从坐标到高维基因表达的预测。实验验证显示,SUICA不仅能准确复原甚至增强基因的表达模式,还能生成更接近真实情况的细胞类型聚类,并有效减少数据噪声和缓解零膨胀现象,为细胞通讯解析、疾病分区注释及AI病理辅助诊断等应用提供了更精准的数据基础。

怜星夜思:

1、空间转录组数据中“零膨胀”(Zero-Inflation)这么普遍,到底对我们后续的生物学分析会有啥具体影响啊?除了让数据看起来噪声很大,还有别的坑吗?
2、文章里提到空间转录组能“把‘表达了哪些基因’与‘位于组织的哪一处’绑定在一起”,这和传统基因测序只知道基因表达量,但不知道位置,相比起来,对疾病诊断或者新药研发具体能带来哪些革命性的变化啊?感觉这个应用场景挺大的!
3、SUICA模型用了“隐式神经表征”和“图自编码器”这两种技术,看起来挺酷的。除了空间转录组,大家觉得这俩技术组合起来,还能应用到哪些别的生物医学大数据分析领域啊?比如蛋白质结构预测、药物分子筛选之类的行不行?

原文内容

图片
来源:HyperAI 超神经
本文约2600字,建议阅读9分钟

东京大学郑银强老师组,麦吉尔大学丁俊老师组共同提出了一种针对空间转录组数据建模的方法 SUICA。


SUICA 是一个基于隐式神经表征(implicit neural representations, INR)和图自编码器(Graph-Autoencoder)的深度学习模型。SUICA 使用图自编码器对高维的空间转录组数据进行降维,然后使用隐式神经表征对空间转录组数据坐标和其对应的基因表达进行建模,从而实现空间转录组切片中任一位置基因表达的预测。结果证明,通过 SUICA 处理的空间转录组数据能够有更高的质量,更低的噪声和更强的生物信号。


相关成果以「SUICA: Learning Super-high Dimensional Sparse Implicit Neural Representations for Spatial Transcriptomics」为题,入选 ICML 2025。



论文地址:
https://go.hyper.ai/C6Zcl


更多 AI 前沿论文:
https://go.hyper.ai/owxf6


什么是空间转录组数据?


空间转录组(Spatial Transcriptomics, ST)数据是在同一张组织切片上同步记录「基因表达量」和「空间坐标」的高维信息矩阵。与传统的只能呈现形态学结构的全景组织影像(WSI)或只能量化基因表达但丢失方位的常规转录组测序(Transcriptomics)相比,空间转录组把「表达了哪些基因」与「位于组织的哪一处」绑定在一起,绘制出组织内细胞状态与微环境相互作用的功能地图,因而成为连接组织学和分子组学的新型数据形态。


为什么需要增强空间转录组数据?


尽管空间转录组带来了前所未有的空间分辨分子视角,但现实数据仍受到三大瓶颈限制:

① 分辨率–成本矛盾:探针越密、测序深度越高,实验费用(如 stereo-seq 的测序实验成本大于$4,000 /cm²)和样本通量迅速攀升;
② 信号稀疏与噪声:每个探测点捕获的 mRNA 数量有限,零膨胀严重,导致低丰度或关键调控基因易被漏检;
③ 跨平台异质性:不同平台在探针物理排布、测序深度和背景噪声上差异显著,直接阻碍多样本或多实验整合。

计算增强方法包括超分辨重建、深度去噪与缺失值填补等,可以在不增加(或仅小幅增加)实验成本的前提下:


(a) 预测未测序到点位的基因表达;
(b) 恢复因为技术限制未能检测到的真实基因表达,提升差异基因与空间可变基因检测灵敏度;
(c) 生成在不同平台之间可比、可共享的标准化特征表征。

由此为细胞通讯解析、疾病分区注释、药物靶点发现、多组学联合建模和 AI 病理辅助诊断提供更加精准、丰富且可扩展的数据基础,极大释放空间转录组技术在基础研究和临床转化中的潜力。


SUICA:基于隐式神经表征和图自编码器的统一模型


利用隐式神经表征对空间转录组数据建模的挑战

空间转录组数据的建模面临多重挑战:


首先,原始数据在空间维度上呈网格状分布,而在基因维度上则高达数千到上万,形成「超高维、极稀疏、噪声大」的矩阵;高 dropout 率导致生物学关键信号被弱化,加剧了统计功效不足。


其次,现有空间转录组平台在「分辨率—成本」之间存在根本权衡——探针越密、测序越深,成本便成倍攀升,因而难以同时获得细胞级分辨率和大规模样本量。


再次,尝试用隐式神经表示将离散空间转录组点插值为连续表达场时,需同时解决两大技术难点:一是基因表达空间的维度远超传统视觉信号,单纯扩宽或加深网络难以摆脱维度灾难;二是零膨胀导致输入信号分布高度不均,常规 INRs 难以捕捉复杂且非线性的空间表达模式。


图自编码器:将高维空间转录组数据降维

相较于传统自编码器,我们先把每个空间转录组中的数据点视为图节点、以空间邻近关系构建邻接矩阵,然后在编码器中采用图卷积对原始高维基因表达进行卷积,将局部空间上下文融入表示并压缩到低维表征;以此学习高维空间转录组数据的低维表征,而图卷积的加入可以加强稀疏、大噪声的空间转录组数据信号。


隐式神经表征:建立测序点坐标与基因表达间的映射

在获得低维表征后,隐式神经表征网络接收检测点的坐标为输入,学习「点」与其对应低维表征的映射。并且将学习后的,模型预测的低维表征送入图自编码器中的解码器部分,从而实现将坐标映射到高维基因表达的作用。

SUICA 模型架构图


实验验证:SUICA 能生成更精准和具有更强生物相关性的预测结果


我们利用 stereo-seq 的老鼠胚胎数据和 Slide-seq 老鼠脑部切片数据进行基准对比,在未知点位预测(超分辨率)的任务上 SUICA 在多个关键指标上显著优于现有的模型和传统的隐式神经表征模型,包括 FFN,SIREN。我们可视化了每种方法的预测效果,结果显示 SUICA 的预测不仅能够准确的复原出基因的表达模式,甚至能够增强基因的表达信号。如 SEPT3,该基因在老鼠胚胎的神经系统发育中扮演着重要的作用,尽管在 groundtruth 中的信号并不明显,但 SUICA 的预测结果成功地捕捉到了这一信号。


通过对各种方法生成的结果进行聚类与标注,我们直观地发现 SUICA 生成的细胞类型最接近于真实的细胞类型。并且 SUICA 生成的细胞类型中在空间上保留了更为细节的器官和组织结构。这些结果说明 SUICA 有能力增强生物信号,并且能够识别不同器官、组织之间的细微细胞状态区别。

SUICA 生成细胞实验数据


实验验证:SUICA 能够减少空间转录组数据的噪声并且缓解 dropout 现象


为了验证 SUICA 的去噪能力(denosing)和其从 dropout (因为测序技术限制导致的读数为 0 的结果)中恢复真实基因表达的能力(gene imputation),我们人为地对空间转录组数据加入高斯噪声或随机将基因表达设为 0。在 gene imputation 实验中,我们随机的将数据中百分之 70 的基因表达设为 0。 在基因表达在去噪实验中,为了保证加噪后的基因表达分布仍然与原始基因表达分布相似,我们将所有的负值归零。实验结果表明 SUICA 在多项指标上强于现有的方法,证明了 SUICA 能对空间转录组数据降噪并且缓解 dropout 现象的能力。


编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

哎呀这个组合听起来就科幻!蛋白质结构预测肯定行啊!你想,蛋白质就是一堆氨基酸珠子串起来的项链,但它会折叠成复杂的三维形状。图自编码器可以帮你理解这些珠子之间是怎么互相拉扯、互相影响的(就像一个社交网络图)。而隐式神经表征呢,它能把这些离散的珠子位置,变成一个连续的、可以无限放大缩小查看的3D模型,还能预测它在不同环境下的变形。那简直是给蛋白设计师开了外挂!

至于药物分子筛选,我觉得也很有搞头。药物分子也是由原子和键构成的“图”,用图自编码器学到它的“味道”,再用INR去“捏”出更多可能的新分子,甚至预测它们的药效和副作用,想想都激动!就像一个自动生成新口味的冰淇淋机,而且能预测味道好不好。生物医学大数据真是越来越有意思了!

哎呀,零膨胀这个东西,简直就是我们做数据分析的“拦路虎”!它最大的坑就是,让算法“误判”。你想象一下,本来你想找到一群志同道合的人,结果因为大部分人都戴着面具(零值),你根本分不清谁是谁,最后把不认识的人分到了一组,而真正的朋友却散落在各处。这直接导致细胞分型不准,找关键生物标志物也找不着,甚至连绘制细胞通讯网络都可能出大错。简单说,就是让你的研究结果变得不太可信!

提到零膨胀,它不仅让数据噪音大,更深层次的问题在于它会扭曲基因表达的真实分布。这直接影响到后续的差异基因分析、聚类分析和细胞类型识别。比如,很多统计模型在处理零值过多时会失效或产生偏差,导致我们把不重要的零值当成真正缺乏表达的信号,或者遗漏了那些低表达但生物学意义重大的基因。这就像在浩瀚星空中,大部分星星都暗淡无光,你很难分辨哪些是真不亮,哪些是只是被云遮住了,从而影响我们对整个“星系”结构的理解和关键“恒星”的识别。

你说得对,这个应用场景确实极其广阔!传统测序就像是一锅“分子大杂烩”,你能知道里面都有啥食材,但不知道每种食材在锅里的具体位置和分布。而空间转录组则能精确地告诉你,这块肉在哪个位置,那根青菜又挨着谁。这对于疾病诊断来说,意味着我们可以更精准地识别病变区域内部的分子异质性,甚至发现早期肿瘤微环境中的特定细胞-基因相互作用,从而实现更早、更准的诊断。对于新药研发,它能帮助我们理解药物在组织内的渗透和作用靶点,精确评估药物对特定细胞类型或微环境的影响,指导设计更具空间特异性、副作用更小的靶向药物。这简直是分子病理学的“升级版”!

设想一下,医生面对一个复杂的肿瘤,传统方法只能告诉你肿瘤的整体基因表达状态,就像看一个模糊的卫星图。有了空间转录组,他能看到肿瘤内部不同区域的详细分子地图:哪里是侵袭前沿,哪里是免疫抑制区,哪里是药物抵抗的“堡垒”。这直接影响治疗方案的选择。对药厂来说,开发新药时不仅要考虑药物能否杀死癌细胞,还要看它能否渗透到肿瘤深处,能否避开正常组织,以及它在特定微环境下的实际作用。空间转录组提供了前所未有的视场,能够指导更有效、更安全的药物设计和临床策略制定,从而加速个性化医疗的到来。

我觉得完全可行!这俩技术一个负责“理解结构”(图自编码器),一个负责“填充细节和连续性”(INR)。

比如在蛋白质相互作用网络里,Graph-AE可以识别出哪些蛋白质会相互作用形成复杂的机器,哪些是枢纽蛋白;INR则可以用来模拟这些相互作用的动态过程,预测在不同条件下,蛋白质复合体的构象会怎么变化。

基因调控网络里,Graph-AE能学习基因之间的调控关系及其强度,INR则能把这些离散的调控事件,映射到连续的时间轴上,预测基因表达在细胞分化或疾病进展中的动态变化模式。甚至在医学影像重建方面,Graph-AE可以处理不规则的神经元连接图谱,而INR可以从稀疏的MRI/CT切片数据中重建出高分辨率的三维连续解剖结构。这套组合拳,感觉能把很多以前做不到的“连续性”和“精细化”分析都搞定!

零膨胀的隐患可远不止噪音那么简单。从计算生物学的角度看,它会严重影响数据稀疏矩阵的数学处理,降低矩阵分解、降维算法(如PCA、UMAP)的效率和准确性,导致潜在的生物学模式被模糊。此外,它还增加了识别真阳性信号(如特定细胞类型或病理状态下的特异性基因表达)的难度,使得下游的功能富集分析、通路分析等结果变得不可靠,因为很多关键基因可能因为零值过多而被过滤或低估了。所以,得想办法“救”这些数据。

这两种技术的结合确实潜力无限!“隐式神经表征”(INR)擅长从离散样本中学习高维连续函数,而“图自编码器”(Graph-AE)则善于处理具有复杂拓扑结构的图数据。在生物医学领域,这套组合有望在以下方面大放异彩:

1. 蛋白质结构预测与设计: 蛋白质本质上是氨基酸残基构成的图,Graph-AE可以有效学习氨基酸间的相互作用和空间邻近关系。INR则可以将离散的原子坐标或残基信息映射到连续的三维空间,用于生成或优化蛋白质结构,甚至探索未知的稳定构象。

2. 药物分子发现与优化: 药物分子也是图结构,Graph-AE可以学习分子的化学性质和功能表征。INR则可以用于生成新的分子骨架或侧链,通过插值或外推的方式探索巨大的化学空间,筛选出具有特定药理活性的候选分子。

3. 单细胞多组学数据整合: 不同组学数据(基因表达、表观遗传、蛋白质等)可以在细胞层面构建图,Graph-AE整合这些异构信息。INR则可以用来预测不同测量技术下缺失的数据点,或者在高维空间中构建细胞状态的连续轨迹。

总之,只要是涉及离散数据点、需要构建复杂关系且有连续性需求的生物医学问题,这两个技术的组合都有可能提供新的解决方案。