突破!10亿参数AI模型深度解读完整基因之书,赋能单细胞研究

10亿参数单细胞模型scLong,突破传统只关注高表达基因的局限,整合GO知识,在预测基因扰动和药物反应等方面表现卓越,或将成为生命科学通用工具。

原文标题:当AI第一次读完整本基因之书,十亿参数单细胞大模型能干什么?

原文作者:数据派THU

冷月清谈:

研究团队发布了拥有10亿参数的单细胞基础模型scLong,它不再局限于少数高表达基因,而是将细胞内接近2.8万个基因纳入建模范围,并结合Gene Ontology的生物学知识,以理解更完整的基因上下文。相较于以往模型,scLong着重于低表达基因和零表达基因,并将其纳入考量,通过双编码器设计和图卷积网络,整合基因的表达信息和生物学功能。通过大规模预训练,scLong在遗传扰动预测、化学扰动预测和癌症药物反应预测等任务中表现出色,能有效预测基因扰动、评估药物反应,并辅助基因调控网络重建和多批次数据整合。scLong的成功表明,单细胞基础模型需要关注全局上下文和领域知识,才能成为生命科学领域强大的通用工具。

怜星夜思:

1、文章提到scLong模型在处理零表达基因时,会将其视为一种信息进行建模。那么,在实际应用中,如何区分“表达太低没测到”和“基因被关闭”这两种情况?又该如何利用这些信息来提升模型的预测能力?
2、scLong模型集成了 Gene Ontology (GO) 知识图谱,这对提升模型性能有何帮助?除了 GO 之外,还有哪些生物学知识库可以被整合到单细胞基础模型中,以进一步提升其预测和泛化能力?
3、文章提到scLong在多个预测任务上表现优异,包括药物反应预测。那么,你认为这种模型在药物研发的哪个环节最有潜力发挥作用?它可能带来哪些伦理或实际应用上的挑战?

原文内容

图片
来源:新智元
本文约3500字,建议阅读10分钟
十亿参数单细胞基础模型scLong不再只看少数高表达基因,而是把一个细胞里接近 2.8 万个基因 都纳入建模,并结合 Gene Ontology(GO) 的生物学知识,去理解更完整的基因上下文。



在单细胞转录组学领域,研究者希望从每个细胞的基因表达中读出细胞状态、调控关系,甚至预测当某个基因被敲除、某种药物被加入后,细胞会发生什么变化。

过去几年,foundation model(基础模型)开始进入这一领域,显示出强大的迁移能力;但长期以来,现有方法往往为了节省计算,只关注少量高表达基因,忽略了大量低表达甚至零表达基因,同时也缺少对外部基因功能知识的系统整合。这不仅会丢失重要调控信号,也容易让模型对复杂生物过程「只见树木,不见森林」。

近日,MBZUAI、加州大学圣地亚哥分校(UC San Diego)等机构联合团队在 Nature Communications 发表研究成果scLong。

论文链接:https://www.nature.com/articles/s41467-026-69102-y

这是一种拥有10亿参数的单细胞基础模型,基于约4800万个细胞进行预训练,能够在整个人类转录组范围内对约27874个基因建模,并将GO(Gene Ontology) 提供的结构化生物学知识融入模型中。

论文报告显示,scLong在遗传扰动预测、化学扰动预测、癌症药物反应预测、基因调控网络推断等多项任务上,均优于现有单细胞基础模型和多种任务专用模型。

研究背景

为什么单细胞领域需要一个「更长」的模型?

因为一个细胞并不是只由少数几个「明星基因」决定的。很多现有模型只在约 1500 到 2000 个高表达基因上做 self-attention,这样确实更省算力,但代价是:大量低表达基因被排除在外。

而这些低表达基因虽然「声音不大」,却常常扮演调控开关、信号微调器,甚至在稀有细胞类型、应激反应、疾病进展中发挥关键作用。

换句话说,过去很多模型更像是在读「摘要」,而不是在读「全文」。

另一个问题是,单靠表达矩阵本身,模型未必能真正理解「这个基因是干什么的」。

而Gene Ontology恰恰提供了基因在生物过程(Biological Process)、分子功能(Molecular Function)、细胞组分(Cellular Component)上的结构化知识。过去很多模型主要从数据里「自己悟」,但没有显式利用这些成熟的生物学先验,因此在理解功能关联、调控关系和跨条件泛化时仍然受限。

于是,scLong想做的事情很直接:不仅把基因看全,还要把基因「看懂」。

把一个细胞,读成一整句话

如果用自然语言来打比方,scLong的核心思想很有画面感:把一个细胞的整条基因表达谱,当成一句非常长、非常复杂的话来读。

在这个「句子」里,每个「词」不是普通单词,而是一个 「基因 ID + 表达值」 的组合。模型先用一个表达编码器,把数值型表达量映射成向量;再用一个基因编码器,为每个基因生成带有生物学含义的表示;两者相加后,就得到这个「词」的初始表示。

随后,模型通过上下文编码器,让这些基因彼此「看见对方」,从而学习基因之间在当前细胞中的上下文关系。

这里最有意思的一点是:scLong并没有粗暴地把低表达基因扔掉。 它采用了一个双编码器设计:对高表达基因使用更大的Performer编码器,对低表达基因使用更小的Performer编码器,最后再通过一个full-length Performer把全体基因整合起来。这样既尽量保住了全基因组范围的上下文信息,又在计算量和建模能力之间做了平衡。

更进一步,scLong还把GO知识图谱 接进来了。研究团队先根据基因共享的GO注释来构建基因图:

如果两个基因在生物过程、分子功能或细胞定位上足够相似,它们就会被连接起来;

然后再用图卷积网络(GCN)来学习基因表示。

这样一来,模型不仅知道「这个基因在这个细胞里表达了多少」,还知道「这个基因通常和哪些功能、哪些基因有关系」。这相当于给每个「词」都加了一层背景知识。

预训练方面,scLong使用的是一种类似BERT的思路:随机遮掉一部分表达值,让模型去重建它们。 

研究团队用来自1618个单细胞数据集、覆盖50多种组织 的约4800万个人类细胞 进行预训练,覆盖27874个基因,其中既包括蛋白编码基因,也包括非编码基因。对单细胞领域来说,这相当于让模型先在海量真实细胞中「通读语料」,再去做各种下游任务。

还有一个非常值得注意的设计:scLong甚至把零表达也当作信息来建模。 因为零不一定意味着「没意义」,它可能代表「表达太低没测到」,也可能代表「这个基因在该细胞里确实被关闭了」。

前者可能对应弱但真实的生物信号,后者则可能恰恰揭示了某种细胞身份或调控状态。对于单细胞数据来说,这种「把缺席也当作信息」的思路非常重要。

从基因扰动到药物反应
遗传扰动预测:没见过的扰动,也更会猜


在遗传扰动任务中,模型需要根据细胞扰动前的表达和扰动条件,预测扰动后的表达变化。

论文使用Norman数据集进行评测,并特别关注模型对未见过扰动组合的泛化能力。结果显示,scLong在大多数场景下都优于 Geneformer、scGPT、scFoundation、UCE,以及任务专用模型GEARS、ALM和简单基线No-Change。尤其是在更困难的Seen 0/1和Seen 0/2场景中,scLong的优势更明显:例如在Seen 0/1 场景下,scLong的Pearson相关系数达到0.625,高于GEARS的0.561;在Seen 0/2场景下,scLong的MSE为0.170,也优于多数基线。

不仅如此,scLong对双基因扰动中的协同(synergy)和抑制(suppressor)两类遗传互作的识别也优于GEARS。

这意味着它不仅能预测「会变多少」,还更接近理解「这些基因之间是怎样一起起作用的」。

化学扰动预测:新药上来,先让模型「测一测」

在化学扰动任务中,模型输入药物分子图、剂量和细胞系信息,输出扰动后的基因表达。论文在L1000子集上评估了scLong,结果显示:无论是RMSE、Spearman/Pearson 相关,还是Top-100精度指标,scLong都显著优于Geneformer、scGPT、scFoundation、UCE和任务专用模型DeepCE。

换句话说,面对一个新化合物,scLong更擅长预判它会把细胞「推向什么状态」。

癌症药物反应预测:更懂癌细胞,也更懂联合用药

在癌症药物反应预测任务中,模型需要根据药物结构和癌细胞表达谱,预测药物疗效。论文在DeepCDR数据集上报告,scLong的Pearson相关系数达到0.878,高于Geneformer 的0.852、scFoundation的0.867、DeepCDR的0.837以及线性模型的0.746

更有意思的是,研究团队还把问题升级到药物组合预测:同一个癌细胞系面对两种药物联用,会不会有更好的反应?

在分布外测试集上,scLong的AUROC达到0.652,同样超过了多种基础模型和任务模型。这说明它不仅能看单药,还能在更复杂的联合治疗场景中提供线索。

基因调控网络与批次整合:不仅会预测,还会「组织知识」

在基因调控网络(GRN)推断任务中,scLong从基因表示之间的相似性出发,去重建谁调控谁。

结果显示,其AUPR达到1.35,显著优于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3以及直接使用GO图的基线。

也就是说,scLong学到的并不是「死记硬背」的GO网络,而是结合具体细胞数据后更贴近真实生物系统的关系图。

在零样本批次整合任务中,scLong在pancreas数据集上取得0.96的batch ASW,超过Raw、HVG、scVI以及其他foundation model

值得注意的是,scLong既没有在这个数据集上预训练,也没有微调,却仍然超过了专门在该数据集上训练的scVI,显示出很强的迁移性。

最后,消融实验也给出了很强的支撑:去掉低表达基因建模、或者去掉 GO 图后,性能都会下降。这说明scLong的提升不是偶然,而正是来自「看全基因」和「引入生物知识」这两件事本身。

核心亮点总结

从「看少数基因」走向「看全基因组」:它把约 2.8 万个基因都纳入上下文建模,而不是只盯着高表达基因。

把生物知识真正嵌进模型:GO 不再只是注释表,而是参与到基因表示学习的核心结构中。

大规模预训练带来强迁移能力:基于 4800 万细胞的预训练,让模型在多个下游任务上都能稳健发挥。

不只是「更大」,而是「更懂生物」:论文最重要的启发不是参数量本身,而是证明了低表达/零表达基因和结构化先验知识,对单细胞 foundation model 来说都非常关键。

实际应用前景

从应用角度看,scLong 展示出的潜力相当清晰。

首先,在基因扰动与功能研究中,它可以帮助研究者更快预测敲除、过表达、组合扰动可能带来的转录组变化,从而减少大量湿实验试错成本。

其次,在药物发现和精准医学中,它能够预测化学扰动和癌症药物反应,为候选药物筛选、联合用药设计和个体化治疗提供计算支持。

再次,在系统生物学层面,它还能辅助重建基因调控网络、理解细胞状态转换,并在多批次数据整合中提供更稳定的细胞表示。论文作者也指出,这样的模型有望进一步推动精准医疗、药物研发和细胞生物学研究。

更长远地看,scLong代表了一种很值得关注的方向:单细胞基础模型不应只是把Transformer搬到生物数据上,而应该同时拥抱「全局上下文」和「领域知识」。 

当模型既能「读完整本基因之书」,又能理解每个基因在生物学中的位置,它才更有可能真正成为生命科学里的通用智能工具。

参考资料:https://www.nature.com/articles/s41467-026-69102-y
编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


低表达基因容易被忽略是因为检测难度大啊!传统的测序技术可能无法准确捕捉到这些基因的信号。而且,数据分析的时候为了减少噪音,通常会直接过滤掉低表达基因。scLong厉害的地方在于,它没有简单粗暴地扔掉这些信息,而是通过巧妙的设计把它们利用起来了。

从知识表示学习的角度来看,GO知识图谱提供了一种结构化的先验知识,可以约束模型的学习过程,提高模型的泛化能力。未来的研究可以探索更复杂的知识表示方法,例如将基因调控网络、代谢网络等信息整合到模型中。此外,还可以考虑利用自然语言处理技术,从生物医学文献中提取知识,并将其融入到单细胞基础模型中。

从学术角度来看,基因扰动预测为验证和完善现有的生物学理论提供了新的工具。通过比较模型的预测结果与实际实验结果,我们可以发现现有理论的不足之处,并提出新的假设。此外,基因扰动预测还有助于理解基因之间的相互作用,为构建更准确的基因调控网络模型提供数据支持。

从技术角度分析,scLong 的双编码器结构是一种有效的特征提取方法。高表达基因编码器侧重于捕捉主要特征,而低表达基因编码器则侧重于捕捉细微特征。最后,通过 full-length Performer 将两部分特征整合起来,实现了对基因表达谱的全面表示。此外,将零表达纳入建模也符合信息论的思想,即任何信息都可能包含有价值的内容。

除了GO,还可以考虑整合通路信息(pathway)。基因不是孤立存在的,它们会在特定的通路中一起发挥作用。把通路信息加进去,模型就能更好地理解基因之间的协作关系。还有,蛋白质互作网络(protein-protein interaction network)也是个不错的选择,毕竟基因最终还是要通过蛋白质来实现功能的。

楼上说的有道理!基因扰动预测在个性化医疗方面也有潜力。不同的病人由于基因上的差异,对同一种治疗的反应可能不一样。我们可以用scLong预测特定病人的基因扰动后,药物的疗效会如何变化,从而为病人量身定制治疗方案。

基因扰动预测在研究基因功能方面真的很有用!比如说,我们想知道某个基因在细胞分化中起什么作用,就可以用scLong预测敲除这个基因后细胞会发生什么变化,然后结合实验验证,快速锁定关键基因。这比盲目地做实验效率高多了!

简单来说,就是让AI不是瞎学,而是站在巨人的肩膀上!GO知识图谱相当于给AI补习了生物课,让它能更好地理解基因的功能和相互关系。没有GO,AI可能学了一堆数据,最后还是啥都不知道。

对,我补充一下。scLong采用双编码器结构,对高表达基因和低表达基因分别使用不同大小的编码器。这种设计的精妙之处在于,它既保证了对重要基因的建模能力,又保留了低表达基因的上下文信息。而且,scLong还把零表达也当作信息来建模,这确实很创新!

GO知识图谱提供了基因在生物过程、分子功能、细胞组分上的结构化知识,这相当于给模型提供了生物学先验知识,避免了模型完全从数据中“自己悟”,从而提升了模型在功能关联、调控关系和跨条件泛化方面的能力。除了GO,还可以考虑整合KEGG pathway数据库,它提供了基因参与的信号通路信息;Reactome数据库,它提供了分子交互作用的信息;以及DrugBank数据库,它提供了药物与靶基因的相互作用信息。这些知识库都可以帮助模型更好地理解细胞的复杂生物过程。

伦理挑战主要集中在数据隐私和算法偏见方面。单细胞数据通常包含大量的个人基因信息,如果数据泄露,可能会对个人隐私造成威胁。此外,如果训练数据存在偏差(例如,主要来自特定种族或地区的个体),那么模型可能会对不同人群的药物反应做出不同的预测,从而导致医疗不公平。在实际应用中,还需要考虑模型的可解释性。如果模型做出了一个药物推荐,我们需要知道模型为什么会做出这样的推荐,以便医生和患者做出明智的决策。

我有个大胆的想法,能不能把人的生物学知识也“上传”到模型里?就像《黑客帝国》里那样,把大量的生物学家的知识和经验输入到模型中,让模型拥有“人类智慧”。当然,这在技术上还面临很多挑战,例如如何将非结构化的知识转化为结构化的数据,如何避免人为偏见对模型的影响,但我觉得这是一个值得探索的方向。

别忘了“幸存者偏差”!即使模型预测准确率很高,也只能说明它在训练数据上表现良好。在真实世界中,药物的效果受到很多因素的影响,例如患者的年龄、性别、生活习惯等等。因此,在使用 scLong 进行药物推荐时,需要综合考虑各种因素,不能完全依赖模型的预测结果。而且,模型预测的“好”,很可能只是更适应原有数据集里的pattern,而现实世界里新的,未知的风险是无法通过这种方式避免的