华大Genos团队推出Gengram:轻量级插件革新基因组建模

华大Genos团队推出Gengram插件,通过显式基序记忆检索,提升基因组模型性能,摆脱对大规模算力的依赖。

原文标题:不用堆算力,华大新出的 Gengram,重新定义基因组建模

原文作者:数据派THU

冷月清谈:

华大 Genos 团队推出了一款名为 Gengram 的轻量插件,旨在提升基因组模型的性能。现有基因组基础模型依赖大规模预训练和密集计算来间接推断多核苷酸基序,效率低下且在功能元件检测任务中表现受限。Gengram 通过 基于 k-mer 的 hash memory 机制,构建可高效查询的多碱基基序记忆库,直接存储 1-6 个碱基长度的 k-mer 及其嵌入向量,并通过局部窗口聚合机制捕捉功能基序的局部上下文依赖,最后经门控控制模块将基序信息与主干网络融合。实验结果表明,在同等训练条件下,集成 Gengram 的模型在多项功能基因组学任务中实现了显著的性能提升。Gengram 的核心优势在于其显式的 motif 记忆检索机制,缩短了“证据到表征”的路径,使模型能够更早地形成稳定的预测分布,从而加速训练过程。该研究揭示了一种不同于传统密集计算的技术路径,为稀疏计算、长序列建模以及模型可解释性提供了新的解决方案。

怜星夜思:

1、文章提到Gengram通过窗口聚合来稳定注入motif证据,窗口大小选择21bp,作者给出的生物学解释是与DNA双螺旋结构有关。那么,如果研究对象不是DNA,而是RNA,这种窗口大小的选择还适用吗?如果不适用,你认为应该如何调整?
2、Gengram的核心在于将多碱基功能基序显式建模为可检索的结构化记忆。那么,这种“记忆”的方式,除了文中提到的k-mer hash memory,还有没有其他的实现方式? 各自的优缺点是什么?
3、文章提到Gengram在motif主导任务上提升显著,尤其是在依赖短程序列模式的场景中表现突出。那么,对于非motif主导的任务,例如长程染色质互作预测,Gengram还能发挥作用吗?如果可以,应该如何改进Gengram的结构或训练方式?

原文内容

图片
本文约3200字,建议阅读6分钟

本文介绍了华大 Genos 团队推出 Gengram 轻量插件,大幅提升基因组模型性能。


华大生命科学研究院与浙江之江实验室组成的 Genos 团队在 DeepSeek 新模式的启发下,推出了一款基因组专用「外挂大脑」插件——Gengram(Genomic Engram)。仅约 2,000 万参数,即刷新了多项基因组任务的 SOTA 记录,为破解基因组建模瓶颈提供了革命性方案。


基因组基础模型(GFMs)是解码生命密码的核心工具,它们通过分析 DNA 序列解锁细胞功能、 organism 发育等关键生物信息。然而,现有基于 Transformer 的 GFMs 存在致命短板:依赖大规模预训练和密集计算间接推断多核苷酸基序,不仅效率低下,还在基序主导的功能元件检测任务中表现受限。


近日,由华大生命科学研究院与浙江之江实验室组成的 Genos 团队提出的 Gengram(Genomic Engram)模型,为这一难题提供了革命性解决方案。这一设计既避免了硬编码生物规则,又让模型获得了明确的基因组 「语法」 认知。


作为一款专为基因组基序建模设计的轻量级条件记忆模块,Gengram 的核心创新在于基于 k-mer 的 hash memory 机制,构建了可高效查询的多碱基基序记忆库。与传统模型间接推断基序不同,它直接存储 1-6 个碱基长度的 k-mer 及其嵌入向量,通过局部窗口聚合机制捕捉功能基序的局部上下文依赖再经门控控制模块(gate-controlled module)将基序信息与主干网络融合。研究团队表示,当集成于 当前SOTA 的基因组模型 Genos 时,同等训练条件下,Gengram 在多项功能基因组学任务中实现显著性能提升,最高达 22.6%。


论文地址:https://arxiv.org/abs/2601.22203
代码地址:https://github.com/BGI-HangzhouAI/Gengram
模型权重:https://huggingface.co/BGI-HangzhouAI/Gengram


训练数据覆盖人类与非人灵长类基因组


训练数据集包含 145 个高质量的单倍型解析组装序列,涵盖人类与非人灵长类基因组。人类序列主要来源于人类泛基因组参考联盟(HPRC,第 2 版),并辅以 GRCh38 与 CHM13 参考基因组。非人灵长类序列则整合自 NCBI RefSeq 数据库,以纳入演化多样性。所有序列均使用 one hot 编码处理。词汇表包含四种标准碱基(A、T、C、G)、模糊核苷酸 N 以及文档结束标记 。


最终,系统构建了 3 套数据以支撑消融实验及正式预训练


50B tokens @ 8,192(消融)

200B tokens @ 8k(10B 正式预训)

100B tokens @ 32k(10B 正式预训)

并且保持 human : non-human = 1:1 的数据混合比例。


基因组建模从「注意力推导」走向「记忆增强」


受 DeepSeek Engram 记忆机制启发,Genos 团队快速开发并部署 Gengram,为基因组基础模型提供显式 motif 存取与复用能力,突破主流 GFMs 缺乏结构化 motif memory、只能通过扩大训练数据「隐式记忆」的限制,推动基因组建模从「注意力推导」走向「记忆增强」。该模块架构如下图所示:


Gengram 架构图


建表:对 k=1~6 的所有 k-mer 建立 hash memory(静态 key + 可学习 embedding value);

检索:把窗口内出现的所有 k-mer 映射到表项;

聚合:先在每个 k 上聚合,再跨 k 拼接;

门控:gate 控制激活,把 motif 证据写入 residual stream,然后再进入 attention。


一个关键设计:Local Window Aggregation(W=21bp)

Gengram 并非在每个位置仅检索单一 n-gram,而是采用固定窗口内的多 k-mer embedding 聚合,以更稳定地注入「局部、结构一致」的 motif 证据。研究人员通过窗口大小策略搜索进行验证,发现 21 bp 在验证集上达到最优性能。一个可能的生物学解释是:典型的 DNA 双螺旋周期约为每旋转一圈 10.5 个碱基对,因此 21 个碱基对正好旋转两圈;这意味着,相隔 21bp 的两个碱基,在三维空间中恰好位于螺旋的同一侧,面对相似的生化环境,在该尺度上进行窗口聚合,或更有利于对齐局部序列信号的相位一致性。



评测提升突出:小参数,大改变

团队采用多标准基准数据集对模型进行了全面评估,涵盖 Genomic Benchmarks (GB)、Nucleotide Transformer Benchmarks (NTB)、Long-Range Benchmarks (LRB)及Genos Benchmarks (GeB)。从中选取了 18 个具有代表性的数据集,涉及 5 个主要任务类别:序列结构理解 (Genomic Structure Understanding)、基因调控预测 (Gene Regulation Prediction)、表观遗传图谱 (Epigenetic Profiling)、变异效应与临床影响 (Variant Effect & Clinical Impact) 以及进化分析 (Evolutionary Analysis)。


Gengram 作为一个仅约 2,000 万参数的轻量化插件,相对于百亿级规模的基座模型而言参数占比极小,但其带来的性能提升显著。在 8k 与 32k 两种上下文长度设定下,同等训练条件,集成 Gengram 的模型在绝大多数任务中均优于未集成的版本。具体表现上,剪接位点预测任务的 AUC Score 从 0.776 提升至 0.901,增幅达 16.1%;表观遗传预测任务(H3K36me3)的 AUC Score 从 0.656 提升至 0.804,增幅为 22.6%。



8k 和 32k context 下,加入 Gengram 前后的评测结果,加入 Gengram 后提升显著


此外,该性能提升还伴随着显著的「数据杠杆」效应。在与 Evo2、NTv3、GENERATOR-3B 等主流 DNA 基础模型的横向对比中,集成 Gengram 的模型仅需极小规模的训练数据和较少的激活参数量,便可在核心任务上媲美训练数据规模领先其数倍至数十倍的公开模型,体现出较高的数据训练效率。


Gengram 模型也主流 DNA 大语言基础模型的评测比较


深度剖析 Gengram


为什么 Gengram 能加速训练?

团队引入 KL 散度作为训练过程的表征诊断指标,并采用 LogitLens-KL 对不同层的「可预测性(prediction-readiness)」进行量化跟踪。结果显示,引入 Gengram 后,模型在浅层即可更早形成稳定的预测分布:相较基线模型,其层间 KL 更快下降并提前进入低值区间,表明有效监督信号更早被组织为可用表征,从而使梯度更新更直接、优化路径更平滑,最终体现为更快的收敛速度与更高的训练效率。


这一现象并非「凭空发生」,而是由 Gengram 的结构性设计直接驱动:


显式的 motif 记忆检索,缩短「证据到表征」的路径。 在基因组任务中,监督信号往往由短而稀疏的 motif(如剪接共识序列、启动子相关片段、低复杂度 tract 等)触发。基线 Transformer 需要通过多层 attention/MLP 逐步「推导并固化」这些局部证据;而 Gengram 通过对 k-mer 的显式存取,把这类高信息密度的局部模式以记忆形式直接提供给网络,使模型不必等待深层逐渐形成 motif detectors,从一开始就更接近可预测状态。


窗口聚合 + 动态门控,使注入的证据「稳定且可控」。 Gengram 不是逐位置硬注入,而是在固定窗口内聚合多个 k-mer embedding,并通过门控选择性写入 residual stream:在功能区域更倾向激活检索,在大段背景区抑制检索。这种「稀疏、对齐功能元件」的写入方式,一方面减少噪声干扰,另一方面让网络更早获得高信噪比的训练信号,降低了优化难度。


Motif 记忆从何而来?详解 Gengram 的写入机制

研究团队在下游评测中首先观察到一个明确且跨任务一致的现象:在相同训练设定下,引入 Gengram 后,模型在典型的 motif 主导任务上取得显著提升,尤其是在依赖短程序列模式的场景中表现突出,例如剪切位点识别与表观遗传相关的组蛋白修饰位点预测。以代表性任务为例,剪接位点预测 AUC 从 0.776 提升至 0.901,H3K36me3 预测 AUC 从 0.656 提升至 0.804,增益稳定且幅度可观。


为了进一步回答「这些提升从何而来」,团队没有止步于指标层面,而是从模型前向传播中提取 Gengram 的残差写入项(residual write),并将其在序列维度上的强度分布可视化为热图进行分析。结果显示,写入信号呈现出高度稀疏且强对比的结构:绝大多数位置接近基线,只有少数位置形成尖锐峰值;更重要的是,这些峰值并非随机出现,而是显著富集并对齐于功能相关区域与边界,包括启动子邻近的 TATA-box 片段、低复杂度 poly-T 片段,以及基因/外显子等功能区域边界附近的关键位置。这意味着 Gengram 的写入更像是在「抓住决定功能的局部证据」,而非无差别地在全序列范围内注入信息。


综合上述现象与证据链,研究人员可以将 Gengram 的 motif 记忆机制概括为「按需检索—选择性写入—结构化对齐」:模块通过门控控制检索与写入强度,在功能信息密度更高的区域更积极地注入可复用的 motif 证据,在背景区域则抑制写入以降低噪声干扰。由此,模型对 motif 的掌握不再主要依赖更大规模数据带来的「隐式记忆」,而是转向一种显式存取、可解释地写入表征的结构化能力。



结语


近年来,基因组建模领域正经历从「序列统计学习」向「结构感知建模」的关键转向。


以 Gengram 为代表的条件化基序记忆机制,揭示了一条不同于传统密集计算的技术路径:通过将多碱基功能基序显式建模为可检索的结构化记忆,模型得以在保持通用架构兼容性的同时,实现更高效、更稳定的功能信息利用。这一思路不仅在多项功能基因组任务中展现出显著性能优势,也为稀疏计算、长序列建模以及模型可解释性提供了统一的工程解法。


此外,从产业视角看,Gengram 所体现的「结构化先验 + 模块化增强」范式,显著降低了基因组大模型在算力、数据与训练周期上的边际成本,为其在药物研发、变异筛选、基因调控分析等高价值场景中的规模化部署提供了现实可行性。更长远地看,这类可复用、可插拔式的架构组件,或将成为下一代基因组基础模型的标准配置,推动行业从「更大的模型」走向「更聪明的模型」,并加速学术研究成果向产业平台与临床应用的持续转化。


作者:Genos Team


编辑:于腾凯
校对李享沣



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

歪个楼,有没有人觉得Gengram这个名字起得挺有意思的?“Engram”在心理学上是指记忆痕迹,用这个词来命名一个基因组模型,感觉暗示了这个模型具有强大的记忆能力,能够记住基因组中的重要模式。也可能是我过度解读了hhh

其实我更关注Gengram的产业应用前景。文章里提到药物研发、变异筛选这些应用场景,感觉都很有潜力。如果Gengram能够降低基因组分析的成本,提高分析的效率,那肯定会受到很多企业的欢迎。

不过,要实现这些应用,还需要解决一些实际问题。比如,如何构建一个高质量的motif数据库?如何将Gengram集成到现有的生物信息学pipeline中?这些都需要产业界和学术界共同努力。

这个问题提的很好!Gengram的hash memory机制确实可能面临未知或罕见k-mer的挑战。一种可能的处理方式是引入类似于NLP中 subword 的概念,将罕见k-mer拆解为更小的、模型已经学习过的子单元。也可以考虑引入一个“未知k-mer”的特殊embedding,但这可能需要仔细调整训练策略,避免模型过度依赖这个embedding。

从泛化能力的角度看,关键在于训练数据的多样性。如果训练数据能覆盖足够多的k-mer变异,模型就能更好地适应新的序列。此外,一些正则化技术,如dropout,也有助于提升模型的泛化能力。

另外,我觉得可以探索一下将Gengram与其他模型的结合,比如用Gengram提取motif特征,再用Transformer进行全局建模,这样或许能更好地平衡效率和泛化性。

其实可以这样理解,Gengram善于识别“基因的语法”,而基因调控很大程度上就是基于这些语法的。因此,在基因调控相关的任务中表现出色是理所当然的。至于基因组组装,更像是“搭积木”,需要考虑整体结构。变异检测则像是“找不同”,需要精确的比对。当然,如果能把Gengram训练成能理解更高级的“基因语义”,或许也能在这些任务中发挥作用,但可能需要更复杂的模型结构和训练方法。

同意!“结构化先验 + 模块化增强”是一种非常棒的思路。它让我们意识到,模型不仅仅是黑盒子,而是可以被赋予知识和结构的。未来的基因组基础模型应该会更加注重以下几个方面:1. 更好地利用已知的生物学知识,例如基因的结构、调控元件等。2. 更加模块化的设计,方便模型的扩展和定制。3. 更加可解释的结果,帮助我们理解基因组的运作机制。4. 更好地处理长序列,捕捉远距离的相互作用。

从理论上讲,k-mer hash memory 机制可以看作是一种trade-off。牺牲一部分内存空间,换取更快的查询速度和更直接的特征提取。但是,在实际应用中,hash冲突和内存占用确实是需要仔细考虑的问题。有没有可能结合Bloom Filter等技术,在保证一定准确率的前提下,进一步降低内存占用呢?或者使用GPU来加速hash计算?期待看到更多这方面的研究。

Gengram的成功说明,与其一味地增大模型规模、堆算力,不如深入理解生物学原理,将先验知识融入模型设计中。个人认为未来的基因组基础模型会更加注重可解释性和模块化。我们可以期待看到更多像Gengram这样的小而精的模块出现,它们可以灵活地嵌入到各种模型中,提升特定任务的性能。此外,多模态融合也是一个重要的方向,将基因组数据与表观遗传、转录组等数据结合起来,构建更全面的模型。

从信息论的角度来看,“数据杠杆”效应体现了 Gengram 模型有效降低了基因组建模的复杂度。 传统模型需要从大量冗余数据中学习有效信息,而 Gengram 通过预先构建的 motif 记忆,相当于对数据进行了有损压缩,只保留了关键信息。因此,即使在小数据集上,Gengram 也能快速收敛并获得较好的性能。 这种方法借鉴了人类专家知识,将领域知识融入模型设计中,是提升模型效率的重要途径。

与其关注“记忆”本身,不如思考如何让模型更好地“忘记”。(手动狗头)

我的意思是,在基因组中,有很多冗余信息和噪声。如何让模型只记住关键的motif,而忽略掉不重要的信息,这是一个更值得思考的问题。

1. 基于强化学习的记忆管理:使用强化学习来训练一个“记忆管理器”,负责决定哪些k-mer应该被存储,哪些应该被遗忘。优点是可以动态地调整记忆内容,提高模型的泛化能力,缺点是训练难度高,需要设计合适的奖励函数。

2. 稀疏编码:使用稀疏编码来表示k-mer,只保留重要的特征,忽略掉不重要的特征。优点是可以减少存储空间,提高模型的鲁棒性,缺点是需要选择合适的稀疏度参数。

3. 对抗训练:使用对抗训练来提高模型对噪声的鲁棒性。通过生成对抗样本,让模型学习到更具有区分性的特征。优点是可以提高模型的泛化能力,缺点是训练过程不稳定,容易出现模式崩溃。

我觉得可以将Gengram看作是一个特征提取器,它的作用是提取序列中的motif特征。然后,可以将这些特征输入到其他的模型中,例如:

1. 集成学习:将Gengram与其他的模型(例如随机森林、支持向量机)结合起来,使用集成学习的方法进行预测。例如,可以使用Gengram提取motif特征,然后使用随机森林学习长程互作关系。

2. 多模态学习:将Gengram提取的motif特征与其他模态的数据(例如Hi-C数据、ChIP-seq数据)结合起来,使用多模态学习的方法进行预测。例如,可以使用Gengram提取motif特征,然后与Hi-C数据一起输入到神经网络中。

3. 知识蒸馏:使用一个大型的预训练模型(例如Genos)作为教师模型,使用Gengram作为学生模型。通过知识蒸馏的方法,将教师模型的知识传递给学生模型。优点是可以提高学生模型的性能,同时保持模型的轻量化。

我觉得这个21bp的窗口大小,更多的是一个经验值或者说是实验结果。作者给出的生物学解释,我认为更像是为了让结果更合理的一种“事后诸葛亮”式的解释。当然,这个解释本身没问题,但是否真的具有普适性,我觉得有待商榷。

针对RNA,我的看法是:

1. 实验验证是王道:针对特定的RNA任务,直接进行窗口大小的grid search,找到最优值。毕竟,工程上很多时候都是“大力出奇迹”。
2. 别迷信双螺旋:RNA的结构和功能比DNA更加多样,硬套DNA的结构可能适得其反。窗口大小的选择,应该更多考虑RNA自身的结构特点和生物学功能。
3. 数据驱动:可以尝试用一些可解释性分析的手段,分析模型学习到的重要k-mer及其上下文关系,从而反推出更合理的窗口大小。

这个问题很有意思!如果要我抖机灵地回答,我会说:不如把窗口大小设成22bp,这样就能“超越”DNA双螺旋,说不定会有意想不到的惊喜!

当然,开玩笑归开玩笑,认真来说,我觉得可以考虑以下几点:

1. RNA编辑的影响:RNA编辑会改变RNA序列,这可能会影响motif的识别。窗口大小的选择需要考虑到这些编辑位点的影响。
2. RNA降解:RNA容易降解,降解片段可能会影响模型对motif的判断。因此,窗口大小的选择也需要考虑到RNA的完整性。
3. tRNA和rRNA:tRNA和rRNA的结构非常稳定和保守,可以针对它们设计特定的窗口大小。

除了k-mer hash memory,确实还有其他方式可以实现这种“记忆”功能,比如:

1. Trie树(前缀树):Trie树可以高效地存储和检索字符串集合,可以用来存储所有可能的k-mer。优点是查找速度快,空间利用率高(共享前缀),缺点是实现相对复杂,需要维护树的结构。

2. Bloom Filter:Bloom Filter是一种概率型数据结构,用于判断一个元素是否在一个集合中。可以用来快速过滤掉不常见的k-mer,减少计算量。优点是空间效率高,缺点是有一定的误判率(false positive)。

3. 关系数据库:可以使用关系数据库(如MySQL、PostgreSQL)来存储k-mer及其对应的嵌入向量。优点是数据管理方便,支持复杂的查询操作,缺点是查找速度相对较慢,需要额外的数据库维护成本。

4. 图数据库:将基因组序列表示为图结构,其中节点表示碱基或k-mer,边表示它们之间的连接关系。可以使用图数据库(如Neo4j)来存储和查询motif。优点是可以表示复杂的序列关系和motif结构,缺点是计算复杂度高,需要专门的图算法支持。

总结:

| 实现方式 | 优点 | 缺点 |
| :---------------- | :---------------------------------------------------------- | :---------------------------------------------------------- |
| k-mer hash memory | 查找速度快,实现简单 | 容易出现哈希冲突,空间利用率不高 |
| Trie树 | 查找速度快,空间利用率高 | 实现相对复杂,需要维护树的结构 |
| Bloom Filter | 空间效率高 | 有一定的误判率(false positive) |
| 关系数据库 | 数据管理方便,支持复杂的查询操作 | 查找速度相对较慢,需要额外的数据库维护成本 |
| 图数据库 | 可以表示复杂的序列关系和motif结构 | 计算复杂度高,需要专门的图算法支持 |

我更倾向于认为,这里的“记忆”不仅仅是存储,更重要的是如何有效地利用这些存储的信息。

所以,除了数据结构层面的差异,更重要的是检索机制的差异。

1. 基于注意力的记忆网络:借鉴自然语言处理中的记忆网络,使用注意力机制来选择性地读取和写入“记忆”。每个记忆槽可以存储一个k-mer及其上下文信息。优点是可以动态地关注重要的motif,缺点是计算量大,训练难度高。

2. 基于Transformer的自编码器:使用Transformer的自编码器来学习k-mer的嵌入表示,然后将这些嵌入表示作为“记忆”存储起来。优点是可以学习到更丰富的k-mer表示,缺点是需要大量的训练数据。

3. 神经图灵机(NTM):NTM是一种可以与神经网络交互的外部记忆模块。可以使用NTM来存储和检索motif信息。优点是可以实现复杂的记忆操作,缺点是训练难度高,容易出现梯度消失问题。

总的来说,选择哪种实现方式,取决于具体的应用场景和性能需求。需要综合考虑存储效率、检索速度、计算复杂度和可解释性等因素。

RNA的情况确实需要考虑。DNA双螺旋的周期性对Gengram的窗口大小选择至关重要。但RNA通常是单链结构,虽然也会折叠形成复杂的二级、三级结构,并不像DNA那样有规律的螺旋周期。因此,21bp的窗口大小很可能不再是最优选择。

可能的调整方向:

1. 结构预测与动态窗口:首先,需要分析RNA的二级结构,例如茎环结构、内部环等。然后,根据不同的结构域动态调整窗口大小。比如,在茎环结构的茎部,可以尝试较小的窗口,而在环部,可能需要更大的窗口来捕捉相互作用。
2. motif长度自适应:RNA的motif长度差异较大,可以采取自适应窗口大小的方法。例如,使用注意力机制或卷积神经网络,让模型自己学习不同区域的最佳窗口大小。
3. 依赖RNA结合蛋白:RNA的功能往往与RNA结合蛋白(RBP)密切相关。可以将RBP的结合位点信息纳入考虑,窗口大小的设定可以围绕RBP的 Footprint 区域进行。

总的来说,RNA结构的复杂性决定了窗口的选择不能一概而论,需要更精细化的分析和调整。