ESMFold2与ESM Atlas发布:开源蛋白质结构预测迈向十亿级规模

ESMFold2开源发布,配套十亿级蛋白质结构图谱,推动抗体设计和生物发现。

原文标题:超越AlphaFold?ESMFold2正式面世:用10亿开源蛋白质图谱拓展生命科学的边界

原文作者:数据派THU

冷月清谈:

陈·扎克伯格生物中心团队推出ESMFold2及ESM Atlas,后者包含约68亿条蛋白质序列和11亿个预测结构,强调开源且无商用限制。与依赖多序列比对的AlphaFold路线不同,ESMFold2基于蛋白质语言模型,从海量序列中学习氨基酸排列与空间折叠规律,因此更适合宏基因组、弱注释序列和大规模高通量预测。文章称,ESMFold2在蛋白质相互作用、抗体与靶标结合等任务上表现突出,并通过湿实验验证了部分针对癌症和免疫相关靶点的设计结果。ESM Atlas还支持结构相似性检索,帮助研究者在真核生物中发现类似CRISPR的潜在基因编辑相关结构。专家观点认为,ESMFold2更像是AlphaFold的重要补充:前者强在规模、速度和抗体设计,后者仍在高精度细节、配体和离子结合等方面有优势。

怜星夜思:

1、ESMFold2这种蛋白质语言模型路线,真的有机会取代AlphaFold吗?还是更像是各有分工?
2、11亿个预测蛋白质结构听起来很震撼,但这么大的数据库会不会也带来“假阳性”和误用风险?
3、如果ESMFold2对抗体设计更友好,会不会加速新药研发,还是离真正临床应用还很远?
4、ESM Atlas发现真核生物中类似CRISPR的结构,这类“结构相似性搜索”会不会成为下一波生物发现的重要入口?

原文内容

图片
来源:ScienceAI
本文约2000字,建议阅读5分钟
全开源无商用限制的结构库重塑抗体设计与生物学发现。


在蛋白质结构预测的竞技场上,由 Google DeepMind 开发的 AlphaFold 曾被视为不可逾越的丰碑。然而,这一由闭源、商业限制和算力壁垒筑起的高墙,正在被开源社区的一股巨浪轰然推倒。

2026 年 5 月 27 日,《Nature》上发表了一篇名为「Move over, AlphaFold: open source model predicts shape of 1 billion proteins」的文章,宣布由 Meta 前大模型团队负责人 Alex Rives 领衔、陈·扎克伯格生物中心(Chan Zuckerberg Biohub)团队打造的全新人工智能模型 ESMFold2 正式面世。随之而来的,是一个包含 11 亿个预测蛋白质结构和 68 亿条蛋白质序列的超巨型数据库——ESM Atlas

原文链接:https://www.nature.com/articles/d41586-026-01686-3

填补进化的空白

ESMFold2 能够预测出如此庞大的蛋白质数量的秘密,藏在它的训练数据和底层逻辑中。

传统的 AlphaFold 深度依赖于已知物种的序列对比(MSA)。而 ESMFold2 则是基于最前沿的蛋白质语言模型(Protein Language Model)架构。它就像一个精通生命密码的超级 ChatGPT,在通读了来自生命之树的数十亿条蛋白质序列后,已经洞悉了氨基酸排列与空间折叠之间的物理统计规律。

它更多地将来自自然环境的、此前只被弱注释甚至几乎未被注释的蛋白序列纳入预测。与 AlphaFold Database 相比,这个新 atlas 的条目多出 8 亿以上;与此前版本的 ESM Atlas 相比,也多出约 3 亿

图 1:ESMFold2 架构。

ESMFold2 采用循环架构,将后期状态的表示循环到早期状态中。研究团队对循环更新施加约束,防止激活无界增长,并通过多个循环进行反向传播。

配对层由团队简化过,仅包含三角形乘法和前馈跃迁(无三角形关注或单态),使每个 ESMFold2 环路速度更快。此外,团队还实现了 CUDA 内核的自定义,协助处理速度进一步提高。

抗体设计与蛋白质复合物的全面超越

如果仅仅是数量上的堆砌,ESMFold2 还不至于让整个学术界沸腾。Biohub 团队在预印本论文中展示的数据显示,ESMFold2 在多项关键性能上,甚至完成了对最新版 AlphaFold3 的超越。

ESMFold2 速度极快,在结构预测基准测试中具有最先进的准确性,尤其是在预测蛋白质相互作用这一具有挑战性的问题上,包括抗体与其靶标之间的相互作用。

图 2:结构预测基准测试。

湿实验验证中,研究人员利用 ESMFold2 针对数种与癌症(Cancers)和免疫系统疾病(Immunological Conditions)密切相关的靶点蛋白,在虚拟世界里从头设计了一批全新的、能与这些靶点强力结合的抗体及功能蛋白 。

图 3:实验样品与靶标结合。

ESMFold2 的设计算法采用简单方法,通过序列和结构联合模型寻找预测会与目标结合的蛋白质。该过程分为两个阶段。

  • 首先,候选生成:在 ESMFold2 的表示空间中搜索以生成数万个甚至更多的候选设计,在这些实验中,这一过程大约耗时两天。

  • 其次,评分和排名:利用 ESMFold2 的置信度评分评估候选者预测的结合亲和力和结构稳定性,这过程不到一天。这两个阶段都易于并行化。


为了测试更多计算是否能改善结果,团队生成了两个推理-计算尺度的候选池,并筛选了每个尺度上每个目标和格式的前 84 个设计。这将微型结合物的平均成功率从 54% 提高到 70%,单链抗体的平均成功率从 12% 提高到 21%。

ESM 图谱

为了使蛋白质生物学的这种组织变得可导航,团队建立了 ESM 图谱,包含 68 亿条序列和 11 亿个预测结构的地图。图谱使得研究蛋白质的序列和结构能够作为一个完整的图景进行研究。

在利用该图谱进行的首批探索中,研究人员就获得了一个史诗级的发现: 此前,CRISPR 基因编辑系统被认为广泛存在于原核生物(如细菌)的免疫防御机制中。而科学家利用 ESM Atlas 的结构相似性检索功能,竟然在 2023 年发现的一种土壤真菌(Soil Fungus)以及其他的真核生物中,找到了与 CRISPR 极其相似的、具备潜在基因编辑功能的蛋白质空间结构。

图 4:ESM 图谱。

替代或是补充

麻省理工学院(MIT)的知名计算生物学家 Sergey Ovchinnikov 认为,不应将 ESM Atlas 视为 AlphaFold 的掘金替代者,而应将其视为一个极具战略价值的强力补充。

AlphaFold 在高精度细节、多小分子配体和离子结合的预测上依然保持着传统优势;而 ESMFold2 则在宏基因组泛化、超大规模高通量筛选和抗体设计上展现出了惊人的效率。

单从眼下来看,第一版 ESMFold 在预测异常蛋白结构方面并不特别出色,它在面对与已知结构差异极大、极度非主流的怪异蛋白质结构时表现会打折扣。虽然 ESMFold2 在很大程度上克服了这种针对非典型结构的泛化局限,依然需要全球科学家在使用过程中进行严谨的评估。

相关链接:https://x.com/alexrives/status/2059611151860683097

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU



会的,而且这可能比单纯预测结构更有意思。以前我们问的是“这个序列像不像已知蛋白”,现在可以问“这个折叠方式像不像某种功能机器”。对于宏基因组、真菌、古菌这些以前研究不够充分的区域,结构检索可能会挖出不少隐藏功能。

2 个赞

针对“11亿结构会不会带来误用风险”,我觉得肯定会。预测结构不是实验结构,数据库越大,低置信度结果也越容易被人拿来过度解读。比较稳妥的做法是把它当成假设生成工具,而不是结论库。尤其涉及药物、抗体、基因编辑功能时,湿实验验证不能省。

3 个赞

回答“会不会加速新药研发”,我倾向于会加速早期发现阶段,但不等于临床马上提速。抗体设计里,找到能结合靶点的分子只是开头,后面还有亲和力成熟、特异性、免疫原性、稳定性、生产工艺、动物实验和临床试验。ESMFold2可能让候选分子来得更快,但药物研发的长链条不会凭空消失。

1 个赞

我做过一点相关方向的阅读,感觉ESMFold2最大的价值是降低“从0到候选”的成本。以前可能要筛很久,现在可以先在计算空间里生成一批更像样的候选,再去实验室验证。它不是把新药研发变成一键生成,而是把前面的摸黑阶段点亮了一盏灯。

2 个赞