牛津团队揭示抗体-抗原结合预测瓶颈:模型性能上限由数据决定

牛津团队百万级数据研究揭示,抗体-抗原AI预测的关键在于数据量与多样性,而非模型架构本身。强调未来AI药物研发需更多高质量数据。

原文标题:牛津团队推出百万级数据抗体-抗原模型,超大模型的上限到底在哪里?

原文作者:数据派THU

冷月清谈:

牛津大学团队近期推出等变图神经网络架构Graphinity,旨在突破抗体-抗原结合强度(ΔΔG)预测的瓶颈。传统方法如昂贵实验和现有AI模型,均因数据不足或过拟合而效果不佳,预测准确性(皮尔逊相关系数r)在严格切分下甚至仅为0.17-0.26。
为攻克这一难题,研究团队大胆构建了接近百万个FoldX生成数据与两万余个合成数据集。此举不仅显著提升了Graphinity在交叉验证中的性能(r=0.89),更重要的是,它揭示了AI预测ΔΔG的关键在于充足且多样的数据量。团队发现,要达到类似0.85的预测准确度,至少需要90,000个突变数据。研究还强调,数据质量上的多样性比单纯的数量堆砌更重要,特别是抗体序列和氨基酸替换类型的丰富度。最终,Graphinity在近四万个实验数据测试中表现出色,ROC AUC达0.90。
文章核心结论在于,当前抗体-抗原 ΔΔG 预测面临的主要挑战并非模型架构的限制,而是可用的实验数据量与多样性远远不足。这提示未来研究应着重于“机器学习级别的数据”的生成与获取,以推动通用亲和力预测的发展。

怜星夜思:

1、这次牛津团队用百万级数据训练模型,才勉强避开过拟合。你们觉得,在其他AI领域,比如图像识别、自然语言处理这些,是不是也存在一个“数据量天花板”,超过某个量级后,数据再多提升也有限了,或者说“质”比“量”更重要?
2、文章里提到团队用了“FoldX生成数据”,这种合成数据在训练AI模型时虽然量大,但毕竟不是真实实验数据,会不会引入一些“偏见”或者“不精准”的地方?大家怎么看合成数据在科学研究,特别是生物医药这种对精度要求很高的领域,它的真实价值和局限性?
3、抗体药物研发周期长、成本高昂,AI预测模型无疑是个超级潜力股。但从文章看,数据获取依然是最大瓶颈。除了传统的湿实验室实验,大家觉得未来还有哪些方式能高效、低成本地获取高质量的生物医药数据,来喂饱这些AI模型呢?

原文内容

图片
来源:ScienceAI 
本文约1800字,建议阅读5分钟
近日,牛津大学的研究团队开发了 Graphinity,一种直接从抗体-抗原结构构建的等变图神经网络架构。



抗体药物是抗癌、抗病毒的「利器」,但其疗效好坏,核心看抗体与抗原的结合强度(ΔΔG)。长期以来,这个关键指标的预测难住了无数科研人员 —— 要么靠昂贵的实验测量,要么依赖 AI 模型却因数据不足屡屡翻车。

近日,牛津大学的研究团队开发了 Graphinity,一种直接从抗体-抗原结构构建的等变图神经网络架构,虽然在 ΔΔG 预测上的测试皮尔逊相关系数(Pearson Correlation Coefficient)——r可达 0.87,但也同样陷入了过拟合的困境。

故而,他们构建接近 100 万个 FoldX 生成与超过两万个合成数据集,以研究预测 ΔΔG 所需的数据量和类型

他们的研究以「Investigating the volume and diversity of data needed for generalizable antibody–antigen ΔΔG prediction」为题,于 2025 年 7 月 8 日刊登在《Nature Computational Science

论文链接:https://www.nature.com/articles/s43588-025-00823-8

为何抗体开发困难重重

抗体通过特异性结合靶抗原来介导其生理和治疗功能。因此,在确定和优化先导候选物时,控制亲和力是主要考虑因素,但是传统亲和力定量实验慢得让人抓狂,于是大家只能将希望那个寄托在 ML 上。

FoldX、Rosetta Flex ddG 靠物理方程+经验参数,跑一个突变几分钟到几小时,精度随缘。

早期 ML 在 AB-Bind 645 突变或 SKEMPI 608 突变上「看似封神」,实则是「见过这道题」。一旦按抗体/抗原序列相似度严格切分,r 直接掉到 0.17–0.26,比瞎猜好不了多少。

团队推出的 Graphinity 将野生型(WT)和突变抗体–抗原复合物的结构作为输入,通过 Siamese EGNN 处理相应的图表示,并预测 ΔΔG。

图 1:Graphinity 架构和合成数据集准备。(图源:论文)

实验的数据集包含来自 29 个复合物的 645 个单点突变,并且实验模型在 10 折交叉验证中达到了惊人的 r= 0.87 。但团队提出,这只是过拟合的结果,而不是真正的学习。

当他们决定把互补决定区(CDR)序列同源性截止值设为 100%长度匹配,r 平均下降了 63%。

图 2:Graphinity 模型在ΔΔG 预测中的性能。(图源:论文)

症结总结到最后其实就是一句话:实验数据太少、太偏。于是实验研究者们决定——开闸防水!先造它个一百万数据,看看 ML 到底需要多大的胃口才能吃饱。

合成超大数据集

团队通过使用 FoldX 对结构抗体数据库(SAbDab)中结构解析复合物的界面进行穷尽突变,生成了近 100 万 ΔΔG 数据点。虽然说 FoldX 使用物理方程和经验测量来生成结合亲和力的预测,并不完全真实,但其捕捉了分子相互作用的关键特征。

在此基础上,Graphinity 在 10 折交叉验证中实现了 r=0.89(90% CDR 序列相似度划分)。这已经取得了显著的成果,那么接下来就是量化准确预测实验值所需的数据量。

测试皮尔逊相关系数 r 仅在使用至少 90,000 个突变进行训练的模型中才开始趋于平稳,达到 0.85,这还是在总计投放了 94,126 个数据集的情况下。

图 3:关于实验ΔΔG 数据集生成的考虑,以提高机器学习预测性。(图源:论文)

在比较预测值和真实值的分布后,团队发现从较小的数据集构建的模型往往会向均值回归,并且尽管预测值没有覆盖真实值的全部范围,但仍然实现了较高的相关性。

那么数据集光有数量还不够,还得有质量——也就是多样性。团队用 10 万个突变子集作为数据源,就三个指标评估数据集的多样性:

  • 序列多样性:从 1177 个抗体降到 75 个,标准差比直接掉 23%;

  • 氨基酸替换类型多样性:把 380 种氨基酸替换压缩到 19 种常见,标准差比再掉 60%;

  • 界面突变结构分布:只让突变集中在界面核心区或外周区,结果……基本没差。


换句话说,抗体序列和替换化学空间的丰富度才是关键,而「在哪儿突变」倒没那么敏感。

最后在 36,391 个实验数据的实战测试里,Graphinity 真切地展示出了它确实能吃透实验分布,而非简单背题:ROC AUC 达到 0.90,平均精度(AP)为 0.82。

数据荒还是存在的

在如此大数量级的实验验证里,研究团队也才将将避开了过拟合的干扰。多次重复试验后,他们得出了一个结论:实验性 ΔΔG 预测的主要挑战在于数据可用性而非模型架构。

他们认为,目前可用的实验数据远远不足,需要更多的数据集,从数十万到数百万不等。本次测试的条件下,团队预估至少需要 90000 个 ΔΔG 值,以实现测试皮尔逊相关系数超过 0.85。

这并非是单纯的重复堆积,而是更加多样的数据类型。目前的实验里在抗体序列同源与氨基酸替换类型方面数据还是很有限的。

故而,团队强调,未来在类似的实验中,需要向更多「机器学习级别的数据」过渡,并寻找更多方法推进通用亲和力预测。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


针对“数据量天花板”的问题:哎,这话说得,就像我减肥一样,吃再多健康餐,如果种类单一,一样会营养不良。AI模型也是“杂食动物”,光吃肉不吃菜,肯定也长不好!数据量嘛,当然越多越好,但关键是“好”数据,而不是“凑数”数据。

针对“合成数据利弊”的问题:提到合成数据,我觉得就像练习模拟飞行器一样,它能让你熟悉操作流程,掌握基础技能,成本也低。但等你真上了真飞机,各种突发情况和真实复杂性是模拟器给不了的。所以,合成数据能大幅提高AI的“起步”效率和“抗干扰”能力,但最终的“飞行执照”还得靠真实数据来认证。

针对“高质量数据获取”的问题:除了传统高通量筛选实验,我们应该积极探索基于微流控、单分子操纵等技术的新一代实验平台,以实现更快速、更精细的数据采集。同时,结合多模态数据融合(如结构、序列、表型数据)与因果推理模型,通过少量实验数据推断更多未观测区域的因果关系,从而“智能地”生成数据。此外,联邦学习、区块链等技术或许能促进多中心数据共享与协同。

针对“高质量数据获取”的问题:数据啊,就像金矿一样,埋得深,挖起来又累又贵。我觉得可以试试“挖矿”式的数据获取,给提供高质量数据的人发“币”,或者搞个“数据寻宝”竞赛。再不济,是不是能开发点能“无中生有”的AI,直接自己生成超真实的实验数据?(手动狗头)

针对“合成数据利弊”的问题:合成数据在AI模型预训练阶段具有显著优势,能够极大扩展参数空间并降低过拟合风险,尤其在真实数据稀缺的场景下。然而,其根本局限在于“合成”过程基于特定假设或物理/经验模型(如FoldX),这可能导致模型习得性偏差,难以完全捕捉真实世界的复杂性与噪声分布。因此,高保真度和多样性的合成策略至关重要,且最终需通过真实实验数据进行微调与验证。

针对“高质量数据获取”的问题:我觉得未来可能会出现一种“众包实验”模式,或者说更智能、更便宜的自动化实验室。比如,小型实验室可以购买标准化的机器人平台,通过云端接收任务,自动生成数据上传,这样就能把数据生产的效率提上去,成本摊薄下来。再进一步,AI甚至可以根据模型的需求,自己设计实验方案,然后指导机器人去执行,形成闭环。

针对“数据量天花板”的问题:我觉得就像我们学习一样,初期知识匮乏时,多看多学进步飞快。但到了某个点,比如考研刷题,你都刷遍所有真题了,再来一万套模拟题,效果也有限了,可能更多的精力要放到理解透彻、举一反三上。AI也是一样,不是盲目堆数据,而是要数据能带来新的“理解”。

针对“数据量天花板”的问题:从信息论角度看,信息的有效熵是有限的。当训练数据对目标任务的信息冗余度达到一定阈值后,模型通过增加数据获取的边际收益会递减。这不仅仅是数据量的问题,更关乎特征空间覆盖的完备性与真实分布的匹配度。在生物医药这种高维且稀疏的领域,获取有效且多样的数据显得尤为关键。

针对“合成数据利弊”的问题:合成数据?那不就是高考模拟题吗?量大管饱,能让你刷到手软,提高做题速度。但要是题目出得太简单或者老跑偏,那高考真题一出来就懵圈了。所以,模拟题再多,也代替不了真题那金贵的含金量啊!