Science:蛋白质语言模型EVOLVEpro加速定向进化

Science重磅:EVOLVEpro利用蛋白质语言模型,快速定向进化蛋白质,显著提升多种蛋白质活性!

原文标题:Science正刊|蛋白质语言模型EVOLVEpro实现快速的定向进化

原文作者:数据派THU

冷月清谈:

Science最新发表了一种名为EVOLVEpro的蛋白质定向进化方法,该方法结合了蛋白质语言模型(PLM)和回归模型,通过少量实验数据即可快速改进蛋白质活性。EVOLVEpro采用主动学习策略,在几轮迭代中就能显著提高蛋白质的结合亲和力、催化效率和免疫原性等特性。

该框架已在多个蛋白质上进行了测试,包括:

* **抗体优化:** 将C143抗体的亲和力提高至60pM。
* **CRISPR核酸酶优化:** 获得了活性比原始PsaCas12f高出4.9倍的突变体,显著提高了基因编辑效率。
* **Prime Editor优化:** 提升了插入效率和通用性。
* **RNA聚合酶优化:** T7 RNAP的E643G突变体翻译效率提高了34倍,免疫原性降低了98%,并提升了环状RNA生产效率。

研究结果表明,EVOLVEpro在蛋白质工程领域具有广阔的应用前景,可用于加速生物医学研究和疗法开发。

怜星夜思:

1、EVOLVEpro相比于传统的定向进化方法有哪些优势?除了文章中提到的应用,EVOLVEpro还能应用于哪些领域?
2、EVOLVEpro是如何避免局部最优解的?
3、EVOLVEpro的局限性是什么?未来如何改进?

原文内容

来源:GenomicAI

本文约1300字,建议阅读7分钟

未来,EVOLVEpro有望在更广泛的领域中得到,推动蛋白质工程的进一步发展。


近期,Science正刊上Kaiyi Jiang等人发表了题为“Rapid in silico directed evolution by a protein language model with EVOLVEpro”的文章,开发了名为EVOLVEpro的高效的蛋白进化方法,它结合了蛋白质语言模型(PLMs)和回归模型,通过少量实验数据快速改进蛋白质活性。


EVOLVEpro通过主动学习的方式,在几轮迭代中就能显著提高了蛋白质的期望性质,如结合亲和力、催化效率和免疫原性。

该框架在多个蛋白质上进行了测试,包括RNA生产、基因组编辑和抗体结合应用,显示出比现有方法更高的改进幅度。

图1:EVOLVEpro的框架和工作原理

展示了EVOLVEpro方法的概述。 EVOLVEpro的核心是一个模块化设计,其中PLM编码蛋白质序列并将其映射到连续的潜在空间,回归模型则学习该空间与蛋白质活性之间的关系。每轮进化,模型通过评估一小部分突变体的实验结果,逐步更新并预测下一轮突变体。这种方法使得EVOLVEpro能够有效探索多种活性区域,从而避免局部最优解的困扰。

图2:抗体优化案例


展示了使用EVOLVEpro对两种单克隆抗体(C143和aCD71)进行工程改造的过程。 在抗优化实验中,EVOLVEpro对两个重要单克隆抗体(C143和aCD71)进行了目标优化,提高了抗体的结合亲和力和表达水平。通过四轮进化,最终获得了显著增强的结合亲和力,特别是C143抗的亲和力提高至60pM,展示了该方法在抗体工程中的潜力。

图3:引导的CRISPR核酸酶的进化


展示了使用EVOLVEpro工程改造高度活跃的微型CRISPR核酸酶(PsaCas12f)。 EVOLVEpro同样应用于CRISPR核酸酶的优化,提高其基因编辑能力。经过四轮进化,通过结合多个突变体,研究团队成功获得了活性比原始PsaCas12f高出4.9倍的突变体,最终获得的epPsaCas12f在多个基因组靶点上的编辑效率均显著提高,这说明该在基因编辑应用中的广适用性。

图4:改进的Prime Editor


展示了使用EVOLVEpro改造Prime编辑器(PE2)。 在对Prime Editor进行优化的过程中,EVOLVEpro通过主动学习逐步提高了插入效率。经过数轮进化,新突变体在多个基因组位上均表现出更好的活性和通用性,显示EVOLVEpro在复杂编辑任务中的有效性。

图5:高效聚合酶的进化


展示了为高产量和低免疫原性mRNA生产而改造的RNA聚合酶(T7 RNAP)。 EVOLVEpro还被用于T7聚合酶的多目标优化,旨在提高RNA的产量、翻译效果和纯度。经过四轮进化,E643G突体的翻译效率提高了34倍,同时免疫原性降低了98%。该研究证明了EVOLVEpro在mRNA生产中的巨大潜力,尤其是在需要高纯度和高效录应用中。

图6:环状RNA的生产


展示了使用epT7进行环状RNA生产和体内生物发光的应用程序。 利用epT7突变体,团队进一步探索了环状RNA的生产效率,发现其转录效率显著高于WT T7 RNA聚合酶。通过对转录质量的分析,表明epT7能够有效减少免疫原性并提高环状RNA的纯度,为未来的治疗应用奠定了基础。

总结

EVOLVEpro展示了在蛋白工程中的巨大潜力,通过结合先进的机器学习技术和实验验证,实现了对多个生物分子活显著提升。

该方法不仅提高了突变体的效率,还优化了多特性,为生物医学研究和疗法开发开辟了新的可能性。

未来,EVOLVEpro有望在更广泛的领域中得到,推动蛋白质工程的进一步发展。

编辑:黄继彦



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

关于EVOLVEpro的优势,我觉得主要体现在效率上。传统的定向进化方法需要大量的实验筛选,费时费力,而EVOLVEpro利用AI模型预测,可以大大减少实验次数,从而节省时间和资源。至于应用领域,我觉得可以拓展到酶工程、生物合成、疾病治疗等方面。

我觉得EVOLVEpro除了效率高之外,还能更好地探索蛋白质的序列空间,找到一些传统方法难以发现的突变体。至于新的应用领域,我觉得可以考虑一下合成生物学,比如设计新的代谢途径或者构建人工细胞。

“EVOLVEpro是如何避免局部最优解的?”这个问题我有一些想法,它应该和算法的优化策略相关,可能使用了类似全局搜索的机制,比如模拟退火或遗传算法,来跳出局部最优。

避免局部最优解应该和PLM的特性有关吧,PLM可以学习到蛋白质序列的全局特征,从而指导模型搜索更广阔的序列空间,避免陷入局部最优。

我觉得EVOLVEpro的局限性在于其依赖于高质量的训练数据,如果数据不足或者质量不高,模型的预测效果就会受到影响。未来可以考虑改进模型的泛化能力,使其能够适应更多类型的蛋白质。

“EVOLVEpro相比于传统的定向进化方法有哪些优势?除了文章中提到的应用,EVOLVEpro还能应用于哪些领域?”这个问题问得好!传统的定向进化就像大海捞针,而EVOLVEpro则是带了个磁铁,效率更高。除了文章提到的,我觉得还可以应用于生物传感器、环境修复等。

“EVOLVEpro的局限性是什么?未来如何改进?”我个人觉得,局限性在于对蛋白质结构的理解还不够深入,未来可以结合蛋白质结构预测和分子动力学模拟等技术,进一步提高模型的准确性。

我觉得可以尝试将EVOLVEpro和其他AI方法结合,比如强化学习或深度学习,来提高模型的性能。另外,也可以探索如何将EVOLVEpro应用于更复杂的蛋白质工程问题,比如设计具有全新功能的蛋白质。