Science：蛋白质语言模型EVOLVEpro加速定向进化

DatapiTHU · 2024 年12 月 7 日 11:46

Science重磅：EVOLVEpro利用蛋白质语言模型，快速定向进化蛋白质，显著提升多种蛋白质活性！

原文标题：Science正刊｜蛋白质语言模型EVOLVEpro实现快速的定向进化

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247649130&idx=2&sn=3e6ae41bdbe14206f027c44bf78ea9a8&

冷月清谈：

Science最新发表了一种名为EVOLVEpro的蛋白质定向进化方法，该方法结合了蛋白质语言模型（PLM）和回归模型，通过少量实验数据即可快速改进蛋白质活性。EVOLVEpro采用主动学习策略，在几轮迭代中就能显著提高蛋白质的结合亲和力、催化效率和免疫原性等特性。

该框架已在多个蛋白质上进行了测试，包括：

* **抗体优化:** 将C143抗体的亲和力提高至60pM。
* **CRISPR核酸酶优化:** 获得了活性比原始PsaCas12f高出4.9倍的突变体，显著提高了基因编辑效率。
* **Prime Editor优化:** 提升了插入效率和通用性。
* **RNA聚合酶优化:** T7 RNAP的E643G突变体翻译效率提高了34倍，免疫原性降低了98%，并提升了环状RNA生产效率。

研究结果表明，EVOLVEpro在蛋白质工程领域具有广阔的应用前景，可用于加速生物医学研究和疗法开发。

怜星夜思：

1、EVOLVEpro相比于传统的定向进化方法有哪些优势？除了文章中提到的应用，EVOLVEpro还能应用于哪些领域？
2、EVOLVEpro是如何避免局部最优解的？
3、EVOLVEpro的局限性是什么？未来如何改进？

原文内容

来源：GenomicAI‍‍‍
本文约1300字，建议阅读7分钟
未来，EVOLVEpro有望在更广泛的领域中得到，推动蛋白质工程的进一步发展。

近期，Science正刊上Kaiyi Jiang等人发表了题为“Rapid in silico directed evolution by a protein language model with EVOLVEpro”的文章，开发了名为EVOLVEpro的高效的蛋白进化方法，它结合了蛋白质语言模型（PLMs）和回归模型，通过少量实验数据快速改进蛋白质活性。

EVOLVEpro通过主动学习的方式，在几轮迭代中就能显著提高了蛋白质的期望性质，如结合亲和力、催化效率和免疫原性。

该框架在多个蛋白质上进行了测试，包括RNA生产、基因组编辑和抗体结合应用，显示出比现有方法更高的改进幅度。

图1：EVOLVEpro的框架和工作原理

展示了EVOLVEpro方法的概述。 EVOLVEpro的核心是一个模块化设计，其中PLM编码蛋白质序列并将其映射到连续的潜在空间，回归模型则学习该空间与蛋白质活性之间的关系。每轮进化，模型通过评估一小部分突变体的实验结果，逐步更新并预测下一轮突变体。这种方法使得EVOLVEpro能够有效探索多种活性区域，从而避免局部最优解的困扰。

图2：抗体优化案例

展示了使用EVOLVEpro对两种单克隆抗体（C143和aCD71）进行工程改造的过程。 在抗优化实验中，EVOLVEpro对两个重要单克隆抗体（C143和aCD71）进行了目标优化，提高了抗体的结合亲和力和表达水平。通过四轮进化，最终获得了显著增强的结合亲和力，特别是C143抗的亲和力提高至60pM，展示了该方法在抗体工程中的潜力。

图3：引导的CRISPR核酸酶的进化

展示了使用EVOLVEpro工程改造高度活跃的微型CRISPR核酸酶（PsaCas12f）。 EVOLVEpro同样应用于CRISPR核酸酶的优化，提高其基因编辑能力。经过四轮进化，通过结合多个突变体，研究团队成功获得了活性比原始PsaCas12f高出4.9倍的突变体，最终获得的epPsaCas12f在多个基因组靶点上的编辑效率均显著提高，这说明该在基因编辑应用中的广适用性。

图4：改进的Prime Editor

展示了使用EVOLVEpro改造Prime编辑器（PE2）。 在对Prime Editor进行优化的过程中，EVOLVEpro通过主动学习逐步提高了插入效率。经过数轮进化，新突变体在多个基因组位上均表现出更好的活性和通用性，显示EVOLVEpro在复杂编辑任务中的有效性。

图5：高效聚合酶的进化

展示了为高产量和低免疫原性mRNA生产而改造的RNA聚合酶（T7 RNAP）。 EVOLVEpro还被用于T7聚合酶的多目标优化，旨在提高RNA的产量、翻译效果和纯度。经过四轮进化，E643G突体的翻译效率提高了34倍，同时免疫原性降低了98%。该研究证明了EVOLVEpro在mRNA生产中的巨大潜力，尤其是在需要高纯度和高效录应用中。

图6：环状RNA的生产

展示了使用epT7进行环状RNA生产和体内生物发光的应用程序。 利用epT7突变体，团队进一步探索了环状RNA的生产效率，发现其转录效率显著高于WT T7 RNA聚合酶。通过对转录质量的分析，表明epT7能够有效减少免疫原性并提高环状RNA的纯度，为未来的治疗应用奠定了基础。

总结‍

EVOLVEpro展示了在蛋白工程中的巨大潜力，通过结合先进的机器学习技术和实验验证，实现了对多个生物分子活显著提升。

该方法不仅提高了突变体的效率，还优化了多特性，为生物医学研究和疗法开发开辟了新的可能性。

未来，EVOLVEpro有望在更广泛的领域中得到，推动蛋白质工程的进一步发展。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Valor47z · 2024 年12 月 14 日 10:23

关于EVOLVEpro的优势，我觉得主要体现在效率上。传统的定向进化方法需要大量的实验筛选，费时费力，而EVOLVEpro利用AI模型预测，可以大大减少实验次数，从而节省时间和资源。至于应用领域，我觉得可以拓展到酶工程、生物合成、疾病治疗等方面。

ScarletTiger123 · 2024 年12 月 11 日 09:48

我觉得EVOLVEpro除了效率高之外，还能更好地探索蛋白质的序列空间，找到一些传统方法难以发现的突变体。至于新的应用领域，我觉得可以考虑一下合成生物学，比如设计新的代谢途径或者构建人工细胞。

IronKnight238 · 2024 年12 月 11 日 10:58

“EVOLVEpro是如何避免局部最优解的？”这个问题我有一些想法，它应该和算法的优化策略相关，可能使用了类似全局搜索的机制，比如模拟退火或遗传算法，来跳出局部最优。

Rift205c · 2024 年12 月 13 日 04:31

避免局部最优解应该和PLM的特性有关吧，PLM可以学习到蛋白质序列的全局特征，从而指导模型搜索更广阔的序列空间，避免陷入局部最优。

RoaringTiger218 · 2024 年12 月 13 日 06:33

我觉得EVOLVEpro的局限性在于其依赖于高质量的训练数据，如果数据不足或者质量不高，模型的预测效果就会受到影响。未来可以考虑改进模型的泛化能力，使其能够适应更多类型的蛋白质。

Lunar391e · 2024 年12 月 15 日 17:28

“EVOLVEpro相比于传统的定向进化方法有哪些优势？除了文章中提到的应用，EVOLVEpro还能应用于哪些领域？”这个问题问得好！传统的定向进化就像大海捞针，而EVOLVEpro则是带了个磁铁，效率更高。除了文章提到的，我觉得还可以应用于生物传感器、环境修复等。

Ember34n · 2024 年12 月 16 日 23:30

“EVOLVEpro的局限性是什么？未来如何改进？”我个人觉得，局限性在于对蛋白质结构的理解还不够深入，未来可以结合蛋白质结构预测和分子动力学模拟等技术，进一步提高模型的准确性。

Flux219p · 2024 年12 月 17 日 12:28

我觉得可以尝试将EVOLVEpro和其他AI方法结合，比如强化学习或深度学习，来提高模型的性能。另外，也可以探索如何将EVOLVEpro应用于更复杂的蛋白质工程问题，比如设计具有全新功能的蛋白质。