清华AIR联合水木分子开源BioMedGPT-Mol化学分子通用大模型,多项任务达SOTA

清华AIR联合水木分子开源BioMedGPT-Mol化学分子大模型,分子理解与生成六大任务达到SOTA,助力药企和CRO提升研发效率、降低成本。

原文标题:两大领域六类子任务达到SOTA水平,清华AIR联合水木分子开源化学分子通用大模型

原文作者:数据派THU

冷月清谈:

清华大学智能产业研究院联合水木分子开源了化学分子通用任务大模型BioMedGPT-Mol,该模型在分子理解和分子生成两大方向的六大类典型子任务中均达到SOTA水平,尤其在端到端有机分子逆合成分析方面取得了突破。BioMedGPT-Mol依托1360万组高质量分子指令数据集,通过多任务联合学习整合分子研发复杂链路,在性能预测、精准编辑与生成、多目标联合优化等工业界核心任务上表现出色,能够覆盖从分子解析到优化设计的全研发流程,助力药企和CRO提升研发效率、降低成本。该模型的开源标志着生物医药和生命科学界研发进入“大模型驱动”的新阶段,将为相关领域的科研人员提供强大的研发工具,并为合成化学打造新质生产力。

怜星夜思:

1、BioMedGPT-Mol在逆合成分析上的突破,是否意味着未来的化学家可以更多地依赖AI,而减少对传统化学知识的依赖?
2、BioMedGPT-Mol的多目标联合优化能力,在实际药物研发中可能带来哪些意想不到的惊喜?
3、BioMedGPT-Mol的开源,对于小型药企和科研团队来说,意味着什么?他们应该如何利用这个模型来提升自身竞争力?

原文内容

图片
来源:ScienceAI
本文约5000字,建议阅读15分钟
一位24小时不间断进化的「数字化资深科学家

「组合爆炸」遇到「算力瓶颈」是行业性痛点。在传统的制药与化工领域,新分子的研发往往伴随着极高的不确定性。一个候选分子能否成药,需要跨越溶解度、渗透性、毒性等多重「硬指标」的考验;而一旦确定了目标分子,如何将其低成本、高效率地合成出来,更是困扰化学家数十年的难题。传统的 AI 算法往往将这些任务割裂开来,导致研发效率低下,试错成本高昂。

近日,由清华大学智能产业研究院(AIR)联合 AI 药物研发企业水木分子打造的化学分子通用任务大模型 BioMedGPT-Mol 正式开源。这意味着全生态的化学家、材料科学家、药物和生命科学研发人员,能免费使用这一基座模型,这为生物信息与生命科学领域的创新再添力量。

论文地址:https://arxiv.org/abs/2512.04629

开源地址:https://github.com/PharMolix/OpenBioMed

BioMedGPT-Mol 是面向生物医药与生命科学领域的分子语言模型、旨在推动分子发现。该模型在分子理解和分子生成两大方向的六大类典型子任务中均达到 SOTA 水平。未来,其在助力药企、CRO 等生态机构开展化学合成药物创新,尤其是小分子药物发现方面,拥有巨大的应用潜力。

在诸多科研任务中,基于 BioMedGPT-Mol 研究团队首次探索了仅采用 LLM 大语言模型进行端到端有机分子逆合成分析,有效突破了合成化学的传统瓶颈,奠定了化学分子通用任务智能体的基础。BioMedGPT-Mol 的出现,正是为了打破这种碎片化的研发范式。它不再是一个只能完成单一任务的「工具软件」,而是一个具备深度逻辑推理能力的「化学大脑」。

BioMedGPT-Mol 依托 1360 万组高质量分子指令数据集,以精心设计的多任务联合学习策略将分子研发复杂链路整合进统一框架,在工业界核心六大任务上表现亮眼,多目标联合优化可针对先导化合物优化场景权衡多个矛盾指标实现分子精雕细琢,精准编辑与生成能力则支持根据文字描述设计新分子或对已有分子做官能团精准增减;同时该模型还攻坚了逆合成分析的传统难题,团队首次探索仅用 LLM 大语言模型实现端到端有机分子逆合成分析,经三阶段 SFT 微调与强化学习的训练,模型在 RetroBench 榜单达到 SOTA 水平,非专业背景用户也能借助这一智能体获得商业可行、生产可执行的合成方案,助力缩短从实验室验证到规模化生产的周期;而 BioMedGPT-Mol 的开源,标志着生物医药和生命科学界研发迈入「大模型驱动」的新阶段,对药企和 CRO 而言,它是助力提升新药「源头创新」能力的工具,借助其多任务 AI 辅助设计能力,助力药企提升高成药性分子筛选成功率,让研发重心回归到核心机制的突破上。

BioMedGPT-Mol 支持化学分子理解与生成六大任务

在工业界最关心的核心任务上,BioMedGPT-Mol 展现出了惊人的「实战」能力,例如:

  • 性能预测(Property Prediction):预估分子的水溶性、血脑屏障穿透性(BBBP)及人体肠道吸收率(HIA)等关键成药性指标,在临床前阶段提前规避风险,为药企节省试错成本。

  • 精准编辑与生成(Molecule Editing):无论是根据一段文字描述「凭空」设计新分子,还是对已有分子进行官能团的精准增减。

  • 多目标联合优化(Property Optimization):针对先导化合物优化的真实工业场景,模型可以协同优化多个关键指标(如在提升药效的同时降低毒性),助力实现分子的「精雕细琢」。


以分子性能优化任务 — 联合优化为例,该任务要求模型不仅能完成分子编辑,还能判断修改是否导向预期优化目标。其中多任务联合优化更贴合药物研发中先导化合物优化(Lead Optimization)的真实场景,需同时对多个关键成药性指标进行协同提升,包括:QED、血脑屏障穿透性 BBBP、诱导基因突变 Mutagenicity、肠道吸收率 HIA 等等。如下是一个联合优化的例子。

以分子性能优化任务 — 联合优化的例子

对药企而言,这六大任务价值概括为:可覆盖从分子解析到优化设计的全研发流程,助力更快速筛选高成药性候选分子、规划更优合成路线,助力缩短新药发现周期并降低研发试错成本。

对 CRO 而言,这些任务可助力提供一站式 AI 辅助研发服务,助力高效完成数据标准化、成药性评估与分子改造等工作,助力提升项目交付效率与服务竞争力。

两类企业均可借助该模型释放资深研发人员的创造力,让专业人才聚焦高价值创新工作,同时拓展业务边界、增强在药物研发领域的核心优势。

BioMedGPT-Mol 在分子理解与生成任务上均取得综合 SOTA

利用自建的大规模高质量分子理解与生成数据集,通过多任务联合学习的方式,BioMedGPT-Mol 在以化学分子为中心的任务综合能力上明显提升。在涉及 19 个典型任务的 58K 大规模测试数据集上,BioMedGPT-Mol 在六大类子任务的综合指标上均达到 SOTA 效果。同时,当模型切换至推理模式时,水木分子团队也观察到显式的推理过程可以使得模型在分子编辑任务上实现进一步的性能提升。在此基础上,水木分子团队首次探索了仅使用大模型进行端到端有机分子逆合成分析,在 RetroBench 榜单上达到了 SOTA 水平。以 BioMedGPT-Mol 为大脑,其驱动的智能体可以支持化学分子研发全流程。

BioMedGPT-Mol 在分子编辑中的思维过程

基于 BioMedGPT-Mol 的化学分子研发智能体流程图

逆合成分析:合成化学的「老问题」

在化学中,合成是指将简单物质通过化学反应转化为复杂物质的过程。合成并非人类独有,大自然本身就是高效的「合成大师」。例如植物的光合作用,就是叶绿素利用水和二氧化碳,经一系列反应生成葡萄糖与氧气。而人工化学合成则能创造出自然界原本不存在的物质,阿司匹林是极具代表性的化学合成药物。

有机分子是有机化学和合成化学研究的重要对象,在药物、高分子材料、化妆品和农药等领域具有广泛应用。逆合成分析是有机化学中解决合成问题的一种重要方法,它以目标分子为出发点,通过反向分析获得实现目标分子的合成前体和中间反应等,直至获得简单或商业可用的起始原料。例如,通过逆合成分析,找到实现一个复杂目标分子的前序若干前体和相应的中间反应,并最终找到商业可用的起始原料。

在现代合成技术中,通常会采取一种「逆合成」分析的方法,简单来说,就像是在纸上、把目标产物拆解,看看它可以分解出什么东西,这样就可以找到合成办法了。从这个角度来说,分解与合成是创造新物质的一体两面,是不可分割的,甚至可以比喻分解是「高级」的合成。从这个角度看,逆合成分析可以理解为对合成过程的「反向设计」。

逆合成分析的结果通常是一棵逆合成树(retrosynthetic tree),从目标分子逐步回溯至可获得的起始原料,包括每条分支路径上的合成前体、中间反应及反应条件、反应产率等,从而规划商业可行的合成生产方案。在 20 世纪前半叶,有机化合物的合成设计主要依赖于猜测起始原料并进行试错实验。

20 世纪 60 年代,诺贝尔化学奖得主 E.J.Corey 系统提出逆合成分析(Retrosynthetic analysis)方法,该方法颠覆了传统有机合成的设计逻辑(从目标分子反向推导至起始原料)。E.J.Corey 提出不预设起始原料,而从目标分子出发,通过合成反应的逆过程,将目标分子转化为合成前体,从而确定合成路线(合成树),这种方法被称为逆合成分析。

逆合成分析已成为现代有机合成设计的基础范式,并被广泛应用于药物发现、材料科学和生物技术等领域。逆合成分析与正向合成分析在思路上正好相反。正向合成分析是从起始原料出发,找出合成所需的直接或间接的中间体,逐步推向合成的目标分子。正向合成分析与逆合成分析都是经典的搜索问题,但在处理复杂分子的时候,正向分析由于存在庞大的中间体和中间反应路径分支,容易陷入「组合爆炸」,且可能错过全局最优合成路线,而逆合成分析则结合有机化学知识,可高效规划复杂合成路径,特别适于复杂分子设计。

当然,逆合成分析也极具挑战性。由于单个分子往往存在多种可能的合成前体,逆合成分析作为一个搜索问题往往面临路径的爆炸式增长。因此,优异的搜索策略对于逆合成分析的效率至关重要。同时,逆合成分析存在多重、复杂的优化目标,例如总产率、立体选择性、原子经济性、起始原料的可得性和反应条件的可行性等,其中一些因素难以量化,使得逆合成分析成为一个复杂的优化问题。因此,如何设计一个高效、鲁棒的逆合成规划算法,成为有机化学领域的一个重要研究方向,结合 AI 与机器学习的逆合成工具正在成为主流命题之一。

LLM 大模型:逆合成分析的「新解法」

如果说分子设计是「画蓝图」,那么逆合成分析就像是「造工厂」,端到端逆合成智能体是攻克「老问题」的「新解法」之一。长期以来,逆合成分析由于存在庞大的搜索空间,极易陷入「组合爆炸」。BioMedGPT-Mol 团队首次探索了仅采用 LLM 大语言模型进行端到端有机分子逆合成分析。通过三阶段 SFT 微调与强化学习(RL)的「魔鬼训练」,该模型在 RetroBench 榜单上达到了 SOTA 水平。这意味着,哪怕是非专业背景的用户,也能够通过大模型和智能体获得商业可行、生产可执行的合成方案,助力缩短了从实验室验证到规模化生产的周期。

基于 BioMedGPT-Mol 的基础能力,AIR 和水木分子团队首次探索了仅使用 LLM 大语言模型进行逆合成分析规划:通过提出的三阶段 SFT 微调训练策略和 RL 强化学习,BioMedGPT-Mol 推理模型在有机分子逆合成分析任务上能力逐步提升,在基于 RetroBench 的模型能力评测榜单上达到了 SOTA 水平,证明了其可以有效作为一个端到端的有机分子逆合成规划智能体。

BioMedGPT-Mol 在有机分子逆合成规划 RetroBench 上达到 SOTA

近年来,科研人员一直在尝试将深度学习和机器学习应用于逆合成分析。随着 LLM 大模型的进展,科研人员也试图将大模型用于更高效的全局式逆合成分析。基于深度学习和机器学习的传统 AI 算法逆合成分析主要包括单步逆合成(合成前体反应物推荐、反应条件预测与反应产率估计)与多步逆合成搜索的联动。

在单步逆合成的过程中,又基于分子图像、SMILES 数据等分为多条 AI 技术路线的反应物预测推荐,以及基于反应物预测推荐的反应条件预测、反应产率预估等多个分拆的子任务。这些传统单步逆合成的问题在于难以统筹割裂的子任务,从而给出真实可行的规划路径。而在多步逆合成搜索中,还需要同时处理庞大的搜索空间、步骤依赖关系及可实验性判断等。

LLM 大语言模型的出现,有望构建单步逆合成中多个子任务以及多步逆合成搜索中单步预测、多个联合策略、全局优化等的统一框架,以智能体方式实现端到端的自动化的统筹反应物推荐、条件选择和路径规划,让不具备专业背景的用户也能轻松获得商业可行、生产可执行、可靠的合成方案,缩短从逆合成分析到实验室验证再到生产上市的周期。而基于 BioMedGPT-Mol 的逆合成规划,就是这一方向上的重大突破。

在 BioMedGPT-Mol 的三阶段 SFT 微调训练中:第一个阶段采用无 CoT 思维链的标准训练数据让模型具备多步规划的能力;第二阶段通过完整逆合成树和起始原料 SMILES 数据,对 DeepSeek-V3.1 推理能力进行蒸馏得到 CoT 思维链训练数据集对模型进行训练,从而让模型具备更高级别的逆合成分析能力,包括强调分子结构检查、关键反应位点识别以及其它规划中潜在挑战的应对等;第三阶段对训练目标进行再平衡,让模型聚焦于准确的反应物预测,以克服自然语言模型推理的内在模糊性所带来的不确定性问题等。在 SFT 微调训练之后,BioMedGPT-Mol 引入了基于 GRPO 群组相对策略优化的 RL 强化学习,从而让模型在给定数据集之外具备泛化能力。

简单理解,SFT 微调训练相当于让模型模仿给定已标注的路径,而 RL 则鼓励模型探索更为广阔的合成方案空间。水木分子团队的目标是让模型能够识别正确的商业可行的起始原料集并生成符合化学原理的中间路径,即使规划路径与 RetroBench 所提供的真实数据并不相同。为此,水木分子团队在 RL 强化学习中创新地提出了一个分级的奖励函数,包括三个渐进式子奖励组合,从而有效引导模型从基础的结构相关到化学有效性再到正确规划。

水木分子正在进一步优化该模型在逆合成规划任务上的效果,目前已经得到了更优表现,敬请关注后续开源计划。

总结

随着 BioMedGPT-Mol 的开源,面向化学分子通用任务的智能体将具备强有力的基座模型,为生物医药与合成生物领域的科研人员配备强大的研发工具。基于 BioMedGPT-Mol 首次探索了仅采用 LLM 大语言模型进行有机分子逆合成分析,为逆合成分析打开了全新的视角和创新方向。水木分子正源源不断地将科研创新成果转换为面向产业的创新工具,为合成化学打造新质生产力,助力支撑实现生物医药新兴支柱产业的国家战略愿景。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


楼上说的都有道理。我觉得还可以从人才的角度来看。大型药企通常拥有更完善的 AI 团队,他们可以充分利用 BioMedGPT-Mol 的各种功能,并进行定制化开发。小型机构可能缺乏这方面的人才,需要更多依赖模型本身的能力,或者与外部 AI 公司合作。

好问题!传统的 AI 算法,很多时候是基于大数据统计和模式识别,它们能够找到一些关联性,但缺乏对化学原理的真正理解。而 BioMedGPT-Mol 这种大模型,通过学习大量的化学知识,可以模拟化学家的思维过程,进行逻辑推理。

例如,在分子编辑时,它不仅仅是简单地添加或删除官能团,而是会考虑到空间位阻、电子效应等因素,确保修改后的分子在活性、稳定性等方面都符合要求。这种推理能力,使得它能够设计出更加合理、更加高效的分子。

开源的最大意义就是降低了门槛,让更多人可以参与进来,共同推动技术进步。有了 BioMedGPT-Mol 这个强大的基座模型,未来可能会涌现出各种各样的应用,例如个性化医疗、生物材料设计、环境监测等等。想象空间很大!

我从另一个角度说下,大型药企可能更关注 BioMedGPT-Mol 在已有管线上的加速作用,例如优化先导化合物,提高成药性。他们有大量的数据和经验积累,可以更好地训练和微调模型,使其更符合自身的需求。

小型药企或科研机构则可能更看重 BioMedGPT-Mol 在全新靶点或机制上的探索能力。他们可以利用大模型的生成能力,快速筛选潜在的候选分子,然后在特定方向上进行深入研究。这为他们带来了更多差异化竞争的机会。

其实可以这样理解,“化学大脑”意味着它不仅仅是一个工具,更像是一个合作者。传统的AI是给你提供一些选项,你来选择。而“化学大脑”是能和你一起讨论,一起分析,然后共同找到最佳方案。这种互动性,是它最大的优势。

我觉得更重要的是,它可能会改变生物医药行业的创新模式。以前,新药研发往往是大公司主导,需要投入大量的资金和人力。而现在,有了 BioMedGPT-Mol 这样的工具,小型团队甚至个人开发者,也可以参与到创新过程中来。这有利于激发更多的创新活力,推动行业快速发展。

这个问题很有意思!对于大型药企来说,BioMedGPT-Mol 可能更多的是提升研发效率,加速药物发现进程,降低试错成本。他们有能力将大模型深度整合到现有研发流程中,实现更精确的分子设计和更优化的合成路线。

但对于小型药企或者科研机构,BioMedGPT-Mol 的意义可能更加重大,它相当于提供了一个强大的 AI 助手,可以帮助他们快速进入药物研发领域,甚至在某些方面实现弯道超车。降低了准入门槛,让更多创新想法成为可能。

当然,具体影响还要看各家机构对模型的应用深度和广度,以及是否能结合自身优势进行二次开发。

我补充一点,传统的 AI 算法在处理多目标优化问题时,往往需要人为设定权重,比较繁琐。而 BioMedGPT-Mol 可以通过自身的推理能力,自动权衡多个目标之间的关系,找到一个最优解。这大大简化了优化过程,提高了效率。

药物研发只是其中一个方面,我觉得它在合成生物学领域也有很大的潜力。例如,可以利用 BioMedGPT-Mol 设计更高效的生物合成途径,生产各种各样的生物活性物质。这对于食品、农业、能源等领域都可能产生深远影响。

我觉得这个影响是深远的。以后可能人人都能参与药物研发了!想想看,如果有一个平台,你只需要输入你想要的分子特性,AI就能自动生成合成路线,这简直就像搭积木一样简单。当然,真正的药物研发肯定没那么简单,但大模型降低了门槛,说不定能激发更多创新想法,让药物研发更加民主化和大众化。

从化学设计的角度来看,‘多目标联合优化’ 使我们可能在药物研发的早期阶段考虑到更多因素,避免进入’局部最优解’。然而,我们需要警惕的是,大模型是基于现有数据训练的,这可能导致模型过度依赖已知信息,从而限制了其发现全新化学结构的能力。因此,在应用此技术时,保持批判性思维,并结合实验验证,至关重要。

开源不仅仅意味着免费,更重要的是开放创新。小型药企和科研团队可以基于BioMedGPT-Mol进行二次开发,结合自身的专业知识和数据积累,开发出更具针对性的应用。例如,可以针对特定疾病或药物靶点进行模型微调和优化,从而在细分领域形成竞争优势。