LocalMapper：通过人机循环机器学习精准识别有机反应的原子映射

DatapiTHU · 2024 年4 月 5 日 12:14

LocalMapper利用人机循环机器学习技术，实现了高精度的原子到原子映射(Chemical Reaction)预测。其结果具有重要的科研价值。

原文标题：准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247634034&idx=3&sn=8c30d0a62471e87f8f8809124fcd12c5&

冷月清谈：

本文介绍了韩国首尔大学与KAIST研究团队提出的LocalMapper，一个基于人机循环机器学习的模型，能够高效准确地从化学反应中识别原子到原子映射（AAM）。该模型通过学习仅2%的人类标记反应，达到98.5%的预测精度，并且对3000个随机反应展示了100%的准确率。LocalMapper不仅在处理大规模反应数据集时显示出好的性能，而且在分布外实验中的表现优于现有的其他方法。文章深刻探讨了AAM在化学反应分析及预测中的重要性，结合主动学习的方法来提高反应数据的质量，旨在为未来的基于机器学习的反应预测模型提供更准确的数据支持。

怜星夜思：

1、AAM的重要性有哪些具体应用？
2、人机循环机器学习相比传统机器学习有什么优势？
3、你怎么看待LocalMapper在未来化学研究中的潜在作用？

原文内容


        来源：ScienceAI

        本文约2700字，建议阅读5分钟

        来自韩国首尔大学（Seoul National University）和韩国科学技术院（KAIST）的研究团队，提出了一种 ML 模型——LocalMapper，可通过人机回圈（human-in-the-loop）机器学习从化学家标记的反应中学习正确的 AAM。

原子到原子映射（Atom-to-atom Mapping，AAM）是识别化学反应前后分子中每个原子位置的任务，这对于理解反应机理非常重要。

近年来，越来越多的机器学习模型用于逆合成和反应结果预测，这些模型的质量高度依赖于反应数据集中 AAM 的质量。虽然有一些算法使用图论或无监督学习来标记反应数据集的 AAM，但现有方法是基于子结构 alignments 而不是化学知识来映射原子。

在此，来自韩国首尔大学（Seoul National University）和韩国科学技术院（KAIST）的研究团队，提出了一种 ML 模型——LocalMapper，可通过人机回圈（human-in-the-loop）机器学习从化学家标记的反应中学习正确的 AAM。

研究表明，LocalMapper 通过仅从整个数据集中 2% 的人类标记反应中学习，就能以 98.5% 的校准精度预测 50 K 反应的 AAM。更重要的是，LocalMapper 给出的可信预测覆盖了 50 K 反应中的 97%，对 3,000 个随机采样的反应显示出 100% 的准确率。

在分布外（Out-of-distribution，OOD）实验中，LocalMapper 性能优于其他现有方法。研究人员期望 LocalMapper 可用于生成更精确的反应 AAM，并提高未来基于 ML 的反应预测模型的质量。

相关研究以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》为题，于 2024 年 3 月 13 日发布在《Nature Communications》上。

论文链接：https://www.nature.com/articles/s41467-024-46364-y

AAM 在化学研究中的重要性

原子到原子映射 (AAM) 通过识别反应物原子和产物原子之间的一对一映射，在准备反应数据中发挥着至关重要的作用。高质量的 AAM 可以快速识别给定化学反应的反应中心，这对于许多已开发的化学反应分析和预测方法至关重要。

AAM 广泛使用的应用之一是构建缩合反应图 (CGR)。此外，AAM 还可以自动识别反应中心并从数据库中提取反应模板，用于预测反应结果和单步逆合成机器学习模型。由于这些应用高度依赖于反应数据的 AAM，因此 AAM 的质量极大地影响机器学习模型的性能。随着下游模型数量的不断增加，为反应数据集构建高质量的 AAM 成为确保反应预测模型质量的紧迫任务。

现有的 AAM 识别方法通常可分为基于规则的和基于 ML 的方法。尽管比以前的方法准确度更高，但 AAM 需要 100% 的完美准确度，因为反应数据中的缺陷将在下游反应预测模型中被放大。然而，目前还没有可靠的方法来检测可能错误预测的 AAM，这使得预测中的错误难以识别。

此外，尽管现有的基于 ML 的无监督方法比基于规则的方法要快得多，并且适用于更广泛的反应，但在不知道正确的 AAM 的情况下训练模型可能会导致意外错误，即使对于简单的反应也是如此。

三大重要突破

在此，研究人员通过 human-in-the-loop 机器学习提出了一种精确的基于图的 AAM 模型，名为 LocalMapper。

该研究的重要突破体现在以下三个方面：

所提出的基于知识的不确定性识别允许对 ML 模型预测进行快速化学感知验证，为 3,000 个随机采样的置信预测生成 100% 正确的 AAM。
开发的模型 LocalMapper 通过从人机循环机器学习生成的高质量训练数据中学习经化学家验证的 AAM，实现了最先进的 AAM 预测精度。与现有的基于 ML 的模型 RXNMapper 和 GraphormerMapper 相比，仅标记 2% 的反应，显示出更好的预测精度。
在分布外实验中，LocalMapper 比两个现有的基于 ML 的 AAM 模型显示出良好的预测精度，同时保持置信预测的 100% 准确度。

人机循环机器学习框架

为了训练 LocalMapper，研究人员手动标记每个反应的 AAM，以保证训练模型的反应中 AAM 的正确性。由于手动标记化学反应的 AAM 非常耗时（每个反应通常超过一分钟），因此在大型数据集中标记大部分反应是不切实际的。因此，引入主动学习来仅标记一小部分代表性反应。

整个工作流程可以分解为以下 5 个步骤：

随机采样：为了初始化主动学习过程，从未映射的反应数据集中随机采样 k 个反应，其中 k 是人类专家一次性标记 AAM 的一个可承受的小数字。
标签和训练：接下来，手动标记采样的 k 个反应的 AAM，并使用这些反应来训练所提出的基于图的模型 LocalMapper，其结构类似于逆合成模型 LocalRetro 和反应结果预测模型 LocalTransform。从人类绘制的反应中提取的反应模板用于更新模板库，该模板库将用于后续的不确定性识别。
AAM 预测：接下来，使用 LocalMapper 来预测数据集中所有反应的反应物和产物之间的原子相关性。根据 LocalMapper 预测的原子-原子相关性，按照 Schwaller 等人引入的原子映射程序生成每个反应的 AAM。
置信度识别：对于每个预测反应的 AAM，提取反应模板来表示其反应模式。如果提取的反应模板存在于当前模板库中，则该反应预测的 AAM 集合被认为是置信预测，否则是不确定预测。
主动采样：对于从不确定预测中提取的每个唯一模板，从共享最多反应的模板开始对一个反应进行采样，直到采样到 k 个反应。然后，这些反应由人类化学家标记，并在下一次迭代中用于训练模型，重复步骤 2。

从第二次迭代开始，研究人员使用半监督学习来训练模型，从每个唯一验证的反应模板的置信预测中采样 100 个反应，以提高模型的稳健性。这些采样反应按 9:1 的比例分为训练集和验证集，以防止过度拟合。

图 1：在生成逆合成反应模板和基于化学知识推导反应机制方面，获取正确的原子间映射 (AAM) 的重要性。（来源：论文）

LocalMapper

为了预测反应中反应物和产物之间的 AAM，研究人员设计了一个基于图的模型，称为 LocalMapper，以了解反应物中的每个原子重新定位到产物中的原子的概率。

与之前的逆合成模型 LocalRetro 和反应结果预测 LocalTransform 类似，使用图来表示分子，以原子为节点，键为边，并通过反应中原子的局部和全局特征来学习 AAM 通过消息传递神经网络和注意力机制。

图 2：使用所提出的模型 LocalMapper 进行 AAM 的人机循环机器学习的总体方案。（来源：论文）

首先，研究人员使用 3 个消息传递层对每个原子的局部化学环境进行编码，并通过 3 个多头交叉注意块根据反应物的原子特征更新产物中的原子特征。在反应物和产物之间的每个原子的特征充分传达后，通过单头注意力块计算产物和反应物之间的 AAM 相关性。

使用 Softmax 函数对注意力分数进行归一化后，估计反应物中的每个原子与产物中的每个原子是相同原子的概率。按照 RXNMapper 中引入的原子映射程序，使用生成的概率从最高概率到最低概率识别从产物到反应物的 AAM。

100% 预测准确率

总之，研究人员提出了一种基于图的 ML 模型 LocalMapper，以通过人机循环机器学习精确识别大型反应数据集的 AAM。通过利用专业知识手动标记少量反应数据，训练了人机循环机器学习模型，以精确、自动地标记大量具有相似反应规则的反应。

表 1：手动检查反应 AAM 前后，RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 数据集上的 AMM 结果。（来源：论文）

对于公开可用的 USPTO-50K 数据集，该模型仅通过学习 2% 的化学家标记反应，就能以 98.5% 的准确率预测 AAM。

表 2：RXNMapper、GraphormerMapper 和 LocalMapper 在四个不同源上检查的手动映射反应的 AMM 结果。（来源：论文）

更重要的是，LocalMapper 自信预测的数据集中 97% 的反应的 AAM，表现出 100% 的预测准确率。并且在不同的分布外测试集中也观察到类似的结果。

研究人员期望所提出的 LocalMapper 可用于为未来的下游反应预测模型提供精确的反应 AAM，并有利于化学界了解更多有关反应数据集的统计见解。

GitHub 地址：https://github.com/snu-micc/LocalMapper

注：封面来自网络

编辑：文婧

Celeste49f · 2024 年12 月 6 日 11:43

LocalMapper的出现确实为化学研究提供了一种新的方法，它的高精度会对很多研究产生积极影响。未来随着模型不断优化，有望在更广泛的化学反应中实现自动化标记，提高研究效率。

SilentWhale233 · 2024 年12 月 7 日 11:26

我认为LocalMapper会成为化学研究中的一个常规工具，随之而来的会是更多的反应模板和数据重组，这将极大助力新药的研发和材料科学的进步。

GentleBreeze816 · 2024 年12 月 4 日 14:03

从长远来看，LocalMapper的这项技术如果能够与机器人实验室相结合，可能会产生革命性的改变，改变我们进行实验研究的方式并提高效率，也许未来能实现全自动化的化学实验！

Summit72v · 2024 年12 月 10 日 23:20

AAM在反应机制的理解中显得尤为关键，因为它帮助研究者识别反应物和产物之间的直接关系。此外，AAM还被广泛应用于药物设计和合成路径预测上，信息的准确性直接影响了后续的实验设计。

Frost16y · 2024 年12 月 8 日 18:45

我觉得AAM的应用简直无处不在！不仅能用于反应机制的分析，还能够帮助开发新的合成路线，对于设计新药物分子也特别重要。而且，低质量的AAM可能会导致后续研究出错，所以高精度的AAM尤为重要。

Ember34n · 2024 年12 月 8 日 19:00

除了基本的反应分析，AAM还在生成新化合物方面起到了桥梁作用。想象一下，准确的AAM能够帮助科学家们高效地寻找功能性分子，这在材料科学和药物开发中都有很大的潜力！

Whisper51y · 2024 年12 月 8 日 16:40

人机循环机器学习的一个主要优势是它结合了专家的领域知识，使得机器学习模型训练得更具针对性。比如在反应映射的过程中，我们可以确保标记的正确性，这样模型不仅可以学习到准确的内容，还能适应新情况。

WhisperingPeacock073 · 2024 年12 月 8 日 22:07

传统机器学习有时容易依赖大数据集，而人机循环却能通过少量高质量的数据进行训练，这样就能节省时间和人力成本。此外，它降低了错误传播的风险，确保了结果的可靠性。

PolishedStone452 · 2024 年12 月 6 日 13:41

我觉得这就是个聪明的折中方案！结合人的智能与机器的效率，达到更高的准确性，尤其在化学这种复杂领域，能有效应对数据的稀缺性与复杂性。