DeepMind 的 GNoME 利用深度学习预测 220 万种新晶体,引领材料科学新纪元

DeepMind 的 GNoME 预测了 220 万种新晶体,其中 38 万种结构稳定,有望革新材料科学。

原文标题:领先人类 800 年?DeepMind 发布 GNoME,利用深度学习预测 220 万种新晶体

原文作者:数据派THU

冷月清谈:

Google DeepMind 发布的深度学习工具 GNoME,预测了 220 万种新晶体,这相当于人类科学家 800 年的实验产出。其中,38 万种新晶体结构稳定,有潜力用于未来的高新技术。

GNoME,全称 Graph Networks for Materials Exploration,是一个用于新材料研发的图神经网络模型。它通过预测新材料的稳定性,极大地提高了材料研发的速度和效率。

GNoME 的工作流程包含四个步骤:
1. 结构管道:创建与已知晶体结构类似的候选晶体。
2. 成分管道:基于化学公式,以更随机的方式创建候选晶体。
3. 使用密度泛函理论 (DFT) 计算评估两个管道的输出。
4. 将评估结果添加到 GNoME 数据库中,为下一轮主动学习提供信息。

GNoME 利用了 Materials Project 和 OQMD 等现有数据库的快照数据进行训练和验证。实验结果显示,GNoME 将已知稳定晶体的数量提升了近 8 倍,从之前的 4.8 万种增加到 42.1 万种。这一突破性成果展现了 AI 在大规模开发新材料领域的巨大潜力。

怜星夜思:

1、GNoME 预测了这么多新晶体,实际合成能跟上吗?成本会不会很高?
2、GNoME 主要基于已知晶体数据进行学习,那它能发现真正颠覆性的、与现有晶体完全不同的新材料吗?
3、除了晶体材料,GNoME 或类似的深度学习方法还能应用于哪些材料领域的研究?

原文内容

本文约1800字,建议阅读5分钟

本文介绍了利用深度学习预测 的200万种新晶体。


AI 工具 GNoME 发现 220 万种新晶体,相当于人类科学家 800 年的实验产出,其中 38 万种新晶体可以成为未来高新技术的稳定材料。

从计算机芯片、电池到太阳能电池板,都离不开结构稳定的无机晶体 (inorganic crystals)。

传统意义上,发现或者研发一种全新的稳定的无机晶体,往往需要长达数月的艰苦实验。如今借助 Google DeepMind 发布的深度学习工具 GNoME科研人员在短时间内就发现了 220 万种新晶体(相当于人类科学家近 800 年的知识积累),其中 38 万种新晶体具备稳定的结构,成为最有可能通过实验合成并投入使用的潜在新材料。

阅读论文原文:

https://www.nature.com/articles/s41586-023-06735-9


01 GNoME:用于新材料研发的 SOTA GNN 模型

GNoME 全称  Graph Networks for Materials Exploration,是一个用于新材料研发的 SOTA GNN 模型,它利用深度学习,可以在极短时间内预测新材料的稳定性,极大提高了材料研发的速度和效率,展现了利用 AI 大规模开发新材料的潜力。

注:GNN 的输入数据采用 graph 形式,跟原子之间的连接类似,这一特性也使得 GNN 特别适用于新晶体材料的探索。

GNoME 流程示意图

GNoME 流程可分为 4 个步骤:

* Structural pipeline:创建与已知晶体结构类似的候选者 (Candidate)
* Compositional pipeline:遵循基于化学公式的更随机的方法
* 使用 DFT 计算(密度泛函理论,Density Functional Theory)对两个 pipeline 的 output 进行评估
* 将评估结果添加到 GNoME 数据库中,为下一轮的主动学习提供信息

其中前两个步骤,主要目的是确定低能量(稳定)材料,第三个步骤中的 DFT 技术,用于反复测试模型性能,最后一个步骤中主动学习 (active learning) 策略的应用,则极大地提高了 GNoME 的性能。

02 数据选择:前人肩膀上的数据集快照


在数据的选择上,科研人员特别借鉴了先前的研究成果,包括 Materials Project、OQMD、WBM 以及 ICSD。


为了保证可复现,GNoME 使用了固定时间点保存的两个数据集的快照,包含:


* Materials Project  2021 年 3 月的数据
* OQMD 2021 年 6 月的数据

以上两部分结构被用作所有发现(包括通过 SAPS)的基础,并通过 GNoME 生成了稳定晶体目录。

为了对更新数据进行比较,2023 年 7 月科研人员对 Materials Project、OQMD 和 WBM 又进行了另一次快照。在同样的设置下进行了约 216,000 次 DFT 计算,用于比较 GNoME 的发现率与同时进行的研究工作的发现率。

过往工作成果参考:

* Materials Project:https://next-gen.materialsproject.org/
* OQMD:https://oqmd.org/
* WBM:https://www.nature.com/articles/s41524-020-00481-6
* ICSD:https://icsd.products.fiz-karlsruhe.de/

03 实验结果
GNoME 将已知稳定晶体的数量提升近 8 倍
已知稳定晶体的数量变化

上图由内到外展示了:


* ICSD 数据库中,通过人类实验确定的稳定晶体数量约为 20,000 个
* Materials Project、Open Quantum Materials Database 以及 WBM 数据库的计算方法,将稳定晶体数量增加至 48,000 个
* GNoME 将人类已知的稳定材料数量增加至 421,000 个

2019-2022 年发现稳定材料的数量
浅色表示外部数据库,深色表示 GNoME 结果

2021 年至 2023 年,GNoME 以外的稳定晶体数量从 35,000 个增加到 48,000 个,与本文介绍的凸包 (convex hull) 上的 381,000 个全新稳定晶体结构相比,数量悬殊。

实验结果表明,GNoME 模型发现了 220+ 万种新晶体,更新后的凸包 (convex hull) 包含 381,000 万个新条目,结合先前研究,稳定晶体数数量达到 421,000 个,与先前的研究成果 48,000 相比,稳定晶体的数量有了数量级的扩展。


04 行业专家:国内代表学者梳理


雷鸣(教授、博导)
北京邮电大学
信息光子学与光通信国家重点实验室

研究方向:无机光电功能纳米材料及相关光电特性、能量存储与转换材料与器件、新型异质纳米结构光催化剂、有机分子材料与场效应晶体管

个人页面:https://kyy.bupt.edu.cn/info/1136/3409.htm

詹义强(教授、博导)

复旦大学信息科学与工程学院

有机无机杂化电子课题组


研究方向:有机或有机无机杂化薄膜太阳能电池研究、基于有机半导体或无机纳米材料的新型柔性电子器件研究、新型智能传感器应用研究、新型忆阻器及其神经网络应用研究

个人页面:http://www.it.fudan.edu.cn/Data/View/1150


刘淼(研究员)

中国科学院物理研究所

研究方向:原子尺度探索物质原理、数据驱动的材料科学方法、人工智能+材料科学、机器人材料科学家

个人页面:https://edu.iphy.ac.cn/moreintro.php?id=3190


王宗国(硕导,副研究员)

中国科学院大学

中国科学院计算机网络信息中心


研究方向:计算机应用技术、计算机技术、材料信息学与计算材料学、机器学习

个人页面:https://people.ucas.ac.cn/~0070145


编辑:王菁
校对:林亦霖
 

这个问题很有意思。我觉得 GNoME 确实更倾向于发现与已知晶体结构类似的新材料。要发现真正颠覆性的新材料,可能需要结合其他方法,比如更大胆的理论假设、更先进的合成技术等。

GNoME 的“成分管道”允许一定程度的随机性,这或许能带来一些惊喜。另外,随着 GNoME 数据库的不断更新,它发现新材料的能力也会不断提高,说不定以后真的能发现颠覆性的新材料。

我觉得可以应用于其他类型的材料研究,比如聚合物、合金、复合材料等。只要能找到合适的描述符来表示材料的结构和性质,就能用深度学习来预测新材料。

应该也适用于非晶态材料的研究,例如玻璃、橡胶等。不过,非晶态材料结构更复杂,需要更 sophisticated 的模型和算法。

合成肯定是个挑战。就算理论上稳定,实际合成过程中也会遇到各种问题,比如反应条件、杂质控制等等。成本方面,大规模合成前肯定要做筛选,优先合成那些有应用前景、合成难度相对低的晶体。

合成成本确实是个问题。不过想想看,如果能找到性能特别优异的新材料,比如能大幅提高电池能量密度或太阳能电池转换效率的材料,那就算成本高一些也值得。

可以用于材料性能的预测,例如强度、硬度、导电性、热稳定性等。这样就可以在合成之前就评估材料的性能,节省时间和资源。

220 万种看着很多,但实际能合成的肯定少得多。可以先通过计算模拟筛选,找出最有潜力的材料再进行实验合成,这样可以降低成本。

虽然 GNoME 基于现有数据,但它能从海量数据中找到人类难以发现的规律,这本身就很有价值。而且,即使是与现有晶体结构类似的新材料,也可能具有独特的性能优势。