AI材料地图:融合实测与模拟,加速新材料发现,让研发更直观高效!
原文标题:把实验与计算「缝」到一张「地图」上:AI让材料发现路线更直观、可解释
原文作者:数据派THU
冷月清谈:
该研究首先从开放实验数据库StarryData2中筛选出高质量的实验配方,并通过机器学习模型建立「实验视角」的打分器。随后,将该模型应用于Materials Project的结构化材料,筛选出计算端的候选组成。构建地图的关键在于采用MDL框架中的多种图模型,其中消息传递神经网络(MPNN)在材料结构相似性「塑形」方面表现优异,而图卷积神经网络(GCN)在热电性质预测上更为精准。这两种模型的结合,使得材料地图既能提供可视化的结构布局,又能实现扎实的量化回归预测。
最终形成的材料图谱,能直观展示结构相似材料的邻近关系,引导研究人员高效定位有潜力的目标材料,显著缩短新型功能材料的开发周期。它不仅能帮助研究者快速识别高性能材料的类似物,还为现有的合成方案提供了数据驱动的可解释依据。展望未来,该框架计划将扩展至热电材料以外的更多领域,整合磁性、化学性质等额外特征变量,构建更全面的材料图。
怜星夜思:
2、文章提到MPNN和GCN各有侧重,一个擅长「塑形」一个擅长「报数」。在实际应用中,如果遇到一个新问题,我们怎么判断该用哪种图模型,或者如何更好地融合它们的优势?有没有一些通用的策略?
3、这种“材料地图”如果扩展到更多领域,比如药物发现、能源存储甚至艺术创作(材料选择),你觉得对这些领域会有哪些颠覆性的影响?它还面临哪些技术或应用上的挑战?
原文内容
来源:ScienceAI本文约1000字,建议阅读5分钟我们构建了一张融合实验与模拟的 AI驱动材料地图,让模型学会从真实世界与虚拟计算中同时吸收知识。
不知道诸位读者都是否知道黑箱?这是指对特定的系统开展研究时,仅从其输入输出的特点了解该系统规律,而并不会涉及到其中系统内部的结构和相互关系。在材料科学里,很多研究者都困在「黑箱」里:实验结果零散,模拟结果庞杂,数据孤岛四处林立,导致新材料发现依然缓慢。
如何从无数的可能性中选择合适的材料仍然是材料发现中的一道难关。不过,日本东北大学的一组研究人员已经通过人工智能构建的材料图弥合了这一差距,他们构建了一张融合实验与模拟的 AI驱动材料地图,让模型学会从真实世界与虚拟计算中同时吸收知识。
此次研究以「A materials map integrating experimental and computational data via graph-based machine learning for enhanced materials discovery」为题,发布在《APL Machine Learning》。
论文链接:https://pubs.aip.org/aip/aml/article/3/3/036104/3355901/A-materials-map-integrating-experimental-and
材料图谱全家福
该图谱包含热电性能(zT)和结构相似性的坐标轴,每个数据点代表一种材料。在这个图谱上,结构相似(即相似)的材料出现在邻近位置。这样的分布可以引导研究人员找到特定情况下正确的材料——而无需浪费时间迷失方向。
图 1:研究中采用的数据流和数据分析过程。
数据从哪来、清到什么程度,决定了图能画得多靠谱。
团队先从开放的实验数据库 StarryData2 起步,他们对 7000 余篇论文的 40000 多例样本进行了严格清洗,最终选出 8,541 个配方。
在此基础上,用 Gradient Boosting Decision Tree 做 10 折交叉验证建模,R²=0.85,作为「实验视角」的打分器。接着,把模型应用到 Materials Project 里的结构化材料上,限定元素体系与筛选条件,得到 1,114 个计算端的候选组成。
这样一来结构有了、性质也有了,地图就有坐标系了。
图 2:由 MDL 使用 MPNN 架构生成的材料属性图。
从材料项目中获得的计算数据集包含了各种相关数据,这些数据按其他属性着色,并绘制成地图。通过提供对众多候选材料的直观、鸟瞰视角,它可以帮助研究者一眼选出有潜力的目标,将显著缩短新型功能材料的发展时间表。
如何寻找合适的材料
有了干净数据,接下来就是「把点排好队」。团队在 MDL 框架中考察了多种图模型(CGCNN、MPNN、MEGNet、SchNet、GCN),并把图卷积块重复次数 N 设为 4,再用 t-SNE 做降维。
表 1:各种基于图架构的材料属性预测性能。
结果非常有意思:消息传递神经网络(MPNN)在组织材料地图的结构复杂度上最能「看懂」材料的相似与分群,但并不一定带来数值预测精度的最优;在热电性质预测这件事上,GCN(R²≈0.8066)反而更佳,而 MPNN 的 R²≈0.610。
也就是说,MPNN 更擅长「塑形」,GCN 更擅长「报数」,二者各司其职,合起来既给出可视化的构图,又没有放弃扎实的量化回归。
图 3:交互式材料属性图。
最后,一张地图画得好不好,最终还要看它能不能带路方向对不对。团队用地图引导与模型评估串联,从 1,114 个候选里提出了具体化合物线索,并给出数据驱动的可解释依据(比如地图中的簇分布、与计算属性的相关性),这对实验者而言,是从「哪里有宝」到「为什么在那儿」的双重提示。
未来研究
该研究聚焦于包含六个选定元素(Sb、Te、Sn、Se、Bi、S)的材料的电热性能,通过机器学习模型对实验数据中的 zT 值进行训练,展示了预测能力。
这种由 AI 训练的材料图谱能够快速识别未知高性能材料的类似物,并将现有的合成方案作为下一步,从而减少试错。展望未来,团队计划将这一框架扩展到热电材料之外,这需要整合额外的特征变量,例如磁性、化学性质等,以创建一个更全面的材料图。






