AI绘制材料「地图」,融合实验与计算加速发现之路

AI材料地图:融合实测与模拟,加速新材料发现,让研发更直观高效!

原文标题:把实验与计算「缝」到一张「地图」上:AI让材料发现路线更直观、可解释

原文作者:数据派THU

冷月清谈:

材料科学领域长期面临数据分散、实验结果零散以及计算模拟数据庞杂的「黑箱」挑战,导致新材料发现进程缓慢。为应对此困境,日本东北大学研究团队开发了一种AI驱动的材料地图,成功将实验数据与计算模拟结果融合,以更直观、可解释的方式加速材料发现。

该研究首先从开放实验数据库StarryData2中筛选出高质量的实验配方,并通过机器学习模型建立「实验视角」的打分器。随后,将该模型应用于Materials Project的结构化材料,筛选出计算端的候选组成。构建地图的关键在于采用MDL框架中的多种图模型,其中消息传递神经网络(MPNN)在材料结构相似性「塑形」方面表现优异,而图卷积神经网络(GCN)在热电性质预测上更为精准。这两种模型的结合,使得材料地图既能提供可视化的结构布局,又能实现扎实的量化回归预测。

最终形成的材料图谱,能直观展示结构相似材料的邻近关系,引导研究人员高效定位有潜力的目标材料,显著缩短新型功能材料的开发周期。它不仅能帮助研究者快速识别高性能材料的类似物,还为现有的合成方案提供了数据驱动的可解释依据。展望未来,该框架计划将扩展至热电材料以外的更多领域,整合磁性、化学性质等额外特征变量,构建更全面的材料图。

怜星夜思:

1、AI辅助材料发现听起来很棒,但未来会不会出现一些由AI设计出的材料具有潜在负面影响,或者人类对这些AI设计的结果理解不足或失控的情况?
2、文章提到MPNN和GCN各有侧重,一个擅长「塑形」一个擅长「报数」。在实际应用中,如果遇到一个新问题,我们怎么判断该用哪种图模型,或者如何更好地融合它们的优势?有没有一些通用的策略?
3、这种“材料地图”如果扩展到更多领域,比如药物发现、能源存储甚至艺术创作(材料选择),你觉得对这些领域会有哪些颠覆性的影响?它还面临哪些技术或应用上的挑战?

原文内容

图片
来源:ScienceAI
本文约1000字,建议阅读5分钟
我们构建了一张融合实验与模拟的 AI驱动材料地图,让模型学会从真实世界与虚拟计算中同时吸收知识。

不知道诸位读者都是否知道黑箱?这是指对特定的系统开展研究时,仅从其输入输出的特点了解该系统规律,而并不会涉及到其中系统内部的结构和相互关系。在材料科学里,很多研究者都困在黑箱里:实验结果零散,模拟结果庞杂,数据孤岛四处林立,导致新材料发现依然缓慢。

如何从无数的可能性中选择合适的材料仍然是材料发现中的一道难关。不过,日本东北大学的一组研究人员已经通过人工智能构建的材料图弥合了这一差距,他们构建了一张融合实验与模拟的 AI驱动材料地图,让模型学会从真实世界与虚拟计算中同时吸收知识。

此次研究以「A materials map integrating experimental and computational data via graph-based machine learning for enhanced materials discovery」为题,发布在《APL Machine Learning》。

论文链接:https://pubs.aip.org/aip/aml/article/3/3/036104/3355901/A-materials-map-integrating-experimental-and

材料图谱全家福

该图谱包含热电性能(zT)和结构相似性的坐标轴,每个数据点代表一种材料。在这个图谱上,结构相似(即相似)的材料出现在邻近位置。这样的分布可以引导研究人员找到特定情况下正确的材料——而无需浪费时间迷失方向。

图 1:研究中采用的数据流和数据分析过程。

数据从哪来、清到什么程度,决定了图能画得多靠谱。

团队先从开放的实验数据库 StarryData2 起步,他们对 7000 余篇论文的 40000 多例样本进行了严格清洗,最终选出 8,541 个配方

在此基础上,用 Gradient Boosting Decision Tree 做 10 折交叉验证建模,R²=0.85,作为实验视角的打分器。接着,把模型应用到 Materials Project 里的结构化材料上,限定元素体系与筛选条件,得到 1,114 个计算端的候选组成。

这样一来结构有了、性质也有了,地图就有坐标系了。

图 2:由 MDL 使用 MPNN 架构生成的材料属性图。

从材料项目中获得的计算数据集包含了各种相关数据,这些数据按其他属性着色,并绘制成地图。通过提供对众多候选材料的直观、鸟瞰视角,它可以帮助研究者一眼选出有潜力的目标,将显著缩短新型功能材料的发展时间表。

如何寻找合适的材料

有了干净数据,接下来就是把点排好队。团队在 MDL 框架中考察了多种图模型(CGCNN、MPNN、MEGNet、SchNet、GCN),并把图卷积块重复次数 N 设为 4,再用 t-SNE 做降维。

表 1:各种基于图架构的材料属性预测性能。

结果非常有意思:消息传递神经网络(MPNN)在组织材料地图的结构复杂度上最能看懂材料的相似与分群,但并不一定带来数值预测精度的最优;在热电性质预测这件事上,GCN(R²≈0.8066)反而更佳,而 MPNN 的 R²≈0.610。

也就是说,MPNN 更擅长塑形,GCN 更擅长报数,二者各司其职,合起来既给出可视化的构图,又没有放弃扎实的量化回归。

图 3:交互式材料属性图。

最后,一张地图画得好不好,最终还要看它能不能带路方向对不对。团队用地图引导与模型评估串联,从 1,114 个候选里提出了具体化合物线索,并给出数据驱动的可解释依据(比如地图中的簇分布、与计算属性的相关性),这对实验者而言,是哪里有宝为什么在那儿的双重提示。

未来研究

该研究聚焦于包含六个选定元素(Sb、Te、Sn、Se、Bi、S)的材料的电热性能,通过机器学习模型对实验数据中的 zT 值进行训练,展示了预测能力。

这种由 AI 训练的材料图谱能够快速识别未知高性能材料的类似物,并将现有的合成方案作为下一步,从而减少试错。展望未来,团队计划将这一框架扩展到热电材料之外,这需要整合额外的特征变量,例如磁性、化学性质等,以创建一个更全面的材料图。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


哇,这太酷了吧!要是能用在药物发现上,说不定我们就能更快找到治愈癌症的药了!或者设计出更轻更坚固的航天材料,那去火星都只是小意思。艺术创作嘛,AI直接帮你选颜料、挑材料,出炉一个艺术品,那艺术家会不会失业?不过挑战肯定有,比如咱们根本没那么多数据给AI学,还有就是AI再聪明,它也得懂我们这些人类的“直觉”和“审美”才行啊,这可不是光靠数字就能搞定的。

将AI驱动的“地图”思维扩展到药物发现领域,可以加速化合物筛选和新药设计,因为药物分子也具有其独特的结构和性质。在能源存储方面,可以优化电池材料的组分和微观结构。在艺术创作中,它可能通过分析特定风格的材料属性,推荐符合艺术家意图的新型复合材料。然而,挑战在于:1) 数据异构性和稀缺性,很多非传统领域的数据集可能不完整或难以量化;2) 领域知识的融合,如何将专家经验有效编码到AI模型中;3) 伦理和版权问题,特别是在艺术和设计领域。

嗯,这就像找对象吧,一个擅长“看脸”(结构),一个擅长“看内涵”(性能)。如果我只想找个好看的,那选“看脸”的;如果想找个能过日子的,那得选“看内涵”的。要是能找到一个又好看又有内涵的,那不就完美了吗?大概就是把它们的优点结合起来,搞个“联姻”模型,争取两头都讨好!

确实,AI在材料设计中可能引入新的复杂性。AI优化的材料可能具有我们尚未完全理解的性质,尤其是在长期稳定性、生物相容性或回收性方面。此外,如果AI模型因训练数据偏差而产生“公平性”问题,可能会在材料性能或应用上产生意想不到的偏向。解决方案需要强化“可解释AI”(XAI),确保人类专家能理解AI的决策逻辑和潜在风险,并建立严格的多学科评估和监管机制。

这个嘛,好莱坞电影里不都演烂了嘛,AI造出个什么东西最后失控反噬人类。不过话说回来,咱们现在造的高分子材料,很多也是事后才发现微塑料污染那么严重。AI只是个工具,关键还是用工具的人要负起责任,不能光顾着快,忘了安全和道德。

哎呀,这不就是《异形》里的工程师造出个完美的生物,结果……你说AI会不会哪天给我造出一种材料,它自己会变形,会思考,还会催我加班?那可真是太可怕了!不过往好了想,说不定也能造出超级环保、能自我修复的材料呢,这才是AI的正确打开方式。

这不就是传说中的“万物皆可地图”吗?以后想找个对象,AI直接给你画个“爱情地图”,告诉你这个人跟你最匹配,他喜欢啥、讨厌啥,连作息规律都给你标出来!想想都替人类累。不过话说回来,如果能用它来找到新的薯片口味,或者更耐磨的手机屏幕材料,那我可就太支持了!至于挑战,大概就是怕AI算出个“完美”材料,结果我们人类根本造不出来,那就尴尬了。

这个问题我也有想过!总不能每次都试一遍吧。我觉得就像厨师做菜,你得先闻闻尝尝食材的特性。如果数据里结构信息特别重要,比如要找形状相似的材料,那肯定MPNN这种善于“看图”的更合适。如果就是想知道某种材料的“分数”高不高,直接预测性质,GCN可能更管用。实在不行,就让它们俩都跑一遍,谁表现好用谁,或者干脆把结果合起来用,取长补短嘛。