AI 工具 GNoME 发现 220 万种新晶体,相当于人类科学家 800 年的实验产出,其中 38 万种新晶体可以成为未来高新技术的稳定材料。

从计算机芯片、电池到太阳能电池板,都离不开结构稳定的无机晶体 (inorganic crystals)。

传统意义上,发现或者研发一种全新的稳定的无机晶体,往往需要长达数月的艰苦实验。如今借助 Google DeepMind 发布的深度学习工具 GNoME,科研人员在短时间内就发现了 220 万种新晶体(相当于人类科学家近 800 年的知识积累),其中 38 万种新晶体具备稳定的结构,成为最有可能通过实验合成并投入使用的潜在新材料。

领先人类 800 年?DeepMind利用深度学习预测 220 万种新晶体_深度学习

阅读论文原文:

https://www.nature.com/articles/s41586-023-06735-9

01 GNoME:用于新材料研发的 SOTA GNN 模型

GNoME 全称  Graph Networks for Materials Exploration,是一个用于新材料研发的 SOTA GNN 模型,它利用深度学习,可以在极短时间内预测新材料的稳定性,极大提高了材料研发的速度和效率,展现了利用 AI 大规模开发新材料的潜力。

注:GNN 的输入数据采用 graph 形式,跟原子之间的连接类似,这一特性也使得 GNN 特别适用于新晶体材料的探索。

领先人类 800 年?DeepMind利用深度学习预测 220 万种新晶体_深度学习_02

GNoME 流程示意图

GNoME 流程可分为 4 个步骤:

* Structural pipeline:创建与已知晶体结构类似的候选者 (Candidate)

* Compositional pipeline:遵循基于化学公式的更随机的方法

* 使用 DFT 计算(密度泛函理论,Density Functional Theory)对两个 pipeline 的 output 进行评估

* 将评估结果添加到 GNoME 数据库中,为下一轮的主动学习提供信息

其中前两个步骤,主要目的是确定低能量(稳定)材料,第三个步骤中的 DFT 技术,用于反复测试模型性能,最后一个步骤中主动学习 (active learning) 策略的应用,则极大地提高了 GNoME 的性能。

02 数据选择:前人肩膀上的数据集快照

在数据的选择上,科研人员特别借鉴了先前的研究成果,包括 Materials Project、OQMD、WBM 以及 ICSD。

为了保证可复现,GNoME 使用了固定时间点保存的两个数据集的快照,包含:

* Materials Project  2021 年 3 月的数据

* OQMD 2021 年 6 月的数据

以上两部分结构被用作所有发现(包括通过 SAPS)的基础,并通过 GNoME 生成了稳定晶体目录。

为了对更新数据进行比较,2023 年 7 月科研人员对 Materials Project、OQMD 和 WBM 又进行了另一次快照。在同样的设置下进行了约 216,000 次 DFT 计算,用于比较 GNoME 的发现率与同时进行的研究工作的发现率。

过往工作成果参考:

* Materials Project:https://next-gen.materialsproject.org/

* OQMD:https://oqmd.org/

* WBM:https://www.nature.com/articles/s41524-020-00481-6

* ICSD:https://icsd.products.fiz-karlsruhe.de/

03 实验结果:GNoME 将已知稳定晶体的数量提升近 8 倍

领先人类 800 年?DeepMind利用深度学习预测 220 万种新晶体_深度学习_03

已知稳定晶体的数量变化

上图由内到外展示了:

* ICSD 数据库中,通过人类实验确定的稳定晶体数量约为 20,000 个

* Materials Project、Open Quantum Materials Database 以及 WBM 数据库的计算方法,将稳定晶体数量增加至 48,000 个

* GNoME 将人类已知的稳定材料数量增加至 421,000 个

领先人类 800 年?DeepMind利用深度学习预测 220 万种新晶体_数据库_04

2019-2022 年发现稳定材料的数量:浅色表示外部数据库,深色表示 GNoME 结果

2021 年至 2023 年,GNoME 以外的稳定晶体数量从 35,000 个增加到 48,000 个,与本文介绍的凸包 (convex hull) 上的 381,000 个全新稳定晶体结构相比,数量悬殊。

实验结果表明,GNoME 模型发现了 220+ 万种新晶体,更新后的凸包 (convex hull) 包含 381,000 万个新条目,结合先前研究,稳定晶体数数量达到 421,000 个,与先前的研究成果 48,000 相比,稳定晶体的数量有了数量级的扩展。

04 行业专家:国内代表学者梳理

领先人类 800 年?DeepMind利用深度学习预测 220 万种新晶体_深度学习_05

研究方向:无机光电功能纳米材料及相关光电特性、能量存储与转换材料与器件、新型异质纳米结构光催化剂、有机分子材料与场效应晶体管

个人页面:

https://kyy.bupt.edu.cn/info/1136/3409.htm

领先人类 800 年?DeepMind利用深度学习预测 220 万种新晶体_数据库_06

研究方向:有机或有机无机杂化薄膜太阳能电池研究、基于有机半导体或无机纳米材料的新型柔性电子器件研究、新型智能传感器应用研究、新型忆阻器及其神经网络应用研究

个人页面:

http://www.it.fudan.edu.cn/Data/View/1150

领先人类 800 年?DeepMind利用深度学习预测 220 万种新晶体_数据库_07

个人页面:

https://edu.iphy.ac.cn/moreintro.php?id=3190

领先人类 800 年?DeepMind利用深度学习预测 220 万种新晶体_深度学习_08

研究方向:计算机应用技术、计算机技术、材料信息学与计算材料学、机器学习

个人页面:

https://people.ucas.ac.cn/~0070145