材料科学借力人工智能,打造亿万材料数据库

时间:2016-05-13 17:30来源:和讯名家 作者:王杰
点击:

    机器学习技术有望能够实现材料科学的变革。

    这是所有最极客的视频的强大竞争者:一部屏幕滚动播放着一行行数字与符号的智能手机。但是,每当参观者驻足俯瞰日内瓦湖的办公室,Nicola Marzari总会迫不及待地向他们展示。“这是我的手机,”他说,“从2010年开始,它实时计算着硅的电子结构!”。
 来自瑞士洛桑的瑞士联邦理工学院(EPFL)的物理学家Marzari解释到,他的手机,仅花费40秒就能完成曾经超级电脑耗费数小时才能完成的任务量子力学计算。这一壮举不仅显示了过去十年间计算方式的进步;也向我们展示了运算方法改变材料科学研究道路的可能性。
 Marzari抛开以往开发新材料的方法——靠运气误打误撞发现新材料,而后在实验室里煞费苦心地测量性能——他与志同道合的同伴一起,利用计算机建模和机器学习技术生成数以万计的备选材料库。即使是实验失败,实验数据也能提供有用的信息。
 尽管备选材料中有许多完全基于假设,但工程师已开始进行缩减。通过找寻预期属性,针对特定的应用来筛选有合成和检测的价值的材料。例如,它们能否作为导体或绝缘体,能否用作磁铁以及能够承受多大的压力和温度。
 加州大学伯克利分校的材料科学家,材料科学领域的先驱Ceder表示,他们希望以上做法可以实现材料科学研究的速度与效率的巨大飞跃。“对于现存材料的属性,我们大概只了解其中的1%,”由此指向了磷酸铁锂的例子:这种化合物首次合成于20世纪30年代,但直到1996年才被公认为有望替代未来锂离子电池的材料。“而在这之前,没人测量过它的电压。”Ceder说到。

  迄今,世界上至少有三个主要的材料数据库,各包含几万或几十万的化合物。Marzari计划将在今年晚些时候推出洛桑的材料云计划,这受到越来越广泛的关注。

  在伦敦帝国学院担任副院长的材料学家Neil Alford,不隶属于任何一个数据库,他指出:“现在,实验者所想与理论所能及真正地融合在一起。”

  尽管已经提出了设想,但是从计算机预测过渡到现实世界的技术,却还有很长一段路要走。现有数据库还没能收纳所有已知材料,更别说所有可能性材料。

  以数据驱动的研究对某些材料有效,对另外一些材料却无用。此外,即使我们在电脑上筛选出某一有趣材料,后续合成工作也要耗时数年。“我们总是擅长设想,却无法付诸实践。”Ceder说。

  尽管如此,研究人员坚信有着大量化合物的宝藏等待他们去挖掘,它们能够开启电力、能源、机器人、医疗保健和交通运输领域的创新时代。芝加哥的伊利诺斯州大学的计算材料科学家Giulia Galli表示:“我们正在共同拼凑这块巨大的拼图,当每个部位都正确归位后,对材料的预测就会成为现实。”

  基因组启发

  21世纪初,在剑桥麻省理工学院的Ceder受到当时的人类基因组计划的启发,想到了以数据驱动的高通量材料科学研究方法。“就其本身而言,人类基因组不是新的治疗方法的秘诀。”他说,“但是它为医学提供了数量惊人的基础性定量信息。”

  他猜想,或许材料学家可以借鉴遗传学家的做法。或许,材料学家可以用DNA碱基对的生物信息编码方式,对各种化合物进行编码,进而确定“材料基因组”?

  他猜想,如果以上设想实现,那么编码必须在组成所给材料的原子与电子中,以及它们的晶体结构中。2003年,Ceder和他的团队首次展示量子力学计算数据库如何预测金属合金的可能性晶体结构,这是新材料研发领域迈出的关键一步。

  过去,就算对于超级计算机来说,这样的计算既困难又耗费时间。机器要经历大量尝试,历经数次失败才能找到“基态”:一种能量最低且受力均衡的电子排布以及晶体结构。

  2003年,Ceder团队在论文中指出了一条捷径。研究人员计算了一个小型二元合金库里的常见晶体结构的能量,然后设计出一套机器学习算法,从库中提取模型,预测新型合金的最可能基态。算法十分有效,大大缩减了计算时长。

  Stefano Curtarolo说:“那篇论文介绍了建设材料属性公用库,利用数据填补缺失部分的设想。”同年,他离开研究小组,在北卡罗来纳州达勒姆市杜克大学创办了自己的实验室。随后,那一设想催生了两个独立项目。

  2006年,Ceder在麻省理工启动了材料基因组计划,采用算法的改进版本来预估电动汽车电池的锂基材料。到2010年,该项目已包含了近两万种备选化合物。“我们从现有材料入手,修改它们的晶体结构——改动这里或那里的元素并计算结果。”Ceder团队的前成员 Kristin Persson说到。2008年,她搬到加利福利亚洲的劳伦斯伯克利国家实验室后,仍继续跟进项目。

  与此同时,Curtarolo在杜克大学设立了材料基因组中心,专注研究金属合金。同来自犹他州普罗沃杨百翰大学、犹他州和以色列内盖夫的核研究中心的研究人员一起,Curtarolo最终将2003年的算法和库发展为AFLOW,一套能够计算已知晶体结构并自动预测新型结构的系统。

  初始研究团队外的研究者也对高通量计算感兴趣。其中一个是化学工程师Jens Nørskov,在丹麦技术学院期间,他用这种计算来研究催化剂,将水分解为氢气和氧气。后来,他担任加利福利亚斯坦福大学研究催化剂计算的SUNCAT中心的主任,并拓展了该项研究。另一个是Marzari,他是Quantum Espresso开发团队中的一员,该项目研究量子机器运算,于2009年启动。

  材料基因组

  尽管如此,直到2011年7月,白宫宣布了数百万元的材料基因组计划(MGI),材料科学才成为主流。“白宫的官员了解Ceder的研究后,非常激动,”来自标准与技术的美国全国学院的材料科学家和MGI执行秘书James Warren说到。“人们普遍认识到计算机模拟已发展到了对创新与制造产生实际影响的阶段,这是令人称道的盛况。”

  自2011起,该倡议已投资逾250多万美元,用于软件工具、收集和报告实验数据的标准化方法、主要大学的计算材料科学中心、校际合作以及具体应用研究。至于这项投资对科学起了多大推动作用,我们尚不得知。Ceder表示:“这一举措获益颇丰,但也出现了一些偏差,有些团队开始称自己的研究为这为那,然而这些与研究并没有什么联系。”

  不过,可以确定的一点是,MGI旨在帮助Ceder和其他研究者实现材料属性在线数据库的愿景。2011年底,受白宫要求,Ceder和Persson将他们的材料基因组计划改为材料计划,放弃了“基因组”标签,以避免与国家工作混淆。次年,在杜克大学期间研究的软件基础上,Curtarolo推出了自己的数据库——AFLOWlib。

  2013年,伊利诺伊州埃文斯顿西北大学的研究人员Chris Wolverton推出了开放量子材料数据库(OQMD)。他说:“我们借鉴了材料计划和AFLOWlib的总体思路,但我们的软件和数据是自产自销。”

  这三个数据库共享从无机晶体结构数据库获取的近五万种核心已知材料数据。这些数据都已经至少在实验室和论文中出现过一次,但其电力和磁力性能从未得到完整测试;它们是新材料得以产生的起点。

  三个数据库的不同之处在于它们包含的假设材料。材料计划数据相对较少,约15000个从Ceder和Persson的锂电池研究中得出的计算结构,“只有确定了计算结果的准确性和研究可行性,我们才会将材料收入库中。”Persson说。

  另外的13万左右条结构由明尼苏达的明尼阿波利斯大学的纳米多孔材料基因组中心预测得出。后者关注沸石和金属有机框架:晶体结构中带有规律性重复小孔的海绵状材料,可以捕及气体分子,储存甲烷或二氧化碳。

  AFLOWlib是最大的数据库,拥有超过一百万的不同材料和一亿左右的性能属性。Curtarolo表示,那时因为它也包含了数以万记的假设材料,其中许多在现实世界中一转眼的功夫就消失了。“但是当你尝试去预测如何制造某一金属,功夫总不负有心人。”

  例如,他正利用AFLOWlib的数据研究为什么一些合金可以合成金属玻璃(一种金属形式,其无序微观结构赋予了该金属特殊的电磁属性)。研究结果显示,玻璃形成剂的优劣之分在于不稳定晶体结构的数量和能量,这些晶体结构和“基态”在合金冷却过程中“完成”。

  Wolverton的QQMD包含大约40万假想材料,它们由自然普遍发现的一系列晶体结构计算得出。Wolverton的团队几乎选用了元素周期表的每一个部分,来“装饰”这些材料。

  QQMD涵盖了大量的钙钛矿——这种晶体常常展示出引人注目的性能,如超导以及用于太阳能电池开发的微电子。顾名思义,该项目最具开放性:用户可以在电脑上下载整个数据库,而不仅仅是个人研究结果。

  以上数据库都还处于建设阶段,管理者仍然要耗费大量时间添进更多的化合物、完善计算;他们承认,目前的计算远不够完善。

  数据库中的代码善于预估晶体结构的稳定与否,但却无法很好地预估晶体结构如何吸收光或者导电性能;因此,常常会制造出类似半导体的非金属。Marzari指出,即使是在计算材料科学发展最好的领域——电池材料,也存在半伏的平均误差。

  失之毫厘,谬以千里。Curtarolo表示:“事实上,有些误差来源于理论本身:我们永远无法纠正它们。”

  各个团队都在改进自身的技术,调整计算法并修改系统性误差。但同时,他们和其他团队的用户已经利用数据开始了实验。材料计划已经确定了几个具有前景的阴极材料,可能比用于锂电池中的现存材料要好;他们还发现了能够提升太阳能电池捕光和产能效率的金属氧化物。

  今年早些时候,来自都柏林三一学校的研究人员使用 AFLOWlib里的数据预估20种哈勒斯合金,一种可用于传感器和电脑储存器的磁铁。他们成功合成了其中的两种合金,并表示二者的磁性属性与预估值非常接近。

  延伸至欧洲地区

  材料基因组学已经走向了欧洲地区,尽管它的名称有所变化。例如,瑞士创造了MARVEL,一个计算材料科学组织,以洛桑联邦理工学院为首,以Marzari为领导者。

  有了新的计算平台,Marzari创建了名为材料云的数据库。他用该数据库检索由单层原子或分子构成的“二维”材料,如石墨。这类材料既可以用于纳米电子,又可用于医学装置。

  为了找到好的备选材料,Marzari对超过15万已知材料进行了所谓的“计算剥皮”:计算从一个普通晶体表面分离一层需要多大的能量。今年晚些时候,数据库将对外公布,Marzari预测到那时初步运算已经涵盖了1500种可能性“二维”结构,并在后续的实验中进行检验。

  计算化学家Berend Smit建立了另一个洛桑联邦理工学院中心,耸立在距锡安几千公里外的阿尔卑斯山脉上。该中心致力于研发算法,预估数以万计的纳米多孔沸石和金属有机框架。此外,还有衍生自面部识别技术的算法,用于扫描一定的孔状形状,然后寻找最佳备选材料,吸收化石燃料工厂烟囱排放的二氧化碳。

  Smit的工作还揭示了材料基因组的缺点。许多研究者希望纳米多孔材料打造空间更小储甲烷量更大的汽车水箱。然而,在扫描了逾65万计算材料后,Smit团队发现大部分优秀材料早已存在。新材料仅仅有些许进步,而美国机构设定的能源目标——实现甲烷储存的重大技术进步,也就显得不现实。

  正如以上例子一样耐人寻味,材料基因组学在实现自身的承诺前,还需要克服许多困难。其中最大的困难就是,计算机建模还无法找出制作有趣新材料的方法,更别说质量问题了。

  “我们一直在提出关于新物质的有趣设想,”Ceder说。“这些设想,有时候两周就实现了。而有时,就算进行了6个月研究,我们也没有丝毫头绪,我们甚至不知道方向是否正确,亦或是可行性有多少。”

  Ceder和Curtarolo都在尝试改进机器学习算法,从已知制造过程中提取规则,指导化合物的合成。

  另一个限制是,材料基因组一直用于工程师所称的功能性材料中,即能在任务中发挥作用的化合物,如在太阳能电池中吸收光线。但是该技术并不能很好地用于研究结构性材料,如钢,如飞机机翼、桥梁或发动机。这是因为诸如弹性和硬度的机器属性取决于生产过程,而这是量子力学代码不能描述的。

  即使对于功能性材料,现行的计算机代码只适用于完美的晶体结构,而这只是材料领域的一小部分。Galli表示:“未来,最有趣的材料可能是由微观层面的创造性组装而成。”可能是纳米颗粒或是异质材料晶体的组装。要预估这些材料,Galli补充到:“你需要立即计算出许多属性,系统如何在及时地在特定温度在衍生。”方法有许多,“但是将其运用于高通量研究,计算成本仍旧十分高昂。”

  短期而言,实验中更多的数据交换,可以更好地检验计算结果并加以完善。目前,Ceder正与麻省理工的团队一起研究新型软件,通过阅读材料科学实验论文,自动以标准格式提供晶体结构的相关信息。“我们计划在未来几个月,将这些数据加入材料计划中。”

  长期而言,摩尔定律将会起到一定作用:随着计算能力不断提高,一些目前计算机无法实现的技术很快将会变得可行。

  Marzari表示:“我们已经走出计算材料科学的手工时代,并进入了产业化阶段。现在,我们可以创建模拟装配链,并将它们投入使用,以一种全新的方式探索问题。”目前市场上海没有计算预估材料。Galli说:“但十年后呢?我相信那时就会有很多了。”
 

(责任编辑:王杰)
文章标签:
免责声明:本文仅代表作者个人观点,与中国电池联盟无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非中国电池联盟)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:503204601
邮箱:cbcu@cbcu.com.cn
猜你喜欢
专题
相关新闻
本月热点
欢迎投稿
联系人:王女士
Email:cbcu#cbcu.com.cn
发送邮件时用@替换#
电话:010-53100736
在线投稿
企业微信号
微信公众号