【新智元导读】性能达到SOTA也别高兴太早,说不定是把测试集一起训练了呢?
最近科学界又出现一场争论,故事的主角是DeepMind位于伦敦的研究中心于2021年12月发表的一篇Science论文,研究人员发现神经网络可以用来训练并构建比以前更精确的电子密度和相互作用图,能够有效解决传统泛函理论中的系统误差。
(资料图片)
论文链接:https://www.science.org/doi/epdf/10.1126/science.abj6511
文中提出的DM21模型准确地模拟了复杂的系统,如氢链、带电的DNA碱基对和二元过渡态。对量子化学领域来说,可以说是开辟了一条通往精确的通用函数且可行的技术路线。
DeepMind的研究人员还放出了DM21模型的代码,方便同行复现。
仓库链接:https://github.com/deepmind/deepmind-research
按照道理来说,论文和代码都公开,还是发表在顶级期刊上,实验结果和研究结论基本上是可靠的。
但时隔八个月,来自俄罗斯和韩国的八位研究人员也在Science上发表了一篇科技评论,他们认为DeepMind原始研究中存在问题,即训练集和测试集可能存在重叠部分,导致实验结论不正确。
论文链接:https://www.science.org/doi/epdf/10.1126/science.abq3385
如果质疑属实,那DeepMind这篇号称化学界重大技术突破的论文,神经网络取得的改进可能都得归功于数据泄露了。
不过DeepMind的反应也很迅速,在该评论发表的同一天,立刻写了一篇回复表示反对,并表示强烈谴责:他们提出的观点要么不正确,要么与论文的主要结论以及对DM21总体质量的评估无关。
论文链接:https://www.science.org/doi/epdf/10.1126/science.abq4282
著名物理学家费曼曾说过,科学家就是要尽快证明自己是错误的,唯有如此才能进步。
虽然这次讨论的结果还没有定论,俄罗斯团队也没有进一步发表反驳文章,但该事件对人工智能领域的研究可能会产生更深远的影响:即该如何证明自己训练得到的神经网络模型,真正理解了任务,而非只是记忆pattern?
研究问题
化学是21世纪的中心科学(确信),比如设计具有指定特性的新材料,如生产清洁电力或开发高温超导体,都需要在计算机上对电子进行模拟。
电子是控制原子如何结合形成分子的亚原子粒子,也负责固体中的电流流动,了解电子在分子内的位置可以大大有助于解释其结构、性质和反应性。
1926年,薛定谔提出薛定谔方程,能够正确地描述波函数的量子行为。但用该方程来预测分子中的电子则显得力不从心,因为所有的电子都相互排斥,需要跟踪每个电子位置的概率,即使对于少量电子来说也是一项非常复杂的任务。
1960 年代出现了一项重大突破,当时Pierre Hohenberg和Walter Kohn意识到没有必要单独跟踪每个电子。相反,知道任何电子在每个位置的概率(即电子密度)就足以准确计算所有相互作用。
在证明了上述理论后,Kohn获得诺贝尔化学奖,从而创立了密度泛函理论(density functional theory, DFT)
尽管 DFT 证明mapping存在,但50多年来,电子密度和相互作用能之间映射的确切性质,即所谓的密度泛函仍然未知,必须进行近似求解。
DFT本质上还是一种求解薛定谔方程的方法,其准确性取决于它的交换相关(exchange-correlation)部分。虽然DFT涉及一定程度的近似,但它是研究物质在微观层面如何以及为何以某种方式表达的唯一实用方法,因此已成为所有科学领域中使用最广泛的技术之一。
多年来,研究人员提出了400多种精确度不同的近似函数,但所有这些近似都存在系统误差,因为它们无法捕捉精确泛函的某些关键数学特性。
一说到学习似函数,这不就是神经网络在干的事吗?
DeepMind在这篇论文里就是在分子数据和具有分数电荷和自旋的虚构系统上训练一个神经网络DM 21 (DeepMind 21),成功学习到了一个没有系统错误的泛函,能够避免离域误差(delocalization error)和自旋对称性破缺(spin symmetry breaking),可以更好地描述广泛的化学反应类别。
从原理上来说,任何涉及电荷移动的化学物理过程都容易出现离域误差,任何涉及键断裂的过程都容易出现自旋对称性破缺。而电荷运动和键断裂是许多重要技术应用的核心,但这些问题也可能导致描述最简单分子(如氢)的官能团出现大量定性失败。
模型搭建采用的是多层感知器(MLP),输入为被占领的Kohn-Sham(KS)轨道的局部和非局部特征。
目标函数包含两个:一个是用于学习交换相关能本身的回归损失,另一个是确保函数导数在训练后可用于自洽场(self-consistent field, SCF)计算的梯度正则化项。
对于回归损失,研究人员用一个固定密度的数据集,代表了2235个反应的反应物和产物,通过最小二乘法目标,训练网络从这些密度映射到高准确度的反应能量,其中1161个训练反应代表了小型主族H-Kr分子的原子化、电离、电子亲和力和分子间结合能,1074个反应代表了H-Ar原子的关键FC和FS密度。
训练后得到的模型DM21能够在大型主族基准的所有反应上自洽地运行,产生更准确的分子密度。
真SOTA还是数据泄露?
DeepMind在训练DM21时,采用的数据是分数电荷系统,比如带有半个电子的氢原子。
为了证明DM21的优越性,研究人员在一组拉伸二聚体(stretched dimers)上,称为bond-breaking benchmark(BBB)组,进行测试。比如两个氢原子相距很远,总共有一个电子。
实验结果发现DM21泛函在BBB测试集上表现出出色的性能,超越了迄今为止所有测试的经典DFT泛函和DM21m(与 DM21 训练相同,但在训练集中没有分数电荷)。
然后DeepMind在论文中宣称:DM21已经了解分数电荷系统背后的物理原理。
但仔细观察就会发现BBB组中,所有二聚体都变得与训练组中的系统非常相似。实际上,由于电弱相互作用的局部性,原子相互作用仅在短距离处强,在此之外,两个原子的行为基本上就好像它们没有相互作用。
俄罗斯科学院泽林斯基有机化学研究所的研究组长Michael Medvedev解释说,在某些方面,神经网络就像人类一样,他们更喜欢因为错误的原因得到正确的答案。因此,训练神经网络并不难,但你很难证明它已经学习了物理定律,而非只是记住正确的答案。
因此,BBB 测试集不是一个合适的测试集:它不测试 DM21 对分数电子系统的理解,对此类系统的 DM21 处理的其他四个证据的彻底分析也没有得出决定性的结论:只有它在 SIE4x4 集上的良好精度可能是可靠的。
俄罗斯的研究者也认为,在训练集中使用分数电荷系统并不是DeepMind工作中唯一的新颖之处。他们通过训练集将物理约束引入神经网络的想法,以及通过对正确化学势的训练来赋予物理意义的方法,未来可能会广泛用于神经网络DFT 泛函的构建。
DeepMind回应
对于Comment论文声称的DM21对于训练集外预测分数电荷(FC)和分数自旋(FS)条件的能力在论文中没有得到证明,这是基于训练集与断键基准BBB有约50%的重叠,以及其他泛化例子的有效性和准确性得出的结论。
DeepMind不同意该分析,并认为所提出的观点要么不正确,要么与本文的主要结论和对DM21总体质量的评估不相关,因为BBB并不是论文中所展示的FC和FS行为的唯一例子。
训练集和测试集之间的overlap是机器学习中值得关注的一个研究问题:记忆意味着一个模型可以通过复制训练集中的例子在测试集上表现更好。
Gerasimov认为DM21在BBB上的表现(包含有限距离的二聚体)可以通过复制FC和FS系统的输出(即原子在无限分离极限时与二聚体匹配)得到很好的解释。
为了证明DM21的泛化超出了训练集,DeepMind研究人员还考虑H2+(阳离子二聚体)和H2(中性二聚体)的原型BBB例子,可以得出结论:确切的exchange-correlation函数是非局部的;随着距离的增加,返回一个常数记忆的值会导致BBB预测出现显著错误。