每日热门：连续反转！DeepMind遭俄罗斯团队质疑：我们该如何证明神经网络懂物理世界？

【新智元导读】性能达到SOTA也别高兴太早，说不定是把测试集一起训练了呢？

最近科学界又出现一场争论，故事的主角是DeepMind位于伦敦的研究中心于2021年12月发表的一篇Science论文，研究人员发现神经网络可以用来训练并构建比以前更精确的电子密度和相互作用图，能够有效解决传统泛函理论中的系统误差。

(资料图片)

论文链接：https://www.science.org/doi/epdf/10.1126/science.abj6511

文中提出的DM21模型准确地模拟了复杂的系统，如氢链、带电的DNA碱基对和二元过渡态。对量子化学领域来说，可以说是开辟了一条通往精确的通用函数且可行的技术路线。

DeepMind的研究人员还放出了DM21模型的代码，方便同行复现。

仓库链接：https://github.com/deepmind/deepmind-research

按照道理来说，论文和代码都公开，还是发表在顶级期刊上，实验结果和研究结论基本上是可靠的。

但时隔八个月，来自俄罗斯和韩国的八位研究人员也在Science上发表了一篇科技评论，他们认为DeepMind原始研究中存在问题，即训练集和测试集可能存在重叠部分，导致实验结论不正确。

论文链接：https://www.science.org/doi/epdf/10.1126/science.abq3385

如果质疑属实，那DeepMind这篇号称化学界重大技术突破的论文，神经网络取得的改进可能都得归功于数据泄露了。

不过DeepMind的反应也很迅速，在该评论发表的同一天，立刻写了一篇回复表示反对，并表示强烈谴责：他们提出的观点要么不正确，要么与论文的主要结论以及对DM21总体质量的评估无关。

论文链接：https://www.science.org/doi/epdf/10.1126/science.abq4282

著名物理学家费曼曾说过，科学家就是要尽快证明自己是错误的，唯有如此才能进步。

虽然这次讨论的结果还没有定论，俄罗斯团队也没有进一步发表反驳文章，但该事件对人工智能领域的研究可能会产生更深远的影响：即该如何证明自己训练得到的神经网络模型，真正理解了任务，而非只是记忆pattern？

研究问题

化学是21世纪的中心科学（确信），比如设计具有指定特性的新材料，如生产清洁电力或开发高温超导体，都需要在计算机上对电子进行模拟。

电子是控制原子如何结合形成分子的亚原子粒子，也负责固体中的电流流动，了解电子在分子内的位置可以大大有助于解释其结构、性质和反应性。

1926年，薛定谔提出薛定谔方程，能够正确地描述波函数的量子行为。但用该方程来预测分子中的电子则显得力不从心，因为所有的电子都相互排斥，需要跟踪每个电子位置的概率，即使对于少量电子来说也是一项非常复杂的任务。

1960 年代出现了一项重大突破，当时Pierre Hohenberg和Walter Kohn意识到没有必要单独跟踪每个电子。相反，知道任何电子在每个位置的概率（即电子密度）就足以准确计算所有相互作用。

在证明了上述理论后，Kohn获得诺贝尔化学奖，从而创立了密度泛函理论（density functional theory， DFT）

尽管 DFT 证明mapping存在，但50多年来，电子密度和相互作用能之间映射的确切性质，即所谓的密度泛函仍然未知，必须进行近似求解。

DFT本质上还是一种求解薛定谔方程的方法，其准确性取决于它的交换相关（exchange-correlation）部分。虽然DFT涉及一定程度的近似，但它是研究物质在微观层面如何以及为何以某种方式表达的唯一实用方法，因此已成为所有科学领域中使用最广泛的技术之一。

多年来，研究人员提出了400多种精确度不同的近似函数，但所有这些近似都存在系统误差，因为它们无法捕捉精确泛函的某些关键数学特性。

一说到学习似函数，这不就是神经网络在干的事吗？

DeepMind在这篇论文里就是在分子数据和具有分数电荷和自旋的虚构系统上训练一个神经网络DM 21 (DeepMind 21)，成功学习到了一个没有系统错误的泛函，能够避免离域误差(delocalization error)和自旋对称性破缺（spin symmetry breaking），可以更好地描述广泛的化学反应类别。

从原理上来说，任何涉及电荷移动的化学物理过程都容易出现离域误差，任何涉及键断裂的过程都容易出现自旋对称性破缺。而电荷运动和键断裂是许多重要技术应用的核心，但这些问题也可能导致描述最简单分子（如氢）的官能团出现大量定性失败。

模型搭建采用的是多层感知器（MLP），输入为被占领的Kohn-Sham（KS）轨道的局部和非局部特征。

目标函数包含两个：一个是用于学习交换相关能本身的回归损失，另一个是确保函数导数在训练后可用于自洽场（self-consistent field, SCF）计算的梯度正则化项。

对于回归损失，研究人员用一个固定密度的数据集，代表了2235个反应的反应物和产物，通过最小二乘法目标，训练网络从这些密度映射到高准确度的反应能量，其中1161个训练反应代表了小型主族H-Kr分子的原子化、电离、电子亲和力和分子间结合能，1074个反应代表了H-Ar原子的关键FC和FS密度。

训练后得到的模型DM21能够在大型主族基准的所有反应上自洽地运行，产生更准确的分子密度。

真SOTA还是数据泄露？

DeepMind在训练DM21时，采用的数据是分数电荷系统，比如带有半个电子的氢原子。

为了证明DM21的优越性，研究人员在一组拉伸二聚体（stretched dimers）上，称为bond-breaking benchmark(BBB)组，进行测试。比如两个氢原子相距很远，总共有一个电子。

实验结果发现DM21泛函在BBB测试集上表现出出色的性能，超越了迄今为止所有测试的经典DFT泛函和DM21m（与 DM21 训练相同，但在训练集中没有分数电荷）。

然后DeepMind在论文中宣称：DM21已经了解分数电荷系统背后的物理原理。

但仔细观察就会发现BBB组中，所有二聚体都变得与训练组中的系统非常相似。实际上，由于电弱相互作用的局部性，原子相互作用仅在短距离处强，在此之外，两个原子的行为基本上就好像它们没有相互作用。

俄罗斯科学院泽林斯基有机化学研究所的研究组长Michael Medvedev解释说，在某些方面，神经网络就像人类一样，他们更喜欢因为错误的原因得到正确的答案。因此，训练神经网络并不难，但你很难证明它已经学习了物理定律，而非只是记住正确的答案。