科学论文通常是事无巨细的典范。作者团队往往有责任披露一切方便他人复现他们的发现所需要的信息。
但这项研究是个例外。
最近一篇发表在 Nature 子刊 Nature Machine Intelligence 上的论文《人工智能驱动的药物发现的双重用途》(Dual - use of artificial Intelligence -powered drug discovery)显然把它的作者吓坏了。这体现在文本的基调和没有透露关键信息上。
一次可能性验证
2021 年,总部位于美国北卡罗来纳州罗利的 Collaborations Pharmaceuticals 公司受邀发表了一篇关于“药物发现技术可能被滥用“的论文。该公司利用计算机帮助客户识别看似潜在药物的分子。地点是瑞士斯皮兹实验室组织的一次会议。
这是一个由瑞士政府设立的“融合”系列会议,以确定可能对《禁止化学武器公约》和《禁止生物武器公约》产生影响的技术发展。会议每两年举行一次,汇集了一批国际科学和裁军专家小组,探讨化学和生物领域的最新技术现状及其发展轨迹,思考潜在的安全影响,并考虑如何最有效地在国际上处理这些影响。
为了准备这次演讲,collaboration 公司的一些研究人员进行了一项他们称之为“思考实验”的活动,通过计算证明了制造生化武器的概念。
在这个瑞士会议上,Collaborations Pharmaceuticals 公司决定探索如何使用 AI 来设计有毒分子。该公司之前设计了一种名为 MegaSyn 的药物分子生成模型,借助机器学习模型预测生物活性,寻找人类疾病靶点的新治疗抑制剂。这种生成模型通常会惩罚预测的毒性并奖励预测的目标活动。
在新的实验中,他们进行了调整,让模型同时奖励毒性和生物活性,并使用来自公共数据库的分子对模型进行训练。
他们的方法和结果简单得令人不安:通过对从公开数据库中提取的一组类药分子(定义为易于合成并容易被身体吸收的物质)的化学结构以及这些分子的已知毒性进行训练,修改后的软件不到六个小时就能发现四万个潜在的致命分子。这些分子符合研究人员预定义的参数,可能用作化学武器。
The Verge 采访了该论文的第一作者 Fabio Urbina,Urbina 是 Collaborations Pharmaceuticals 药物发现公司的高级科学家,就药物研发中的AI技术可能被滥用的问题展开了演讲。
研究团队以前从未有过这种想法,他们也模糊地意识到与病原体或有毒化学品工作的安全问题。Urbina 的工作植根于为治疗和毒性靶点建立 ML 模型,并非是制造病毒,而是以更好地协助药物发现新分子的设计,利用 ML 模型对新生产药物的毒性进行预测。
这就像是,有一种奇妙的药物可以神奇的降低血压,但它的副作用却是击穿心脏通道,那么,这种药触碰了禁区,是不可能上市的,因为这太危险了。
几十年来,团队一直在借助计算机和 AI 来改善人类健康。换句话说,无论试图开发哪种药物,首先得需要确保它们不会有毒。
最近,该公司发布了很多用于不同领域毒性预测的计算 ML 模型,并且 Urbina 在会议演讲时,选择翻转开关,真正的走向毒性,探索如何使用 AI 来设计有毒分子。
这是团队前所未有的一次思想练习,最终演变成了制造生化武器的计算概念证明。
Urbina 在对一些细节的描述上有点模糊不清,刻意的隐瞒了某些细节,以防止被加以利用。
简单来说,整个实验的大体工作流程就是,借助研发历史中已有的分子数据集作为预测标签,因为这些分子已经经过测试是否含有毒性了。
需要注意的是,团队重点关注的是 VX。
那 VX 究竟是什么呢?
严格意义上说,它是一种被归类为神经毒剂的人造化学战剂。而神经毒剂是已知化学战剂中毒性最强、作用最迅速的。具体而言,VX 就是所谓的乙酰胆碱酯酶的抑制剂。每当你做任何与肌肉有关的事情时,神经元都会使用乙酰胆碱酯酶作为信号,鼓励你“去活动你的肌肉”。这正是 VX 的致命之处,它实际上阻止了你的横隔膜,也就是影响你肺肌肉的运动,从而导致你的肺部变得麻痹,无法呼吸,甚至瘫痪。
显然,这是人们想要避免的。因此,从历史上看,已经对不同类型的分子进行了实验,以查看它们是否抑制乙酰胆碱酯酶。于是,Urbina 建立了这些分子结构及其毒性的大型数据集。
然后,团队便可以利用这些数据集来创建一个 ML 模型,该模型基本上可以分辨分子结构的哪些部分对毒性很重要,哪些部分对其不重要。然后,便可以给该 ML 模型提供新的分子,可能是先前从未测试过的新药物。随后,它的判断结果会告诉我们哪些药物被预测为有毒,或者预测为无毒。
正是上述方法,有效地提高了研究人员对药物的筛选速度,即他们可以非常迅速的筛选出大量的分子,并剔除那些被预测有毒的分子。
然而,在团队的这项研究中,正好颠倒了这一点。显然,团队试图采用该模型达到的目的是预测毒性。
此外,另一个关键的部分是这些新的生成模型。团队可以通过给生成模型输入一些完全不同的结构,它可以学习如何将分子放在一起。然后,从某种意义上说,便可以要求它产生新的分子。此时,生成模型可以在整个化学空间中产生新的分子,但也只是一些随机分子,没有实质性的意义。但是研究人员可以做的一件事是,告诉生成模型所期望的走向。
当然,通过设计一个评分函数就可以实现这点,如果它生成的分子是研究人员所期望的,就给它打一个高分。以生成毒剂为例,就是要给有毒分子打高分。
实验结果可以看到模型开始生成的这些分子,其中许多看起来像 VX,也像其他的一些化学剂。
Urbina 表示,其实整个团队真的不确定会得到什么。因为生成模型相对来说还是比较新的技术,目前也没有对生成模型进行广泛使用。
但一个尤其注意的问题是,很多生成化合物的毒性预测结果比 VX 的毒性更大。更加令人震惊的是,VX 基本上是已知的最有效的化合物之一,也就意味着只需要非常、非常、非常少的量就能致死。
虽然这些预测结果在现实生活中尚未验证,研究人员也表示他们也不想自己去验证,但预测模型通常性能相当不错。因此,即使存在很多假阳性反应,其中应该也会有毒性更强的分子。
其次,研究团队其实观察了这些新生成分子的许多结构。不难发现,其中很多看起来确实像 VX 和其他战剂,甚至在一些模型中生成的是真正的化学毒剂。并且,这些是在模型从未见过这些化学毒剂的情况下而生成的。毋庸置疑,模型肯定能够生成一些有毒的分子,因为其中一些分子以前就已经被制造出来了。
那么,令人担心的是,它到底有多容易实现呢?
研究人员表示,在开发过程中所使用的很多东西都是免费的。你可以从任何地方下载毒性数据集。如果有一个人知道如何用 Python 编程,并且具备一些 ML 能力,那么可能利用一个短暂的周末,就可以构建出类似于这种由有毒数据集驱动的生成模型。
因此,这就是研究人员真正考虑将这篇论文发表出来的原因:对于这种类型的滥用来说,它的门槛实在是太低了。
Urbina 在论文中表示:“我们仍然跨越了一个灰色的道德界限,证明有可能设计出虚拟的潜在有毒分子,而不需要太多的努力、时间或计算资源。虽然我们可以轻易地删除我们创造的成千上万的分子,但我们不能删除如何重新创造它们的知识。”
Urbina 表示,这是一个非常不寻常的话题,他们想把这些真正的信息拿出来,去真正的谈论它。与此同时,不希望将其落入非法者之手。
但他明确表示,作为科学家,应该注意发布的内容必须是负责任地完成的。
除此之外,Urbina 表示,目前所做的确实很容易被复制。因为其中很多东西都是开源的——科学的共享,数据的共享,模型的共享。
Urbina 殷切希望更多的研究人员承认并意识到潜在的滥用。
当你开始在化学领域工作时,你确实会被告知化学滥用的危害,你有责任确保你尽可能地避免这种情况。而在 ML 中,与之相反,没有任何关于滥用该技术的指导。
“我们只是希望更多的研究人员承认并意识到潜在的滥用” ,Urbina 说道。
考虑到模型的性能越来越好,所以将这种意识公开是非常有必要的,可以真正地帮助人们去注意这个问题:至少在更广泛的圈子里被讨论过,至少可以成为研究人员所关注的点。