一面是“深度学习(DL, Deep Learning)撞墙了”的呼喊,一面是马上就能造出类人AI的喜悦。“深度学习三巨头”之一的Yann LeCun(杨立昆)终于坐不住了。
(相关资料图)
当地时间6月16日,Yann LeCun撰文《关于智能,AI能告诉我们什么》首次正面回应深度学习当下面临的问题。LeCun写道,“从一开始,批评者就过早地认为神经网络已经遇到了不可翻越的墙,但每次都被证明只是一个暂时的障碍。”
LeCun认为,这是一场关于深度学习前景的辩论。辩论的核心是对符号在智能中的作用存在两种不同的看法:一种认为符号推理必须从一开始就被硬编码,另一种认为机器可以像人类一样从经验中学习。这涉及到我们应该如何理解人类智能,进而去追求人类水平的人工智能。
对赌世界首富马斯克,五十万美元奖金池已备好
2012年,Geoffrey Hinton带领的团队一鸣惊人夺得ImageNET大规模视觉识别挑战赛(ILSVRC)冠军。此后,深度学习成为人工智能研究的主要焦点。
深度学习已经在曾经对计算机非常具有挑战性的很多任务上取得了进展,包括图像分类、对象检测、语音识别和自然语言处理。它的表现甚至让人觉得造出类人的智能体也指日可待,埃隆·马斯克在推特放言,“2029年感觉是关键一年。如果那时我们还没有AGI(通用人工智能),我会感到惊讶。希望火星上的人也一样。”
马斯克的言论在AI社区中激起众多反对声音,知名AI科学家、纽约大学教授加里·马库斯(Gary Marcus)提出与马斯克对赌10万美元。马库斯与纽约大学计算机科学家Ernest Davis合作编制以下五个检验AGI是否实现的标准,作为打赌的内容:
2029年,AI无法看懂电影然后准确告诉你正在发生的事情(人物是谁、他们的冲突和动机是什么等);
2029年,AI无法阅读小说并可靠地回答有关情节、人物、冲突、动机等的问题;
2029年,AI无法在任何厨房中担任称职的厨师;
2029年,AI无法通过自然语言规范或与非专家用户的交互可靠地构建超过10000行的无错误代码(将现有库中的代码粘合在一起不算数);
2029年,AI无法从以自然语言编写的数学文献中任意取证,并将其转换为适合符号验证的符号形式。
“这是我的建议,如果你(或任何其他人)在2029年设法完成至少三个,就算你赢了。十万美元如何?”马库斯写道。
马库斯发出这条推特几个小时之内,发布赌局的网站浏览量就接近1万次,奖金池目前已增加到50万美元,由作家凯文·凯利(Kevin Kelly)提出在他的网站上进行托管。但马斯克再无回应。
马库斯对马斯克说道,“比如你在2015年说过,实现完全自动驾驶的汽车还需要两年时间,从那以后,你几乎每年都说一遍同样的话,可现在完全自动驾驶仍未实现。”
马库斯一直对深度学习的技术路径有所怀疑,他曾写了一本关于深度学习的限制的书,他支持将不同AI技术结合在一起的混合方法。3月中旬,马库斯曾经撰文《深度学习撞墙了》,认为纯粹端到端的深度学习快走到尽头,整个AI领域必须另寻出路。
混合方法VS纯深度学习:马库斯呛声Hinton
终于,6月1日,一向深居简出的Geoffrey Hinton在加州伯克利教授Pieter Abbeel的播客节目中谈到了这个话题,“如果有人说(深度学习)撞墙了,那么他们只需列出一张清单,列出深度学习无法做到的事情。5年后,我们就能证明深度学习做到了。”
于是,马库斯在推特上写了一封给Geoffrey Hinton的公开信,又提到了他与Ernest Davis合作编制的五条判断AGI的标准,意思是其已经在与马斯克的赌局里把深度学习不能做的事列出来了。
深度学习的缺点确实随着发展日益清晰,包括其有限的泛化性、与因果关系的斗争和缺乏可解释性。此外,大多数深度学习应用程序需要大量手动注释的训练示例,这也成了瓶颈。但在三位以其对深度学习的开创性贡献而闻名的图灵奖得主Geoffrey Hinton、Yoshua Bengio和Yann LeCun看来,更好的神经网络架构最终将克服深度学习的当前限制。
LeCun在文章中写道,“今天看似不可逾越的墙是符号推理,即以代数或逻辑的方式操纵符号的能力。我们知道,解决数学问题需要根据严格的规则逐步处理符号。作为《The Algebraic Mind》的作者和《Rebooting AI》的作者之一,Gary Marcus最近声称深度学习无法进一步取得进展,因为神经网络在处理符号操作方面存在困难。然而,许多深度学习研究人员确信深度学习已经在进行符号推理并将持续改进。”
其实,LeCun在5月份也发推文表示,“我相信我们需要找到新的概念,让机器能够:通过像婴儿一样观察来了解世界是如何运作的。学会预测一个人如何通过采取行动来影响世界。”但这里说的跟马库斯倡导的不是同一回事,LeCun正在研究的是一种更复杂的自我监督学习,马库斯则支持混合方法。
最近获得关注的一种混合方法是神经符号人工智能,这是人工智能的一个分支,曾随着深度学习的兴起而被淘汰。它将人工神经网络与符号系统相结合,但将人类专业知识提炼成一套规则,事实证明是非常困难、耗时且昂贵的,这也被称为“知识获取瓶颈”。虽然为数学或逻辑编写规则很简单,但世界本身却非常模棱两可,事实证明,不可能为每个模式编写规则或为模糊概念定义符号。
在3月IBM神经符号AI研讨会上的一次演讲中,麻省理工学院计算认知科学教授Joshua Tenenbaum(约书亚·特南鲍姆)解释了当前神经符号系统如何帮助解决AI系统的一些关键问题,包括缺乏常识和因果关系、组合性和直觉物理学。
“我们如何超越智能的概念,即识别数据中的模式和近似函数,更多地走向人类思维对世界的建模——解释和理解你所看到的事物,想象你看不到但可能发生的事情,并将它们变成你可以通过计划行动和解决问题来实现的目标?”特南鲍姆认为,要弥合与人类智能之间的差距,首先要探索的就是人类和许多动物共有的智力的基本方面之一:直觉物理学和心理学。
特南鲍姆的神经符号AI概念中的一个关键组成部分是一个物理模拟器,将其集成到智能体的推理过程中,帮助AI实时模拟世界并预测未来会发生什么。
由此可以大致理解当下的神经符号系统AI思路。同时,这种方式也被证明比纯深度学习系统需要更少的数据和计算资源。
这就引出了另一个问题——人工智能的范式转变。马库斯又开了新的赌局,他认为我们90%需要人工智能的范式转变,而SlateStarCodex的名人Scott Alexander则认为要低于60%。
LeCun提出争论本质:智能如何运作?什么使人类独特?
LeCun在文章中指出,马库斯对深度学习的批评源于认知科学(以及在哲学中更古老)的一场相关斗争,即智能如何产生以及什么使人类独特。他的想法与心理学中一个著名的“先天理论”学派一致,该学派认为认知的许多关键特征是与生俱来的——实际上,我们在很大程度上天生就有一个关于世界如何运作的直观模型。
这种与生俱来架构的一个核心特征就是符号操纵的能力。但这是整个自然界中均有的还是人类特有的,尚存在争议。对于马库斯来说,这种符号操纵能力是许多常识的基本特征的基础:遵循规则、抽象、因果推理、重新识别细节、概括等。简而言之,我们对世界的大部分理解都是自然赋予的,而学习则是充实细节的过程。
另一种“经验主义”观点则认为:符号操纵在自然界中是罕见的,主要伴随着人类祖先在过去两百万年中逐渐获得的学习交流能力而产生的。根据这种观点,认知能力主要是与提高生存率相关的非符号学习能力,如快速识别猎物、预测它们的可能行为以及发展熟练的反应。这个观点假设绝大多数复杂的认知能力是后天获得的,是通过一种普遍的、自监督的学习能力获得。这是一种通过经验获得直观世界模型的能力,这个世界模型具备常识的核心特征。它还假设,我们大多数复杂的认知能力都不依赖于符号操纵,相反是通过模拟各种场景并预测最佳结果来做到这一点。
这种经验主义观点将符号和符号操纵视为另一种学习能力,随着人类越来越依赖合作行为取得成功就获得了这种能力。这种观点将符号视为人类用来协调合作活动的发明——如文字,地图、标志性描绘、仪式甚至社会角色。这些能力被认为是由于越来越长的学习青春期和对更精确、更专业的技能(如工具制造和消防维修)需求的结合而产生的。这一观点认为符号和符号操作主要归于文化发明,较少依赖于大脑中的硬接线(hard wiring),而更多地依赖于我们日益复杂的社会生活。
这两种观点之间的差异非常明显。
对于先天论来说,符号和符号操纵本就在大脑之中,而文字和数字的使用正是从这种原始能力中衍生出来的。这种观点很具吸引力地解释了一系列源于进化适应的能力(尽管对于符号操纵如何或为何进化的解释一直存在争议)。
对于经验主义者来说,符号和符号推理是用于交流目的的有用发明,它源于一般的学习能力和复杂的社会世界。这些内部计算和内心独白等发生在我们头脑中的象征性东西,因而被视为源自数学和语言使用的外部实践。
人工智能和认知科学领域密切相关,因此这些争论的重演也就不足为奇了。人工智能领域中任一观点的成功,都会在部分程度上证明认知科学中的一种或另一种方法是正确的(但也仅是部分程度上),因此这些争论之激烈也就不足为奇了。现在面临的问题不仅是关于人工智能当代问题的正确方法,还有关于什么是智能以及大脑如何工作的问题。
如果马库斯和先天论者是对的,那么深度学习将永远无法实现类人的AI,无论它提出了多少新架构或投入了多少计算能力。不断添加更多层只会令人困惑,因为真正的符号操纵需要一个与生俱来的符号操纵者。而且,由于这种符号操作是几种常识能力的基础,因此深度学习系统将永远不会拥有任何东西,只能拥有对事物粗略、现成的理解。
相比之下,如果深度学习的倡导者和经验主义者是正确的,那么插入符号操纵模块的想法是令人困惑的。在这种情况下,深度学习系统已经在进行符号推理,并将继续改进它,因为它们通过更多的多模态自监督学习、越来越有用的预测世界模型以及用于模拟的工作内存的扩展以及评估结果来满足约束。引入符号操纵模块不会导致更像人类的AI,而是迫使所有“推理”通过一个不必要的瓶口,让我们与类人智能渐行渐远。这可能会切断深度学习最令人印象深刻的方面之一:它能够提出比人类程序员想象的更有用和更聪明的解决方案。
尽管赌注很高,但同样重要的是,这些辩论中提出的许多问题至少在某种程度上是次要的。比如一些讨论:深度学习系统中的高维向量应该被视为离散符号(可能不是),实现深度学习系统所需的代码行是否使其成为混合系统(语义),在复杂游戏中获胜是否需要手工的、特定领域的知识,或者它是否可以学习(说得太早了)。还有一个问题是混合系统是否有助于解决围绕人工智能的伦理问题(否)。
而这一切都不是为了证明这场愚蠢的炒作是合理的:当前的系统没有意识——它们并不能理解我们,强化学习还不够,你不能仅仅通过扩大规模来建立类人智能。但所有这些问题都与主要争论无关:符号操纵是否需要硬编码,还是可以学习?
这是停止研究混合模型的呼吁吗?当然不是。研究人员自1980年代以来一直在研究混合模型,但尚未证明它们是灵丹妙药——或者在许多情况下,甚至远不及神经网络。更广泛地说,人们应该怀疑深度学习是否已达到极限。
LeCun在结尾中写道,鉴于最近DALL-E 2、Gato和PaLM中任务的持续、增量改进,避免将障碍误认为墙壁似乎是明智之举。深度学习不可避免的失败之前就已经预料到了,但押注它是不值得的。