这只机器狗像一只着急的甲虫一样,在空中摆动着双腿。经过 10 分钟的挣扎,它成功地翻了过来。半小时后,这只机器狗像刚出生的牛犊一样笨拙地迈出了第一步。但一小时后,它就自信满满地在实验室里昂首阔步。
(资料图片仅供参考)
来源:《麻省理工科技评论》
这个四条腿的机器人的特别之处在于,它自发地学会了这一切,而不需要计算机仿真程序告诉它该怎么做。
加州大学伯克利分校的丹尼亚尔·哈夫纳(Danijar Hafner)和他的同事们使用了一种叫做强化学习的人工智能技术,这种技术通过奖励各种算法的有利行为来进行学习,以训练机器人在现实世界中从一无所知到能够行走。该团队使用了同样的算法,成功地训练了其他三个机器人,比如其中一个机器人能够捡起球并将这个球从一个托盘移动到另一个。
就传统方法而言,机器人在现实世界中尝试做任何事情之前都要在计算机模拟仿真中进行训练。例如,一对名为 Cassie 的机器腿,在计算机模拟中通过强化学习进行训练之后,才在现实中学会了走路。
问题是,你的计算机模拟程序永远不会准确得跟现实世界一样。你总是会错估这个世界的某些方面,”哈夫纳说,他与同事亚历山卓·埃斯康特雷拉(Alejandro Escontrela)和菲利普·吴(Philipp Wu)一起参与了这个项目,现在成了 DeepMind 公司的实习生。
他说,将模拟器中的经验教训应用到现实世界中也需要额外的工程实践。该团队的算法被称为“梦想者”,它利用过去的经验建立了一个周围环境的模型。
“梦想者”还允许机器人通过预测其潜在行为的未来可能结果,在计算机程序而非现实环境下反复进行试错法计算。
这使得机器人能够比在纯粹在现实环境中学习的速度更快。一旦机器人学会了行走,它就会不断学习适应意料之外的情况,比如抵抗被棍子推倒。
纽约大学计算机科学助理教授勒雷尔·平托(Lerrel Pinto)说:“通过试错法训练机器人是一个难题,因为这种训练需要漫长的时间,而这也使得训练本身变得更加困难。”
他说,“梦想者”算法表明,深度强化学习和环境模型能够在很短的时间内教授机器人新技能。
俄勒冈州立大学的机器人学教授乔纳森·赫斯特(Jonathan Hurst)说,这些尚未经过同行评审的研究结果清楚表明,“强化学习将成为未来机器人控制领域的基石。”
从机器人的训练阶段中取消仿真模拟器有很多额外好处。哈夫纳说,该算法可以用于教机器人如何在现实世界中学习技能和适应硬件故障等情况——例如,机器人可以在一条腿上的电机出现故障的情况下学习行走。
爱丁堡大学人工智能学科的助理教授斯蒂凡诺·阿尔布雷希特(Stefano Albrecht)说,这种方法还可能在更复杂的事情上有巨大应用潜力,比如需要复杂且昂贵模拟器的自动驾驶领域。
阿尔布雷希特说,新一代的强化学习算法可能“在现实世界中快速理解环境是如何运行的”。
但平托说,还有一些尚未解决的大问题。
在强化学习里,工程师需要在他们的代码中指定训练对象的哪些行为是好的,并以此给予奖励,也要界定哪些行为是不受欢迎的。在机器狗的例子里,翻身和走路很好,而不走路则不好。
平托说:“机器人学家需要对想让机器人解决的每一个任务或问题都定义行为的好坏。”这是极其耗时的,而且很难为意想不到的情况作出行为界定。
阿尔布雷希特说,模拟器存在不准确的毛病,环境模型也有同样的问题。他说:“环境模型从零开始,所以最初模型的预测将一塌糊涂。”这需要一些时间,直到模型得到足够的数据以变得更加准确。
哈夫纳说,将来如果能教会这只机器狗理解语音指令就太好了。该团队还希望将摄像头与机器狗连接起来,使其具有视觉能力。这将允许它穿行在复杂的室内场景中,比如走到一个房间,寻找物体,还有——是的!——玩“捡回来!”的游戏。