让AI从“第一人称视角”看世界突破瓶颈让AI认知能力更像人类

世界是多维的，生活中同样的景物在不同的视角下会呈现出不同的形态。若让人工智能更趋于人类，就要让其视角更接近人的视觉，多角度转换可能会看到一个新的天地。

今年11月，脸谱和世界上9个国家的13所大学和实验室组成学术联盟，将开源让AI拥有以第一人称视角与世界进行交互能力的Ego4D(Egocentric 4D Perception)计划。其中包含超过3025小时的第一人称视频，包括来自73个城市的700多名参与者的日常生活。这将有助于人工智能认知世界的方式更加趋向于人类。

那么，目前人工智能主要通过哪种视角认知世界，第一人称视角认知世界和第三人称有何不同，对AI的认知产生怎样的影响;让AI感知环境、认识世界主要通过什么“抓手”展开;如何才能让AI的认知能力更像人类，还面临哪些瓶颈需要解决?

让AI从“第一人称视角”看世界

“要令人工智能系统如同人类一样与世界交互，人工智能领域需要发展到一种全新的第一人称感知范式。这意味着教导人工智能在实时运动、交互和多传感器背景下，以人眼角度理解日常生活活动。”脸谱首席研究科学家克里斯汀·格劳曼曾言。

随着AR眼镜和VR头显逐渐成为智能手机的普及设备，今天的计算机视觉系统大多是利用数百万张以第三人称视角拍摄的照片和视频进行学习。“为了构建新的感知范式，我们需要教会指导AI像人类一样，从第一人称角度即‘我’视角，沉浸式理解世界，并与之交互，也就是自我中心认知。”10月26日，远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲在接受科技日报记者采访时指出。

如何理解人工智能的第一人称和第三人称视角?谭茗洲解释道，“第一人称视角代入感很强，比如在玩游戏时，你像身临其境，看到的游戏画面就是你真实世界看到的画面。第三人称视角又叫作上帝视角，仿佛你一直飘在其身边一样如影随形，可以看到角色本身及周围的情况。若眼下找到个掩体，第三人称下藏在掩体后可以很明显看到后面的情况，如果对敌人打击，敌人很难防备。而在第一人称视角下，囿于视角范围，在掩体后只能看到掩体本身。”

“再如自动驾驶，其视觉系统如果只从旁观者(如车的角度)收集数据，与坐在车内方向盘前的视角就很不一样，还包括真人驾驶员相应做出的反应，如点刹、猛刹等行为的收集。即便通过数十万个基于旁观视角看到车辆行进的图像或视频进行训练，AI可能依然不知道如何去做，达不到现在的自动驾驶水平。”谭茗洲进一步说。

“以前很少以第一人称收集数据集，这是弥补了人工智能视角体系的短板。未来对AR、VR的训练非常重要。能够从第一人称角度‘我’来理解世界的人工智能，可以开启沉浸式体验的新时代。”谭茗洲指出。

由此，格劳曼表示“下一代人工智能系统需要从一种完全不同的数据中学习：一种从事件中心视觉而不是边线视觉展示世界的视频”。

建立类人化认知体系的“抓手”

目前让AI感知环境、认识世界，建立类人化的认知体系主要通过什么“抓手”展开?

业内专家指出，历史证明，基准和数据集是人工智能行业创新的关键催化剂。今天，几乎可以识别图像中任何对象的计算机视觉系统都是建立在数据集和基准之上，例如MNIST、COCO和ImageNet。数据集和基准为研究人员提供了一个研究真实世界图像的实验台。

“脸谱日前发布的这个旨在解决自我为中心认知挑战的长期研究项目Ego4D，其实本身就是建立一个数据集，为了训练AI模型更像人类。其开发了五个围绕第一人称视觉体验的基准挑战，即把第一人称拆解成五个目标，开展相应的训练集竞赛。”谭茗洲指出。

Ego4D的五个基准是：情景记忆：什么时候发生?(如“我把钥匙放在哪里了”);预测：我接下来可能会做什么?(如“等等，你已经放盐了”);手-物交互：我在做什么?(如“教我如何打鼓”);视听日记：谁在什么时候说了什么?(如“课堂上的主要话题是什么”);社交互动：谁在和谁互动?(如“帮助我在这家吵闹的餐厅里听清谁在跟我说话”)。

谭茗洲强调，所述基准测试将促进针对开发智能AI助手所必需的构建模块的研究。智能AI助手不仅可以在现实世界中实现理解和交互，同时可以在元宇宙中实现理解和交互。对于元宇宙，物理现实、增强现实和虚拟现实都集中在一个空间里面。

为了建立第一个同类数据集，与脸谱合作的大学团队向研究参与者分发了现成的头戴式摄像头和其他可穿戴传感器，以便捕获第一人称的、未经编辑的日常生活视频。项目的重点是参与者从日常场景中捕获视频，比如购物、烹饪、边玩游戏边聊天，以及与家人和朋友进行其他团体活动。视频采集捕获了摄像头佩戴者在特定环境中选择注视的对象，以及摄像头佩戴者如何从自我中心角度与人和物互动。到目前为止，摄像头佩戴者已经执行数百项活动，并与数百种不同的对象进行交互。所有的数据都是公开的。

“脸谱这项研究通过致力于开放式科学和研究，对人工智能领域能够更快地推动自我中心认知的进步。将对我们未来的生活、工作和娱乐方式产生积极影响。”谭茗洲表示。

突破瓶颈让AI认知能力更像人类

AI发展的终极目标是让人类受益，让我们能够应对现实世界中日益复杂的挑战。想象一下，通过AR设备能够在琴、棋、书、画课堂中准确显示如何弹琴、下棋、握笔和勾勒;指导家庭主妇根据食谱形象生动的指导烘焙烧烤、烹饪菜肴;健忘的老人借以眼前全息图的帮助回忆过去……

如何才能让AI的认知能力更像人类，尚面临哪些瓶颈需要解决?

“首先要提一下注意力，人工智能的注意力机制更接近直觉，而人类的注意力是有选择性的，要从人工智能视角理解人类的注意力。目前来说，大部分注意力机制，是在训练过程中重复告诉AI应该注意哪些地方，哪些东西是有关联的。未来也许可以让参与试验的人戴上特殊的可以捕捉眼球关注点，来进一步收集相关数据。”谭茗洲指出。

“再有，要定义AI的行为，要以事件和行为的关联为研究中心，发生一个事情是由多个动作形成。想用人类反馈的方式训练AI系统，使AI的行为与我们的意图一致。为了达到这个目的，需要解决将智能体对齐的问题。”谭茗洲进一步表示。

谭茗洲强调，“还有，听觉和视觉、语言和行为等之间需配合响应联动，这就要构建多模态交互模型，纵深研究视角为何要聚焦投向，与意图识别相结合，形成与行为之间联动的机制等。”(科技日报记者华凌)

推荐内容

太赫兹实时传输净速率超100Gbps 显著降低成本和功耗

可重构回收的高性能柔性电子器件问世 拥有广泛应用前景

广西预防出生缺陷重点实验室启用 重点研发和推广遗传病检测新技术新方法

我国突破猪胚胎多能干细胞建系国际难题 最长传代次数超过260代

我国科学家研制出新型光学元件：成本低、操作便利，易于集成

量子精密测量为暗物质搜寻提供变革性手段 只需桌面尺寸的空间布局

2021年中国创新方法大赛全国总决赛云上掀起高潮 201个创新项目竞技云端

福建机收再生稻再生季产量创新高 连续6年实现机收再生稻两季“超吨粮”

粤港澳大湾区新能源产业蓬勃发展 已然成为新能源技术的高地

脂肪肝发展成肝癌的代谢调控机制被发现 非酒精性脂肪性肝炎NASH阶段是关键

智慧工地里，“黑科技”护航隧道施工 为工人们打上事故安全“预防针”

人工智能成功预测蛋白质相互作用 代表了结构生物学新时代的重大进步

最强超导量子计算机“上新”了：明年展示400个量子比特的处理器

福建机收再生稻再生季产量逾600公斤 连续6年实现机收再生稻两季“超吨粮”

火星陨石“流浪”到地球之谜首次破解 可填补火星及其地质过程缺失环节

最薄X射线探测器研制成功 可用于对活体生物样本进行X射线显微

三星宣布成功开发LPDDR5X DRAM 耗电率可减少约20%

纳米线技术可将太阳能电池效率翻倍 或为许多其他应用打开大门

海大团队发现表面诱导水合氢离子去溶剂化机制 为开发高性能电池提供新思路

国内首款绿豆专用收割机上市 将大幅度减轻人工作业负担

国内最大整体成形箱底超长贮箱研制成功 产品研制周期缩短20%以上

我国发现伤齿龙科恐龙新属种“内蒙古蝶猎龙” 该个体死亡时处于亚成年阶段

哺乳动物视网膜中新神经细胞“现身” 或对促进暂时记忆方面发挥作用

手术机器人跨进国产时代 骨科领域前景开始令人瞩目

国内首款量子计算流体力学仿真软件发布

英国开发5D光盘存储技术：比蓝光高1万倍

智能织物嵌入上万纤维力传感器 提高医疗服务和诊疗装备智能化水平

我国首次实现从一氧化碳到蛋白质的合成 已形成万吨级工业产能

我国科学家成果研制日盲紫外光电探测器：探测率提升102倍

AirPods 3首次向用户提供防水耳塞充电盒 配备全新皮肤检测传感器

“宁香粳9号”水稻通过超级稻第一年验收 3块田平均亩产812.5公斤

让AI从“第一人称视角”看世界 突破瓶颈让AI认知能力更像人类

科学家在25亿年前的红宝石中发现古代生命的证据 或是死亡的微生物

考古团队在美国南部发现2个新物种 大约 1 亿年前居住在美国南部

四川科技创新赋能竹产业高质量发展 推进竹产业“揭榜挂帅”科研项目相关工作

我国水稻种植亩产再创世界新纪录 亩产达到1326.77公斤

二维材料家族添加全新成员 实现非范德华力层状材料精准剥离

520Wh/kg超高比能锂金属电池研制成功 续航里程能得到大幅度提升

氢燃料电池成本或大幅降低 对推动其大规模产业化具有重要意义

“中国模式”破解罕见病防治难题 为罕见病患者打开了希望之门

我科学家实现废旧沥青“秒变”大型储能电池电极材料 助力双碳目标达成

新型电力系统助力实现“双碳” 助推能源转型目标

情感陪护机器人成老年人新盟友 应更多考虑老年人真实需求

电加热技术让沥青运输更有效率 沥青运输亟待“绿色化”转型

中国首个宫颈癌疫苗通过世界卫生组织认证 癌前病变保护率达到100%

2021年清华大学集成电路专场招聘会成功举办 吸引多个院系清华学子

全球首个“智慧零碳”码头在天津港投入运营 引发集装箱码头技术新变革

袁隆平团队湖南衡南双季稻测产亩产突破1600公斤 今年三季稻增产可期

宁夏自主研发智能安全帽首次应用于作业现场 实现远程技术共享

国产高等级绝缘料首次用于110千伏及以上高压电缆 推进国产化进程

在我国内蒙古宁城县 发现1.25亿年前“宁城中华草”

土星和木星携手月球，将于4月7日上演一出“双星伴月”好戏

我国车联网产业发展进入快车道，智能网联汽车数量快速增加

腾讯与奥迪宣布达成战略合作，“微信车载版”上线

“智慧大脑”一体化智能化大数据平台，为未来社区发展注入新动力

自动行驶机器人“RakuRo”亮相！全方位麦克和3D传感器加持

半导体厂商一季度业绩向好，国产替代进程加速

据预测：2025年，全球卫星网络接入设备将达2亿台套

我国海上风电总装机容量仅次于英国，位居第二

里程碑式突破！揭示高能宇宙线起源之谜

青海省开启“集控站+无人值守”运维新模式 提高设备运行水平

安徽首个量子计算芯片联合实验室成立 打造具有全球影响力的“量子中心”

航天科工新一代通信技术研究院落户重庆 聚焦“制造+研发”深度融合

我国活体组织成像技术干细胞研究应用领域 达世界先领先水平

加快推进“双千兆”网络建设，聚焦网络质量提升

英国Arm推出新一代芯片架构Arm v9：性能提升将超过30%

2021世界智能驾驶挑战赛，将于5月21日至23日在天津东丽湖举办

ASO-S“探日”有望于2022年发射升空！探索太阳磁场

超高速互联网将普及计算 助力缩小数字鸿沟

1至2月，我国规模以上互联网企业完成业务收入同比增长达29%

数字化转型找准“方向感”，打造国内商业数字化发展高地

加快5G网络规模化部署，打造数字经济新优势

探索5G行业融合应用 5G专网将进一步推动融合应用发展

中国移动香港5G商用一周年 开拓5G商业场景应用

早期宇宙爆发“照亮”神秘黑洞 或解释对于其他黑洞族演化的影响

7709米！哈工程“悟空”号创中国AUV潜深新纪录

人工智能领域新算法发布 数据传输更高效精准

科技创新技术加持，我国船舶制造已达到世界前列

我国5G网络要坚持适度超前原则，探索5G应用发展

可重构回收的高性能柔性电子器件问世拥有广泛应用前景

广西预防出生缺陷重点实验室启用重点研发和推广遗传病检测新技术新方法

我国突破猪胚胎多能干细胞建系国际难题最长传代次数超过260代

量子精密测量为暗物质搜寻提供变革性手段只需桌面尺寸的空间布局

福建机收再生稻再生季产量创新高连续6年实现机收再生稻两季“超吨粮”

粤港澳大湾区新能源产业蓬勃发展已然成为新能源技术的高地

脂肪肝发展成肝癌的代谢调控机制被发现非酒精性脂肪性肝炎NASH阶段是关键

智慧工地里，“黑科技”护航隧道施工为工人们打上事故安全“预防针”

人工智能成功预测蛋白质相互作用代表了结构生物学新时代的重大进步

福建机收再生稻再生季产量逾600公斤连续6年实现机收再生稻两季“超吨粮”

火星陨石“流浪”到地球之谜首次破解可填补火星及其地质过程缺失环节

最薄X射线探测器研制成功可用于对活体生物样本进行X射线显微

纳米线技术可将太阳能电池效率翻倍或为许多其他应用打开大门

海大团队发现表面诱导水合氢离子去溶剂化机制为开发高性能电池提供新思路

国内首款绿豆专用收割机上市将大幅度减轻人工作业负担

国内最大整体成形箱底超长贮箱研制成功产品研制周期缩短20%以上

手术机器人跨进国产时代骨科领域前景开始令人瞩目

智能织物嵌入上万纤维力传感器提高医疗服务和诊疗装备智能化水平

我国首次实现从一氧化碳到蛋白质的合成已形成万吨级工业产能

AirPods 3首次向用户提供防水耳塞充电盒配备全新皮肤检测传感器

让AI从“第一人称视角”看世界突破瓶颈让AI认知能力更像人类

科学家在25亿年前的红宝石中发现古代生命的证据或是死亡的微生物

考古团队在美国南部发现2个新物种大约 1 亿年前居住在美国南部

四川科技创新赋能竹产业高质量发展推进竹产业“揭榜挂帅”科研项目相关工作

我国水稻种植亩产再创世界新纪录亩产达到1326.77公斤

二维材料家族添加全新成员实现非范德华力层状材料精准剥离

520Wh/kg超高比能锂金属电池研制成功续航里程能得到大幅度提升

氢燃料电池成本或大幅降低对推动其大规模产业化具有重要意义

“中国模式”破解罕见病防治难题为罕见病患者打开了希望之门

我科学家实现废旧沥青“秒变”大型储能电池电极材料助力双碳目标达成

情感陪护机器人成老年人新盟友应更多考虑老年人真实需求

电加热技术让沥青运输更有效率沥青运输亟待“绿色化”转型

中国首个宫颈癌疫苗通过世界卫生组织认证癌前病变保护率达到100%

2021年清华大学集成电路专场招聘会成功举办吸引多个院系清华学子

全球首个“智慧零碳”码头在天津港投入运营引发集装箱码头技术新变革

袁隆平团队湖南衡南双季稻测产亩产突破1600公斤今年三季稻增产可期

宁夏自主研发智能安全帽首次应用于作业现场实现远程技术共享

国产高等级绝缘料首次用于110千伏及以上高压电缆推进国产化进程

在我国内蒙古宁城县发现1.25亿年前“宁城中华草”

青海省开启“集控站+无人值守”运维新模式提高设备运行水平

安徽首个量子计算芯片联合实验室成立打造具有全球影响力的“量子中心”

航天科工新一代通信技术研究院落户重庆聚焦“制造+研发”深度融合

我国活体组织成像技术干细胞研究应用领域达世界先领先水平

超高速互联网将普及计算助力缩小数字鸿沟

中国移动香港5G商用一周年开拓5G商业场景应用

早期宇宙爆发“照亮”神秘黑洞或解释对于其他黑洞族演化的影响

人工智能领域新算法发布数据传输更高效精准

小米11 Pro/Ultra支持67W无线闪充如何实现更高效的充电?

科技助力智能生活垃圾分类投放点全新亮相

“越野之王”15592牛·米是飞度的100倍纯电悍马SUV正式发布

《仙剑奇侠传》1、2、3登陆Steam：512MB内存可玩售价没有公布

LG宣布退出智能手机业务绝唱旗舰V70现身运行Android 11系统

腾讯视频VIP官方正式宣布进行涨价国内头部视频平台将逐步提价

苹果文档曝光：新一代Apple TV将发布配置大幅升级

在线办公平台用户规模增长迅猛新型“无纸化”工作方式成为热潮

南京智能网联汽车先导区建设启动发布南京制造业2.0版新政策

一键接入贵州信息通信业全力推进适老化服务

信创产业正在迎来发展黄金期统信软件加快与主流芯片厂商合作

打破“只租不卖”的共享出行模式哈啰推自研智能两轮电动车

由于芯片短缺现代已经暂停IONIQ 5等电动车生产

小米宣布将于明天举行小米影像品鉴会聊聊小米影像

大众将为MEB平台加载V2G技术稳定可再生能源的波动供应

三星Galaxy Quantum 2首批谍照曝光黑色和白色

B站否认商谈收购游族网络 24% 股权及总部大楼游族网络直线拉升

消息称苹果因供应紧缺推迟MacBook和 iPad 生产苹果拒绝置评

小米电视及Redmi电视部分产品型号宣布涨价新机价格平均上涨 5-10%

小米 11 Ultra于4月8日海外开售，售价 5999 元起

联想拯救者电竞手机2 Pro正式预热拥有更出色的散热设计

微软Surface Laptop 4页面泄露将有英特尔和 AMD 两个版本

外星人推出M15 R5游戏本内含外星人高端外设

E Ink推出Spectra 3100电子纸扩大电子价签与零售广告牌应用

微信iOS版8.0.4正式版正式发布表情包上限提升到了 999 个

暴雪《暗黑破坏神 2 重制版》将开启限时技术测试持续到 4 月 12 日

2021中国（北京）国际游乐设施设备博览会在京开幕深圳市维亚环球科技有限公司受邀参加，并取得圆满成功

深入实施制造强国战略以四个方向加强制造业发展

我国神州十二号载人飞船成功发射中国人首次进入自己的空间站

我国研发人员总量连续多年居世界首位科技领军人才从哪里来？

如何打造一部更好的车？需要高性能计算平台支撑

重大科技电子枪顺利完成安装工程建设正式进入设备安装阶段