特斯拉:什么是马车?
这次,特斯拉竟被一个马车整蒙圈了。
(资料图片仅供参考)
一会儿是大货车
一会儿是半挂卡车
最不可思议的是,竟还能识别出人在前面走...
难道又是「幽灵」吗?
这个特斯拉无法识别马车的TikTok视频在网上疯传,就连人工智能软件公司Light的联合创始人Igor Susmelj发问:
我想知道这个模型在训练时看过多少马车。
仅是一个小小马车就难住了特斯拉。
不难看出,在识别边缘化场景方面,特斯拉自动辅助驾驶系统(AP),甚至是全自动驾驶(FSD)更容易在行驶中出现致命事故。
Electrek主编FredLambert就在昨天发布了特斯拉在美国蓝岭山脉的测试:
视频显示特斯拉汽车无法在标记的车道内行驶。更恐怖的是,差点把FredLambert引向悬崖。
特斯拉在识别上出现问题也不是一次两次了。
把拿着交通指示牌的人识别成交通柱子。
把各种动物要么识别成人,要么干脆啥也没有...
把月亮识别成黄色交通指示灯。
接下来,就讲讲特斯拉识别故障那些事儿
看不到白色?
特斯拉撞车事故确实不算少,不过为啥老盯着白色卡车撞?
眼前的白不是白,你说的车是什么车。
21年3月,一辆白色特斯拉Model Y在美国底特律西南部的一个十字路口撞上了一辆白色半挂卡车。
而这已经不是特斯拉第一次与白色卡车相撞了。
早在2016年,美国佛州的一辆特斯拉Model S在Autopilot状态下与正在转弯的白色半挂卡车发生碰撞,钻进了卡车货柜下方,特斯拉驾驶员不幸身亡。
而真实原因竟然是特斯拉把白色识别为天空,才撞了上去。
你见过会移动的天空吗......
此前有知乎网友曾拿下面这张图做视觉识别实验。
把白色卡车图片导入Photoshop,采用快速选择工具,试图把白色卡车的轮廓勾选出来,得到的结果是这样的:
有一大片蓝天白云同时被划入了勾选框,在Photoshop来看白色货箱和天空是一样的。
特斯拉辅助自动驾驶视觉识别系统的结果可能也是如此。 好家伙,原来 特斯拉还是个「色盲」。
另外,特斯拉为啥「专挑卡车撞」?
那得先说说自动驾驶系统分离运动目标的方法。
考虑到实时性和成本,目前业内大多采用帧差法。这种方法对运算资源消耗最少,最容易达到实时性,但缺点是准确度不高。
所谓帧差法,即检测相邻帧之间的像素变化。
帧差法的基本原理是:
运动目标视频中,可以根据时间提取出系列连续的序列图像,在这些相邻的序列图像中,背景的像素变化较小,而运动目标的像素变化较大,利用目标运动导致的像素变化差,则可以分割出运动目标。
对于比较大、颜色一致的运动目标,如白色大货车,帧间差分法会「在目标内部产生空洞,无法完整分割提取运动目标」。
某些底盘高的大货车侧面,就如同白纸,基于深度学习的机器视觉此时就如同盲人,不减速直接撞上去。
大白天撞鬼
之前,特斯拉的视觉识别系统还闹出过灵异事件。
有特斯拉车主在经过无人区时,发现车上自动识别障碍物的雷达探测出很多“人形”物体。
还有网友发布了一则特斯拉行经墓地的视频,
视频中,车辆行驶过程中,屏幕上的雷达一直显示前方出现众多行人从车辆路过,但观看视频录制的车辆前方,却未见一人。
特斯拉其实并不是看到「幽灵」,而是车辆在行驶过程中会遭遇一种攻击自动驾驶辅助系统(ADAS)的图像。
这又是特斯拉Autopolit的锅。
在公路上正常行驶的特斯拉随时都会因将路旁的各种标牌(如广告中的Stop标志),误认为限速或者停车标志,然后猛踩刹车,被部分车主称为“幽灵刹车”。
这幽灵车,小编属实不敢坐。
如何进行图像识别
特斯拉全车配备了8个摄像头、1个毫米波雷达、12个超声波雷达来检测外部环境。
8个摄像头是用来来识别现实中的物体。摄像头可以获取路上行人、车辆、动物或其他障碍物等等。
要知道,8个摄像头捕捉的都是二维图像,并没有深度信息。因此特斯拉通过8个不同视角的视觉输入,输出三维向量空间。
可以看到,多摄像头融合后输出的向量空间质量更高,能够帮自动驾驶汽车更精准地感知世界、定位自身。
其中就包括道路、交通指示灯、车辆等等自动驾驶需要观察到的因素。
从算法层面来讲,特斯拉的深度学习网络称为HydraNet。
基础算法代码是共享的,整个HydraNet包含48个不同的神经网络,通过这48个神经网络,就能输出1000个不同的预测张量。
然而视觉系统总会有学习不到的地方。
早几年,特斯拉曾与第三方合作将数据工作外包,但发现标注数据的质量并不高,随后便扩充了自己的团队。
最初特斯拉的大多数的标注还是在2D图像上进行。
不久后,标注开始转移到4D空间,即3D空间+时间维度,并且直接在Vector Space进行标注,数据以一个Clip为最小标注单位。
这次识别马车出现的问题,有人嘲讽道,还没有给马车贴上数据标签呢。
问题是,马斯克前段时间刚刚解雇了加州自动驾驶部门的数据标注员。
特斯拉的「视力」简直让人堪忧。