Tesla|马斯克：视觉神经网络实现的自动驾驶安全性超人类十倍以上( 二 )_马斯克：视觉神经网络实现的

特斯拉“纯视觉派”技术路线：视觉神经网络
特斯拉人工智能与自动驾驶视觉总监Andrej Karpathy认为，将激光雷达添加到自动驾驶堆栈会带来其自身的复杂性。在CVPR 2021自动驾驶研讨会上，Karpathy，“你必须用激光雷达预先绘制环境地图，然后你必须创建一张高清地图，你必须插入所有车道及其连接方式以及所有交通信号灯，收集、构建和维护这些高清激光雷达地图是不可扩展的，让这个基础设施保持最新状态将是极其困难的。”
Karpathy表示特斯拉在其自动驾驶堆栈中不使用激光雷达和高清地图，“发生的一切，都是第一次发生在车内，基于围绕汽车的八个摄像头的视频” 。
特斯拉汽车上安装了8个摄像头，摄像头没有深度信息，他们的目标之一就是形成矢量空间视图。那么要怎么知道旁边一辆车究竟在哪里又有多长呢？
首先的一个难点是，不同视角的摄像头都只能看到周边环境的一部分，有不同的校准（calibration）、位置（location）、取景方向（view direction）等，比如以下这张图，谁能知道这个点对应于相机视图的哪个点？而我们只有知道这些信息，才能把周围物体准确放到向量空间视图（vector space view）中。

文章图片

因此就需要一种将多个摄像头的信息融合在一起的技术，特斯拉使用了在2017年提出，如今已经席卷自然语言处理和计算机视觉领域的Transformer神经网络（Transformer Neural Network）。
然后则是加入有时间概念时间的RNN（Recurrent Neural Network，循环神经网络）以判断移动物体的速度以及对被遮挡物进行预测。RNN体现了“人的认知是基于过往的经验和记忆”的观点，通过记忆来处理任意时序的输入序列，从而对接下来要发生的事情进行预测。比如这里对被遮挡物预测，通过对遮挡前的特征和轨迹的记忆，使得视野被短暂遮蔽的情况下，依然可以预测遮挡视野后的物体运动轨迹，并记录已行驶过的路段的各种路标。
而对于深度信息，在缺少了雷达信息后，则需要通过对大量的有深度标注的相机数据进行训练得到的检测算法来得到。
激光雷达多传感器融合方案
激光雷达多传感器方案是以激光雷达为主导，毫米波雷达、超声波传感器及摄像头作为辅助。通过激光雷达发射激光束，测量激光在发射及收回过程其中的时间差、相位差，从而确定车与物体之间的相对距离，实现环境实时感知及避障功能。摄像头的价格在几十美元左右，而激光雷达则要昂贵的多，这或许也是很多纯视觉流派厂商一个没有说的难言之隐。
商汤智能驾驶研发总监李怡康向澎湃新闻介绍，“我们会做很多种传感器的评测，去找到最适合我们设计需求的传感器方案，然后通过自动化的算法将这些传感器摆放到最合适的地方，从而实现最优的环境信息获取。传感器之间是不在一个坐标系下的，我们通过自动化标定算法将不同传感器的特性及相关关系非常准确地找出来，然后设计融合感知模型，并用大量的感知数据去训练它，最终实现多传感器融合感知。”