Tesla AI DAY 技术情况

特斯拉感知

通过8个摄像头的输入得到三维向量空间

Tesla Camera的分辨率 1280*960

信息架构借鉴了人脑视觉结构的设计

主干网络利用regnet进行设计很好的平衡了延迟和准确性. 截屏2021-08-25 上午9.09.50.png

RegNet特征提取后,通过一个BiFPN进行特征融合然后特征即可用于做分类和回归截屏2021-08-25 上午9.11.24.png

通过特征融合,衔接一个multi-scale features 可以做多任务的学习其网络是HydraNets 通过一个主干网络分支成为多个头部

这种网络架构的好处:

相互的特征共享
对头部的微调可以单独进行
设立Cache,加速Fine-Tuning

通过一个backbone可以做不同的Task 🐂🍺

Fine-Tune的概念

介绍了一个相机检测路沿的例子

截屏2021-08-25 上午9.21.37.png

Per-Camera Detection Then Fusion的方式使得检测不够连续

通过多摄像头建立Vector Space,然后利用空间向量进行Predictions

其中有两个问题:

如何将图像特征转换为空间向量特征
空间向量的预测需要空间向量的数据集

image_space -> vector space 图像上看到的点在鸟瞰坐标下如何对应的问题对应结果是为了得到Vector space Head Edges

利用transformer整合多个Camera的特征因为特征是不同车辆在不同摄像头下拍摄的所以需要校准,这种校准用到了positional encoder 现实重建了一个虚拟相机根据IMU的数据进行标定

栅格地图由图像生成将图像反算3D 能在3D栅格地图上有效得到路沿的识别结果

detect before fusion 的方法导致车道线障碍物的检测不够连续通过先融合feature,在prediction的方法,Vector Space Edges and Lines会更有效的串联多个图片的信息.

Detections:SingleCam -> MultiCam

Detections采用了相同的方式从Single-Cam演变到Multi-Cam 更多的摄像头相互配合会使得检测的视角更广物体更平顺结果更为优秀

我认为的大招 Video Neural Net Architecture模块

通过queue的列队插入使得模型具有memory功能

截屏2021-08-25 下午4.41.58.png

通过参考记忆,可以有效应对遮挡问题 🐂

应用方向通过Spatial RNN做路径的预测,完全摆脱建图

应用方向2 提高对临时遮挡物体识别的鲁棒性

应用方向3 咱物体识别上也更为流程特别是距离估计上十分顺滑

整个Tesla感知层面的架构截屏2021-08-25 上午10.29.12.png

大致架构原始数据输入,链接一个校正层校准相机数据,然后将数据投入到一个虚拟相机中,然后将数据传送到RegNet中,处理成不同尺度的features,将多尺度的信息在BiFPN中进行融合,通过转换模块将其表示为向量空间,将时间或空间中的特征序列化为Feature queue,然后输入到视频处理模块,处理后的features,进入树干和头部分支,去完成不同的任务. 这个网络也是从图片识别的简单网络,通过三四年的迭代发展而来的.

最大的创新点是在时间和空间上进行了融合

截屏2021-08-25 下午12.18.31.png

整个特斯拉技术栈的架构后期视频逐步看完后更新.

RegNet 论文
BiFPN 论文 < EfficientDet: Scalable and Efficient Object Detection>
HydraNets 论文 <Mullapudi_HydraNets_Specialized_Dynamic_CVPR_2018_paper>
Heuristic neural net 论文

Tesla技术栈

Tesla AI DAY 技术情况

特斯拉感知

相关文章：