Tesla技术栈

Tesla AI DAY 技术情况

特斯拉感知

Tesla.png

通过8个摄像头的输入 得到三维向量空间

Tesla Camera的分辨率 1280*960

信息架构借鉴了人脑视觉结构的设计

主干网络利用regnet进行设计 很好的平衡了延迟和准确性. 截屏2021-08-25 上午9.09.50.png

RegNet特征提取后,通过一个BiFPN进行特征融合 然后特征即可用于做分类和回归 截屏2021-08-25 上午9.11.24.png

通过特征融合,衔接一个multi-scale features 可以做多任务的学习 其网络是HydraNets 通过一个主干网络 分支成为多个头部

这种网络架构的好处:

  1. 相互的特征共享
  2. 对头部的微调可以单独进行
  3. 设立Cache,加速Fine-Tuning

通过一个backbone可以做不同的Task 🐂🍺

Fine-Tune的概念

介绍了一个相机检测路沿的例子

截屏2021-08-25 上午9.21.37.png

Per-Camera Detection Then Fusion的方式使得检测不够连续

通过多摄像头建立Vector Space,然后利用空间向量进行Predictions

其中有两个问题:

  1. 如何将图像特征转换为空间向量特征
  2. 空间向量的预测需要空间向量的数据集

image_space -> vector space 图像上看到的点在鸟瞰坐标下如何对应的问题 对应结果是为了得到Vector space Head Edges

利用transformer整合多个Camera的特征 因为特征是不同车辆在不同摄像头下拍摄的 所以需要校准,这种校准用到了positional encoder 现实重建了一个虚拟相机 根据IMU的数据进行标定

栅格地图由图像生成 将图像反算3D 能在3D栅格地图上有效得到路沿的识别结果

detect before fusion 的方法 导致车道线 障碍物的检测不够连续 通过先融合feature,在prediction的方法,Vector Space Edges and Lines会更有效的串联多个图片的信息.

Detections:SingleCam -> MultiCam

Detections采用了相同的方式 从Single-Cam演变到Multi-Cam 更多的摄像头相互配合 会使得检测的视角更广 物体更平顺 结果更为优秀

我认为的大招 Video Neural Net Architecture模块 截屏2021-08-25 上午9.59.15.png

通过queue的列队插入 使得模型具有memory功能

截屏2021-08-25 下午4.41.58.png

通过参考记忆,可以有效应对遮挡问题 🐂

应用方向 通过Spatial RNN做路径的预测,完全摆脱建图

应用方向2 提高对临时遮挡物体识别的鲁棒性

应用方向3 咱物体识别上也更为流程 特别是距离估计上 十分顺滑

整个Tesla感知层面的架构 截屏2021-08-25 上午10.29.12.png

大致架构 原始数据输入,链接一个校正层校准相机数据,然后将数据投入到一个虚拟相机中,然后将数据传送到RegNet中,处理成不同尺度的features,将多尺度的信息在BiFPN中进行融合,通过转换模块将其表示为向量空间,将时间或空间中的特征序列化为Feature queue,然后输入到视频处理模块,处理后的features,进入树干和头部分支,去完成不同的任务. 这个网络也是从图片识别的简单网络,通过三四年的迭代发展而来的.

最大的创新点是在时间和空间上进行了融合


截屏2021-08-25 下午12.18.31.png

整个特斯拉技术栈的架构 后期视频逐步看完后更新.


  • RegNet 论文
  • BiFPN 论文 < EfficientDet: Scalable and Efficient Object Detection>
  • HydraNets 论文 <Mullapudi_HydraNets_Specialized_Dynamic_CVPR_2018_paper>
  • Heuristic neural net 论文
updatedupdated2021-08-262021-08-26