BEV模型部署全栈教程（3D检测+车道线+Occ）

一、什么是BEV？(/s/1Pv9uQpEM95aGXwVaCF90Ug 提取码：2hqx ) 鸟瞰视角（Bird's Eye View，简称BEV）是一种从上方观看对象或场景的视角，就像鸟在空中俯视地面一样。在自动驾驶和机器人领域，通过传感器（如LiDAR和摄像头）获取的数据通常会被转换成BEV表示，以便更好地进行物体检测、路径规划等任务。BEV能够将复杂的三维环境简化为二维图像，这对于在实时系统中进行高效的计算尤其重要。

二、BEV的优势简化的视角: BEV将三维空间简化为二维，这样可以在计算和存储上节省大量资源。视觉效果: BEV提供了一种独特的视觉效果，使得场景中的物体和空间关系更加清晰可见。方便处理: 在BEV中处理物体检测、跟踪和分类等任务相较于直接在原始3D数据中处理要简单得多。便于融合和下游任务处理：与lidar融合更为方便，对下游路径规划控制等任务也更友好。通用坐标系尺度一致：相机检测会出现近大远小的情况，BEV同类目标尺度差异几乎没有，更容易学习特征尺度一致性

BEV 是特斯拉自动驾驶系统中的一种模型，是一种基于图像的模型，用于将车辆周围的环境信息转换为平面图。BEV 模型可以通过多个摄像头捕捉到的图像来生成车辆周围的环境信息，然后将这些信息转换为平面图，以便自动驾驶系统进行处理和分析。

特斯拉采用 8 个摄像头采集图像进行有效融合，通过校正后，一并输入到神经网络。顺便科普一下，神经网络就是通过一组算法模拟人脑，是一种称为深度学习过程，还可以从错误中不断改进。

在自动驾驶中，神经网络对采集到的图像提取特征，进行关联后，投影到一个矢量空间，就可以实现反映周围环境的鸟瞰图BEV的效果

三、目前最火最常用的视觉BEV模型是哪一个？目前最火和常用的视觉BEV（Bird's Eye View）模型之一是BEVDet。这个模型特别受到关注，尤其是在自动驾驶领域，因为它直接在BEV空间中进行目标检测，能够有效整合来自多个摄像头的视觉信息，实现对环境的3D理解。BEVDet因其在车辆环视视频中的应用和能输出目标的3D检测框而广受好评，适用于需要精确空间感知的场景。

除了BEVDet，还有其他一些流行的BEV相关算法如DETR3D、BEVFormer、BEVDet4D、PETR和BEVDepth等，它们各自在不同的应用场景和性能指标上有其独特优势，但BEVDet以其实际应用中的表现和广泛的接纳度，可以视为当前一个亮点。不过，具体哪个模型最火或最常用可能还会随时间、最新研究进展及实际应用需求的变化而变化，因此持续关注最新的研究成果和行业动态是很重要的。

四、BEVFormer技术对于自动驾驶车辆来说，对BEV空间中目标的类型可以大概分为以下两类：不经常变化的目标：如可行使区域，路面，车道，建筑物，植被，信号灯等一些其他未分类的静态物体可变的目标：即可以移动的物体，如行人、骑行人、汽车、卡车、锥桶等。这种分类的目的是方便自动驾驶系统进行后续的驾驶规划和控制。在BEV的感知阶段，算法根据物体出现在BEV网格上的概率进行打分，并通过Softmax函数对概率进行归一化处理，最后选择概率最高的物体类型对应的网格的类别预测结果

五、多传感器融合 BEV 融合派在自动驾驶领域的主要任务是融合各类传感器的数据，包括摄像头、激光雷达、毫米波雷达以及高精度地图等。这种融合机制可以充分利用各个传感器的优势，提高自动驾驶系统对周围环境的感知和理解能力。激光雷达的优势在于可以直接测量物体的距离，其精度远高于视觉推测的场景深度。激光雷达通常将测量结果转化为深度数据或点云，这两种数据形式的应用历史悠久，成熟的算法可以直接借用，从而减少了开发的工作量。

此外，激光雷达在夜间或恶劣天气条件下仍能正常工作，而在这种情况下，摄像头可能会受到很大影响，导致无法准确感知周围环境。

总之，融合派的目标是有效整合多传感器数据，使自动驾驶系统在各种复杂条件下获得更全面、更准确的环境感知，从而提高驾驶的安全性和可靠性。融合技术在自动驾驶领域发挥着关键作用。它融合了来自不同传感器的信息，使整个系统能更好地感知和理解周围环境，做出更准确的决策和规划。

六、数据需求数据量需求较大：由于2D -> 3D 的部分我们使用的是 MLP，非常容易过拟合。视觉上 3D 本身的 augmentation 很难做，而且对于硬件标定有依赖。生成难度也较大：目前阶段还大量使用激光来辅助数据生成，但是这样的方案由于传感器的原因，在未来是没法扩展的。这也是目前阶段我们在尝试考虑的一个问题。随着多目任务的引入，带来了一个很难避免的问题：模型和相机的布置基本处于一个硬绑定的状态。对于普通的公司，必须面对这个问题：怎么样可以用尽量少的数据、更快的适配新的车型。在我看来这是一个体系化的解决方案，数据、硬件、算法、工程，都需要针对这一问题作出适应。目前来看，特斯拉的 4D 标注在静态元素上确实是一个比较符合逻辑的方案，成本和效率都比较高（当然也会有一些问题）。但是动态元素上的工作，我们还在考虑。

七、小结总的来说，自下而上和自上而下两种方法在 BEV 研究中都得到了广泛应用。自下而上的方法适用于早期的 BEV 研究，如 LSS 和 BEVDet 等。自上而下法更倾向于使用 Transformer 等模型，利用全局感知能力，并在一些最新工作中取得了显著成果，如上海 AILab 团队的 BEVFormer。这两种方法各有优势，可以互为补充，为自动驾驶中的 BEV 感知发展提供丰富的技术选择

用户登录

今日阅读排行

一周阅读排行

关注我