VICOD:激光雷达和摄像头的多级融合方法

论文标题：Multistage Fusion Approach of Lidar and Camera for Vehicle-Infrastructure Cooperative Object Detection

2022 5th World Conference on Mechanical Engineering and Intelligent Manufacturing (WCMEIM)

Paper：

https://ieeexplore.ieee.org/document/10021459ieeexplore.ieee.org/document/10021459

旧的方案：

1.使用基于基础设施的LiDAR传感器检测和跟踪十字路口的行人和车辆，分析准确的实时信息，包括行人和车辆的存在，位置，速度和方向。

2.这些工作并没有合成多模态传感器数据，也没有在现实场景中得到验证。

该文章方案：

VICOD：激光雷达与摄像头的多级融合方法，用于车基协同目标检测

选择车侧点云和图像数据以及路侧点云数据作为输入，车侧通过特征融合生成检测框，然后与路侧数据生成的检测框完成对象级融合，投影到车侧坐标系，得到融合的检测框。与使用原始数据和提取特征的早期融合和特征级融合相比，

该文方案的车-基础设施协同目标检测方案的平均精度显著高于数据集提供的基准，而该文采用的方案在保证检测精度的基础上，可以降低路侧向车侧数据传输的成本和时延。

数据集：

DAIR-V2X 数据集
用于车基协同自动驾驶研究的大规模、多模态、多视图数据集
数据均来自北京高水平自动驾驶示范区的真实场景

VICOD结构

车侧检测网络
基础设施侧检测网络
检测箱融合网络

车辆侧利用图像和点云数据通过特征融合生成检测箱，路侧仅使用点云数据生成检测箱，投影到车侧坐标系完成与车侧生成的检测箱的物体级融合，得到融合检测箱。

车侧检测网络

从点云和图像中提取特征Extracting Feature from Point Clouds and Images:
区域提案网络Region Proposal Network

首先在提取的全分辨率特征上应用1 × 1卷积核，然后对其进行裁剪和尺寸调整[ 10 ]，在两个视图中获得尺寸为3 × 3的特征裁剪，随后通过元素平均操作进行融合

将融合后的特征作物送入全连接层，全连接层输出物体/背景得分和三维包围盒的回归值。

对得到的3D候选区域进行非极大值抑制( NMS )并丢弃冗余候选区域，以消除冗余候选区域。

第二阶段检测网络Second Stage Detection Network

类似于RPN

候选区域投影到点云特征图和图像特征图上，调整为7 × 7，然后使用元素平均操作进行融合。3个大小为2048的全连接层对融合后的特征作物进行处理，输出每个提案的位置、朝向和类别信息

车端检测网络结构

基础设施侧检测网络

功能编码器网络

将点云转换为伪图像以进行 2D 卷积操作。

散点算子生成伪图像

区域提案网络

由二维卷积神经网络组成，其作用是在特征编码器网络的伪图像输出中提取高维特征。

RPN 分为两个子网：一个自上而下的子网，用于在越来越小的空间分辨率特征图上提取特征，另一个子网络负责通过反卷积操作将从不同分辨率的特征图中提取的特征上采样到相同的维度大小，然后将它们连接起来。

检测头

实现 3D 物体检测

检测箱融合网络

坐标变换和过滤
匹配和组合

相同的对象，在匹配它们后，比较它们的分数并保持结果具有更高的置信度。

对于不同的对象，将它们组合在一起。随后，通过在检测结果中整合相应的更准确的信息并处理坐标变换中的误差，完成融合结果的空间补偿。

实验

结论

激光雷达与摄像头的多级融合方法，用于车基协同目标检测。利用车辆侧的点云和图像数据以及路侧的点云数据，通过特征提取和区域建议网络得到相应的检测箱，输入到检测箱融合网络中，经过坐标转换、滤波和积分运算后得到最终的融合检测箱。与数据集基准相比，结果表明，该方案能够显著提高车-基础设施协同目标检测的平均精度。考虑到传感器和通信的成本，我们只使用点云数据来完成路边的物体检测，然后与车辆侧的检测结果实现后期融合。与使用原始数据或提取特征的早期融合或特征融合相比，该方案在保证检测精度的基础上，可以降低从路侧到车辆侧的数据传输成本和时延。