1. 背景

AVOD同样是一个two-stage(使用了RPN提取候选框)、anchor-based网络结构。获得较高的召回率对RPN网络来说是比较重要的，但对于稀疏的较低分辨率的输入来说（比如前视图和鸟瞰图）不足以让RPN输出高质量的候选框，且导致低召回率，这会在第二个阶段带来无法逆转的结构。基于这个考虑，AVOD设计了一个新颖的RPN结构可以通过在高分辨率特征图上进行多模态特征融合（将来自RGB图像和BEV的全分辨率特征图为输入），来提高小目标的定位精度。

补充一点，这里与MV3D的处理方法是不一样的。对于MV3D中的是对鸟瞰图的特征进行3d候选框的生成再投影回去每个模态的特征图中获得统一尺寸的roi特征图，所以本质上MV3D融合的信息较小，对于小目标来说检测精度较低。而AVOD采取的方案是利用投影在RGB图与BEV全尺寸的特征图上获取feature crop融合来进行最后边界框的预测，在下面网络结构中会详细介绍。

2. 网络结构

AVOD的网络结构图如下所示。对于BEV输入表示采用与MV3D类似的方式，截取的点云范围是[-40,40]x[0,70]，以包含RGB图像视野的点。BEV输入包含6个channel，其中前5个是切片的高度特征(沿z轴0.5m进行切片，提取网格中的最高点)，第6个channel是密度特征(网格内的点密度)。

对于点云这种稀疏数据来说，如果对BEV进行8x下采样卷积提取特征，那么一个0.8x0.6m的行人在0.1m采样下，原本是8x6的像素，而在下采样后的特征图中像素点可能不足1。对于这种情况，需要提高特征图尺寸，这里AVOD使用Encoder-Decoder类似U-Net的结构来对特征进行反卷积到原始大小(如下所示)，构建了一个point-wise的特征图。对于BEV和RGB数据，通过这种方式分别构建成BEV特征图以及RGB特征图。

现在，对BEV图的坐标点以0.5米精度进行间隔采样生成3d锚框网格(3d anchor grid)，3d的先验框尺寸通过对真实目标框进行聚类获取。锚框由中心点(tx,ty,tz)以及相对尺寸(dx,dy,dz)进行参数设定，如下图所示的Axis Aligned方法所示。此外，可以通过计算积分图像去除BEV中没有3d点的anchor，以此减少计算量。

基于BEV采样所获得的3d anchor投影到BEV和RGB上，获得这两个特征图上的感兴趣区域。将此区域截取出来，进行双线性插值变化到3x3的相同大小，随后进行element-wise mean操作融合，再通过全连接构建一组预测参数来生成proposal。输出包括objectness以及回归参数(∆tx,∆ty,∆tz,∆dx,∆dy,∆dz)，既回归是通过anchor和ground truth之间的质心和尺寸差异来进行回归。在BEV视图上进行正负样本的判定，iou<0.3是负样本，iou>0.5的正样本。最后通过nms挑选前1024个anchor作为3d proposals。

获得了3d proposals将其投影回去BEV与RGB视图中获得对应区域的feature map，同样的对来自BEV与RGB的两个feature crop进行resize到7x7的大小进行element-wise融合，随后用过3层2048的全连接层进行特征编码。在这个阶段的proposals编码方式采取的是4 Corners+Height，也就是底部的4个角点以及两个高度来对真实框进行回归。这种方式考虑到了3d边界框的物理约束，无需强迫顶角与底角的对齐，减少物理信息的冗余性。所以，4个点的(x,y)位置以及2个高度，特征编码的输出维度由8角点(corner loss)的24维度缩减到了10维度。

损失组成同样有分类损失(cross-entropy loss)以及这种4角点+2高度的定位回归损失(Smooth L1 losses)所构成。这里对car类别BEV视图上iou>0.65是正样本，而pedestrian/cyclist类别只需要iou>0.55。

3. 实验结果

实验结果表明，对于AVOD来说，对BEV和RGB进行反卷积到原尺寸构建高分辨率的特征图有极大帮助，尤其是行人这种小目标，提升效果10%。而本质上，这种反卷积到原始尺寸已经可以作为一个语义分割的任务处理，那么可不可以推断出语义分割网络结构性能提升，提取到这种pixel-wise的强语义特征，在一定程度上也有助于检测任务的性能。

AVOD对框回归设计了新的回归方法，但是这里并没有对另外两种回归方法(8 Corner、Axis Aligned)进行对比实验，并没有否定添加8 Corner会对精度有提升。此外，基于原尺寸的特征图截取feature crop局部特征有助于小目标的定位检测，整体效果均有提升，这个idea可以在后续处理中保留。

转载：https://blog.csdn.net/weixin_44751294/article/details/127919288

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

论文阅读笔记 | 三维目标检测——AVOD算法

文章目录

1. 背景

2. 网络结构

3. 实验结果

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场