如有错误,恳请指出。
paper:《Joint 3D Proposal Generation and Object Detection from View Aggregation》
1. 背景
AVOD同样是一个two-stage(使用了RPN提取候选框)、anchor-based网络结构。获得较高的召回率对RPN网络来说是比较重要的,但对于稀疏的较低分辨率的输入来说(比如前视图和鸟瞰图)不足以让RPN输出高质量的候选框,且导致低召回率,这会在第二个阶段带来无法逆转的结构。基于这个考虑,AVOD设计了一个新颖的RPN结构可以通过在高分辨率特征图上进行多模态特征融合(将来自RGB图像和BEV的全分辨率特征图为输入),来提高小目标的定位精度。
补充一点,这里与MV3D的处理方法是不一样的。对于MV3D中的是对鸟瞰图的特征进行3d候选框的生成再投影回去每个模态的特征图中获得统一尺寸的roi特征图,所以本质上MV3D融合的信息较小,对于小目标来说检测精度较低。而AVOD采取的方案是利用投影在RGB图与BEV全尺寸的特征图上获取feature crop融合来进行最后边界框的预测,在下面网络结构中会详细介绍。
2. 网络结构
AVOD的网络结构图如下所示。对于BEV输入表示采用与MV3D类似的方式,截取的点云范围是[-40,40]x[0,70],以包含RGB图像视野的点。BEV输入包含6个channel,其中前5个是切片的高度特征(沿z轴0.5m进行切片,提取网格中的最高点),第6个channel是密度特征(网格内的点密度)。
对于点云这种稀疏数据来说,如果对BEV进行8x下采样卷积提取特征,那么一个0.8x0.6m的行人在0.1m采样下,原本是8x6的像素,而在下采样后的特征图中像素点可能不足1。对于这种情况,需要提高特征图尺寸,这里AVOD使用Encoder-Decoder类似U-Net的结构来对特征进行反卷积到原始大小(如下所示),构建了一个point-wise的特征图。对于BEV和RGB数据,通过这种方式分别构建成BEV特征图以及RGB特征图。
现在,对BEV图的坐标点以0.5米精度进行间隔采样生成3d锚框网格(3d anchor grid),3d的先验框尺寸通过对真实目标框进行聚类获取。锚框由中心点(tx,ty,tz)以及相对尺寸(dx,dy,dz)进行参数设定,如下图所示的Axis Aligned方法所示。此外,可以通过计算积分图像去除BEV中没有3d点的anchor,以此减少计算量。
基于BEV采样所获得的3d anchor投影到BEV和RGB上,获得这两个特征图上的感兴趣区域。将此区域截取出来,进行双线性插值变化到3x3的相同大小,随后进行element-wise mean操作融合,再通过全连接构建一组预测参数来生成proposal。输出包括objectness以及回归参数(∆tx,∆ty,∆tz,∆dx,∆dy,∆dz),既回归是通过anchor和ground truth之间的质心和尺寸差异来进行回归。在BEV视图上进行正负样本的判定,iou<0.3是负样本,iou>0.5的正样本。最后通过nms挑选前1024个anchor作为3d proposals。
获得了3d proposals将其投影回去BEV与RGB视图中获得对应区域的feature map,同样的对来自BEV与RGB的两个feature crop进行resize到7x7的大小进行element-wise融合,随后用过3层2048的全连接层进行特征编码。在这个阶段的proposals编码方式采取的是4 Corners+Height,也就是底部的4个角点以及两个高度来对真实框进行回归。这种方式考虑到了3d边界框的物理约束,无需强迫顶角与底角的对齐,减少物理信息的冗余性。所以,4个点的(x,y)位置以及2个高度,特征编码的输出维度由8角点(corner loss)的24维度缩减到了10维度。
损失组成同样有分类损失(cross-entropy loss)以及这种4角点+2高度的定位回归损失(Smooth L1 losses)所构成。这里对car类别BEV视图上iou>0.65是正样本,而pedestrian/cyclist类别只需要iou>0.55。
3. 实验结果
实验结果表明,对于AVOD来说,对BEV和RGB进行反卷积到原尺寸构建高分辨率的特征图有极大帮助,尤其是行人这种小目标,提升效果10%。而本质上,这种反卷积到原始尺寸已经可以作为一个语义分割的任务处理,那么可不可以推断出语义分割网络结构性能提升,提取到这种pixel-wise的强语义特征,在一定程度上也有助于检测任务的性能。
AVOD对框回归设计了新的回归方法,但是这里并没有对另外两种回归方法(8 Corner、Axis Aligned)进行对比实验,并没有否定添加8 Corner会对精度有提升。此外,基于原尺寸的特征图截取feature crop局部特征有助于小目标的定位检测,整体效果均有提升,这个idea可以在后续处理中保留。
转载:https://blog.csdn.net/weixin_44751294/article/details/127919288