NeurIPS 2020 | 近期必读目标检测精选论文_飞道的博客

NeurIPS 2020 | 近期必读目标检测精选论文

2021-01-18 12:12 264人阅读评论(0)

AMiner平台（https://www.aminer.cn）由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线，吸引了全球220个国家/地区1000多万独立IP访问，数据下载量230万次，年度访问量超过1100万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

目标检测（Object Detection）是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。由于深度学习的广泛运用，目标检测算法得到了较为快速的发展。

根据AMiner-NeurIPS 2020词云图和论文可以看出，与Object Detection是在本次会议中的热点，下面我们一起看看Object Detection主题的相关论文。

1.论文名称：Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

论文链接：https://www.aminer.cn/pub/5edf5dd891e011bc656dee5b?conf=neurips2020

简介：一级检测器基本上将对象检测公式化为密集的分类和定位。通常通过焦点损失来优化分类，并且通常在Dirac delta分布下了解盒子的位置。一级检测器的最新趋势是引入单个预测分支来估计定位质量，其中预测质量有助于分类以提高检测性能。本文研究了以上三个基本元素的表示形式：质量估计，分类和本地化。在现有实践中发现了两个问题，其中包括：（1）训练和推理之间质量估计和分类的用法不一致，以及（2）当复杂场景中存在歧义和不确定性时，用于位置定位的Dirac delta分布不灵活。为了解决这些问题，我们为这些元素设计了新的表示形式。具体来说，我们将质量估计值合并到类预测向量中，以形成定位质量和分类的联合表示，并使用向量表示框位置的任意分布。改进的表示法消除了不一致的风险，并准确地描述了实际数据中的灵活分布，但是包含连续的标签，这超出了焦点损失的范围。然后，我们提出广义焦点损失（GFL），将焦点损失从离散形式推广到连续版本，以实现成功的优化。

2.论文名称：Fine-Grained Dynamic Head for Object Detection

论文链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397bae?conf=neurips2020

简介：特征金字塔网络（FPN）提出了一种出色的方法，可以通过执行实例级别的分配来减轻对象表示中的比例差异。然而，这种策略忽略了实例中不同子区域的独特特征。为此，我们提出了一种细粒度的动态头，可以针对每种情况从不同的比例有条件地选择FPN特征的像素级组合，从而进一步释放了多比例特征表示的能力。此外，我们设计了具有新激活函数的空间门，以通过空间稀疏卷积显着降低计算复杂性。大量的实验证明了该方法在几种最新检测基准上的有效性和效率

3.论文名称：UWSOD: Toward Fully-Supervised-Level Capacity Weakly Supervised Object Detection

论文链接：https://www.aminer.cn/pub/5f7fdd328de39f08283979f9?conf=neurips2020

简介：弱监督对象检测（WSOD）由于其利用仅具有图像级注释的大规模数据集进行检测器训练的巨大灵活性而引起了广泛的研究关注。尽管近年来取得了长足的进步，但WSOD的性能仍然有限，远低于完全监督对象检测（FSOD）的性能。由于大多数WSOD方法都依赖于对象提议算法来生成候选区域，并且还面临着诸如质量低下的预测边界框和大规模变化之类的挑战。在本文中，我们提出了一个统一的WSOD框架（称为UWSOD），以开发仅包含图像级标签的大容量通用检测模型，该模型是独立的，不需要外部模块或其他监督。为此，我们利用了三个重要的组件，即对象提案生成，边界框微调和尺度不变特征。首先，我们提出一个基于锚点的自我监督的提议生成器来假设对象位置，该生成器由UWSOD创建的监督进行端到端的训练，以进行对象分类和回归。其次，我们通过逐步选择高可信度对象建议作为正样本，开发了逐步的边界框微调，以精炼检测分数和坐标，从而引导了预测边界框的质量。第三，我们构造了一个多速率重采样金字塔以聚合多尺度上下文信息，这是第一个处理WSOD中尺度变化的网络内特征层次结构。在PASCAL VOC和MS COCO上进行的大量实验表明，所提出的UWSOD使用最新的WSOD方法可获得竞争性结果，而无需外部模块或额外的监督。此外，具有类不可知的地面真相边界框的UWSOD的上限性能接近Faster R-CNN，这表明UWSOD具有完全受监督级别的能力。

4.论文名称：CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection

论文链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c71?conf=neurips2020

简介：共凸对象检测（CoSOD）旨在发现在包含两个或多个相关图像的给定查询组中重复出现的凸对象。一个具有挑战性的问题是如何通过建模和利用图像间关系来有效地捕捉共显性线索。在本文中，我们提出了一个端到端的协作聚合和分发网络（CoADNet），以捕获来自多个图像的显着和重复的视觉模式。首先，我们将显着性先验集成到骨干特征中，以通过在线显着性内部指导结构抑制多余的背景信息。之后，我们设计了一个两阶段的聚集和分布体系结构，以探索逐组语义交互并产生共显性特征。在第一阶段，我们提出了一个基于组的语义聚合模块，该模块对图像间的关系进行建模以生成按组的语义表示。在第二阶段，我们提出了门控组分配模块，该模块以动态门控机制将学习到的组语义自适应地分配给不同的个体。最后，我们开发了针对CoSOD任务量身定制的保持组一致性的解码器，该解码器在特征解码期间维持了组约束，以预测更一致的全分辨率共显性图。拟议的CoADNet在四个主要的CoSOD基准数据集上进行了评估，这表明与十个最新竞争对手相比，性能得到了显着提高

5.论文名称：Comprehensive Attention Self-Distillation for Weakly-Supervised Object Detection

论文链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397aab?conf=neurips2020

简介：弱监督对象检测（WSOD）已成为仅使用图像级类别标签来训练对象检测器的有效工具。但是，如果没有对象级别的标签，WSOD检测器很容易检测到显着对象，聚类对象和区分对象部分上的边界框。此外，图像级别类别标签不会在同一图像的不同变换之间强制执行一致的对象检测。为了解决上述问题，我们为WSOD提出了一种综合注意自我蒸馏（CASD）培训方法2。为了在所有对象实例之间平衡特征学习，CASD计算来自同一图像的多个变换和特征层的综合注意力。为了对对象执行一致的空间监视，CASD在WSOD网络上进行自我蒸馏，以便通过同一图像的多次变换和特征层同时近似全面关注。