飞道的博客

目标检测——day66 Scaled-YOLOv4: Scaling Cross Stage Partial Network

345人阅读  评论(0)

Scaled-YOLOv4

1. Introduction

首先来看看YOLOv4在COCO数据集上的表现,据所知,是目前(2021年)COCO数据集上任何已发表的工作中精度最高的:55.5% AP(73.4% AP50) for the MS COCO dataset at a speed of∼16
FPS on Tesla V100,而随着测试时间的增加,YOLOv4-large achieves 56.0% AP (73.3 AP50).

  • 提出的Scaled-Yolov4和其他最先进的目标检测器的比较如下图所示,虚线只表示模型推理的延迟,实线包括模型推理和后处理。

2. Related work

2.1. Real-time object detection

老生常谈的单阶段和两阶段目标检测器问题,在这儿给出普遍定义吧:

  1. 物体探测器主要分为单阶段物体探测器和两阶段物体探测器。

  2. 只需一次CNN运算即可得到单阶段物体探测器的输出。

  3. 对于两级目标检测器,通常将第一阶段CNN得到的高分区域建议反馈到第二阶段CNN进行最终预测。

2.2. Model scaling(模型缩放)

什么年代了还在玩传统缩放!(狗头)——改变模型深度,即增加更多的卷积层。

近年来,网络体系结构搜索(NAS)相关研究蓬勃发展,我们可以把NAS-FPN看作是一种主要在阶段级执行的模型缩放技术。 至于EfficientNet ,它使用基于深度、宽度和输入大小的复合缩放搜索。

本文将从目标检测的设计要求出发,尝试寻找一种用于协同复合缩放的方法。

3. Principles of model scaling

这一章是重点,建议读者回到原文阅读理解

4. Scaled-YOLOv4

在本节中,我们将重点放在为普通GPU、低端GPU和高端GPU设计可伸缩的Yolov4。

4.1. CSP-ized YOLOv4

4.2. YOLOv4-tiny

YOLOV4-TINY的计算块。

4.3. YOLOv4-large

图4显示了YOLOV4-P5、YOLOV4P6和YOLOV4-P7的结构。 我们设计在sizeInput,#Stage上执行复合缩放。 我们将每个阶段的深度标度设为2DSI,DS设为[1,3,15,15,7,7,7]。 最后,我们进一步利用推理时间作为约束来执行额外的宽度缩放。 我们的实验表明,当宽度缩放因子等于1时,Yolov4P6可以达到30 fps视频的实时性能。 对于Yolov4-P7,在宽度缩放因子等于1.25的情况下,可以达到16 fps视频的实时性能。

本篇就到这了,实验部分也是常规证明模型好的内容

6. Conclusions

基于CSP方法的YOLOV4目标检测神经网络具有上下可伸缩性,适用于小型网络和大型网络。 因此,我们使用TensorRT-FP16在Test-Dev COCO数据集上实现了Yolov4大模型的最高精度56.0%AP,在RTX 2080TI上实现了Yolov4小模型的极高速度1774 fps,在其他Yolov4模型上实现了最佳速度和精度。


转载:https://blog.csdn.net/qq_43537420/article/details/128713911
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场