目标检测方法分类
分为传统方法和深度学习方法,而深度学习方法又分为one-stage和two-stage
基于一体化卷积网络的检测
Overfeat、Yolo、SSD、Retina-Net
基于Object Proposal的检测
R-CNN、SppNet、Fast R-CNN、Faster R-CNN、Pyramid Networks
算法基本流程
输入→候选框→特征提取→分类器判定目标/背景→NMS→输出
↓ ↑
特征提取+直接回归——————————————→
传统目标检测方法
Viola-Jones(人脸检测)
Haar特征提取:
Haar特征(Value=白-黑)
训练人脸分类器(Adaboost算法等):
①初始化样本的权重w,样本权重之和为1
②训练弱分类器
③更新样本权重
④循环第二步
⑤结合各个分类器结果进行投票
滑动窗口(Sliding window)
Hog+SVM行人检测(Open CV实现)
提取Hog特征
训练SVM分类器
滑动窗口提取目标区域,进行分类判断
NMS(非极大值抑制)
输出检测结果
Hog特征:
灰度化+Gamma变换
计算梯度map
图像划分成小的cell,统计每个cell梯度直方图
多个cell组成一个block,特征归一化
多个block串联,并归一化
SVM:对行人和背景进行二分类→去寻找两类之间的最大分类间隔面
DPM(物体检测)
Hog的扩展
利用SVM训练得到物体的梯度
DPM特征提取
- 有符号梯度
- 无符号梯度
计算DPM特征图
计算响应图(root filter and part filter)
Latent SVM分类器训练
检测识别
one-stage基本介绍
使用CNN卷积特征
直接回归物体的类别概率和位置坐标值(无region proposal)
缺点:准确率低,速度相对tow-stage快
基本流程
Input→CNN→Lreg,Lcls→
CNN特征→区域分类,位置精修
常见算法
Yolo V1/V2/V3
SSD/DSSD等
Retina-Net
SSD算法
直接回归目标类别和位置
不同尺度的特征图上进行预测
端到端训练
图像分辨率比较低,也能保证检测的精度
主干网络:VGG-Net(VGG,Resnet等各种卷积神经网络;将VGG最后两个FC改成卷积层,增加四个卷积层)
多尺度Feature map预测(不同层的feature map;prior box:类别概率和坐标(x,y,w,h))
Default bounding boxes的类别分数,偏移量
Tow-stage基本流程
区域推荐(Anchor机制)
ROIpooling(输入:特征图,rois(1x5x1x1)以及ROI参数;输出:固定尺寸的feature map)
分类和回归
改进反向:
更好的网络特征
更精准的RPN
更完善的ROI分类
样本后处理
更大的mini-Batch
转载:https://blog.csdn.net/cz_19970522/article/details/102170026