一些CNN网络结构的发展
RCNN–Regions with CNN features
1.在图像中确定约1000-2000个候选框 (使用选择性搜索Selective Search)
2.每个候选框内图像块缩放至相同大小,并输入到CNN内进行特征提取
3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类
4.对于属于某一类别的候选框,用回归器进一步调整其位置
Fast R-CNN
1.在图像中确定约1000-2000个候选框 (使用选择性搜索)
2.对整张图片输进CNN,得到feature map
3.找到每个候选框在feature map上的映射patch,将此patch作为每个候选框的卷积特征输入到ROI pooling layerr(把不同尺寸的特征输入转化为相同尺寸的特征输出)和之后的层
4.对候选框中提取出的特征,使用分类器判别是否属于一个特定类
5.对于属于某一类别的候选框,用回归器进一步调整其位置
区别:
RCNN中在获取到最终的特征后先采用SVM进行类别判断,再进行bounding-box的回归得到位置信息。整个过程是个串行的流程,这极大地影响了网络的检测速度。Fast Rcnn用ROIpoolingl来来转换输入的尺寸,由于ROI Pooling可接受任意尺寸的输入,warp操作不再需要,这有效避免了物体的形变扭曲,保证了特征信息的真实性。Fast R-CNN中则将Classification和Regression的任务合二为一,变成一个multi-task的模型,实现了特征的共享也进一步提升了速度。
Faster R-CNN
1.对整张图片输进CNN,得到feature map
2.卷积特征输入到RPN,得到候选框的特征信息
RPN-Region Proposal Network简介:
训练一个可以判断图片中是否有对象以及是否生成边界框的区域方案网络
•在feature map上滑动窗口
•建一个神经网络用于物体分类+框位置的回归
•滑动窗口的位置提供了物体的大体位置信息
•框的回归提供了框更精确的位置
3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类
4.对于属于某一类别的候选框,用回归器进一步调整其位置
网络结构的设计目的是基于深度学习目标检测的流程变得越来越精简,精度越来越高,速度也越来越快