R-CNN网络结构学习
其他
2020-03-16 09:54:17
阅读次数: 0
网络模型
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191128165959168.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3N0cmF3cXFoYXQ=,size_16,color_FFFFFF,t_70)
创新点
- 采用CNN网络提取图像特征,从经验驱动的人造特征范式HOG(方向梯度直方图)、SIFT(尺度不变特征变换)到数据驱动的表示学习方式,提高特征对样本的表示能力。
- 采用大样本下有监督训练+小样本微调的方式解决小样本难以训练甚至过拟合问题。
详细过程
- 先输入一张多目标图像,采用selective search算法提取约2000个候选框。
- 现在每个候选框周围加16个像素值为候选框平均值的边框,再直接变为227x227(为了适应AlexNet网络的输入图像大小)的大小。(比较粗暴)
- 现将所有候选框像素减去候选框平均值后,再依次将每个227x227的候选框输入AlexNet网络获取4096维的特征。将这2000个候选框的4096维特征组合成2000x4096维矩阵。
- 将2000x4096维特征与20个SVM组成的权值矩阵4096x20相乘(20种分类,而SVM是二分类器,则有20个SVM),获得2000x20维矩阵表示每个候选框是某个物体类别的得分。
- 分别对上述2000x20矩阵中每一列即每一类进行非极大值抑制剔除重复候选框,得到该列即该类中得分最高的一些候选框。
- 分别用20个回归器对上述20个类别中剩余的候选框进行回归操作,最终得到每个类别的修正后的得分最高的bounding box。
存在问题
- 图片处理速度慢
- 可能耗费大量磁盘空间
- 训练时间长
- 测试过程复杂
发布了352 篇原创文章 ·
获赞 31 ·
访问量 6万+
转载自blog.csdn.net/strawqqhat/article/details/103296241