R-CNN网络结构学习

网络模型

在这里插入图片描述

创新点

  1. 采用CNN网络提取图像特征,从经验驱动的人造特征范式HOG(方向梯度直方图)、SIFT(尺度不变特征变换)到数据驱动的表示学习方式,提高特征对样本的表示能力。
  2. 采用大样本下有监督训练+小样本微调的方式解决小样本难以训练甚至过拟合问题。

详细过程

  1. 先输入一张多目标图像,采用selective search算法提取约2000个候选框。
  2. 现在每个候选框周围加16个像素值为候选框平均值的边框,再直接变为227x227(为了适应AlexNet网络的输入图像大小)的大小。(比较粗暴)
  3. 现将所有候选框像素减去候选框平均值后,再依次将每个227x227的候选框输入AlexNet网络获取4096维的特征。将这2000个候选框的4096维特征组合成2000x4096维矩阵。
  4. 将2000x4096维特征与20个SVM组成的权值矩阵4096x20相乘(20种分类,而SVM是二分类器,则有20个SVM),获得2000x20维矩阵表示每个候选框是某个物体类别的得分。
  5. 分别对上述2000x20矩阵中每一列即每一类进行非极大值抑制剔除重复候选框,得到该列即该类中得分最高的一些候选框。
  6. 分别用20个回归器对上述20个类别中剩余的候选框进行回归操作,最终得到每个类别的修正后的得分最高的bounding box。

存在问题

  1. 图片处理速度慢
  2. 可能耗费大量磁盘空间
  3. 训练时间长
  4. 测试过程复杂
发布了352 篇原创文章 · 获赞 31 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/strawqqhat/article/details/103296241