创新点
- 整个方法建立在有区分性的局部对更好地特征化目标是有用的,融合有区分性局部信息和整幅图像的信息会得到更好的分类结果,这个假设合情合理。
- 传统的定位有区分性局部的方法,缺少一种能保证模型集中在正确区域的机制
- 直观上,有较高概率是真实类别的局部区域,应该包含更多的对象特征语义,用一个loss函数来保证,分类概率和选择的局部区域有着相同的顺序,来实现上述的保证机制
- 将 FPN引入到细粒度分类问题中,用来减少人工标注的需要
- 导航到有区分性局部可以看做是提出候选区域的问题
- 强化学习(N-T)+ 目标检测(RPN、FPN、anchor)+ 分类(S)
- RPN提出区域候选,FPN结合多层(不同卷积层)、多尺寸(不同感受野)特征,N-T通过 rank loss 选出最有区分性的区域,最后融合分类
算法流程
优化 N-net
- Training method of Navigator network. For an input image, the feature extrac-
tor extracts its deep feature map, then the feature map is fed into Navigator network
to compute the informativeness of all regions. We choose top-M (here M = 3 for expla-
nation) informative regions after NMS and denote their informativeness as .Then we crop the regions from the full image, resize them to the pre-defined size and
feed them into Teacher network, then we get the confidences We optimize Navigator network to make and having the same order - 训练 N-net 的方法,对于一张输入图片,首先用 resnet 做特征提取器,提取图像的 feature map
- 然后,上述提取的 feature map 被喂到 N-net 中,去计算所有区域的 informativeness(用一个 rpn-net 提取的特征结果作为 informativeness,是否合理)
- 基于 informativeness 进行 NMS,选出 topn 个 regions
- 从原图中把 topn informativeness region 抠出来,缩放到预定义的尺寸(224 x 224)
- 把抠出来的区域喂到 T-net 中,得到置信度 C(用一个 2048 x num_class)的全连接层实现
- 通过一个 rank loss 优化 N-net 使 和 有相同的顺序,确保 navigate 到信息丰富的区域(信息丰富和有区分性局部能否起到相同的作用?)
S-net
-
- concatenate topn informative region feature map with input image‘s feature map,用( ( (2048 x (n+1)) ,num_class) 的全连接层实现分类
体会
- 阅读大量论文,将相关、相近问题中的方法,合理结合起来,可能会产生一些有用的结果
- 文中的 anchor 的尺寸和大小都是固定的,可以考虑,设计自动调整的大小和尺寸
[1] : https://github.com/yangze0930/NTS-Net