CNN在识别单个物体方面取得了显著的发展,但如果只用CNN的话,在识别多个物体方面会遇到瓶颈。下面罗列了一些识别一张图片中多个不同的物体的方法,主要是结合CNN、RPN、LSTM,以及和RPN有类似作用的BING。
-
HCP(hypothesis-CNN-Pooling):BING算法+shared CNN。BING算法生成object proposal。shared CNN网络采用imageNet(单独标签的)数据进行了预训练。
-
RLSD(Regional Latent Semantic Dependencies)可以看做是CNN+RPN(region proposal network)+LSTM. 用于多标签图片分类,即识别一张图片中的多个物体与类别。CNN采用的VGGNET。
-
Mask R-CNN:RPN+CNN。Mask R-CNN是两步,第一步是RPN。第二步,CNN提取特征,并行预测分类和box offset,同时对每个ROI输出一个二进制蒙版(mask)。
-
CNN+RNN(LSTM)。比如进行多文字识别的CRNN,基于CNN+RNN+CTC。
-
CNN+SVM。OverFeat obtained very competitive performance in the image classification task of ILSVRC 2013。
-
Multi-label CNN:就是一个CNN,只是最后的分类全连接层的维度换成可以识别多个物体。