版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/OOFFrankDura/article/details/90759897
综述
算是笔记吧!计算机视觉主要任务划分:
- Semantic segmentation是pixel oriented。也就是面向像素的,事实上这种训练数据需要在每一个pixel上提供label。
- Classification+Localization 识别单个物品并且识别位置(E.g, draw box)
- Object Detection容易与前者混淆,事实上Object Detection是一个有挑战性的任务。因为对于每一个input你的DNN输出的结果数目都是不确定的。你要去“识别”——找到哪些可能是objects。一种研究思路是首先使用tranditional tech 来做region proposal基于region proposal再进行classification。RCNN/fast-RCNN/Faster-RCNN都面向该任务。
- Instance Segmentation 在你找到objects之后不是画box而是面向pixel进行分割。Mask-RCNN面向该任务,甚至可以提供pose的计算。而Mask-RCNN的作者就是大名鼎鼎的Kaiming He。
来源:cs231n