视频链接:https://www.bilibili.com/video/BV1Dx411n7UE?p=11
文章目录
- 收获
-
- 1. 总览
- 2. Semantic Segmentation(产生输入图像每个像素的类别标签)
- 3. Classfication + Localization
- 4. Object Detection
-
- Object Detection as Classification:Sliding Window(不可行,不知道框的位置,大小,长宽比)
- Region Proposals(固定算法,作用:给出候选框)
- R-CNN(利用Region Proposals给定的候选框)
- Fast R-CNN(在特征图上做Region Proposals,最后一层直接做分类 + 预测,瓶颈在Region Proposals)
- Faster R-CNN(利用一个RPN网络代替Region Proposals算法)
- Detection without Proposals:YOLO / SSD
- Aside:Object Detection + Captioning = Dense Captioning(目标检测 + RNN)
- 介绍上面那个目的:你可以将很多想法 组合在一起(good idea)
- 5. Instance Segmentation
收获
本节讲了语义分割,分类 + 定位,目标检测,实例分割。
-
语义分割:每个像素点都要有分类。
- 每个像素点做一个滑动窗口?(计算昂贵)
- 全卷积,共享卷积计算
- 下采样 + 上采样(进一步优化)
-
分类 + 定位(一个对象)
- 在分类的基础上多加一个 分支做回归任务
-
目标检测(多个对象)
- 不知道对象有多少个,所以不能用上面的方法。
- R-CNN(Region Proposals给出候选框),Fast R-CNN(Region Proposals在特征层上做),Faster R-CNN (RPN网络代替Region Proposals)
- YOLO / SSD(直接一次输出所需要的目标(位置,分类))
-
实例分割(对象 像素点分类)
- Mask R-CNN(上面分支做目标检测,下面分支做语义分割,Mask R-CNN统一这些框架,还可以加多一个分支(固定数量的预测) 做姿态估计)
Mask R-CNN给我最大的启示:
- 你可以将多个想法结合在一起,用其它问题学到的组件组合在一起,共同构造一个端到端的网络。例如提到的Dense Captioning 和 Mask R-CNN does pose(Mask R-CNN做姿态估计(目标检测 + 实例分割 + 定位))
1. 总览
2. Semantic Segmentation(产生输入图像每个像素的类别标签)
不区分实例,可能重复在一起,如右下,
Semantic Segmentation Idea:Sliding Window(第一个浅显的想法,计算昂贵)
Semantic Segmentation Idea:Fully Convolutional(共享卷积计算,缺点:计算昂贵,占用大量内存)
Q1:训练数据哪里来?
Q2:损失函数是什么?
每个像素的交叉熵损失
Q3:一开始就知道训练的类别?
是的,固定标签
Semantic Segmentation Idea:Fully Convolutional(改进版:下采样)
Q4:如何进行上采样?
下采样和上采样是结构对称的,哪个元素也是对应的
Q5:为什么这样做是个好主意?(指上下采样元素对应)
最大池化会丢掉一些空间信息,需要从这个元素还原回来处理细节
Learnable Upsampling:Transpose Convolution(可学习的上采样,转置卷积)
卷积
跨步卷积(指stride = 2)
转置卷积(重叠的部分 求和,这样边界就凸显了?)
转置卷积,1D展示
语义分割总结,模型概览
3. Classfication + Localization
加多一组,把Localization当作是回归问题
Aside:Human Pose Estimation
分类 + 定位总结:固定数量的回归输出
4. Object Detection
目标检测难点:不知道多少个对象
Object Detection as Classification:Sliding Window(不可行,不知道框的位置,大小,长宽比)
Region Proposals(固定算法,作用:给出候选框)
R-CNN(利用Region Proposals给定的候选框)
运行大约每张图2000框候选框,慢
Fast R-CNN(在特征图上做Region Proposals,最后一层直接做分类 + 预测,瓶颈在Region Proposals)
Faster R-CNN(利用一个RPN网络代替Region Proposals算法)
Detection without Proposals:YOLO / SSD
Aside:Object Detection + Captioning = Dense Captioning(目标检测 + RNN)
介绍上面那个目的:你可以将很多想法 组合在一起(good idea)
5. Instance Segmentation
Mask R-CNN
多分支
上面的分支是目标检测
下面的分支是语义分割
就这样组合起来训练一个端到端的网络,cool!
再加多一个分支:预测关节这些坐标(做 姿态估计)