一、显著检测定义:
利用算法模型找到人眼关注的区域。
二、应用:
显著性检测可以应用到其他视觉任务中
三、显著性检测的模型
大概大致可以分为两类:
(1)人类注视点预测(Human eye fixation prediction):显著的区域,加高斯
(2)显著目标预测(Salient object detection):显著的目标
以输入的数据分类
(1)2D image;
(2)3D image(2D+depth,例如RBG-D数据集;left+right image)
depth image 类似于灰度图,只是它的每个像素的值是传感器(摄像机)距离物体的实际距离;
视差图:物体离观察者越近,左右眼所见物体差别越大,这就形成了视差。大脑可以利用这种视差,估计物体离自己的距离;
3D图可以分解为左右视图,左右视图可以合成视差图,视差图可以转化成depth图;
(3)2D video
(4)3D video (一系列左图+一系列右图)
(5)光场图片
传统相机成像原理是光线穿过镜头,到达成像平面。光场相机在镜头和成像平面之间增加了微透镜阵列(micro-lens array),达到不仅记录光线的位置信息(x, y),还有方向信息(u, v)。可以做到先拍照,后聚集的效果。
(6)多光谱图片、高光谱图片
多光谱图片:rgb+红外...;
高光谱图片:几十个通道,或上百个通道
(7)360度图片、全景图片(panorama image)
在同一时刻,记录周围所有方向信息,360度图片(即全景图片)的保存形式有两种:
1)cubic format;
2) equirectangular format.
(8)遥感图片
四、常用的显著性检测方法
(1)自底向上(bottom-up)
纯粹的受周围外部因素刺激驱动,例如低阶特征颜色(如下图),亮度,方向,纹理信息。与周围特征对比度越大,则越显著。
(2)自上而下(top-down)
受主体控制,与任务相关。如下图,如果当前视觉任务是有多少人,显著区域落在人上;如果任务是他们的发行分类,则视点会落在头上。
(3)深度学习模型
以上两种都是基于手动提取特征,而深度学习,通过使用不同的卷积,可以自动提取不同特征,加深网络可以提取高阶特征(high-level feature)。
五、常用的显著性检测论文及代码汇总
参考: (1) 3D image: 点击打开链接
(2) 视差图:点击打开链接