一、显著检测定义：

利用算法模型找到人眼关注的区域。

二、应用：

显著性检测可以应用到其他视觉任务中

大概大致可以分为两类：

（1）人类注视点预测（Human eye fixation prediction）：显著的区域，加高斯

（2）显著目标预测（Salient object detection)：显著的目标

（1）2D image；

（2）3D image（2D+depth，例如RBG-D数据集；left+right image）

depth image 类似于灰度图，只是它的每个像素的值是传感器（摄像机）距离物体的实际距离;

视差图：物体离观察者越近，左右眼所见物体差别越大，这就形成了视差。大脑可以利用这种视差，估计物体离自己的距离；

3D图可以分解为左右视图，左右视图可以合成视差图，视差图可以转化成depth图；

（3）2D video

（4）3D video （一系列左图+一系列右图）

（5）光场图片

传统相机成像原理是光线穿过镜头，到达成像平面。光场相机在镜头和成像平面之间增加了微透镜阵列（micro-lens array)，达到不仅记录光线的位置信息(x, y)，还有方向信息(u, v)。可以做到先拍照，后聚集的效果。

（6）多光谱图片、高光谱图片

多光谱图片：rgb+红外...；

高光谱图片：几十个通道，或上百个通道

（7）360度图片、全景图片(panorama image)

在同一时刻，记录周围所有方向信息，360度图片（即全景图片）的保存形式有两种：

1）cubic format;

2) equirectangular format.

（8）遥感图片

（1）自底向上（bottom-up)

纯粹的受周围外部因素刺激驱动，例如低阶特征颜色（如下图），亮度，方向，纹理信息。与周围特征对比度越大，则越显著。

（2）自上而下（top-down)

受主体控制，与任务相关。如下图，如果当前视觉任务是有多少人，显著区域落在人上；如果任务是他们的发行分类，则视点会落在头上。

（3）深度学习模型

以上两种都是基于手动提取特征，而深度学习，通过使用不同的卷积，可以自动提取不同特征，加深网络可以提取高阶特征（high-level feature)。

参考: （1） 3D image: 点击打开链接

（2）视差图：点击打开链接