不同模态的相机输入对于活体检测的作用

不同模态的相机输入对于活体检测的作用

1.近红外NIR

由于NIR的光谱波段与可见光VIS不同，故真实人脸及非活体载体对于近红外波段的吸收和反射强度也不同，即也可通过近红外相机出来的图像来活体检测。从出来的图像来说，近红外图像对屏幕攻击的区分度较大，对高清彩色纸张打印的区分度较小。

从特征工程角度来说，方法无非也是提取NIR图中的光照纹理特征[1]或者远程人脸心率特征[2]来进行。下图可见，上面两行是真实人脸图中人脸区域与背景区域的直方图分布，明显与下面两行的非活体图的分布不一致；而在NIR图像中提取出来的rPPG特征相比于RGB也更加鲁棒~

NIR人脸区域与背景区域直方图

2.结构光/ToF

由于结构光及ToF能在近距离里相对准确地进行3D人脸重构，即可得到人脸及背景的点云图及深度图，可作为精准活体检测（而不像单目RGB或双目RGB中仍需估计深度）。不过就是成本较高，看具体应用场景决定。

3.光场 Light field

光场相机具有光学显微镜头阵列，且由于光场能描述空间中任意一点向任意方向的光线强度，出来的raw光场照片及不同重聚焦的照片，都能用于活体检测：

3.1 raw光场照片及对应的子孔径照片[3]

如下图所示，对于真实人脸的脸颊边缘的微镜图像，其像素应该是带边缘梯度分布；而对应纸张打印或屏幕攻击，其边缘像素是随机均匀分布：
在这里插入图片描述

3.2 使用一次拍照的重聚焦图像[4]

原理是可以从两张重聚焦图像的差异中，估计出深度信息；从特征提取来说，真实人脸与非活体人脸的3D人脸模型不同，可提取差异图像中的亮度分布特征+聚焦区域锐利程度特征+频谱直方图特征。

小结：

毫无疑问，对于学术界，后续方向应该是用DL学习更精细的人脸3D特征和人脸微变化微动作(Motion Spoofing Noise?) 表征；而也可探索活体检测与人脸检测及人脸识别之间更紧密的关系。
对于工业界，可直接在人脸检测时候预判是否活体；更可借助近红外，结构光/ToF等硬件做到更精准。

参考：

[1]Xudong Sun, Context Based Face Spoofing Detection Using Active Near-Infrared Images, ICPR 2016
[2]Javier Hernandez-Ortega, Time Analysis of Pulse-based Face Anti-Spoofing in Visible and NIR, CVPR2018 workshop
[3]Sooyeon Kim, Face Liveness Detection Using a Light Field Camera, 2014
[4]Xiaohua Xie, One-snapshot Face Anti-spoofing Using a Light Field Camera, 2017
摘录：https://zhuanlan.zhihu.com/p/44904820