- 《QuatNet: Quaternion-based Head Pose Estimation with Multi-regression Loss》
2018,Heng-Wei Hsu et al. QuatNet
1.引言:
作者提出了multi-regression loss function来使用CNNs进行头部姿态估计,输入采用RGB,并没有深度(Depth)信息。损失函数为L2 regression loss结合ordinal regression loss。
1) ordinal regression loss是被用于去处理non-stationary property,学习鲁棒的特征。
The non-stationary property:不同的头部姿态角度面部的特征将会发生变化。
Ordinal regression learns 去预测labels的排序,而非label值本身,当labels的顺序扮演着更加重要的角色相比于它们实际的数值,这是非常重要和有效的。
2) L2 regression loss利用特征去提供更加精确的角度预测
3) Label:本文使用Euler angle和quaternions作为网络回归的结果,发现基于四元数的效果更好,因此论文题目为:QuatNet。
2. QuatNet网络结构:
QuatNet基础网络采用GoogLeNet model,最后一层池化层被替换为本文提出的regression nets和ranking nets。
网络结构的细节:
Regression Net:
这4个回归网络采用相同的网络结构,一个256维的全连接层紧接着一个维度为1全连接层。
对应着四元数的4个值,如果为欧拉角就为3个值。
Ranking Net:
N多个二分类子网络,
注:ranking nets只在训练阶段进行约束,测试时去掉该网络。
QuatNet的损失函数为:
,其中
=0.1。
3.EulerNet网络细节:
Ranking的角度限制:
4.不同模型的结果比较:
从结果可以看出,加入ranking loss效果有提升。
Methods所对应的方法为:
regression net, ranking net and cross-entropy net结构的细节:
5.评价标准:
MAE(平均绝对误差)和每个角度的累计误差分布曲线(cumulative error distribution curve)
The cumulative error distribution curve reflects the proportion of test images whose errors are
below a certain threshold.
反应了测试数据在一定阈值下的错误数据比例。eg:
1)MAE:
2)cumulative error distribution curve:
6.小结:
使用L2 regression loss结合ordinal regression loss可以提升姿态估计的准确率。