【论文阅读】Group Emotion Recognition in the Wild using Pose Estimation and LSTM Neural Networks
摘要
本篇博客参考IEEE于2022年收录的论文Group Emotion Recognition in the Wild using Pose Estimation and LSTM Neural Networks,对其主要内容进行总结,以便加深理解和记忆
1.介绍
户外的情绪识别决定了个人或群体在非实验室状态下的情绪,由于现实世界中会发生各种情况,这些系统的准确性相对较低。在户外,系统需要适应不同的照明、遮挡、模糊和方向。
情感计算是人工智能中与情感相关的一个领域,源于情感或影响情感的计算[1]。情感计算是人工智能的必要组成部分,是人工智能主体与人类有效沟通的必要组成部分。人工智能可以识别所显示的情绪,然后可以适当地调整其反应。
2.问题背景
1)情绪和肢体语言
一个人的情绪会引起其他人的反应,比如如果一个人开始煽动暴力,另一个人可能会开始表现出保护或平静的情绪。相反,另一个人可能会加入到展示暴力的行列中。这些表现出来的反应是由于每个人的情绪和行为引发的记忆[4]。
2)使用VGAF的相关工作
视频级群体影响(VGAF)数据集[8](Wild Challenge中第八次情绪识别创建)
- Petrova等人研究的系统使用两个数据集进行分类,第一个是挑战数据集,第二个是真实人脸与真实背景图像相结合合成的数据集[9]。Petrova等人研究了通过对模型进行再训练来优化VGG-19模型的方法,对各个层使用不同的核大小。经过优化,模型的准确率提高到59.13%[9]。确定合成数据集可以具有更高的质量,以改进模型的训练过程。
- Liu等人研究了不同模型和融合水平的影响。他们首先使用openSMILE特征集对音频特征进行分类,然后将其传递给线性支持向量机进行分类,准确率达到51.75%[10]。然后,他们使用DenseNet进行面部表情识别,以检测帧内的面部特征,并使用线性支持向量机再次对特征进行分类。Liu等人选择将深度学习的特征提取算法与传统的分类算法相结合,构成了他们的混合网络。模型之间的最终融合准确率达到76.85%,比基线模型的52.36%准确率有所提高。
- Savchenko[11]使用轻量级神经网络实现面部表情和属性识别,验证准确率达到59.27%。
- Evtovdienko[12]采用了跨模态注意,该注意也集成了基于音频嵌入的注意方案,并实现了60.37%的验证准确率。
- Sharma等人[13]采用整体方法,采用视听成分,将面部和语音特征纳入群体影响分析,验证准确率达到61.61%。
3)使用姿态识别的相关工作
- Mingming等人设计的系统识别了六种情绪及其各自的姿态进行分类。他们关注的是中立、快乐、悲伤、愤怒、惊讶和恐惧。由这些情绪衍生出来的身体姿势只集中在情绪的一个方面。例如,只有当个体抬起胳膊和腿离开地面时,才能识别出快乐的姿势。
身体姿势代表情绪(从左到右):中性、快乐、悲伤、愤怒、惊讶和恐惧[14]
对于特征提取,算法分为五个阶段:
①第一阶段检测图像中的特征,并使用VGG-19全连接网络(FCN)
②特征提取完成后,通过卷积训练来识别人骨点置信度网络;然后再次训练初始置信度网络和提取的特征来识别人体姿势结构;
③前两个阶段的同时,对图像进行卷积训练,识别出人体骨骼的亲和向量场,然后通过另一个具有原始特征的CNN输出关键点亲和向 量集;
④将这两个整体结果进行匹配,以显示人类骨骼的关键点亲和力[14]。根据这个结果,判断每个连接的有效性。根据有效性,如果置信 度太低,它们要么被消除,要么保持连接。
⑤最后,将最终的连接传递到CNN中进行最终的训练和分类。
方法结果表明,除恐惧外,所有情绪的准确率均在90%及以上。恐惧的准确率为84%,因为这个姿势与愤怒相似。该系统仅设计用于个 人分类,一次只能处理框架中的一个人。然而,对于这个人来说,它可以准确地识别在光线充足的环境中识别出的情绪,而不考虑任何 模糊和相机对这个人的看法[14]。
-
由Vithanawasam和Madhusanka提出的第二个系统侧重于通过服务机器人的眼睛识别情绪。该方法旨在利用服务机器人辅助老年人的护理,使服务机器人能够基于被护理人的情感与老年人进行有效的沟通[15]。由于机器人只能一致地看到面对它的人的脸和上半身,因此系统将重点放在这两个区域进行特征提取。为了检测人脸,该系统使用了一个预先训练好的哈尔级联。
使用上半身感兴趣区域(ROI)在图像中检测上半身[15]。面部表情是使用在他们自己制作的数据集上训练的fishface算法检测的。肢体语言网络情感是通过手臂的位置和头的方向来识别的。然后将最终的情绪分类为识别的面部表情作为主要结果,肢体语言作为次要结果[15]。虽然识别愤怒的准确率达到81%,但该系统只能在人完全面对相机并需要足够的相机照明时才能检测到情绪。
此外,同一时间只能有一个人在框架中[15]。
本节中讨论的两个系统具有仅在框架中只有一个人时识别情绪的局限性。在框架中可能有多个人的真实场景中使用这些系统是不现实的。
3.相关工作
1)模型
①输入和帧选择:系统接受一个片段作为输入,然后将其处理成单独的帧。数据集中最短的片段可以分成68帧。
因此,每个片段的68帧被传递到特征提取阶段,因为所有片段需要有相同数量的特征提取来计算一个统一的特征向量传递给分类器。虽然可以选择更少的帧,但深度神经网络(如长短期记忆(LSTM)神经网络)受益于拥有尽可能多的训练数据。由于每个片段中可以均等提取的最大帧数为68帧,因此选择68帧。与中间或最后一帧相比,当选择前68帧时,整个剪辑的情绪没有变化。数据集的本质是,一个视频被分成单独的片段,每个片段在整个视频中只有一种情感。从这个性质来看,可以安全地假设从剪辑开始收集的特征与从剪辑中间或结尾收集的特征具有相同的含义。
②特征提取:特征提取阶段接受一批图像(帧),每张图像产生一组矩阵。每个矩阵包含每个关键点对的关键点和部件关联热图的置信度图。
该阶段遵循Mingming等人[14]设计的系统中概述的类似过程,使用2D OpenPose方法,使用部分亲和场[6]。这一步的输出是一个连接关键点的数组,在图像中形成一个人体骨架。关键点选择18个点:鼻子、脖子、右肩、右肩、右肘、右腕、左肩、左肘、左腕、右臀、右膝、右踝、左膝、左踝、右眼、左眼、右耳、左耳、背景。
该过程的第一步使用VGG-19全卷积网络(FCN)从输入的图像创建特征映射。然后将该特征映射同时传递给两个分支。第一个分支使用FCN来预测身体部位位置的置信度图。第二个分支使用第二个FCN来预测零件亲和力向量。
这个向量决定了两个特定骨骼身体部位之间的关联程度。如果度过低,则不绘制连接[6]。该体系结构如图4所示。选择这种姿态识别方法作为架构,因为到目前为止,它是最先进的[6]。最后传递给分类器的特征数组是由关联程度决定的连接点的二维数组
③分类:采用长短期记忆(LSTM)递归神经网络(RNN)分类。选择LSTM RNN来保留特定视频中各个帧之间的关系。输入层有256个单元,其次是三次分布式隐藏层,分别有512、1024和2048个单元。
最后一层使用softmax激活来进行最终预测。该模型被训练为使用稀疏分类交叉熵损失函数和学习率为0.001的Adam优化器
4.结果
通过对所有错误分类的片段进行人工分析,确定了三个常见问题。混淆矩阵的错误分类视频发生在两个人有明显的身体接触区域时。当这种情况发生时,只有一个人的骨架被识别出来,这导致了对群体情绪的错误分类。
在相框中发现的畸形骨骼被认为是由于个体以90度或更大的角度背向相机。最后,在不包含个体的框架中发现了畸形骨骼。然后,该系统错误地将家具识别为人类骨骼。