Facial Expression Analysis: Integrating Multimodal Information with Transformer

WBOY 2024-01-23 10:24 1188浏览转载

transformer-based multimodal information fusion for facial expression analysis

论文介绍

人类情感行为分析在人机交互（HCI）中备受关注。本文旨在介绍我们提交给CVPR 2022 Affective Behavior Analysis in-the-wild (ABAW)的论文。为了充分利用情感知识，我们采用了多模态特征，包括从Aff-Wild2 数据集中的视频剪辑中提取的口语、语音韵律和面部表情。基于这些特征，我们提出了一个基于transformer的多模式框架，用于动作单元检测和表情识别。该框架有助于更全面地理解人类情感行为，并为人机交互领域提供了新的研究方向。

对于当前帧图像，我们首先对其进行编码以提取静态视觉特征。同时，我们还利用滑动窗口对相邻帧进行裁剪，并从图像、音频和文本序列中提取三种多模态特征。接下来，我们引入了一个基于transformer的融合模块，用于融合静态视觉特征和动态多模态特征。该融合模块中的交叉注意力模块有助于将输出的集成特征集中在对下游检测任务有帮助的关键部分。为了进一步提高模型性能，我们采用了一些数据平衡技术、数据增强技术和后处理方法。在ABAW3 Competition的官方测试中，我们的模型在EXPR和AU赛道上均排名第一。通过广泛的定量评估和对Aff-Wild2数据集的消融研究，我们证明了我们提出的方法的有效性。