人類情緒行為分析在人機互動(HCI)中備受關注。本文旨在介紹我們提交給CVPR 2022 Affective Behavior Analysis in-the-wild (ABAW)的論文。為了充分利用情緒知識,我們採用了多模態特徵,包括從Aff-Wild2 資料集中的視訊剪輯中提取的口語、語音韻律和臉部表情。基於這些特徵,我們提出了一個基於transformer的多模式框架,用於動作單元偵測和表情辨識。該框架有助於更全面地理解人類情感行為,並為人機互動領域提供了新的研究方向。
對於目前影格影像,我們首先對其進行編碼以提取靜態視覺特徵。同時,我們也利用滑動視窗對相鄰影格進行裁剪,並從影像、音訊和文字序列中提取三種多模態特徵。接下來,我們引入了一個基於transformer的融合模組,用於融合靜態視覺特徵和動態多模態特徵。此融合模組中的交叉注意力模組有助於將輸出的整合特徵集中在對下游偵測任務有幫助的關鍵部分。為了進一步提高模型效能,我們採用了一些資料平衡技術、資料增強技術和後處理方法。在ABAW3 Competition的官方測試中,我們的模型在EXPR和AU賽道上均排名第一。透過廣泛的定量評估和對Aff-Wild2資料集的消融研究,我們證明了我們提出的方法的有效性。
https://arxiv.org/abs/2203.12367
以上是面部表情分析:將多模態資訊與 Transformer 集成的詳細內容。更多資訊請關注PHP中文網其他相關文章!