인간-컴퓨터 상호작용(HCI)에서는 인간의 감정 행동 분석이 많은 주목을 받고 있습니다. 이 글은 우리가 CVPR 2022 ABAW(Affective Behavior Analysis in-the-wild)에 제출한 논문을 소개하기 위한 것입니다. 감정적 지식을 최대한 활용하기 위해 우리는 Aff-Wild2 데이터 세트의 비디오 클립에서 추출한 음성 언어, 음성 운율 및 표정을 포함한 다중 모드 기능을 사용합니다. 이러한 특징을 바탕으로 우리는 동작 단위 검출 및 표현 인식을 위한 변환기 기반 다중 모드 프레임워크를 제안합니다. 이 프레임워크는 인간의 정서적 행동에 대한 보다 포괄적인 이해에 기여하고 인간-컴퓨터 상호 작용 분야에 새로운 연구 방향을 제시합니다.
현재 프레임 이미지에 대해 먼저 인코딩하여 정적 시각적 특징을 추출합니다. 동시에 슬라이딩 윈도우를 사용하여 인접한 프레임을 자르고 이미지, 오디오 및 텍스트 시퀀스에서 세 가지 다중 모드 기능을 추출합니다. 다음으로 정적 시각적 기능과 동적 다중 모드 기능을 융합하는 변환기 기반 융합 모듈을 소개합니다. 이 융합 모듈의 교차 주의 모듈은 다운스트림 감지 작업에 도움이 되는 주요 부분에 출력 통합 기능을 집중시키는 데 도움이 됩니다. 모델 성능을 더욱 향상시키기 위해 일부 데이터 밸런싱 기술, 데이터 증대 기술 및 후처리 방법을 채택했습니다. ABAW3 Competition의 공식 테스트에서 당사 모델은 EXPR 및 AU 트랙 모두에서 1위를 차지했습니다. 우리는 Aff-Wild2 데이터 세트에 대한 광범위한 정량적 평가 및 절제 연구를 통해 제안된 방법의 효율성을 입증합니다.
https://arxiv.org/abs/2203.12367
위 내용은 얼굴 표정 분석: 다중 모드 정보를 Transformer와 통합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!