>기술 주변기기 >일체 포함 >시청각적 관점에서 복합학습의 과거와 미래를 살펴본다

시청각적 관점에서 복합학습의 과거와 미래를 살펴본다

WBOY
WBOY앞으로
2023-04-12 13:58:161587검색

시각과 청각은 인간의 의사소통과 장면 이해에 매우 중요합니다. 인간의 지각 능력을 모방하기 위해 시청각 양식을 탐구하는 것을 목표로 하는 시청각 학습이 최근 몇 년간 급성장하는 분야가 되었습니다. 이 기사는 최신 시청각 학습 "시청각적 맥락에서의 학습: "새로운 관점"의 검토, 분석 및 해석에 대한 리뷰입니다.

이 리뷰는 먼저 시청각 양식의 인지 과학적 기초를 분석한 다음 최근 시청각 학습 작업(약 300개 관련 문서)에 대한 체계적인 분석 및 요약을 수행합니다. 마지막으로, 현재의 시각-시각 학습 분야를 개괄적으로 살펴보기 위해 본 리뷰에서는 시-시각 장면 이해의 관점에서 최근의 시각-시각 학습의 진행 상황을 재검토하고 이 분야의 잠재적인 발전 방향을 탐색합니다.

시청각적 관점에서 복합학습의 과거와 미래를 살펴본다

arXiv 링크: https://arxiv.org/abs/2208.09579

프로젝트 홈페이지: https://gewu-lab.github.io/audio-visual-learning/

awesome-list 링크: https://gewu-lab.github.io/awesome-audiovisual-learning/

1 소개

시각 및 청각 정보는 인간이 외부 세계 정보 소스를 인식합니다. 인간의 뇌는 이질적인 다중 모드 정보를 통합하여 주변 환경에 대한 전반적인 인식을 얻습니다. 예를 들어, 여러 명의 화자가 있는 칵테일 파티 장면에서 입술 모양의 변화를 사용하여 관심 있는 화자의 음성 수신을 향상시킬 수 있습니다. 따라서 인간과 유사한 기계 인식 능력을 탐구하려면 시각 및 청각 학습이 필수적입니다. 다른 양식과 비교할 때 시청각 양식의 특성은 다음과 같이 독특합니다.

1) 인지 기반. 가장 널리 연구된 두 가지 감각인 시각과 청각의 통합은 인간의 신경계 전체에서 발견됩니다. 한편으로는 인간의 지각에서 이 두 감각의 중요성은 시청각 데이터를 기반으로 한 기계 지각 연구의 인지적 기반을 제공하는 반면, 신경계에서 시각과 청각의 상호 작용과 통합은 역할을 할 수 있습니다. 시각적-시각적 학습 기반을 촉진하기 위한 기반입니다.

2) 다중 일관성. 우리 일상생활에서 시각과 청각은 밀접한 관련이 있습니다. 그림 1에서 볼 수 있듯이 개가 짖는 모습과 그 모습은 모두 "개"(Semantic Consistency)라는 개념과 연관시켜 줍니다. 동시에 우리는 들리는 소리나 시각의 도움을 받아 개의 정확한 공간적 위치를 판단할 수 있습니다(공간 일관성). 그리고 개가 짖는 소리를 들으면 대개 동시에 시각적으로 개를 볼 수 있습니다(시간적 일관성). 시각과 청각 사이의 다중 일관성은 시청각 학습 연구의 기초입니다.

3) 풍부한 데이터 지원. 모바일 단말기와 인터넷의 급속한 발전으로 점점 더 많은 사람들이 공공 플랫폼에서 동영상을 공유하게 되었고, 이로 인해 동영상 수집 비용이 절감되었습니다. 이러한 풍부한 공개 비디오는 데이터 수집 장벽을 완화하고 시청각 학습을 위한 데이터 지원을 제공합니다.

시청각 양식의 이러한 특성은 자연스럽게 시청각 학습 분야의 탄생으로 이어졌습니다. 최근 몇 년 동안 이 분야는 활발한 발전을 이루었습니다. 연구자들은 더 이상 원래의 단일 모드 작업에 추가 양식을 도입하는 데 만족하지 않고 새로운 문제와 과제를 탐색하고 해결하기 시작했습니다.

그러나 기존 시청각 학습 직업은 과제 중심인 경우가 많습니다. 이 작품에서는 특정 시청각 작업에 중점을 둡니다. 시청각 학습 분야의 발전을 체계적으로 검토하고 분석하는 포괄적인 작업이 여전히 부족합니다. 따라서 이 글에서는 시청각 학습의 현재 분야를 요약하고 잠재적인 발전 방향을 더 자세히 살펴봅니다.

시각 및 청각 학습과 인간의 지각 능력 사이의 밀접한 연관성으로 인해 이 글에서는 먼저 시각 및 청각 양식의 인지적 기초를 요약한 다음, 이를 바탕으로 기존의 시각 및 청각 학습 연구를 세 가지 범주로 나눕니다.

1) 시청각 부스팅. 시각 및 오디오 데이터는 각각 오랜 연구 역사와 폭넓은 적용 범위를 가지고 있습니다. 이러한 단일 모드 방법은 상당히 효과적인 결과를 얻었지만 관심 항목의 부분적인 정보만 활용하고 단일 모드 방법의 성능은 제한적이며 단일 모드 노이즈에 취약합니다. 따라서 연구자들은 이러한 오디오 또는 시각적 작업에 추가 양식을 도입하여 보완적인 정보를 통합하여 모델 효과를 향상시킬 뿐만 아니라 모델 견고성을 향상시킵니다.

2) 교차 모달 인식. 인간은 소리를 들으면 관련된 그림을 연상할 수 있고, 그림을 보면 일치하는 소리를 생각할 수도 있습니다. 이는 시각 정보와 청각 정보가 일관되기 때문입니다. 이러한 일관성은 기계가 여러 양식의 지식을 전달하거나 한 양식의 정보를 기반으로 다른 양식의 해당 데이터를 생성할 수 있는 기반을 제공합니다. 따라서 교차 모드 인식 기능을 탐구하는 데 많은 연구가 집중되어 놀라운 결과를 얻었습니다.

3) 시청각 협업. 다양한 양식의 신호를 융합하는 것 외에도 인간 두뇌의 피질 영역에 있는 양식 간에 더 높은 수준의 상호 작용이 있어 더 깊은 장면 이해를 얻을 수 있습니다. 따라서 인간과 같은 인식 능력을 갖추려면 오디오와 비디오 양식 간의 협업을 탐구해야 합니다. 이러한 목표를 달성하기 위해 최근 몇 년 동안 많은 연구에서 보다 어려운 장면 이해 문제를 제안하여 광범위한 관심을 받았습니다.

시청각적 관점에서 복합학습의 과거와 미래를 살펴본다

그림 1: 시각 및 청각 일관성과 시각 및 청각 학습 분야 개요

의미론, 공간 및 타이밍을 포괄하는 시각 및 청각 양식 간의 일관성은 위의 시각적 및 청각적 측면에 대한 타당성을 제공합니다. 오디오 연구 . 따라서 본 논문에서는 최근 시청각 연구를 요약한 후 시청각의 다중적 일관성을 분석한다. 또한 본 논문에서는 시청각 장면 이해의 새로운 관점에서 시청각 학습 분야의 진행 상황을 다시 한 번 검토합니다.

2 시각 및 청각 인식의 기초

시각과 청각은 인간의 장면 이해에 있어 두 가지 핵심 감각입니다. 이 장에서는 시각 및 청각 감각의 신경 경로와 인지 신경과학의 시각 및 청각 양상의 통합을 요약하여 시각 및 청각 학습 분야의 후속 연구 논의를 위한 토대를 마련합니다.

2.1 시각과 청각의 신경 경로

시각은 가장 널리 연구된 감각이며 일부는 인간의 인식을 지배한다고 믿기도 합니다. 그에 따라 시각의 신경 경로도 상대적으로 복잡합니다. 물체에서 반사된 빛에는 시각 정보가 포함되어 있어 망막에 있는 수많은 광수용체(약 2억 6천만 개)를 활성화합니다. 광수용기의 출력은 신경절 세포(약 200만개)로 보내집니다. 이 프로세스는 시각적 정보를 압축합니다. 그런 다음 시각 정보는 측면 슬상핵의 세포에 의해 처리된 후 최종적으로 대뇌 피질의 시각 관련 영역에 도달합니다. 시각 피질은 시각 뉴런이 선호하는 영역의 기능적으로 구별되는 모음입니다. 예를 들어, V4와 V5의 뉴런은 각각 색상과 동작에 민감합니다.

시각 외에도 청각도 주변 환경을 관찰하는 중요한 감각입니다. 이는 인간에게 위험을 피하도록 상기시킬 뿐만 아니라(예를 들어 인간은 맹수의 울음소리를 들으면 적극적으로 행동하게 된다), 인간이 서로 소통할 수 있는 기반이기도 하다. 음파는 고막의 신경 신호로 변환됩니다. 그런 다음 청각 정보는 뇌간의 하구와 달팽이관 핵으로 전달됩니다. 시상의 내측 슬상핵에 의해 처리된 후, 소리는 궁극적으로 일차 청각 피질에서 인코딩됩니다. 뇌는 청각 정보를 취하고 여기에 포함된 주파수, 음색 등의 음향 단서를 사용하여 음원의 정체를 결정합니다. 동시에 두 귀 사이의 강도와 청각 사이의 타이밍 차이는 소리의 위치에 대한 단서를 제공하는데, 이를 바이노럴 효과라고 합니다. 실제로 인간의 지각은 여러 감각, 특히 청각과 시각을 결합할 수 있는데, 이를 다중 채널 지각이라고 합니다.

2.2 인지 신경과학의 시청각 통합

각 감각은 주변 환경에 대한 고유한 정보를 제공합니다. 다중 감각이 받아들이는 정보는 다르지만 결과적으로 환경을 표현하는 것은 개별적인 감각이 아닌 통일된 경험입니다.

대표적인 예는 McGurk 효과입니다. 서로 다른 의미를 갖는 시각 신호와 청각 신호는 단일 의미 정보를 얻습니다. 이러한 현상은 인간의 인식에 여러 감각의 신호가 통합되는 경우가 많다는 것을 나타냅니다. 그 중 청각 및 시각 신경 경로의 교차점은 인간의 두 가지 중요한 감각 정보를 결합하여 지각의 민감도와 정확성을 향상시킵니다. 예를 들어 소리와 관련된 시각 정보는 청각 공간의 검색 효율성을 향상시킬 수 있습니다.

다양한 감각 정보가 결합된 이러한 지각 현상은 인지 신경과학 분야에서 주목을 받아왔습니다. 인간 신경계의 잘 연구된 다채널 감각 영역은 상구(superior colliculus)입니다. 상구의 많은 뉴런은 다감각 특성을 갖고 있으며 시각, 청각, 심지어 촉각을 통한 정보에 의해 활성화될 수 있습니다. 이러한 다감각 반응은 단일 반응보다 더 강한 경우가 많습니다. 피질의 상측두구는 또 다른 대표적인 영역입니다.

원숭이에 대한 연구를 바탕으로 시각, 청각, 체성 감각을 포함한 다중 감각과 연결되는 것이 관찰되었습니다. 두정엽, 전두엽, 해마를 포함한 추가 뇌 영역도 유사한 다중 채널 인식 현상을 나타냅니다. 다중 채널 인식 현상에 대한 연구를 바탕으로 다음과 같은 몇 가지 주요 결과를 관찰할 수 있습니다.

1) 다중 모드 향상. 위에서 언급했듯이 많은 뉴런은 단일 감각의 자극이 약한 경우 단일 양식 응답보다 더 신뢰할 수 있는 융합된 신호에 반응할 수 있습니다.

2) 교차 모달 가소성. 이 현상은 감각을 박탈하면 해당 피질 영역의 발달에 영향을 미칠 수 있음을 의미합니다. 예를 들어, 청각 장애인의 청각 관련 피질은 시각적 자극에 의해 활성화될 가능성이 있습니다.

3) 다중 모드 협업. 다양한 감각의 신호는 피질 영역에 더욱 복잡하게 통합되어 있습니다. 연구자들은 대뇌 피질에 다감각 정보를 협력적인 방식으로 통합하여 인식과 인지 능력을 구축할 수 있는 모듈이 있음을 발견했습니다.

인간의 인지에서 영감을 받아 연구자들은 인간과 같은 시각 및 청각 인식 능력을 달성하는 방법을 연구하기 시작했으며 최근 몇 년 동안 더 많은 시각 및 청각 연구가 점차 등장했습니다.

3 단일 모달 노이즈에 더 민감합니다(예: 시각적 정보는 조명, 시야각 등과 같은 요인의 영향을 받음). 따라서 인간 인지의 다중 모드 개선 현상에 영감을 받아 일부 연구자들은 작업 성능을 향상시키기 위해 원래의 단일 모드 작업에 추가 시각적(또는 오디오) 데이터를 도입합니다. 우리는 관련 작업을 식별과 강화라는 두 부분으로 나눕니다.

오디오 기반 음성 인식, 비전 기반 동작 인식 등 단일 모달 인식 작업은 과거에도 널리 연구되어 왔습니다. 그러나 단일 모달 데이터는 사물 정보의 일부만 관찰하므로 단일 모달 노이즈에 취약합니다. 따라서 다중 모드 데이터를 통합하여 모델 기능과 견고성을 향상시키는 시청각 인식 작업이 최근 주목을 받고 있으며 음성 인식, 화자 인식, 동작 인식, 감정 인식과 같은 다양한 측면을 다루고 있습니다.

오디오 및 비디오 형식의 일관성은 다중 모드 인식 작업의 기초를 제공할 뿐만 아니라 한 형식을 사용하여 다른 형식의 신호를 향상시키는 것도 가능하게 합니다. 예를 들어, 여러 화자가 시각적으로 분리되어 있으므로 화자에 대한 시각적 정보를 사용하여 음성 분리를 지원할 수 있습니다. 또한 오디오 정보는 모호하거나 누락된 화자의 얼굴 정보를 재구성하기 위해 성별, 연령 등의 신원 정보를 제공할 수 있습니다. 이러한 현상은 연구자들이 음성 향상, 음원 분리, 얼굴 슈퍼 재구성과 같은 노이즈 제거 또는 향상을 위해 다른 양식의 정보를 사용하도록 영감을 주었습니다.

그림 2: 시각적 시각 향상 작업 시청각적 관점에서 복합학습의 과거와 미래를 살펴본다

4 교차적 인식

인지 신경과학의 교차양식 가소성 현상과 시각 및 청각 양식 간의 일관성 교차에 대한 연구 촉진 -오디오와 시각적 양식 사이의 연관성을 학습하고 확립하는 것을 목표로 하는 모달 인식, 교차 모달 생성, 전송 및 검색과 같은 작업을 촉진합니다.

인간은 알려진 양식의 안내에 따라 다른 양식에 해당하는 정보를 예측할 수 있는 능력이 있습니다. 예를 들어, 소리를 듣지 않고도 입술 움직임의 시각적 정보만 보면 그 사람이 말하는 내용을 대략적으로 유추할 수 있습니다. 오디오와 시각 사이의 의미론적, 공간적, 시간적 일관성은 기계가 인간과 같은 교차 모드 생성 기능을 가질 수 있는 가능성을 제공합니다. 현재 교차 모달 생성 작업은 단일 채널 오디오 생성, 스테레오 생성, 비디오/이미지 생성 및 깊이 추정을 포함한 다양한 측면을 다루고 있습니다.

교차 양식 생성 외에도 오디오와 비디오 간의 의미론적 일관성은 한 양식의 학습이 다른 양식의 의미 정보의 도움을 받을 것으로 예상됨을 나타냅니다. 이는 시청각 전송 작업의 목표이기도 합니다. 또한 오디오와 비디오의 의미론적 일관성은 교차 모드 정보 검색 작업의 개발을 촉진합니다.

시청각적 관점에서 복합학습의 과거와 미래를 살펴본다

그림 3: 교차 모드 인식 관련 작업

5 시각적 협업

인간의 두뇌는 수신된 장면의 시청각 정보를 통합하여 협력하고 서로 상호 작용하여 장면에 대한 이해를 향상시킵니다. 따라서 기계가 단순히 다중 모드 정보를 융합하거나 예측하는 것이 아니라 시청각 협업을 탐색하여 인간과 같은 인식을 추구하는 것이 필요합니다. 이를 위해 연구자들은 시각 및 청각 구성요소 분석, 시각 및 청각 추론을 포함한 시각 및 청각 학습 분야에 다양한 새로운 과제를 도입했습니다.

시청각 협업 초기에는 사람의 주석 없이 시청각 양식에서 표현을 효과적으로 추출하는 방법이 중요한 주제입니다. 이는 고품질 표현이 다양한 다운스트림 작업에 기여할 수 있기 때문입니다. 시청각 데이터의 경우, 이들 간의 의미론적, 공간적, 시간적 일관성은 자기 지도 방식으로 시청각 표현을 학습하기 위한 자연스러운 신호를 제공합니다.

표현 학습 외에도 오디오와 비디오 양식 간의 협업은 주로 장면 이해에 중점을 둡니다. 일부 연구자들은 음원 위치 파악, 시각 및 청각 돌출 감지, 시각 및 청각 내비게이션 등을 포함하여 장면의 시각 및 청각 구성 요소를 분석하고 위치 파악하는 데 중점을 둡니다. 이러한 작업은 시각적 양식과 청각적 양식 사이에 세밀한 연결을 설정합니다.

또한 많은 시청각 작업에서 우리는 전체 동영상의 시청각 콘텐츠가 항상 시간에 맞춰 일치한다고 가정하는 경우가 많습니다. 즉, 동영상의 각 순간에 사진과 사운드가 일관성을 갖는다고 가정합니다. 그러나 실제로 이 가정이 항상 확립될 수는 없습니다. 예를 들어 '농구를 치는 중' 샘플에서 카메라는 '농구를 치는 중'이라는 라벨과 관련이 없는 강당 등의 장면을 촬영하는 경우도 있습니다. 따라서 장면의 시각 및 청각 구성요소를 시간 순서에 따라 더욱 벗겨내기 위해 시각 및 청각 이벤트 위치 파악 및 분석과 같은 작업이 제안됩니다.

인간은 시청각 장면에서 인식 이상의 추론을 할 수 있습니다. 위의 시청각 협업 작업은 점차 시청각 장면에 대한 세밀한 이해를 달성했지만 시청각 구성 요소에 대한 추론 분석을 수행하지 않았습니다. 최근 시각-시각 학습 분야의 발전과 함께 일부 연구자들은 시각적-시각적 질문답변, 대화 과제 등 시각적-시각적 추론에 더욱 주목하기 시작했습니다. 이러한 작업은 시청각 장면에 대한 교차 모달 시공간 추론을 수행하고, 장면 관련 질문에 답하거나, 관찰된 시청각 장면에 대한 대화를 생성하는 것을 목표로 합니다.

시청각적 관점에서 복합학습의 과거와 미래를 살펴본다

그림 4: 시청각 협업 관련 작업

6 대표 데이터 세트

이 섹션에서는 시청각 학습 분야의 일부 대표적인 데이터 세트를 정리하고 논의합니다.

시청각적 관점에서 복합학습의 과거와 미래를 살펴본다

7 여러 측면에서 시청각 연구의 기반을 마련했습니다.

첫째, 시각 및 청각 양식은 관심 대상을 다양한 관점에서 묘사합니다. 따라서 시청각 데이터의 의미는 의미상 일관성이 있는 것으로 간주됩니다. 시각적-시각적 학습에서 의미론적 일관성은 대부분의 작업에서 중요한 역할을 합니다. 이러한 일관성을 통해 시각 및 청각 정보를 결합하여 시각 및 청각 인식을 개선하고 단일 방식을 향상시키는 등의 작업이 가능해졌습니다. 또한 시청각 양식 간의 의미론적 일관성도 교차 모드 검색 및 전이 학습에서 중요한 역할을 합니다.

두 번째로 시각 및 청각 모두 소리가 나는 물체의 정확한 공간 위치를 결정하는 데 도움이 될 수 있습니다. 이 공간 대응은 또한 광범위한 응용 분야를 가지고 있습니다. 예를 들어, 음원 위치 파악 작업에서 이러한 일관성은 입력 오디오에 의해 안내되는 소리 방출 개체의 시각적 위치를 결정하는 데 사용됩니다. 스테레오의 경우 바이노럴 오디오를 기반으로 시각적 깊이 정보를 추정하거나, 시각 정보를 보조로 활용하여 스테레오 오디오를 생성할 수 있다.

마지막으로, 시각적 콘텐츠와 그것이 생성하는 소리는 시간적으로 일관성이 있는 경우가 많습니다. 이러한 일관성은 시청각 인식 또는 생성 작업에서 다중 모드 정보를 융합하거나 예측하는 등 대부분의 시청각 학습 연구에서도 널리 활용됩니다.

실제로 이러한 다양한 시청각 일관성은 분리되지 않고 시청각 장면에서 함께 나타나는 경우가 많습니다. 따라서 관련 작업에서 공동으로 활용되는 경우가 많습니다. 의미론적 일관성과 시간적 일관성의 조합이 가장 일반적인 경우입니다.

간단한 시나리오에서 동일한 타임스탬프를 가진 오디오 및 비디오 클립은 의미상으로나 시간적으로 일관성이 있는 것으로 간주됩니다. 그러나 이러한 강력한 가정은 실패할 수 있습니다. 예를 들어 동일한 타임스탬프의 비디오 이미지와 배경 사운드가 의미상 일관되지 않습니다. 이러한 거짓 긍정은 훈련을 방해합니다.

최근 연구자들은 장면 이해의 질을 높이기 위해 이러한 상황에 집중하기 시작했습니다. 또한 의미론적 일관성과 공간적 일관성의 결합도 일반적입니다. 예를 들어, 비디오에서 성공적인 음원 위치 파악은 의미론적 일관성에 의존하여 입력 사운드를 기반으로 해당 시각적 공간 위치를 탐색합니다. 또한 시청각 탐색 작업의 초기 단계에서 음성 대상은 꾸준하고 반복적인 소리를 생성합니다. 공간적 일관성은 만족되지만 시각과 청각의 의미적 내용은 상관관계가 없습니다. 이어서, 시청각 탐색의 품질을 향상시키기 위해 소리와 발화 위치의 의미론적 일관성이 도입됩니다.

일반적으로 시각 및 청각 양식의 의미론적, 공간적, 시간적 일관성은 시각 및 청각 학습 연구에 대한 견고한 지원을 제공합니다. 이러한 일관성을 분석하고 활용하면 기존 시청각 작업의 성능이 향상될 뿐만 아니라 시청각 장면에 대한 더 나은 이해에도 기여합니다.

7.2 장면 이해에 대한 새로운 관점

이 글은 시청각 양상의 인지적 기초를 요약하고, 이를 바탕으로 현재의 시청각 학습 연구를 세 가지로 나누어 본다. 카테고리: 시청각 부스팅, 교차 모드 인식 및 시청각 협업. 좀 더 거시적인 관점에서 시청각 학습 분야의 현재 발전을 검토하기 위해 이 기사에서는 시청각 장면 이해에 대한 새로운 관점을 더 제안합니다.

1) 기본 장면 이해. 시청각 향상 및 교차 모드 인식 작업은 종종 일관된 시청각 정보를 융합하거나 예측하는 데 중점을 둡니다. 이러한 작업의 핵심은 시청각 장면에 대한 기본적인 이해(예: 입력 비디오의 동작 분류) 또는 교차 모달 정보 예측(예: 무성 비디오를 기반으로 해당 오디오 생성)입니다. 장면 비디오에는 이러한 기본 장면 이해 작업의 범위를 벗어나는 다양한 시각적 및 오디오 구성 요소가 포함되는 경우가 많습니다.

2) 세밀한 장면 이해. 위에서 언급했듯이 시청각 장면에는 일반적으로 다양한 양식의 풍부한 구성 요소가 있습니다. 따라서 연구자들은 대상 구성 요소를 벗겨내는 몇 가지 작업을 제안했습니다. 예를 들어, 음원 위치 파악 작업은 목표 소리를 생성하는 물체가 위치한 시야 영역을 표시하는 것을 목표로 합니다. 시청각 이벤트 현지화 및 분석 작업은 대상 가청 이벤트 또는 시계열의 가시 이벤트를 결정합니다. 이러한 작업을 통해 시청각 구성요소를 분리하고 시청각 장면을 분리함으로써 이전 단계에 비해 장면을 더 세밀하게 이해할 수 있습니다.

3) 인과적인 장면 이해. 시청각 장면에서 인간은 주변의 흥미로운 사물을 인지할 수 있을 뿐만 아니라 그들 사이의 상호작용도 추론할 수 있습니다. 이 단계에서 장면 이해의 목표는 인간과 같은 인식을 추구하는 것에 더 가깝다. 현재 이 단계에서는 몇 가지 임무만 탐색됩니다. 시청각 질의응답과 대화 과제가 대표작이다. 이러한 작업은 비디오의 시각 및 오디오 구성 요소의 연관성을 탐색하고 시공간 추론을 수행하려고 시도합니다.

일반적으로 이 세 단계의 탐색은 불균형합니다. 기본적인 장면 이해부터 인과적 상호작용 장면 이해까지 관련 연구의 다양성과 풍부함이 점차 감소하고 있으며, 특히 인과적 상호작용 장면 이해는 아직 초기 단계이다. 이는 시청각 학습의 몇 가지 잠재적인 개발 방향을 암시합니다.

1) 작업 통합. 시청각 분야의 대부분의 연구는 작업 중심입니다. 이러한 개별 작업은 시청각 장면의 특정 측면만 시뮬레이션하고 학습합니다. 그러나 시청각 장면에 대한 이해와 인식은 단독으로 발생하지 않습니다. 예를 들어, 음원 위치 파악 작업은 시각에서 소리 관련 개체를 강조하는 반면, 이벤트 위치 파악 및 구문 분석 작업은 대상 이벤트를 일시적으로 식별합니다. 시청각 장면에 대한 정교한 이해를 돕기 위해 두 가지 작업이 통합될 것으로 예상됩니다. 여러 시청각 학습 과제의 통합은 앞으로 탐구할 가치가 있는 방향입니다.

2) 인과적 상호작용 시나리오에 대한 더 깊은 이해. 현재 추론을 포함한 장면 이해에 대한 연구의 다양성은 여전히 ​​제한적입니다. 시청각 질의응답, 대화 등 기존 업무는 대부분 영상 속 사건을 기반으로 대화를 진행하는 데 중점을 두고 있다. 미리 본 장면을 기반으로 다음에 발생할 수 있는 오디오 또는 시각적 이벤트를 예측하는 것과 같은 보다 심층적인 유형의 추론은 향후 추가 연구가 필요합니다. ​

기사 내용을 더 잘 표현하기 위해 이 리뷰에는 지속적으로 업데이트되는 프로젝트 홈페이지도 갖춰져 있습니다. 이 홈페이지에서는 독자들이 읽을 수 있도록 사진, 비디오 및 기타 형식으로 다양한 시각 및 청각 작업의 목표와 개발을 표시합니다. 시각 및 청각 학습 분야를 빠르게 이해합니다.

위 내용은 시청각적 관점에서 복합학습의 과거와 미래를 살펴본다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제