칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨-일체 포함-php.cn

집

기술 주변기기

일체 포함

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 09, 2024 pm 03:26 PM

동영상ai

설명 한 문장으로 큰 영상 속에서 해당 클립을 찾을 수 있어요!

예를 들어, "계단을 내려가는 동안 물을 마시는 사람"을 묘사하는 경우, 영상 이미지와 발자국 매칭을 통해 새로운 방법은 해당 시작 및 종료 타임스탬프를 즉시 찾을 수 있습니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

"웃는" 의미도

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

이 방법을 칭화대학교 연구팀이 제안한 Adaptive Dual Branch Promotion Network(ADPN)이라고 합니다.

특히 ADPN은 쿼리 텍스트를 기반으로 비디오에서 관련 클립을 찾는 비디오 클립 위치 지정(Temporal Sentence Grounding, TSG)이라는 시각적 언어 교차 모달 작업을 완료하는 데 사용됩니다.

ADPN은 비디오의 시각적 및 오디오 양식의 일관성 및 상보성을 효율적으로 활용하여 비디오 클립 위치 지정 성능을 향상시키는 기능이 특징입니다.

오디오를 사용하는 다른 TSG 작업 PMI-LOC 및 UMT와 비교하여 ADPN 방식은 오디오 모드에서 더욱 중요한 성능 향상을 달성했으며 여러 테스트에서 새로운 SOTA를 획득했습니다.

현재 이 작업은 ACM Multimedia 2023에서 승인되었으며 완전한 오픈 소스입니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

ADPN이 무엇인지 살펴보겠습니다~

한 문장 내에서 동영상 위치 지정

동영상 위치 지정(Temporal Sentence Grounding, TSG)은 중요한 시각-언어 교차 모달 작업입니다.

자연어 쿼리를 기반으로 편집되지 않은 비디오에서 의미론적으로 일치하는 세그먼트의 시작 및 종료 타임스탬프를 찾는 것이 목적입니다. 강력한 시간적 교차 모달 추론 기능을 갖춘 방법이 필요합니다.

그러나 대부분의 기존 TSG 방식은 RGB, 광학 흐름(광 흐름), 깊이(깊이) 등 영상에 포함된 시각적 정보만 고려하고, 영상에 자연스럽게 수반되는 오디오 정보는 무시합니다. .

오디오 정보는 종종 풍부한 의미를 포함하며 시각적 정보와 일관되고 보완적입니다. 아래 그림에 표시된 것처럼 이러한 속성은 TSG 작업에 도움이 됩니다.

Δ그림 1

(a) 일관성: 비디오 이미지와 발자국은 쿼리의 "계단 아래로 이동"의 의미와 일관되게 일치합니다. (b) 상보성: 비디오 이미지는 특정 항목을 식별하기 어렵습니다. 그러나 웃음의 존재는 강력한 보완적 포지셔닝 단서를 제공합니다.

그래서 연구자들은 오디오 강화 비디오 클립 위치 파악 작업(Audio-enhanced Temporal Sentence Grounding, ATSG)을 깊이 연구하여 시각적 및 오디오 양식 모두에서 위치 파악 단서를 더 잘 포착하는 것을 목표로 했습니다. 그러나 오디오 모드가 도입되었습니다. 양식은 또한 다음과 같은 과제를 가져옵니다.

오디오 및 시각적 양식의 일관성과 상보성은 쿼리 텍스트와 연관되어 있으므로 시청각 일관성과 상보성을 캡처하려면 텍스트-시각-오디오 세 가지 모드의 상태 기반 상호 작용을 모델링해야 합니다.
오디오와 시각 사이에는 상당한 모달 차이가 있으며, 둘의 정보 밀도와 소음 강도가 다르며 이는 시청각 학습 성능에 영향을 미칩니다.

위 과제를 해결하기 위해 연구원들은 새로운 ATSG 방법인 "Adaptive Dual-branch Prompted Network"(Adaptive Dual-branch Prompted Network, ADPN)을 제안했습니다.

이중 분기 모델 구조 설계를 통해 이 방법은 오디오와 비전 간의 일관성과 상보성을 적응적으로 모델링할 수 있으며 코스 학습 간섭을 기반으로 한 노이즈 제거 최적화 전략을 사용하여 오디오 모달 노이즈를 추가로 제거하여 비디오에 대한 오디오 신호의 중요성을 드러냅니다. 검색.

ADPN의 전체 구조는 아래 그림에 나와 있습니다.

Δ 그림 2: ADPN(Adaptive Dual Branch Promotion Network)의 전체 도식 다이어그램

주로 세 가지 디자인이 포함됩니다.

1. 네트워크 구조 설계

오디오의 노이즈가 더 분명하고 TSG 작업의 경우 오디오에는 일반적으로 더 많은 정보가 중복되므로 오디오 및 시각적 양식의 학습 과정에 다른 중요성을 부여해야 하므로 이 문서에는 이중 지점 네트워크 구조는 시각적 정보를 향상시키면서 다중 모드 학습을 위해 오디오 및 비전을 사용합니다.

구체적으로 그림 2(a)를 참조하면 ADPN은 시각적 정보만 사용하는 분기 (시각적 분기) 와 시각적 정보와 오디오 정보를 모두 사용하는 분기 (합동 분기) 를 동시에 학습합니다.

두 분기는 유사한 구조를 가지고 있으며, 공동 분기는 텍스트-시각-오디오 모달 상호 작용을 모델링하기 위해 텍스트 기반 단서 마이닝 장치(TGCM) 를 추가합니다. 훈련 과정에서 두 분기는 동시에 매개변수를 업데이트하고 추론 단계에서는 결합 분기의 결과를 모델 예측 결과로 사용합니다.

2. Text-Guided Clues Miner (Text-Guided Clues Miner, TGCM)

오디오 및 시각적 양식의 일관성과 상보성이 주어진 텍스트 쿼리를 기반으로 한다는 점을 고려하여 연구원들은 TGCM 장치를 설계했습니다. 텍스트-시각-오디오의 세 가지 양식 간의 상호 작용을 모델링합니다.

그림 2(b)를 참조하면 TGCM은 "추출"과 "전파"의 두 단계로 구분됩니다.

먼저 텍스트를 쿼리 조건으로 사용하고, 시각 및 청각 양식에서 관련 정보를 추출하여 통합한 다음, 시각 및 청각 양식을 쿼리 조건으로 사용하고, 통합된 정보를 시각 및 청각으로 확산시킵니다. 주의를 통한 오디오 모드 각각의 양식은 마침내 FFN을 통해 기능 융합됩니다.

3. 커리큘럼 학습 최적화 전략

연구원들은 오디오에 잡음이 포함되어 있어 다중 모달 학습 효과에 영향을 미치는 것을 관찰하여 잡음의 강도를 샘플 난이도의 기준으로 삼고 커리큘럼 학습을 도입했습니다 (Curriculum Learning , CL) 최적화 프로세스의 노이즈를 제거합니다. 그림 2(c)를 참조하세요.

두 분기의 예측 출력 차이를 기반으로 샘플의 난이도를 평가합니다. 그들은 너무 어려운 샘플은 오디오에 노이즈가 너무 많아 적합하지 않음을 나타낼 확률이 높다고 믿습니다. TSG 작업이므로 훈련 과정의 손실은 샘플 난이도의 평가 점수를 기반으로 합니다. 오디오의 잡음으로 인해 발생하는 잘못된 기울기를 삭제하기 위해 함수 항에 다시 가중치를 부여합니다.

(나머지 모델 구조 및 학습 세부 사항은 원본 텍스트를 참조하세요.)

다중 테스트 새로운 SOTA

연구원들은 TSG의 벤치마크 데이터 세트 Charades-STA 및 ActivityNet Captions에 대한 실험적 평가를 수행했습니다. 작업, 기준 방법과 비교 비교는 표 1에 나와 있습니다.

ADPN 방법은 특히 오디오를 활용하는 다른 TSG 작업 PMI-LOC 및 UMT에 비해 SOTA 성능을 달성할 수 있으며, ADPN 방법은 오디오 모달리티에서 더 중요한 성능 향상을 얻습니다. 이는 ADPN 방법이 오디오 모달리티를 사용함을 나타냅니다. TSG 우월성을 홍보합니다.

Δ표 1: Charades-STA 및 ActivityNet 캡션에 대한 실험 결과

연구원들은 표 2와 같이 절제 실험을 통해 ADPN의 다양한 설계 단위의 효율성을 추가로 입증했습니다.

Δ표 2: Charades-STA에 대한 절제 실험

연구진은 시각화를 위해 일부 샘플의 예측 결과를 선택하고 TGCM의 "추출" 단계에서 "텍스트 투 비전"(T→V)을 그렸습니다. ) 및 "텍스트 오디오"(T→A) 주의 가중치 분포는 그림 3과 같습니다.

오디오 양식을 도입하면 예측 결과가 향상되는 것을 볼 수 있습니다. "Person Laughs at it"의 경우, T→A의 주의 가중치 분포가 Ground Truth에 더 가깝다는 것을 알 수 있으며, 이는 T→V의 가중치 분포에 의한 모델 예측의 잘못된 안내를 수정합니다.