>기술 주변기기 >일체 포함 >ICLR 2024 Oral: 긴 비디오의 노이즈 상관 학습, 단일 카드 교육은 하루만 소요

ICLR 2024 Oral: 긴 비디오의 노이즈 상관 학습, 단일 카드 교육은 하루만 소요

王林
王林앞으로
2024-03-05 22:58:13862검색
2024년 세계 경제 포럼의 강연에서 Turing Award 수상자 Yann LeCun은 비디오를 처리하는 데 사용되는 모델이 특정 픽셀 공간이 아닌 추상적 표현 공간에서 예측하는 방법을 배워야 한다고 제안했습니다[1]. 텍스트 정보를 활용한 멀티모달 영상 표현 학습은 영상 이해나 콘텐츠 생성에 도움이 되는 특징을 추출할 수 있으며, 이는 이 과정을 촉진하는 핵심 기술입니다.

그러나 현재 영상과 텍스트 설명 사이에 널리 퍼져 있는 노이즈 상관 현상은 영상 표현 학습을 심각하게 방해합니다. 따라서 이 논문에서 연구자들은 이러한 문제를 해결하기 위해 최적 전송 이론을 기반으로 하는 강력한 긴 비디오 학습 방식을 제안합니다. 이 논문은 Oral을 위한 최고의 기계 학습 컨퍼런스인 ICLR 2024에서 승인되었습니다.

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

  • 논문 제목: 장기간의 시끄러운 동영상에서 학습하는 다중 입도 통신
  • 논문 주소: https://openreview.net/pdf?id=9Cu8MRmhq2
  • 프로젝트 주소: https: //lin-yijie.github.io/projects/Norton
  • 코드 주소: https://github.com/XLearning-SCU/2024-ICLR-Norton

배경 및 과제

영상 표현 학습은 다중 모드 연구에서 가장 뜨거운 문제 중 하나입니다. 대규모 비디오 언어 사전 훈련은 비디오 검색, 시각적 질문 응답, 세그먼트 분할 및 위치화 등과 같은 다양한 비디오 이해 작업에서 놀라운 결과를 달성했습니다. 현재 대부분의 비디오 언어 사전 훈련 작업은 주로 짧은 비디오의 세그먼트 이해에 중점을 두고 있으며 긴 비디오에 존재하는 장기적인 관계와 종속성을 무시합니다.

아래 그림 1에서 볼 수 있듯이, 긴 비디오 학습의 핵심 어려움은 비디오의 시간적 역학을 인코딩하는 방법입니다. 현재 솔루션은 주로 장기적인 종속성을 캡처하기 위해 맞춤형 비디오 네트워크 인코더를 설계하는 데 중점을 둡니다. 그러나 일반적으로 큰 리소스 오버헤드에 직면합니다.

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

그림 1: 긴 비디오 데이터 예 [2]. 비디오에는 복잡한 스토리라인과 풍부한 시간적 역동성이 담겨 있습니다. 각 문장은 짧은 부분만 설명할 수 있으며 전체 비디오를 이해하려면 장기적인 상관 추론 기능이 필요합니다.

긴 동영상은 일반적으로 해당 텍스트 자막을 얻기 위해 자동 언어 인식(ASR)을 사용하므로 전체 동영상에 해당하는 텍스트 단락(문단)은 ASR 텍스트 타임스탬프( Caption), 긴 영상(Video)을 그에 맞춰 여러 개의 영상(Clip)으로 나눌 수 있습니다. 비디오 클립과 제목의 후기 융합 또는 정렬 전략은 전체 비디오를 직접 인코딩하는 것보다 더 효율적이며 장기적인 시간적 연관 학습을 위한 최적의 솔루션입니다.

그러나 시끄러운 대응[3-4], NC) 은 비디오 클립과 텍스트 문장 사이에 광범위하게 존재합니다. 즉, 비디오 콘텐츠와 텍스트 코퍼스가 서로 잘못 대응/연관됩니다. 아래 그림 2에서 볼 수 있듯이 비디오와 텍스트 사이에는 다중 입도 노이즈 상관 문제가 있습니다.

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

그림 2: 다중 입도 노이즈 상관 관계. 이 예에서는 비디오 콘텐츠가 텍스트 제목을 기준으로 6개 조각으로 구분됩니다. (왼쪽) 녹색 타임라인은 텍스트가 영상 내용에 맞춰 정렬될 수 있음을 나타내고, 빨간색 타임라인은 텍스트가 전체 영상 내용에 맞춰 정렬될 수 없음을 나타냅니다. t5의 녹색 텍스트는 비디오 콘텐츠 v5와 관련된 부분을 나타냅니다. (오른쪽 그림) 점선은 원래 주어진 정렬 관계를 나타내고, 빨간색은 원래 정렬에서 잘못된 정렬 관계를 나타내고, 녹색은 실제 정렬 관계를 나타냅니다. 실선은 노이즈 상관 문제를 잘 처리하지 못하는 동적 시간 포장 알고리즘에 의한 재정렬 결과를 나타냅니다.

  • 거친 NC(클립-캡션 사이). 대략적인 NC에는 비동기(Asynchronous) 및 관련 없음(Irrelevant)이라는 두 가지 범주가 포함됩니다. 차이점은 비디오 클립이나 제목이 기존 제목이나 비디오 클립에 해당할 수 있는지 여부에 있습니다. "비동기"는 그림 2의 t1과 같이 비디오 클립과 제목 간의 타이밍 불일치를 나타냅니다. 이로 인해 내레이터가 작업이 실제로 수행되기 전후에 설명하는 것처럼 일련의 진술과 작업이 일치하지 않습니다. "관련 없는"이란 비디오 클립(예: t2 및 t6)과 정렬할 수 없는 의미 없는 제목 또는 관련 없는 비디오 클립을 의미합니다. Oxford Visual Geometry Group[5]의 관련 연구에 따르면 HowTo100M 데이터 세트의 비디오 클립과 제목 중 약 30%만이 시각적으로 정렬되고 15%만이 원래 정렬됩니다.
  • Fine-grained NC( 프레임-워드) . 비디오 클립의 경우 텍스트 설명 중 일부만 관련될 수 있습니다. 그림 2에서 제목 t5 "Sprinkle sugar on it"은 시각적 콘텐츠 v5와 밀접한 관련이 있지만 "유약 벗겨짐 관찰"이라는 동작은 시각적 콘텐츠와 관련이 없습니다. 관련 없는 단어나 비디오 프레임은 주요 정보 추출을 방해하여 세그먼트와 제목 간의 정렬에 영향을 미칠 수 있습니다.

method

본 논문은 비디오 단락 수준 비교 학습과 세그먼트 제목 수준 비교 학습을 통해 노이즈에 강인한 Timing Optimal Transport(Norton)을 제안합니다. 융합 후 방식으로 여러 세분성에서 표현을 수행하여 훈련 시간 오버헤드를 크게 절약합니다. ㅋㅋㅋ ~

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

1) 동영상 - 단락 비교. 그림 3에서 볼 수 있듯이 연구자들은 미세한 것부터 거친 것까지의 전략을 사용하여 다중 세분성 연관 학습을 수행합니다. 먼저, 프레임-워드 상관관계를 이용하여 세그먼트-제목 상관관계를 얻고, 추가 집합을 이용하여 비디오-문단 상관관계를 얻은 후, 마지막으로 비디오 수준 대조 학습을 통해 장기 상관관계를 포착한다. 다중 세분성 노이즈 상관 문제의 경우 구체적인 응답은 다음과 같습니다.

for Fine-grained NC
. 연구자들은 프레임-워드 및 단어-프레임 정렬에서 키워드와 키 프레임을 식별하고, 세분화된 대화형 방식으로 중요한 정보 추출을 실현하고, 세그먼트-제목 유사성을 축적하기 위해 로그-합-표현식 근사를 소프트 최대 연산자로 사용합니다. 섹스.
  • 대략적인 비동기 NC용. 연구진은 비디오 클립과 제목 사이의 거리 측정 기준으로 최적의 전송 거리를 사용했습니다. 비디오 클립-텍스트 제목 유사성 매트릭스 에서
    는 클립 및 제목 수를 나타냅니다. 최적의 전송 목표는 타이밍 비동기 또는 일대다(예: t3 및 v4, v5 해당) 복잡한 정렬 상황.
  • ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
    여기서 ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天는 각 세그먼트와 제목에 동일한 가중치를 부여하는 균일 분포이고, ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天는 Sinkhorn 알고리즘으로 해결할 수 있는 전송 할당 또는 재정렬 순간입니다.
    • 거칠고 무관한 NC를 지향합니다. 기능 일치의 SuperGlue [6]에서 영감을 받아 관련 없는 세그먼트와 제목을 필터링하기 위해 적응형 정렬 가능 힌트 버킷을 설계했습니다. 프롬프트 버킷은 유사성 행렬ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天에 이어진 한 행과 한 열의 동일한 값의 벡터이며, 해당 값은 정렬 가능 여부에 대한 유사성 임계값을 나타냅니다. 팁 버킷은 Optimal Transport Sinkhorn 솔버에 완벽하게 통합됩니다.

    ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

    긴 영상을 직접 모델링하는 대신 최적의 전송을 통해 시퀀스 거리를 측정하면 계산량을 대폭 줄일 수 있습니다. 최종 비디오 단락 손실 함수는 다음과 같습니다. 여기서 ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天번째 긴 비디오와 ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天번째 텍스트 단락 사이의 유사성 행렬을 나타냅니다.

    ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

    2) 스니펫 - 제목 비교 . 이러한 손실은 비디오 단락 비교에서 세그먼트-제목 정렬의 정확성을 보장합니다. 자기 지도 대조 학습은 의미상 유사한 샘플을 부정 샘플로 실수로 최적화하므로 최적의 전송을 활용하여 잠재적인 거짓 부정 샘플을 식별하고 수정합니다.

    ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

    여기서 ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天는 교육 배치 번호의 모든 비디오 클립과 제목, ID 행렬 ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天은 대조 학습 교차 엔트로피 손실의 표준 정렬 목표를 나타내고, ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天는 최적 전송 보정 목표ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天를 통합한 후의 재정렬 목표를 나타내며, ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天는 가중치 계수입니다.

    Experiment

    이 글의 목표는 노이즈 상관관계를 극복하여 긴 동영상을 이해하는 모델의 능력을 향상시키는 것입니다. 이를 영상 검색, 질의응답, 행동 세분화 등의 구체적인 작업을 통해 검증하였다. 일부 실험 결과는 다음과 같다.

    1) 긴 비디오 검색

    이 작업의 목표는 텍스트 단락이 제공된 해당 긴 비디오를 검색하는 것입니다. YouCookII 데이터 세트에서 연구원들은 텍스트 독립적인 비디오 클립을 유지할지 여부에 따라 배경 보존과 배경 제거라는 두 가지 시나리오를 테스트했습니다. 그들은 세 가지 유사성 측정 기준인 Caption Average, DTW 및 OTAM을 사용합니다. Caption Average는 텍스트 단락의 각 제목에 대한 최적의 비디오 클립을 일치시키고 마지막으로 일치 수가 가장 많은 긴 비디오를 불러옵니다. DTW와 OTAM은 비디오와 텍스트 단락 사이의 거리를 시간순으로 누적합니다. 결과를 하기 표 1 및 2에 나타내었다.

    ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

    ㅋㅋ                                                                                      YouCookII 데이터 세트의 긴 비디오 검색 성능 비교

    2) 노이즈 상관 견고성 분석
    Oxford Visual Geometry Group에서 수행한 HowTo100M의 동영상 매뉴얼 재주석을 다시 작성했습니다. -각 텍스트 제목에 올바른 타임스탬프를 추가합니다. 결과 HTM-Align 데이터세트[5]에는 80개의 비디오와 49K개의 텍스트가 포함되어 있습니다. 이 데이터 세트에 대한 비디오 검색은 주로 모델이 잡음 상관관계를 과적합하는지 여부를 검증하며 그 결과는 아래 표 9에 나와 있습니다.

    ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

    이 글은 소음 상관 학습입니다.[3][ 4 ]——데이터 불일치/오류 상관 관계에 대한 심층적인 지속, 직면한 다중 입도 노이즈 상관 문제 연구 다중 모드 비디오-텍스트 사전 학습을 통해 제안된 긴 비디오 학습 방법은 더 낮은 자원 오버헤드를 사용하여 더 넓은 범위의 비디오 데이터로 확장될 수 있습니다.
    미래를 내다보며 연구자들은 다양한 양식 간의 상관 관계를 더 자세히 조사할 수 있습니다. 예를 들어 비디오에는 종종 시각적, 텍스트 및 오디오 신호가 포함되어 외부 LLM(대형 언어 모델) 또는 다중 모드 모델을 결합하려고 시도할 수 있습니다. (BLIP) -2) 텍스트 코퍼스를 정리하고 재구성하고 노이즈의 부정적인 영향을 억제하는 것이 아니라 모델 훈련을 위한 긍정적인 자극으로 사용할 가능성을 탐색합니다.

    참고 자료:

    1. 이 사이트, "Yann LeCun: 생성 모델은 비디오 처리에 적합하지 않습니다. AI는 추상 공간에서 예측해야 합니다.", 2024-01-23.

    2. Sun, Y., Xue, H., Song, R., Liu, B., Yang, H., & Fu, J.(2022). 신경 정보 처리 시스템의 발전, 35, 38032-38045.
    3. Huang, Z., Niu, G., Liu, X., Ding, W., Xiao, X ., Wu, H., & Peng, X. (2021). 신경 정보 처리 시스템의 발전, 34, 29406-29419.
    4, Yang, M. , Yu, J., Hu, P., Zhang, C., & Peng, X. (2023) 컴퓨터 비전에 관한 IEEE/CVF 국제 회의 진행 중.
    5. Han, T., Xie, W., & Zisserman, A. (2022). 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의 진행 중. 2906-2916).
    6.Sarlin, P. E., DeTone, D., Malisiewicz, T., & Rabinovich, A. (2020): 그래프 신경망과 일치하는 학습 기능. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스(pp. 4938-4947).

위 내용은 ICLR 2024 Oral: 긴 비디오의 노이즈 상관 학습, 단일 카드 교육은 하루만 소요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제