논문 제목: 장기간의 시끄러운 동영상에서 학습하는 다중 입도 통신 논문 주소: https://openreview.net/pdf?id=9Cu8MRmhq2 프로젝트 주소: https: //lin-yijie.github.io/projects/Norton 코드 주소: https://github.com/XLearning-SCU/2024-ICLR-Norton
거친 NC(클립-캡션 사이). 대략적인 NC에는 비동기(Asynchronous) 및 관련 없음(Irrelevant)이라는 두 가지 범주가 포함됩니다. 차이점은 비디오 클립이나 제목이 기존 제목이나 비디오 클립에 해당할 수 있는지 여부에 있습니다. "비동기"는 그림 2의 t1과 같이 비디오 클립과 제목 간의 타이밍 불일치를 나타냅니다. 이로 인해 내레이터가 작업이 실제로 수행되기 전후에 설명하는 것처럼 일련의 진술과 작업이 일치하지 않습니다. "관련 없는"이란 비디오 클립(예: t2 및 t6)과 정렬할 수 없는 의미 없는 제목 또는 관련 없는 비디오 클립을 의미합니다. Oxford Visual Geometry Group[5]의 관련 연구에 따르면 HowTo100M 데이터 세트의 비디오 클립과 제목 중 약 30%만이 시각적으로 정렬되고 15%만이 원래 정렬됩니다. Fine-grained NC( 프레임-워드) . 비디오 클립의 경우 텍스트 설명 중 일부만 관련될 수 있습니다. 그림 2에서 제목 t5 "Sprinkle sugar on it"은 시각적 콘텐츠 v5와 밀접한 관련이 있지만 "유약 벗겨짐 관찰"이라는 동작은 시각적 콘텐츠와 관련이 없습니다. 관련 없는 단어나 비디오 프레임은 주요 정보 추출을 방해하여 세그먼트와 제목 간의 정렬에 영향을 미칠 수 있습니다.
-
대략적인 비동기 NC용. 연구진은 비디오 클립과 제목 사이의 거리 측정 기준으로 최적의 전송 거리를 사용했습니다. 비디오 클립-텍스트 제목 유사성 매트릭스 에서 는 클립 및 제목 수를 나타냅니다. 최적의 전송 목표는 타이밍 비동기 또는 일대다(예: t3 및 v4, v5 해당) 복잡한 정렬 상황. 여기서 는 각 세그먼트와 제목에 동일한 가중치를 부여하는 균일 분포이고,
는 Sinkhorn 알고리즘으로 해결할 수 있는 전송 할당 또는 재정렬 순간입니다.
거칠고 무관한 NC를 지향합니다. 기능 일치의 SuperGlue [6]에서 영감을 받아 관련 없는 세그먼트와 제목을 필터링하기 위해 적응형 정렬 가능 힌트 버킷을 설계했습니다. 프롬프트 버킷은 유사성 행렬 에 이어진 한 행과 한 열의 동일한 값의 벡터이며, 해당 값은 정렬 가능 여부에 대한 유사성 임계값을 나타냅니다. 팁 버킷은 Optimal Transport Sinkhorn 솔버에 완벽하게 통합됩니다.
긴 영상을 직접 모델링하는 대신 최적의 전송을 통해 시퀀스 거리를 측정하면 계산량을 대폭 줄일 수 있습니다. 최종 비디오 단락 손실 함수는 다음과 같습니다. 여기서 는
번째 긴 비디오와
번째 텍스트 단락 사이의 유사성 행렬을 나타냅니다.
2) 스니펫 - 제목 비교 . 이러한 손실은 비디오 단락 비교에서 세그먼트-제목 정렬의 정확성을 보장합니다. 자기 지도 대조 학습은 의미상 유사한 샘플을 부정 샘플로 실수로 최적화하므로 최적의 전송을 활용하여 잠재적인 거짓 부정 샘플을 식별하고 수정합니다. 여기서 는 교육 배치 번호의 모든 비디오 클립과 제목, ID 행렬
은 대조 학습 교차 엔트로피 손실의 표준 정렬 목표를 나타내고,
는 최적 전송 보정 목표
를 통합한 후의 재정렬 목표를 나타내며,
는 가중치 계수입니다.
Experiment 이 글의 목표는 노이즈 상관관계를 극복하여 긴 동영상을 이해하는 모델의 능력을 향상시키는 것입니다. 이를 영상 검색, 질의응답, 행동 세분화 등의 구체적인 작업을 통해 검증하였다. 일부 실험 결과는 다음과 같다. 1) 긴 비디오 검색 이 작업의 목표는 텍스트 단락이 제공된 해당 긴 비디오를 검색하는 것입니다. YouCookII 데이터 세트에서 연구원들은 텍스트 독립적인 비디오 클립을 유지할지 여부에 따라 배경 보존과 배경 제거라는 두 가지 시나리오를 테스트했습니다. 그들은 세 가지 유사성 측정 기준인 Caption Average, DTW 및 OTAM을 사용합니다. Caption Average는 텍스트 단락의 각 제목에 대한 최적의 비디오 클립을 일치시키고 마지막으로 일치 수가 가장 많은 긴 비디오를 불러옵니다. DTW와 OTAM은 비디오와 텍스트 단락 사이의 거리를 시간순으로 누적합니다. 결과를 하기 표 1 및 2에 나타내었다.
ㅋㅋ YouCookII 데이터 세트의 긴 비디오 검색 성능 비교
2) 노이즈 상관 견고성 분석Oxford Visual Geometry Group에서 수행한 HowTo100M의 동영상 매뉴얼 재주석을 다시 작성했습니다. -각 텍스트 제목에 올바른 타임스탬프를 추가합니다. 결과 HTM-Align 데이터세트[5]에는 80개의 비디오와 49K개의 텍스트가 포함되어 있습니다. 이 데이터 세트에 대한 비디오 검색은 주로 모델이 잡음 상관관계를 과적합하는지 여부를 검증하며 그 결과는 아래 표 9에 나와 있습니다.
이 글은 소음 상관 학습입니다.[3][ 4 ]——데이터 불일치/오류 상관 관계에 대한 심층적인 지속, 직면한 다중 입도 노이즈 상관 문제 연구 다중 모드 비디오-텍스트 사전 학습을 통해 제안된 긴 비디오 학습 방법은 더 낮은 자원 오버헤드를 사용하여 더 넓은 범위의 비디오 데이터로 확장될 수 있습니다.미래를 내다보며 연구자들은 다양한 양식 간의 상관 관계를 더 자세히 조사할 수 있습니다. 예를 들어 비디오에는 종종 시각적, 텍스트 및 오디오 신호가 포함되어 외부 LLM(대형 언어 모델) 또는 다중 모드 모델을 결합하려고 시도할 수 있습니다. (BLIP) -2) 텍스트 코퍼스를 정리하고 재구성하고 노이즈의 부정적인 영향을 억제하는 것이 아니라 모델 훈련을 위한 긍정적인 자극으로 사용할 가능성을 탐색합니다. 참고 자료: 1. 이 사이트, "Yann LeCun: 생성 모델은 비디오 처리에 적합하지 않습니다. AI는 추상 공간에서 예측해야 합니다.", 2024-01-23.
2. Sun, Y., Xue, H., Song, R., Liu, B., Yang, H., & Fu, J.(2022). 신경 정보 처리 시스템의 발전, 35, 38032-38045. 3. Huang, Z., Niu, G., Liu, X., Ding, W., Xiao, X ., Wu, H., & Peng, X. (2021). 신경 정보 처리 시스템의 발전, 34, 29406-29419. 4, Yang, M. , Yu, J., Hu, P., Zhang, C., & Peng, X. (2023) 컴퓨터 비전에 관한 IEEE/CVF 국제 회의 진행 중. 5. Han, T., Xie, W., & Zisserman, A. (2022). 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의 진행 중. 2906-2916). 6.Sarlin, P. E., DeTone, D., Malisiewicz, T., & Rabinovich, A. (2020): 그래프 신경망과 일치하는 학습 기능. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스(pp. 4938-4947).
위 내용은 ICLR 2024 Oral: 긴 비디오의 노이즈 상관 학습, 단일 카드 교육은 하루만 소요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

소개 두 전문가가 중요한 프로젝트에 대해 협력하는 번화 한 사무실을 상상해보십시오. 비즈니스 분석가는 회사의 목표, 개선 영역을 식별하며 시장 동향과의 전략적 조정을 보장합니다. 시무

Excel 데이터 계산 및 분석 : 카운트 및 카운트 기능에 대한 자세한 설명 정확한 데이터 계산 및 분석은 특히 큰 데이터 세트로 작업 할 때 Excel에서 중요합니다. Excel은이를 달성하기위한 다양한 기능을 제공하며, 카운트 및 카운타 기능은 다른 조건에서 셀 수를 계산하기위한 핵심 도구입니다. 두 기능 모두 셀을 계산하는 데 사용되지만 설계 목표는 다른 데이터 유형을 대상으로합니다. Count 및 Counta 기능의 특정 세부 사항을 파고 고유 한 기능과 차이점을 강조하고 데이터 분석에 적용하는 방법을 배우겠습니다. 핵심 포인트 개요 수를 이해하고 쿠션하십시오

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

Dreamweaver Mac版
시각적 웹 개발 도구
