다중 모드 대비 표현(MCR)은 다양한 형식의 입력을 의미상 정렬된 공유 공간으로 인코딩하는 것을 목표로 합니다.
시각 언어 영역에서 CLIP 모델의 큰 성공으로 점점 더 많은 모드 대비 표현이 등장하기 시작하고 있으며 많은 다운스트림 작업에서 상당한 개선을 이루었지만 이러한 방법은 대규모의 고품질 쌍 데이터에 크게 의존합니다
이 문제를 해결하기 위해 Zhejiang University 및 기타 기관의 연구자들은 C-MCR(Concatenated Multimodal Contrative Representation)을 제안했습니다. 쌍을 이루는 데이터가 필요하지 않으며 훈련에 매우 효율적인 다중 모드 대조 표현 학습 방법입니다.
논문을 보려면 다음 링크를 클릭하세요: https://arxiv.org/abs/2305.14381
C-MCR 프로젝트 홈페이지 링크: https://c-mcr.github.io /C- MCR/
모델 및 코드 주소: https://github.com/MCR-PEFT/C-MCR
이 방법은 페어링된 데이터를 사용하지 않고 허브 모달을 통해 다양한 사전 설정을 연결합니다. 대조 표현을 통해 강력한 시청각 및 3D 포인트 클라우드 텍스트 표현을 학습했으며 시청각 검색, 음원 위치 파악 및 3D 개체 분류와 같은 여러 작업에서 SOTA 결과를 얻었습니다.
다중 모드 대조 표현(MCR)은 다양한 양식의 데이터를 통합된 의미 공간으로 매핑하는 것을 목표로 합니다. 시각언어학 분야에서 CLIP의 큰 성공으로 인해, 더 많은 모달 조합 간의 대조 표현을 학습하는 것이 뜨거운 연구 주제가 되어 점점 더 많은 관심을 끌고 있습니다.
그러나 기존 다중 모드 대조 표현의 일반화 능력은 주로 다수의 고품질 데이터 쌍에서 이점을 얻습니다. 이는 대규모 고품질 데이터가 부족한 양식에 대한 대조 표현의 개발을 심각하게 제한합니다. 예를 들어, 오디오와 시각적 데이터 쌍 간의 의미적 상관관계는 모호한 경우가 많으며, 3D 포인트 클라우드와 텍스트 간의 쌍을 이루는 데이터는 드물고 얻기 어렵습니다.
그러나 우리는 페어링된 데이터가 부족한 이러한 모드 조합이 동일한 중간 모드를 사용하여 대량의 고품질 페어링 데이터를 갖는 경우가 많다는 것을 관찰했습니다. 예를 들어, 시청각 영역에서는 시청각 데이터의 품질을 신뢰할 수 없지만 오디오-텍스트와 텍스트-시각 간에 고품질 쌍을 이루는 데이터가 많이 있습니다.
마찬가지로 3D 포인트 클라우드-텍스트 쌍 데이터의 가용성은 제한되어 있는 반면, 3D 포인트 클라우드-이미지 및 이미지-텍스트 데이터는 풍부합니다. 이러한 허브 모드는 모드 간에 추가 링크를 설정할 수 있습니다.
대량의 쌍을 이루는 데이터가 있는 양식에는 이미 사전 훈련된 대조 표현이 있는 경우가 많다는 점을 고려하여 이 기사에서는 허브 양식을 통해 서로 다른 양식 간의 대조 표현을 직접 연결하려고 시도하여 쌍이 부족한 양식에 대한 더 나은 표현을 제공합니다. 데이터의 조합은 새로운 대조 표현 공간을 구성합니다.
C-MCR(Concatenated Multimodal Contrast Representation)을 사용하면 중첩 모드를 통해 다수의 기존 다중 모드 대조 표현과 연결을 구축하여 더 넓은 범위의 양식 간의 정렬 관계를 학습할 수 있습니다. 이 학습 프로세스에는 쌍으로 구성된 데이터가 필요하지 않으며 매우 효율적입니다.
C-MCR에는 두 가지 주요 장점이 있습니다.
핵심은 유연성에 있습니다.
C-MCR의 능력은 다음과 같습니다. 직접적인 쌍이 부족한 대조 표현. 다른 관점에서 보면, C-MCR은 기존의 각 다중 모드 대비 표현 공간을 노드로 취급하고, 중복되는 모드를 주요 허브 모드로 취급합니다
개별적인 다중 모드 대비 표현 공간을 연결하여 우리는 가능합니다. 획득한 다중 모드 정렬 지식을 유연하게 확장하고 더 넓은 범위의 모드 간 대비 표현을 마이닝합니다.
2. 효율성:
C-MCR 전용이므로 기존 표현에 대한 연결을 구축해야 합니다. 공간이 있으므로 간단한 매퍼 두 명만 학습하면 되며, 훈련 매개변수와 훈련 비용이 매우 낮습니다.
이번 실험에서는 텍스트를 허브로 삼아 시각적 텍스트(CLIP)와 텍스트-오디오(CLAP) 표현 공간을 비교하였고, 최종적으로 고품질의 시각적-음성 표현을 얻었습니다
마찬가지로 by 공간을 표현하기 위해 CLIP(image-connected text-visual)과 ULIP(visual-3D point cloud)를 비교하면 3D 포인트 클라우드-텍스트 대조 표현 세트도 얻을 수 있습니다
그림 1 ( a) C-MCR의 알고리즘 흐름을 소개합니다(텍스트를 사용하여 CLIP과 CLAP을 연결하는 예를 들어).
텍스트 데이터(겹치는 형식)는 각각 CLIP 및 CLAP의 텍스트 인코더에 의해 텍스트 기능으로 인코딩됩니다.
동시에 대량의 페어링되지 않은 단일 모달 데이터가 각각 CLIP 및 CLAP 공간에 인코딩되어 이미지 메모리와 오디오 메모리를 형성합니다.
기능 의미 강화는 기능을 개선하고 최적화하는 것을 의미합니다. 의미 표현 능력을 향상시키는 것입니다. 특징을 적절하게 조정함으로써 표현하고자 하는 의미를 보다 정확하게 반영할 수 있어 언어 표현 효과가 향상됩니다. 기능 의미 향상 기술은 자연어 처리 분야에서 중요한 응용 가치를 가지고 있습니다. 이는 기계가 텍스트 정보를 이해하고 처리하는 데 도움을 줄 수 있으며, 의미 이해 및 의미 생성에서 기계 성능을 향상시킬 수 있습니다.
표현을 통해 공간 연결의 견고성과 포괄성을 향상시킵니다. 이와 관련하여 먼저 의미적 일관성과 의미적 완전성
Inter-modal 의미적 일관성
CLIP과 CLAP은 신뢰할 수 있는 정렬된 이미지-텍스트 및 텍스트-오디오 표현을 학습했습니다.
CLIP 및 CLAP에서 이 고유한 양식 정렬을 활용하여 i번째 텍스트와 의미론적으로 일치하는 이미지 및 오디오 기능을 생성하여 대조 표현 공간에서 양식 격차를 더 잘 정량화하고 더 직접적으로 마이닝할 수 있습니다. non-overlapping modalities:
모달 내 의미 무결성
서로 다른 표현 공간은 데이터의 의미적 표현에 대해 서로 다른 경향을 가지므로, 서로 다른 공간의 동일한 표현에는 필연적으로 의미적 편차가 있습니다. 그리고 텍스트의 손실. 이러한 의미 편향은 표현 공간을 연결할 때 축적되고 증폭됩니다.
각 표현의 의미적 완전성을 높이기 위해 우리는 표현에 평균 0의 가우스 노이즈를 추가하고 이를 단위 초구체로 다시 정규화할 것을 제안합니다:
), 대비 표현 공간에서 각 표현은 단위 초구체의 한 점을 나타내는 것으로 볼 수 있습니다. 가우스 노이즈를 추가하고 재정규화하면 표현이 단위 구의 원을 나타낼 수 있습니다.
두 특성 간의 공간적 거리가 가까울수록 의미적 유사성이 더 높아집니다. 따라서 원 안의 특징은 유사한 의미를 가지며, 원은 의미를 더 완벽하게 표현할 수 있습니다
2. Inter-MCR 정렬
두 개의 매퍼를 사용하고 Remapping CLIP 및 새로운 공유 공간에 대한 CLAP 표현
새로운 공간에서는 서로 다른 공간의 의미상 유사한 표현이 서로 가까이 있는지 확인해야 합니다.
동일한 텍스트에서 유래한(,)은 의미상 당연히 일관되어 실제 태그 쌍으로 간주할 수 있는 반면, (,)은 (,) 에서 유래했습니다. )은 의사 라벨 쌍으로 간주될 수 있습니다.
(,) 사이의 의미는 매우 일관되지만, 이들로부터 학습된 연결은 시청각에 간접적입니다. (,) 쌍의 의미론적 일관성은 신뢰성이 떨어지지만 시청각 표현에 더 직접적인 이점이 있습니다.
두 개의 대조 표현 공간을 보다 포괄적으로 연결하기 위해 (,) 및 (,)을 동시에 정렬합니다.
3.
공간 간의 연결뿐만 아니라 대비 표현 공간 내에서도 양상적 격차 현상이 발생합니다. 즉, 대조 표현 공간에서는 서로 다른 양식의 표현이 의미적으로 정렬되어 있지만 완전히 다른 부분 공간에 분포되어 있습니다. 이는 (,)에서 학습한 보다 안정적인 연결이 시청각으로 잘 계승되지 않을 수 있음을 의미합니다.
이 문제를 해결하기 위해 우리는 각 대비 표현 공간의 다양한 모달 표현을 재정렬할 것을 제안합니다. 구체적으로, 모달리티 갭을 줄이기 위한 손실 함수를 도출하기 위해 대비 손실 함수에서 부정적인 예제 제외 구조를 제거합니다. 일반적인 대조 손실 함수는 다음과 같이 표현할 수 있습니다.
음수 쌍 반발 항을 제거한 후 최종 공식은 다음과 같이 단순화될 수 있습니다.
실험적으로 텍스트 연결을 사용합니다. 오디오-텍스트 공간(CLAP) 및 텍스트-시각 공간(CLIP)을 사용하여 시청각 표현을 얻고, 이미지를 사용하여 3D 포인트 클라우드-이미지 공간(ULIP)과 이미지-텍스트 공간(CLIP)을 연결하여 3D 포인트 클라우드-텍스트를 얻습니다. 대표.
AVE 및 Flickr-SoundNet에서 제로 샘플 오디오 이미지 검색 결과는 다음과 같습니다.
MUSIC-Solo 및 VGGSS의 제로 샘플 음원 위치화 결과는 다음과 같습니다.
Ex-VGGSS 및 Ex-FlickrNet의 제로 샘플 반사실 오디오 이미지 인식 결과는 다음과 같습니다. :
ModelNet40의 제로샷 3D 포인트 클라우드 분류 결과는 다음과 같습니다.
위 내용은 "일치하는 데이터 없이" 학습할 수 있어요! 절강대학교 등은 다중 모드 대비 표현 C-MCR 연결을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!