명확성과 정확성을 위해 편집 된이 DataCamp 커뮤니티 튜토리얼은 혁신적인 대비 캡션 (COCA) 모델에 중점을 둔 이미지 텍스트 기초 모델을 탐색합니다. Coca는 Clip 및 Simvlm과 같은 모델의 강점을 단일 아키텍처에 통합하여 대조적이고 생성적인 학습 목표를 고유하게 결합합니다.
기초 모델 : 깊은 다이브
대규모 데이터 세트에 미리 훈련 된
기초 모델은 다양한 다운 스트림 작업에 적응할 수 있습니다. NLP는 기초 모델 (GPT, BERT)의 급증을 보았지만 비전 및 비전 언어 모델은 여전히 발전하고 있습니다. 연구는 단일 코더 모델, 대조적 손실을 가진 이미지 텍스트 듀얼 인코더, 생성 목표를 가진 인코더 디코더 모델의 세 가지 주요 접근 방식을 탐구했습니다. 각 접근법은 한계가 있습니다.
키 용어 : <p>
<strong>
</strong> 기초 모델 : 미리 훈련 된 모델은 다양한 응용 프로그램에 적응할 수 있습니다
대비 손실 : 유사하고 다른 입력 쌍을 비교하는 손실 함수.
교차 모달 상호 작용 : 다른 데이터 유형 간의 상호 작용 (예 : 이미지 및 텍스트).
Encoder-Decoder 아키텍처 : </p> 신경 네트워크 처리 입력 및 생성 출력.
제로 샷 학습 : <p> 보이지 않는 데이터 클래스에 대한 예측
클립 : </p> 대조적 인 언어 이미지 사전 훈련 모델.
simvlm : <p> 간단한 시각적 언어 모델.
<strong>
모델 비교 : </strong>
</p>
단일 인코더 모델 :
비전 작업에서 뛰어나지 만 인간의 주석에 대한 의존으로 인해 시력 작업으로 어려움을 겪습니다.
Image-Text Dual-Encoder 모델 (Clip, Align) : - 는 제로 샷 분류 및 이미지 검색에 우수하지만 융합 된 이미지 텍스트 표현 (예 : 시각적 질문 응답)이 필요한 작업이 제한적입니다.
생성 모델 (SIMVLM) : vqa 및 이미지 캡션에 적합한 공동 이미지 텍스트 표현에 교차 모달 상호 작용을 사용합니다.
코카 : 간격을 브리징 -
Coca는 대조적이고 생성적인 접근법의 강점을 통일하는 것을 목표로합니다. 대조적 인 손실을 사용하여 이미지 및 텍스트 표현을 정렬하고 공동 표현을 생성하기 위해 생성 목표 (캡션 손실)를 사용합니다.
코카 아키텍처 :
코카는 표준 인코더 디코더 구조를 사용합니다. 그것의 혁신은 분리 된 디코더
: 에 있습니다
하부 디코더 : - 는 대조 학습 ([CLS] 토큰 사용)를위한 단단한 텍스트 표현을 생성합니다.
상단 디코더 : 는 생성 학습을위한 멀티 모달 이미지 텍스트 표현을 생성합니다. 두 디코더 모두 인과 마스킹을 사용합니다
대비 목표 : - 공유 벡터 공간에서 관련 이미지 텍스트 쌍과 별도의 관련이없는 쌍을 클러스터하는 법을 배웁니다. 단일 풀링 된 이미지 임베딩이 사용됩니다.
생성 목표 :
는 세밀한 이미지 표현 (256 차원 시퀀스)과 교차 모달주의를 사용하여 텍스트를 자동으로 예측합니다.
결론 :
코카는 이미지 텍스트 기초 모델에서 중요한 발전을 나타냅니다. 결합 된 접근 방식은 다양한 작업의 성능을 향상시켜 다운 스트림 애플리케이션을위한 다양한 도구를 제공합니다. 고급 딥 러닝 개념에 대한 이해를 높이려면 Keras 코스를 사용한 DataCamp의 고급 딥 러닝을 고려하십시오.
추가 읽기 :
자연 언어 감독에서 전송 가능한 시각적 모델 학습
대비 캡션 자와 함께 이미지 텍스트 사전 훈련
위 내용은 Coca : 대조적 인 캡션자는 시각적으로 설명 된 이미지 텍스트 파운데이션 모델입니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!