>  기사  >  기술 주변기기  >  생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.

생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.

王林
王林앞으로
2024-03-16 09:20:02940검색

나는 당신을 만난 적이 없지만 당신을 '안다'는 것은 가능합니다. 이것이 바로 사람들이 '첫눈' 이후 인공지능이 달성하기를 바라는 상태입니다.

이 목표를 달성하기 위해 전통적인 이미지 인식 작업에서 사람들은 다양한 카테고리 라벨이 있는 다수의 이미지 샘플에 대해 알고리즘 모델을 훈련하여 모델이 이러한 이미지를 인식하는 능력을 획득할 수 있도록 합니다. 제로샷 학습(ZSL) 작업에서 사람들은 모델이 훈련 단계에서 이미지 샘플을 보지 못한 추론을 도출하고 범주를 식별할 수 있기를 바랍니다.

생성적 제로샷 학습(GZSL)은 제로샷 학습에 효과적인 방법으로 간주됩니다. GZSL에서 첫 번째 단계는 보이지 않는 카테고리의 시각적 특징을 합성하도록 생성기를 교육하는 것입니다. 이 생성 프로세스는 속성 레이블과 같은 의미론적 설명을 조건으로 활용하여 진행됩니다. 이러한 가상 시각적 특징이 생성되면 기존 분류기와 마찬가지로 보이지 않는 클래스를 인식할 수 있는 분류 모델 학습을 시작할 수 있습니다.

생성적 제로샷 학습 알고리즘에는 생성기 훈련이 중요합니다. 이상적으로는 의미론적 설명을 기반으로 생성기에 의해 생성된 보이지 않는 카테고리의 시각적 특징 샘플은 해당 카테고리의 실제 샘플의 시각적 특징과 동일한 분포를 가져야 합니다. 이는 생성기가 높은 수준의 일관성과 신뢰성을 갖춘 샘플을 생성하기 위해 시각적 특징 간의 관계와 패턴을 정확하게 캡처할 수 있어야 함을 의미합니다. 생성기를 훈련함으로써 카테고리별 시각적 특징 차이를 효과적으로 학습할 수 있으며,

기존 생성적 제로샷 학습 방식에서는 생성기를 훈련하여 사용할 때 가우시안 노이즈와 전체적인 의미론적 설명이 가능합니다. 카테고리는 조건부이므로 생성기가 각 샘플 인스턴스를 설명하는 대신 전체 카테고리에 대해서만 최적화하도록 제한하므로 실제 샘플의 시각적 특징 분포를 정확하게 반영하기 어렵고 결과적으로 Poor 모델의 일반화 성능이 저하됩니다. 또한 보이는 클래스와 보이지 않는 클래스가 공유하는 데이터 세트의 시각적 정보, 즉 도메인 지식이 생성자의 훈련 과정에서 충분히 활용되지 않아 보이는 클래스에서 보이지 않는 클래스로의 지식 전달이 제한됩니다.

이런 문제를 해결하기 위해 화중과기대 대학원생들과 알리바바 자회사 인타임 비즈니스 그룹의 기술 전문가들이 VADS(Visually Enhanced Dynamic Semantic Prototyping)라는 방법을 제안했습니다. 이 접근 방식은 표시된 클래스의 시각적 특징을 의미론적 조건에 보다 완벽하게 도입하여 푸시 생성기가 정확한 의미론적-시각적 매핑을 학습할 수 있도록 합니다. 본 연구 논문 "Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning"은 컴퓨터 비전 분야 최고의 국제 학술 컨퍼런스인 CVPR 2024에 게재되었습니다.

구체적으로 위 연구는 세 가지 혁신적인 점을 제시합니다.

제로샷 학습에서는 신뢰할 수 있는 시각적 특징을 생성하기 위해 시각적 특징을 사용하여 생성기를 향상시키는 혁신적인 방법입니다.

또한 연구에서는 VDKL과 VOSU라는 두 가지 구성 요소를 도입했으며 이러한 구성 요소의 도움으로 데이터 세트의 시각적 사전 정보를 효과적으로 얻고 이미지의 시각적 특징을 동적으로 업데이트하여 사전 정의된 카테고리 의미 설명을 제공합니다. 업데이트되었습니다. 이 방법은 시각적인 특징을 효과적으로 활용한다.

실험 결과는 본 연구에서 시각적 특징을 사용하여 발전기를 향상시키는 효과가 매우 중요하다는 것을 보여줍니다. 이 플러그 앤 플레이 접근 방식은 매우 다양할 뿐만 아니라 발전기 성능을 향상시키는 데도 뛰어납니다.

연구 세부정보

VADS는 두 개의 모듈로 구성됩니다. (1) 시각적 지각 도메인 지식 학습 모듈(VDKL)은 시각적 특징의 로컬 바이어스 및 전역 사전, 즉 순수 가우스 노이즈를 대체하는 도메인 시각적 지식을 학습합니다. (2) 비전 지향 의미론적 업데이트 모듈(VOSU)은 샘플의 시각적 표현에 따라 의미론적 프로토타입을 업데이트하는 방법을 학습하고 업데이트된 의미론적 프로토타입에는 도메인 시각적 지식도 포함됩니다.

마지막으로 연구팀은 생성기의 조건에 따라 두 모듈의 출력을 동적 의미 프로토타입 벡터로 연결했습니다. 많은 실험에서 VADS 방법은 일반적으로 사용되는 제로샷 학습 데이터 세트에 대해 기존 방법보다 훨씬 더 나은 성능을 달성하고 다른 생성적 제로샷 학습 방법과 결합하여 전반적인 정확도 향상을 얻을 수 있음을 보여줍니다.

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

시각지각 도메인 지식 학습 모듈(VDKL)에서 연구팀은 시각적 인코더(VE)와 도메인 지식 학습 네트워크(DKL)를 설계했습니다. 그 중 VE는 시각적 특징을 잠재 특징과 잠재 인코딩으로 인코딩합니다. 생성기 훈련 단계에서 보이는 클래스 이미지 샘플을 사용하여 VE를 훈련하기 위해 대비 손실을 사용함으로써 VE는 시각적 특징의 클래스 분리성을 향상시킬 수 있습니다.

ZSL 분류기를 훈련할 때 생성기에서 생성된 보이지 않는 시각적 특징도 VE에 입력되고, 획득된 잠재 특징은 생성된 시각적 특징과 연결되어 최종 시각적 특징 샘플이 됩니다. VE의 다른 출력, 즉 잠재 인코딩은 DKL 변환 후 로컬 편차 b를 형성합니다. 학습 가능한 전역 사전 p 및 무작위 가우스 잡음과 함께 도메인 관련 시각적 사전 잡음으로 결합되어 다른 생성 제로 샘플을 대체합니다. . 생성기 생성 조건의 일부로 학습에 일반적으로 사용되는 순수 가우스 노이즈입니다.

VOSU(Vision-Oriented Semantic Update Module)에서 연구팀은 시각적 의미 예측기 VSP와 의미 업데이트 매핑 네트워크 SUM을 설계했습니다. VOSU의 훈련 단계에서 VSP는 이미지 시각적 특징을 입력으로 사용하여 대상 이미지의 시각적 패턴을 캡처할 수 있는 예측 의미 벡터를 생성합니다. 동시에 SUM은 카테고리 의미 프로토타입을 입력으로 사용하여 업데이트하고 얻습니다. 업데이트된 의미론적 프로토타입, 그리고 VSP 및 SUM은 예측된 의미론적 벡터와 업데이트된 의미론적 프로토타입 사이의 교차 엔트로피 손실을 최소화하여 학습됩니다. VOSU 모듈은 시각적 기능을 기반으로 의미 체계 프로토타입을 동적으로 조정할 수 있으므로 생성기가 새로운 카테고리 기능을 합성할 때 보다 정확한 인스턴스 수준 의미 체계 정보에 의존할 수 있습니다.

실험 부분에서 위의 연구에서는 학계에서 일반적으로 사용되는 세 가지 ZSL 데이터 세트인 Animals with Attributes 2(AWA2), SUN Attribute(SUN) 및 Caltech-USCD Birds-200-2011(CUB)을 사용했습니다. 제로샷 학습의 주요 지표와 일반화된 제로샷 학습을 최근 대표적인 다른 방법들과 종합적으로 비교합니다.

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

기존 제로샷 학습의 Acc 지표 측면에서 본 연구의 방법은 세 가지 데이터 세트에서 각각 8.4%, 10.3%, 8.4를 앞서며 기존 방법에 비해 상당한 정확도 향상을 달성했습니다. %. 일반화된 제로샷 학습 시나리오에서 위의 연구 방법은 보이지 않는 클래스와 보이는 클래스 정확도의 조화 평균 지수 H에서도 선두 위치에 있습니다.

VADS 방법은 다른 생성적 제로샷 학습 방법과 결합될 수도 있습니다. 예를 들어, CLSWGAN, TF-VAEGAN 및 FREE의 세 가지 방법을 결합한 후 세 가지 데이터 세트의 Acc 및 H 지표가 크게 개선되었으며 세 가지 데이터 세트의 평균 개선은 7.4%/5.9%, 5.6%입니다. /6.4% 및 3.3%/4.2%.

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

생성기에 의해 생성된 시각적 특징을 시각화하면 보이는 클래스인 "노란 가슴 채팅"과 (b에 표시된 보이지 않는 클래스)와 같이 일부 카테고리의 특성이 원래 혼동되어 있었음을 알 수 있습니다. ) 아래의 두 가지 유형의 특징인 "Yellowthroat"는 VADS 방법을 사용한 후 그림 (c)에서 두 개의 클러스터로 명확하게 분리될 수 있으므로 분류기 훈련 중에 혼동을 피할 수 있습니다.

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

지능형 보안 및 대형 모델 분야로 확장 가능

머신하트는 위에서 언급한 연구팀이 중점을 두고 있는 제로샷 학습의 목적이 모델이 새로운 카테고리를 인식할 수 있도록 하는 것임을 이해하고 있습니다. 학습 단계의 이미지 샘플이 없는 지능형 보안 분야에서 잠재적 가치가 있는 것입니다.

먼저 보안 시나리오에서 새로운 위험을 처리하세요. 새로운 위협 유형이나 비정상적인 행동 패턴은 보안 시나리오에서 계속 나타나기 때문에 이전 교육 데이터에는 나타나지 않았을 수도 있습니다. 제로샷 학습을 통해 보안 시스템은 새로운 위험 유형을 신속하게 식별하고 대응하여 보안을 향상할 수 있습니다.

두 번째, 샘플 데이터에 대한 의존도 감소: 효과적인 보안 시스템을 교육하기 위해 충분한 주석이 달린 데이터를 얻는 것은 비용과 시간이 많이 소요됩니다. 제로샷 학습은 많은 수의 이미지 샘플에 대한 시스템의 의존도를 줄여 R&D 비용을 절감합니다. .

셋째, 동적 환경의 안정성 향상: 제로샷 학습은 의미론적 설명을 사용하여 보이지 않는 클래스 패턴을 인식합니다. 이미지 기능에 전적으로 의존하는 기존 방법에 비해 시각적 환경의 변화에 ​​자연스럽게 더 탄력적입니다.

이미지 분류 문제를 해결하는 기반 기술인 이 기술은 사람, 상품, 차량 및 사물의 속성 인식, 행동 인식 등 시각적 분류 기술에 의존하는 시나리오에서도 구현될 수 있습니다. 특히 식별할 새로운 범주를 신속하게 추가해야 하고 훈련 샘플을 수집할 시간이 없거나 많은 수의 샘플(예: 위험 식별)을 수집하기 어려운 시나리오에서는 제로샷 학습 기술이 큰 이점을 갖습니다. 전통적인 방법보다.

이 연구 기술이 현재 대형 모델 개발에 참고가 될까요?

생성적 제로샷 학습의 핵심 아이디어는 의미 공간과 시각적 특징 공간을 정렬하는 것이라고 연구자들은 믿습니다. 이는 현재 다중 언어에서 시각적 언어 모델(예: CLIP)의 연구 목표와 일치합니다. 모달 대형 모델.

이들 사이의 가장 큰 차이점은 생성적 제로샷 학습이 사전 정의된 제한된 범주의 데이터 세트에 대해 훈련되고 사용되는 반면, 시각적 언어 대형 모델은 빅 데이터 학습을 통해 다용도로 사용된다는 점입니다. 제한된 카테고리까지 기본 모델로서 적용 범위가 더 넓습니다.

기술의 적용 시나리오가 특정 분야인 경우 대형 모델을 이 분야에 적용하고 미세 조정하도록 선택할 수 있습니다. 이 과정에서 이 기사가 이론적으로 가져올 수 있는 것과 동일하거나 유사한 연구 방향으로 작업할 수 있습니다. 유용한 영감.

저자 소개

Hou Wenjin, Huazhong University of Science and Technology 석사 연구 관심 분야는 컴퓨터 비전, 생성 모델링, 퓨샷 학습 등입니다. 그는 인턴 기간 동안 이 논문을 완성했습니다. Alibaba-Intime 비즈니스에서.

Wang Yan, Alibaba-Intime 상업 기술 이사, Shenzhen Xiang 지능형 팀의 알고리즘 리더.

Alibaba-Intime Business의 수석 알고리즘 전문가인 Feng Xuetao는 주로 오프라인 소매 및 기타 산업에서 시각적 및 다중 모드 알고리즘 적용에 중점을 두고 있습니다.

위 내용은 생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제