기존 객체 감지 문제와 달리 FSOD(Few-Shot 객체 감지)는 기본 클래스 샘플이 많지만 새로운 클래스 샘플의 수가 적다고 가정합니다. 기본 클래스에서 새로운 클래스로 지식을 전달하는 방법을 연구하여 새로운 클래스를 인식하는 탐지기의 능력을 향상시키는 것이 목표입니다.
FSOD는 일반적으로 2단계 교육 패러다임 을 따릅니다. 첫 번째 단계에서 감지기는 풍부한 기본 클래스 샘플을 사용하여 학습되어 객체 위치 파악 및 분류와 같은 객체 감지 작업에 필요한 일반적인 표현을 학습합니다. 두 번째 단계에서는 검출기가 소수의 새로운 클래스 샘플(예: 1, 2, 3...)만을 사용하여 미세 조정됩니다. 그러나 기본 클래스와 신규 클래스 샘플 수의 불균형으로 인해 학습된 모델은 일반적으로 기본 클래스 쪽으로 편향되어 유사한 기본 클래스와 신규 클래스 대상을 혼동하게 됩니다. 더욱이, 각 신규 클래스에 대한 샘플이 소수이기 때문에 모델은 신규 클래스의 분산에 민감합니다. 예를 들어, 여러 훈련을 위해 새로운 클래스 샘플을 무작위로 샘플링하는 경우 결과는 매번 상당히 다를 것입니다. 따라서 작은 표본에서 모델의 견고성을 향상시키는 것이 매우 필요합니다.
최근 Tencent Youtu Lab과 우한 대학교는 Variational Feature Aggregation을 기반으로 하는 소수 샘플 대상 탐지 모델 VFA를 제안했습니다. VFA의 전체 구조는 메타 학습 대상 탐지 프레임워크 Meta R-CNN++의 향상된 버전을 기반으로 하며 Class-Agnostic Aggregation CAA(Class-Agnostic Aggregation) 및 의 두 가지 기능 집계 방법이 제안됩니다. Variational Feature Aggregation VFA(Variational Feature Aggregation).
기능 집계는 쿼리와 지원 샘플 간의 상호 작용을 정의하는 FSOD의 핵심 설계입니다. Meta R-CNN과 같은 이전 방법은 일반적으로 CSA(클래스별 집계), 즉 기능 집계를 위한 유사한 쿼리 및 지원 샘플의 기능을 사용합니다. 대조적으로, 본 논문에서 제안하는 CAA는 서로 다른 클래스의 샘플 간의 기능 집계를 허용합니다. CAA는 모델이 클래스 독립적 표현을 학습하도록 권장하므로 기본 클래스에 대한 모델의 편향을 줄입니다. 또한 서로 다른 클래스 간의 상호 작용을 통해 클래스 간의 관계를 더 잘 모델링할 수 있으므로 클래스 혼란을 줄일 수 있습니다.
본 논문에서는 CAA를 기반으로 VAE(Variational Encoder)를 사용하여 Support 샘플을 클래스 분포로 인코딩하고, 학습된 분포에서 새로운 Support 기능을 샘플링하여 기능 융합을 수행하는 VFA를 제안합니다. 관련 연구[1]에서는 클래스 내 분산(예: 외양의 변화)이 클래스 전체에서 유사하며 공통 분포로 모델링될 수 있다고 명시합니다. 따라서 기본 클래스의 분포를 사용하여 새로운 클래스의 분포를 추정할 수 있으므로 샘플 수가 적은 경우 특징 집계의 견고성을 향상시킬 수 있습니다.
VFA는 여러 FSOD 데이터 세트에서 현재 최고의 모델보다 더 나은 성능을 발휘합니다. 관련 연구는 AAAI 2023에서 Oral으로 승인되었습니다.
문서 주소: https://arxiv.org/abs/2301.13411
강력한 기준 방법: Meta R-CNN++
현재 FSOD 작업은 크게 메타러닝 기반 방법과 Fine-tuning 기반 방법 두 가지로 나눌 수 있습니다. 일부 초기 연구에서는 메타 학습이 FSOD에 효과적이라는 것이 입증되었지만 최근 미세 조정 기반 방법이 주목을 받고 있습니다. 이 논문은 먼저 메타 학습을 기반으로 하는 기본 방법인 Meta R-CNN++를 확립하여 두 방법 간의 격차를 줄이고 일부 지표에서는 미세 조정 기반 방법을 능가합니다.
메타 학습 방법인 Meta R-CNN [2]과 미세 조정 기반 방법인 TFA [3]를 예로 들어 두 방법 간의 구현 차이를 먼저 분석했습니다. -단계 훈련 패러다임, TFA는 미세 조정 단계에서 추가 기술을 사용하여 모델을 최적화합니다.
TFA의 성공을 고려하여 Meta R-CNN++을 구축했습니다. 아래 표 1에서 볼 수 있듯이, 메타러닝 방법 역시 미세 조정 단계를 주의 깊게 처리하면 좋은 결과를 얻을 수 있습니다. 따라서 본 논문에서는 Meta R-CNN++를 기본 방법으로 선택합니다.
표 1: Meta R-CNN과 TFA
범주 독립적 기능 집계 CAA
사진 1 : 카테고리 독립적인 특징 집계 CAA
의 개략도 이 글은 간단하고 효과적인 카테고리 독립적 특징 집계 방법 CAA을 제안합니다. 위의 그림 1에서 볼 수 있듯이 CAA는 서로 다른 클래스 간의 기능 집계를 허용하여 모델이 클래스 독립적인 표현을 학습하도록 장려하여 클래스 간 편향과 클래스 간의 혼란을 줄입니다. 특히 클래스 의 각 RoI 기능 과 지원 기능 , 에 대해 클래스 의 지원 기능 을 무작위로 선택하여 쿼리 기능으로 집계합니다.
그런 다음 집계된 특징
을 감지 하위 네트워크
에 공급하여 분류 점수 를 출력합니다.
.
변형 특징 집계 VFA
그림 2 VFA 모델 회로도
일반적으로 인코딩된 이전 작업 샘플을 단일 특징 벡터로 지원하여 카테고리의 중심을 나타냅니다. 그러나 표본이 작고 분산이 큰 경우 클래스 중심을 정확하게 추정하기가 어렵습니다. 이 문서에서는 먼저 지원 기능을 클래스에 대한 분포로 변환합니다. 추정된 클래스 분포는 특정 샘플에 편향되지 않으므로 분포에서 샘플링된 특징은 샘플의 분산에 상대적으로 견고합니다. VFA의 프레임워크는 위의 그림 2에 나와 있습니다.
a) 변형 특성 학습. VFA는 카테고리 분포를 학습하기 위해 변형 자동 인코더 VAE[4]를 사용합니다. 그림 2에 표시된 것처럼 지원 기능 S의 경우 먼저 인코더 를 사용하여 분포 및 의 모수를 추정한 다음 변형 추론 을 통해 분포 에서 샘플링합니다. , 그리고 마지막으로 재구성된 지원 기능 은 디코더 을 통해 획득됩니다. VAE를 최적화할 때 일반적인 KL Loss 및 재구성 Loss 외에도 이 기사에서는 일관성 손실을 사용하여 학습된 분포가 카테고리 정보를 유지하도록 합니다.
b) 변형 기능 융합. 지원 기능은 카테고리에 대한 분포로 변환되므로 분포에서 기능을 샘플링하고 쿼리 기능으로 집계할 수 있습니다. 특히 VFA는 클래스 독립적 집계 CAA도 사용하지만 쿼리 기능 과 변형 기능 을 함께 집계합니다. 클래스 의 쿼리 기능 과 클래스 의 지원 기능
을 고려하여 먼저 분포 를 추정하고 변형 기능 을 샘플링한 후 다음 공식을 사용하여 융합합니다.
여기서 은 채널 곱셈을 나타내고, sig는 시그모이드 연산의 약어입니다. 훈련 단계에서는 집계를 위해 지원 기능 을 무작위로 선택합니다. 테스트 단계에서는
클래스의 지원 기능 을 평균화하고 분포 를 추정합니다. 여기서 .
분류 - 회귀 작업 분리
일반적으로 감지 하위 네트워크 는 공유 기능 추출기 와 두 개의 독립 네트워크인 분류 하위 네트워크 와 회귀 하위 네트워크 로 구성됩니다. 이전 작업에서는 집계된 특징이 객체 분류 및 경계 상자 회귀를 위한 감지 하위 네트워크에 입력되었습니다. 그러나 분류 작업에는 번역 불변 기능이 필요하고 회귀에는 번역 공변 기능이 필요합니다. 지원 기능은 범주의 중심을 나타내고 변환 불변이므로 집계된 기능은 회귀 작업에 해를 끼칩니다.
이 기사에서는 간단한 분류-회귀 작업 분리를 제안합니다. 및 은 원본 및 집계된 쿼리 기능을 나타냅니다. 이전 방법에서는 두 작업 모두에 대해 를 채택했습니다. 여기서 분류 점수 및 예측 경계 상자 는 다음과 같이 정의됩니다.
이러한 작업을 분리하기 위해 별도의 기능 추출기를 채택하고 경계 상자 회귀에 원래 지원 기능
을 사용합니다.
실험 평가
데이터 세트 채택:
평가 지표: 소설급 평균 정밀도 nAP, 기본급 평균 정밀도 bAP. 주요 결과
VFA는 두 데이터세트 모두에서 더 나은 결과를 얻었습니다. 예를 들어, PASCAL VOC 데이터 세트(아래 표 2)에서 VFA는 이전 방법보다 훨씬 높습니다. VFA의 1회 결과는 일부 방법의 10회 결과보다 훨씬 높습니다.
표 2 PASCAL VOC 데이터 세트에 대한 VFA의 효과 절제 실험 a) 다양한 모듈의 역할. 아래 표 3에 표시된 것처럼 VFA의 다양한 모듈이 함께 작동하여 모델 성능을 향상시킬 수 있습니다. 표 3 다양한 모듈의 역할 b) 다양한 기능 집계 방법의 시각적 분석 . 아래 그림 3에서 볼 수 있듯이 CAA는 기본 클래스와 새로운 클래스 간의 혼동을 줄일 수 있으며 VFA는 CAA 기반 클래스 간의 구분을 더욱 강화합니다. 그림 3 유사성 행렬 시각화 c) 보다 정확한 범주 중심점 추정 . 아래 그림 4에서 볼 수 있듯이 VFA는 카테고리의 중심을 더 정확하게 추정할 수 있습니다. 그리고 표본 수가 줄어들수록 추정의 정확도는 기준선 방법보다 점차 높아집니다. 이는 또한 샘플 수가 적을 때(K=1) 우리 방법이 더 잘 수행되는 이유를 설명합니다. 그림 4 추정된 카테고리 중심과 실제 카테고리 중심 사이의 거리 d) 결과 시각화 . 그림 5 시각화 결과 본 논문은 메타러닝을 기반으로 한 FSOD의 기능 집계 방법으로 돌아가서 카테고리 독립적인 기능 집계 CAA 및 변형을 제안합니다. 알 기능 집계 VFA. CAA는 기본 클래스와 신규 클래스 간의 클래스 편향과 혼란을 줄일 수 있습니다. VFA는 샘플을 클래스 분포로 변환하여 보다 강력한 기능 집계를 달성합니다. PASCAL VOC 및 MS COCO 데이터 세트에 대한 실험은 본 논문에서 제안한 방법의 효율성을 보여줍니다. 결론
위 내용은 회귀 메타 학습, 새로운 SOTA 달성을 위한 변형 특징 집합 기반의 소수 샘플 대상 탐지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!