>기술 주변기기 >일체 포함 >LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

WBOY
WBOY앞으로
2024-01-18 14:15:05708검색

특정 요구 사항에 따라 시각적 모델을 선택하는 방법은 무엇입니까?

ConvNet/ViT와 감독/CLIP 모델은 ImageNet 이외의 지표에서 어떻게 서로 비교됩니까?

MABZUAI와 Meta의 연구자들이 발표한 최신 연구에서는 "비표준" 지표에 대한 일반적인 시각적 모델을 포괄적으로 비교합니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

논문 주소: https://arxiv.org/pdf/2311.09215.pdf

LeCun은 이 연구를 높이 평가하며 훌륭한 연구라고 말했습니다. 이 연구는 유사한 크기의 ConvNext 및 VIT 아키텍처를 비교하여 감독 모드에서 훈련하고 CLIP 방법을 사용할 때 다양한 속성에 대한 포괄적인 비교를 제공합니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

ImageNet 정확도를 넘어서

컴퓨터 비전 모델 환경은 점점 더 다양해지고 복잡해지고 있습니다.

초기 ConvNet부터 Vision Transformers의 진화까지 사용 가능한 모델 유형이 지속적으로 확장되고 있습니다.

마찬가지로 학습 패러다임은 ImageNet의 지도 학습에서 자기 지도 학습 및 CLIP과 같은 이미지-텍스트 쌍 학습으로 발전했습니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

진행을 확인하는 동안 옵션의 폭증은 실무자에게 큰 과제를 안겨줍니다. 자신에게 적합한 대상 모델을 어떻게 선택합니까?

ImageNet 정확도는 항상 모델 성능을 평가하는 주요 지표였습니다. 딥러닝 혁명을 촉발한 이후 인공지능 분야에서 상당한 발전을 이루었습니다.

그러나 다양한 아키텍처, 교육 패러다임 및 데이터로 인해 발생하는 모델의 뉘앙스를 측정할 수는 없습니다.

ImageNet 정확도로만 판단하면 속성이 다른 모델이 유사해 보일 수 있습니다(그림 1). 이러한 제한은 모델이 ImageNet의 기능에 과적합되기 시작하고 정확도가 포화 상태에 도달함에 따라 더욱 분명해집니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

간극을 메우기 위해 연구원들은 ImageNet 정확도를 뛰어넘는 모델 동작에 대한 심층 조사를 수행했습니다.

모델 성능에 대한 아키텍처 및 교육 목표의 영향을 연구하기 위해 ViT(Vision Transformer)와 ConvNeXt를 구체적으로 비교했습니다. 이 두 최신 아키텍처의 ImageNet-1K 검증 정확도와 계산 요구 사항은 비슷합니다.

또한 본 연구에서는 DeiT3-Base/16 및 ConvNeXt-Base로 대표되는 지도 모델과 CLIP 모델을 기반으로 하는 OpenCLIP의 시각적 인코더를 비교했습니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

결과 분석

연구원의 분석은 추가 교육이나 미세 조정 없이 평가할 수 있는 모델 동작을 연구하도록 설계되었습니다.

이 접근 방식은 사전 훈련된 모델에 의존하는 경우가 많기 때문에 컴퓨팅 리소스가 제한된 실무자에게 특히 중요합니다.

특정 분석에서 저자는 객체 감지와 같은 다운스트림 작업의 가치를 인식하지만 최소한의 계산 요구 사항으로 통찰력을 제공하고 실제 애플리케이션에 중요한 동작을 반영하는 기능에 중점을 둡니다.

모델 오류

ImageNet-X는 16가지 변화 요인에 대한 자세한 수동 주석을 통해 ImageNet-1K를 확장한 데이터세트로, 이미지 분류에서 모델 오류를 심층적으로 분석할 수 있습니다.

오류율(낮을수록 좋음)을 사용하여 전체 정확도와 관련하여 특정 요인에 대한 모델 성능을 정량화하므로 모델 오류에 대한 미묘한 분석이 가능합니다. ImageNet-X 결과:

1 ImageNet 정확도와 관련하여 CLIP 모델은 지도 모델보다 오류가 적습니다.

2. 모든 모델은 주로 폐색과 같은 복잡한 요인의 영향을 받습니다.

3. 질감은 모든 모델 중에서 가장 까다로운 요소입니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

모양/텍스처 바이어스

모양/텍스처 바이어스는 모델이 고급 모양 힌트가 아닌 텍스처 바로가기에 의존하는지 확인합니다.

이 편견은 다양한 범주의 모양과 질감의 큐 충돌 이미지를 결합하여 연구할 수 있습니다.

이 접근 방식은 모델의 결정이 질감과 비교하여 모양을 어느 정도 기준으로 하는지 이해하는 데 도움이 됩니다.

연구원들은 큐 충돌 데이터 세트의 모양-텍스처 편향을 평가한 결과 CLIP 모델의 텍스처 편향이 지도 모델보다 작은 반면 ViT 모델의 모양 편향은 ConvNets보다 높은 것을 발견했습니다. .

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

모델 보정

보정은 모델의 예측 신뢰도가 실제 정확도와 일치하는지 여부를 정량화합니다.

이는 ECE(예상 교정 오류)와 같은 측정항목은 물론 신뢰도 도표, 신뢰도 히스토그램과 같은 시각화 도구를 통해 평가할 수 있습니다.

연구원들은 ImageNet-1K 및 ImageNet-R의 보정을 평가하여 예측을 15개 수준으로 분류했습니다. 실험에서 관찰된 점은 다음과 같습니다.

- CLIP 모델은 신뢰도가 높은 반면, 지도 모델은 신뢰도가 약간 부족합니다.

- 감독된 ConvNeXt는 감독된 ViT보다 더 잘 보정됩니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

견고함과 이식성

모델의 견고성과 이식성은 데이터 배포와 새로운 작업의 변화에 ​​적응하는 열쇠입니다.

연구원들은 다양한 ImageNet 변형을 사용하여 견고성을 평가한 결과 ImageNet-R 및 ImageNet-Sketch를 제외하고 ViT 및 ConvNeXt 모델이 비슷한 평균 성능을 보인 반면, 감독된 모델은 일반적으로 CLIP보다 뛰어난 성능을 보였습니다.

이식성 측면에서 VTAB 벤치마크를 사용하여 19개 데이터세트를 평가한 결과 감독 ConvNeXt는 ViT보다 성능이 뛰어나며 CLIP 모델의 성능과 거의 비슷합니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

합성 데이터

카메라 각도, 질감 등의 요소를 정밀하게 제어할 수 있는 PUG-ImageNet과 같은 합성 데이터 세트가 유망한 연구 수단이 되었기 때문에 연구자들은 합성 데이터 분석 성능을 기반으로 모델.

PUG-ImageNet에는 조명 및 기타 요소의 체계적 변화가 있는 사실적인 ImageNet 이미지가 포함되어 있으며 성능은 절대 최고 정확도로 측정됩니다.

연구원들은 PUG-ImageNet의 다양한 요소에 대한 결과를 제공하고 ConvNeXt가 거의 모든 요소에서 ViT보다 성능이 우수하다는 사실을 발견했습니다.

이는 ConvNeXt가 합성 데이터에서 ViT보다 성능이 뛰어난 반면, CLIP 모델의 정확도가 지도 모델보다 낮기 때문에 CLIP 모델의 격차가 더 작다는 것을 보여줍니다. 이는 원본 ImageNet의 낮은 정확도와 관련이 있을 수 있습니다. .

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

Feature Invariance

Feature 불변성은 입력 변환의 영향을 받지 않는 일관된 표현을 생성하여 크기 조정이나 이동과 같은 의미를 보존하는 모델의 능력을 나타냅니다.

이 기능을 사용하면 모델이 다르지만 의미상 유사한 입력에 대해 잘 일반화할 수 있습니다.

연구원의 접근 방식에는 크기 불변성을 위한 이미지 크기 조정, 위치 불변성을 위한 작물 이동, 보간된 위치 임베딩을 사용한 ViT 모델의 해상도 조정이 포함됩니다.

ConvNeXt는 지도 교육에서 ViT보다 성능이 뛰어납니다.

전반적으로 모델은 이동보다 크기/해상도 변환에 더 강력합니다. 스케일링, 변위 및 해상도에 대한 높은 견고성을 요구하는 애플리케이션의 경우 결과는 감독된 ConvNeXt가 최선의 선택일 수 있음을 시사합니다.

LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?

연구원들은 각 모델마다 고유한 장점이 있다는 사실을 발견했습니다.

이는 표준 성능 지표가 미션 크리티컬한 뉘앙스를 간과할 수 있으므로 모델 선택이 대상 사용 사례에 따라 달라져야 함을 의미합니다.

더욱이 기존의 많은 벤치마크는 평가를 편향시키는 ImageNet에서 파생되었습니다. 보다 현실적으로 대표적인 맥락에서 모델을 평가하려면 다양한 데이터 분포를 사용하여 새로운 벤치마크를 개발하는 것이 중요합니다.

ConvNet 대 Transformer

- 많은 벤치마크에서 지도 ConvNeXt는 지도 VIT보다 성능이 더 좋습니다. 더 잘 보정되고 데이터 변환에 불변하며 더 나은 성능을 보여줍니다. 좋은 전송성과 견고성을 보여줍니다.

- ConvNeXt는 합성 데이터에서 ViT보다 성능이 뛰어납니다.

- ViT는 모양 편향이 더 높습니다.

Supervised vs CLIP

- 전송성 측면에서는 CLIP 모델이 더 우수하지만 Supervised ConvNeXt는 이 작업에서 경쟁력 있는 성능을 보여주었습니다. 이는 지도 모델의 잠재력을 보여줍니다.

- 감독 모델은 견고성 벤치마크에서 더 우수합니다. 아마도 이러한 모델이 ImageNet의 변형이기 때문일 것입니다.

- CLIP 모델은 ImageNet 정확도에 비해 모양 편향이 더 높고 분류 오류가 더 적습니다.

위 내용은 LeCun의 평가: ConvNet과 Transformer의 메타 평가, 어느 쪽이 더 강할까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제