>  기사  >  PiT(픽셀 변환기)는 비전 모델의 지역성 편향에 대한 요구에 도전합니다.

PiT(픽셀 변환기)는 비전 모델의 지역성 편향에 대한 요구에 도전합니다.

PHPz
PHPz원래의
2024-06-15 09:31:28525검색

Meta AI와 암스테르담 대학의 최신 연구에 따르면 인기 있는 신경망 아키텍처인 변환기는 대부분의 최신 컴퓨터 비전 모델에 존재하는 지역성 유도 편향에 의존하지 않고 이미지의 개별 픽셀에서 직접 작동할 수 있는 것으로 나타났습니다.

Pixel Transformers (PiTs) Challenge the Need for Locality Bias in Vision Models

Meta AI와 암스테르담 대학의 연구원들은 인기 있는 신경망 아키텍처인 변환기가 대부분의 최신 컴퓨터 비전 모델에 존재하는 지역성 유도 편향에 의존하지 않고 이미지의 개별 픽셀에서 직접 작동할 수 있음을 입증했습니다.

그들의 "개별 픽셀의 변환기"라는 제목의 연구는 인접 픽셀이 먼 픽셀보다 더 관련되어 있다는 개념인 국소성이 비전 작업의 기본 요구 사항이라는 오랜 믿음에 도전합니다.

전통적으로 컨볼루셔널 신경망과 같은 컴퓨터 비전 아키텍처는 (ConvNets) 및 Vision Transformers(ViTs)는 인접 픽셀이 더 관련되어 있다고 가정하여 컨볼루셔널 커널, 풀링 작업 및 패치화와 같은 기술을 통해 지역성 편향을 통합했습니다.

반면, 연구원들은 각 픽셀을 처리하는 Pixel Transformers(PiTs)를 도입했습니다. 픽셀을 개별 토큰으로 사용하여 이미지의 2D 그리드 구조에 대한 모든 가정을 제거합니다. 놀랍게도 PiT는 다양한 작업에서 매우 높은 성능의 결과를 달성했습니다.

예를 들어 PiT를 VQGAN의 잠재 토큰 공간을 사용하여 이미지 생성 작업에 적용했을 때 FID(Fréchet Inception Distance) 및 Inception과 같은 품질 지표에서 지역성 편향된 상대보다 뛰어난 성능을 보였습니다. Score(IS).

Perceiver IO Transformers 라인에서 작동하는 PiT는 더 긴 시퀀스로 인해 계산 비용이 많이 들 수 있지만 비전 모델의 지역성 편향에 대한 필요성에 도전합니다. 긴 시퀀스 길이를 처리하는 기술이 발전함에 따라 PiT는 더욱 실용적이 될 수 있습니다.

이 연구는 궁극적으로 신경 아키텍처의 유도 편향을 줄이는 것의 잠재적인 이점을 강조하며, 이는 다양한 비전 작업 및 데이터 양식을 위한 보다 다재다능하고 유능한 시스템으로 이어질 수 있습니다.

뉴스 출처:https://www.kdj.com/cryptocurrency-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html

위 내용은 PiT(픽셀 변환기)는 비전 모델의 지역성 편향에 대한 요구에 도전합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.