집 >웹3.0 >PiT(픽셀 변환기)는 비전 모델의 지역성 편향에 대한 요구에 도전합니다.

PiT(픽셀 변환기)는 비전 모델의 지역성 편향에 대한 요구에 도전합니다.

PHPz원래의: 2024-06-15 09:31:28652검색

Meta AI와 암스테르담 대학의 최신 연구에 따르면 인기 있는 신경망 아키텍처인 변환기는 대부분의 최신 컴퓨터 비전 모델에 존재하는 지역성 유도 편향에 의존하지 않고 이미지의 개별 픽셀에서 직접 작동할 수 있는 것으로 나타났습니다.

Pixel Transformers (PiTs) Challenge the Need for Locality Bias in Vision Models

Meta AI와 암스테르담 대학의 연구원들은 인기 있는 신경망 아키텍처인 변환기가 대부분의 최신 컴퓨터 비전 모델에 존재하는 지역성 유도 편향에 의존하지 않고 이미지의 개별 픽셀에서 직접 작동할 수 있음을 입증했습니다.

그들의 "개별 픽셀의 변환기"라는 제목의 연구는 인접 픽셀이 먼 픽셀보다 더 관련되어 있다는 개념인 국소성이 비전 작업의 기본 요구 사항이라는 오랜 믿음에 도전합니다.

전통적으로 컨볼루셔널 신경망과 같은 컴퓨터 비전 아키텍처는 (ConvNets) 및 Vision Transformers(ViTs)는 인접 픽셀이 더 관련되어 있다고 가정하여 컨볼루셔널 커널, 풀링 작업 및 패치화와 같은 기술을 통해 지역성 편향을 통합했습니다.

반면, 연구원들은 각 픽셀을 처리하는 Pixel Transformers(PiTs)를 도입했습니다. 픽셀을 개별 토큰으로 사용하여 이미지의 2D 그리드 구조에 대한 모든 가정을 제거합니다. 놀랍게도 PiT는 다양한 작업에서 매우 높은 성능의 결과를 달성했습니다.

예를 들어 PiT를 VQGAN의 잠재 토큰 공간을 사용하여 이미지 생성 작업에 적용했을 때 FID(Fréchet Inception Distance) 및 Inception과 같은 품질 지표에서 지역성 편향된 상대보다 뛰어난 성능을 보였습니다. Score(IS).

Perceiver IO Transformers 라인에서 작동하는 PiT는 더 긴 시퀀스로 인해 계산 비용이 많이 들 수 있지만 비전 모델의 지역성 편향에 대한 필요성에 도전합니다. 긴 시퀀스 길이를 처리하는 기술이 발전함에 따라 PiT는 더욱 실용적이 될 수 있습니다.

이 연구는 궁극적으로 신경 아키텍처의 유도 편향을 줄이는 것의 잠재적인 이점을 강조하며, 이는 다양한 비전 작업 및 데이터 양식을 위한 보다 다재다능하고 유능한 시스템으로 이어질 수 있습니다.

뉴스 출처:https://www.kdj.com/cryptocurrency-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html

위 내용은 PiT(픽셀 변환기)는 비전 모델의 지역성 편향에 대한 요구에 도전합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

html for while Token using https notion

성명：

이전 기사：솔라나(SOL) 고래가 250만 코인 이동: 세부 정보다음 기사：솔라나(SOL) 고래가 250만 코인 이동: 세부 정보