제목: DECO: ConvNets를 이용한 쿼리 기반 엔드투엔드 객체 탐지
Paper: https://arxiv.org/pdf/2312.13735.pdf
소스 코드: https://github.com / xinghaochen/DECO
원문: https://zhuanlan.zhihu.com/p/686011746@王云河
Introduction
DETR(Detection Transformer) 도입 이후 표적 탐지 분야에 붐이 일었다 , 그리고 많은 후속 연구는 정확성에 중점을 두었습니다. 속도와 속도 측면에서 원래 DETR에 비해 개선이 이루어졌습니다. 하지만 트랜스포머가 과연 시야를 완전히 장악할 수 있을지에 대한 논의는 계속되고 있다. ConvNeXt 및 RepLKNet과 같은 일부 연구에서는 CNN 구조가 비전 분야에서 여전히 큰 잠재력을 갖고 있음을 보여줍니다.
이 작업에서 우리가 탐구하는 것은 순수 컨볼루션 아키텍처를 사용하여 고성능의 DETR과 유사한 프레임워크 탐지기를 얻는 방법입니다. DETR을 기념하여 우리의 접근 방식을 DECO
(Detection ConvNets)이라고 부릅니다. DECO는 DETR과 유사한 구조 설정을 사용하고 다른 백본을 사용하여 COCO에서 38.6%와 40.8%의 AP를 달성했고 V100에서 35FPS와 28FPS를 달성하여 DETR보다 더 나은 성능을 달성했습니다. DECO는 RT-DETR과 유사한 멀티 스케일 기능과 같은 모듈과 결합하여 47.8% AP 및 34FPS의 속도를 달성했으며 전체 성능은 많은 DETR 개선 방법에 비해 좋은 장점이 있습니다.
Method
Network Architecture
DETR의 주요 특징은 Transformer Encoder-Decoder의 구조를 사용하여 Query 세트를 사용하여 입력 이미지와 상호 작용하여 이미지 기능과 상호 작용하고 지정된 이미지를 직접 출력할 수 있다는 것입니다. 이는 NMS와 같은 후처리 작업에 대한 의존성을 제거합니다. 우리가 제안한 DECO의 전체 아키텍처는 이미지 특징 추출을 위한 Backbone, Query와 상호 작용하는 Encoder-Decoder 구조를 포함하고 최종적으로 특정 수의 탐지 결과를 출력하는 DETR과 유사합니다. 유일한 차이점은 DECO의 Encoder와 Decoder가 순수 컨볼루션 구조이므로 DECO는 순수 컨볼루션으로 구성된 Query-Based end-to-end detector입니다.
Encoder
DETR의 인코더 구조 교체는 비교적 간단합니다. 4개의 ConvNeXt 블록을 사용하여 인코더 구조를 형성합니다. 구체적으로 인코더의 각 레이어는 7x7 깊이 컨볼루션, LayerNorm 레이어, 1x1 컨볼루션, GELU 활성화 함수 및 또 다른 1x1 컨볼루션을 스택하여 구현됩니다. 또한 DETR에서는 Transformer 아키텍처가 입력에 대해 순열 불변성을 가지므로 인코더의 각 레이어 입력에 위치 인코딩을 추가해야 하지만 컨볼루션으로 구성된 인코더의 경우 위치 인코딩을 추가할 필요가 없습니다
Decoder
에 비해 디코더 교체는 훨씬 더 복잡합니다. Decoder의 주요 기능은 이미지 특징 및 Query와 완벽하게 상호 작용하여 Query가 이미지 특징 정보를 완전히 인식하고 이를 통해 이미지 내 대상의 좌표 및 범주를 예측할 수 있도록 하는 것입니다. 디코더에는 주로 인코더의 기능 출력과 학습 가능한 쿼리 벡터 세트(쿼리)라는 두 가지 입력이 포함됩니다. 디코더의 주요 구조는 SIM(Self-Interaction Module)과 CIM(Cross-Interaction Module)의 두 가지 모듈로 나뉩니다.
여기서 SIM 모듈은 주로 Query의 출력과 상위 Decoder 레이어를 통합합니다. 이 부분의 구조는 공간 차원과 채널 차원에서 9x9 깊이 컨볼루션과 1x1 컨볼루션을 사용하여 여러 컨볼루션 레이어로 구성될 수 있습니다. 각각 정보 교환을 수행하여 필요한 대상 정보를 완전히 획득하고 추가 대상 탐지 특징 추출을 위해 이를 후속 CIM 모듈로 보냅니다. 쿼리는 무작위로 초기화된 벡터 집합입니다. 이 숫자는 감지기가 최종적으로 출력하는 감지 프레임 수를 결정하며 실제 필요에 따라 조정될 수 있습니다. DECO의 경우 모든 구조가 컨볼루션으로 구성되므로 쿼리를 2차원으로 변환합니다. 예를 들어 100개의 쿼리는 10x10 차원이 될 수 있습니다.
CIM 모듈의 주요 기능은 이미지 특징과 Query 사이의 완전한 상호 작용을 통해 Query가 이미지 특징 정보를 완전히 인식하고 이를 통해 이미지 내 대상의 좌표와 카테고리를 예측할 수 있도록 하는 것입니다. Transformer 구조의 경우 Cross Attention 메커니즘을 사용하면 이 목표를 쉽게 달성할 수 있지만 Convolution 구조의 경우 두 기능을 어떻게 완벽하게 상호 작용하는지가 가장 큰 어려움입니다.
SIM 출력과 인코더 출력의 전역 기능을 서로 다른 크기로 융합하려면 먼저 둘을 공간적으로 정렬한 다음 이를 융합해야 합니다. 먼저 SIM 출력에서 가장 가까운 이웃 업샘플링을 수행합니다.
업샘플링 후 특징은 인코더가 출력하는 전역 특징과 동일한 크기를 가지며, 업샘플링된 특징은 인코더가 출력하는 전역 특징과 융합된 다음, 특징 상호 작용을 위해 심층 컨볼루션을 입력하고 잔차 입력을 추가합니다.
마지막으로 상호작용된 특징은 FNN을 통해 채널 정보로 교환된 다음 대상 번호로 풀링되어 디코더의 출력 임베딩을 얻습니다.
마지막으로 획득한 출력 임베딩을 후속 분류를 위해 탐지 헤드로 보냅니다. 회귀.
멀티 스케일 기능
원래 DETR과 마찬가지로 위 프레임워크로 얻은 DECO에는 공통적인 단점이 있습니다. 즉, 멀티 스케일 기능이 부족하여 고정밀 타겟 탐지에 큰 영향을 미칩니다. Deformable DETR은 다중 스케일 변형 Attention 모듈을 사용하여 다양한 스케일의 기능을 통합하지만 이 방법은 Attention 연산자와 강력하게 결합되므로 DECO에서 직접 사용할 수 없습니다. DECO가 다중 규모 기능을 처리할 수 있도록 디코더에서 기능을 출력한 후 RT-DETR에서 제안한 교차 규모 기능 융합 모듈을 사용합니다. 실제로 DETR 탄생 이후 일련의 개선 방안이 도출됐다. 우리는 DECO에도 많은 전략이 적용될 수 있다고 믿으며 관심 있는 사람들이 함께 논의할 수 있기를 바란다.
Experiment
Query 수를 일정하게 유지하고 Decoder 레이어 수를 변경하지 않고 유지하는 등 주요 아키텍처를 변경하지 않고 DETR에서는 Transformer만 변경하면서 COCO에 대한 실험을 진행하고 DECO와 DETR을 비교했습니다. 구조는 위에서 설명한 대로 컨벌루션 구조로 대체됩니다. DECO는 DETR보다 더 나은 정확성과 더 빠른 트레이드오프를 달성한다는 것을 알 수 있습니다.
또한 DECO의 다양한 변형을 포함하여 더 많은 표적 탐지 방법을 갖춘 멀티 스케일 기능을 갖춘 DECO가 매우 좋은 결과를 얻었습니다. 이전의 많은 검출기보다 성능이 향상되었습니다.
기사의 DECO 구조는 Decoder에서 선택한 특정 융합 전략(덧셈, 도트 곱셈, Concat)과 최적의 결과를 얻기 위해 쿼리 차원을 설정하는 방법을 포함하여 많은 절제 실험과 시각화를 거쳤습니다. 등, 몇 가지 흥미로운 결과도 있습니다. 자세한 결과와 논의는 원본 기사를 참조하세요.
요약
본 논문은 복잡한 Transformer 아키텍처를 사용하지 않고도 쿼리 기반 엔드투엔드 객체 감지 프레임워크를 구축하는 것이 가능한지 연구하는 것을 목표로 합니다. 백본 네트워크와 컨벌루션 인코더-디코더 구조를 포함하는 DECO(Detection ConvNet)라는 새로운 감지 프레임워크가 제안되었습니다. DECO 인코더를 신중하게 설계하고 새로운 메커니즘을 도입함으로써 DECO 디코더는 컨볼루셔널 레이어를 통해 대상 쿼리와 이미지 기능 간의 상호 작용을 달성할 수 있습니다. COCO 벤치마크에서 이전 감지기와 비교한 결과 단순성에도 불구하고 DECO는 감지 정확도와 실행 속도 측면에서 경쟁력 있는 성능을 달성했습니다. 특히, ResNet-50 및 ConvNeXt-Tiny 백본을 사용하여 DECO는 각각 35 및 28 FPS로 설정된 COCO 검증에서 38.6% 및 40.8% AP를 달성하여 DET 모델보다 성능이 뛰어났습니다. DECO가 객체 감지 프레임워크 설계에 대한 새로운 관점을 제공할 것으로 기대됩니다.
위 내용은 DECO: 순수 컨볼루셔널 쿼리 기반 탐지기가 DETR을 능가합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

Dreamweaver Mac版
시각적 웹 개발 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기
