제목: DECO: ConvNets를 이용한 쿼리 기반 엔드투엔드 객체 탐지
Paper: https://arxiv.org/pdf/2312.13735.pdf
소스 코드: https://github.com / xinghaochen/DECO
원문: https://zhuanlan.zhihu.com/p/686011746@王云河
Introduction
DETR(Detection Transformer) 도입 이후 표적 탐지 분야에 붐이 일었다 , 그리고 많은 후속 연구는 정확성에 중점을 두었습니다. 속도와 속도 측면에서 원래 DETR에 비해 개선이 이루어졌습니다. 하지만 트랜스포머가 과연 시야를 완전히 장악할 수 있을지에 대한 논의는 계속되고 있다. ConvNeXt 및 RepLKNet과 같은 일부 연구에서는 CNN 구조가 비전 분야에서 여전히 큰 잠재력을 갖고 있음을 보여줍니다.
이 작업에서 우리가 탐구하는 것은 순수 컨볼루션 아키텍처를 사용하여 고성능의 DETR과 유사한 프레임워크 탐지기를 얻는 방법입니다. DETR을 기념하여 우리의 접근 방식을 DECO
(Detection ConvNets)이라고 부릅니다. DECO는 DETR과 유사한 구조 설정을 사용하고 다른 백본을 사용하여 COCO에서 38.6%와 40.8%의 AP를 달성했고 V100에서 35FPS와 28FPS를 달성하여 DETR보다 더 나은 성능을 달성했습니다. DECO는 RT-DETR과 유사한 멀티 스케일 기능과 같은 모듈과 결합하여 47.8% AP 및 34FPS의 속도를 달성했으며 전체 성능은 많은 DETR 개선 방법에 비해 좋은 장점이 있습니다.
Method
Network Architecture
DETR의 주요 특징은 Transformer Encoder-Decoder의 구조를 사용하여 Query 세트를 사용하여 입력 이미지와 상호 작용하여 이미지 기능과 상호 작용하고 지정된 이미지를 직접 출력할 수 있다는 것입니다. 이는 NMS와 같은 후처리 작업에 대한 의존성을 제거합니다. 우리가 제안한 DECO의 전체 아키텍처는 이미지 특징 추출을 위한 Backbone, Query와 상호 작용하는 Encoder-Decoder 구조를 포함하고 최종적으로 특정 수의 탐지 결과를 출력하는 DETR과 유사합니다. 유일한 차이점은 DECO의 Encoder와 Decoder가 순수 컨볼루션 구조이므로 DECO는 순수 컨볼루션으로 구성된 Query-Based end-to-end detector입니다.
Encoder
DETR의 인코더 구조 교체는 비교적 간단합니다. 4개의 ConvNeXt 블록을 사용하여 인코더 구조를 형성합니다. 구체적으로 인코더의 각 레이어는 7x7 깊이 컨볼루션, LayerNorm 레이어, 1x1 컨볼루션, GELU 활성화 함수 및 또 다른 1x1 컨볼루션을 스택하여 구현됩니다. 또한 DETR에서는 Transformer 아키텍처가 입력에 대해 순열 불변성을 가지므로 인코더의 각 레이어 입력에 위치 인코딩을 추가해야 하지만 컨볼루션으로 구성된 인코더의 경우 위치 인코딩을 추가할 필요가 없습니다
Decoder
에 비해 디코더 교체는 훨씬 더 복잡합니다. Decoder의 주요 기능은 이미지 특징 및 Query와 완벽하게 상호 작용하여 Query가 이미지 특징 정보를 완전히 인식하고 이를 통해 이미지 내 대상의 좌표 및 범주를 예측할 수 있도록 하는 것입니다. 디코더에는 주로 인코더의 기능 출력과 학습 가능한 쿼리 벡터 세트(쿼리)라는 두 가지 입력이 포함됩니다. 디코더의 주요 구조는 SIM(Self-Interaction Module)과 CIM(Cross-Interaction Module)의 두 가지 모듈로 나뉩니다.
여기서 SIM 모듈은 주로 Query의 출력과 상위 Decoder 레이어를 통합합니다. 이 부분의 구조는 공간 차원과 채널 차원에서 9x9 깊이 컨볼루션과 1x1 컨볼루션을 사용하여 여러 컨볼루션 레이어로 구성될 수 있습니다. 각각 정보 교환을 수행하여 필요한 대상 정보를 완전히 획득하고 추가 대상 탐지 특징 추출을 위해 이를 후속 CIM 모듈로 보냅니다. 쿼리는 무작위로 초기화된 벡터 집합입니다. 이 숫자는 감지기가 최종적으로 출력하는 감지 프레임 수를 결정하며 실제 필요에 따라 조정될 수 있습니다. DECO의 경우 모든 구조가 컨볼루션으로 구성되므로 쿼리를 2차원으로 변환합니다. 예를 들어 100개의 쿼리는 10x10 차원이 될 수 있습니다.
CIM 모듈의 주요 기능은 이미지 특징과 Query 사이의 완전한 상호 작용을 통해 Query가 이미지 특징 정보를 완전히 인식하고 이를 통해 이미지 내 대상의 좌표와 카테고리를 예측할 수 있도록 하는 것입니다. Transformer 구조의 경우 Cross Attention 메커니즘을 사용하면 이 목표를 쉽게 달성할 수 있지만 Convolution 구조의 경우 두 기능을 어떻게 완벽하게 상호 작용하는지가 가장 큰 어려움입니다.
SIM 출력과 인코더 출력의 전역 기능을 서로 다른 크기로 융합하려면 먼저 둘을 공간적으로 정렬한 다음 이를 융합해야 합니다. 먼저 SIM 출력에서 가장 가까운 이웃 업샘플링을 수행합니다.
업샘플링 후 특징은 인코더가 출력하는 전역 특징과 동일한 크기를 가지며, 업샘플링된 특징은 인코더가 출력하는 전역 특징과 융합된 다음, 특징 상호 작용을 위해 심층 컨볼루션을 입력하고 잔차 입력을 추가합니다.
마지막으로 상호작용된 특징은 FNN을 통해 채널 정보로 교환된 다음 대상 번호로 풀링되어 디코더의 출력 임베딩을 얻습니다.
마지막으로 획득한 출력 임베딩을 후속 분류를 위해 탐지 헤드로 보냅니다. 회귀.
멀티 스케일 기능
원래 DETR과 마찬가지로 위 프레임워크로 얻은 DECO에는 공통적인 단점이 있습니다. 즉, 멀티 스케일 기능이 부족하여 고정밀 타겟 탐지에 큰 영향을 미칩니다. Deformable DETR은 다중 스케일 변형 Attention 모듈을 사용하여 다양한 스케일의 기능을 통합하지만 이 방법은 Attention 연산자와 강력하게 결합되므로 DECO에서 직접 사용할 수 없습니다. DECO가 다중 규모 기능을 처리할 수 있도록 디코더에서 기능을 출력한 후 RT-DETR에서 제안한 교차 규모 기능 융합 모듈을 사용합니다. 실제로 DETR 탄생 이후 일련의 개선 방안이 도출됐다. 우리는 DECO에도 많은 전략이 적용될 수 있다고 믿으며 관심 있는 사람들이 함께 논의할 수 있기를 바란다.
Experiment
Query 수를 일정하게 유지하고 Decoder 레이어 수를 변경하지 않고 유지하는 등 주요 아키텍처를 변경하지 않고 DETR에서는 Transformer만 변경하면서 COCO에 대한 실험을 진행하고 DECO와 DETR을 비교했습니다. 구조는 위에서 설명한 대로 컨벌루션 구조로 대체됩니다. DECO는 DETR보다 더 나은 정확성과 더 빠른 트레이드오프를 달성한다는 것을 알 수 있습니다.
또한 DECO의 다양한 변형을 포함하여 더 많은 표적 탐지 방법을 갖춘 멀티 스케일 기능을 갖춘 DECO가 매우 좋은 결과를 얻었습니다. 이전의 많은 검출기보다 성능이 향상되었습니다.
기사의 DECO 구조는 Decoder에서 선택한 특정 융합 전략(덧셈, 도트 곱셈, Concat)과 최적의 결과를 얻기 위해 쿼리 차원을 설정하는 방법을 포함하여 많은 절제 실험과 시각화를 거쳤습니다. 등, 몇 가지 흥미로운 결과도 있습니다. 자세한 결과와 논의는 원본 기사를 참조하세요.
요약
본 논문은 복잡한 Transformer 아키텍처를 사용하지 않고도 쿼리 기반 엔드투엔드 객체 감지 프레임워크를 구축하는 것이 가능한지 연구하는 것을 목표로 합니다. 백본 네트워크와 컨벌루션 인코더-디코더 구조를 포함하는 DECO(Detection ConvNet)라는 새로운 감지 프레임워크가 제안되었습니다. DECO 인코더를 신중하게 설계하고 새로운 메커니즘을 도입함으로써 DECO 디코더는 컨볼루셔널 레이어를 통해 대상 쿼리와 이미지 기능 간의 상호 작용을 달성할 수 있습니다. COCO 벤치마크에서 이전 감지기와 비교한 결과 단순성에도 불구하고 DECO는 감지 정확도와 실행 속도 측면에서 경쟁력 있는 성능을 달성했습니다. 특히, ResNet-50 및 ConvNeXt-Tiny 백본을 사용하여 DECO는 각각 35 및 28 FPS로 설정된 COCO 검증에서 38.6% 및 40.8% AP를 달성하여 DET 모델보다 성능이 뛰어났습니다. DECO가 객체 감지 프레임워크 설계에 대한 새로운 관점을 제공할 것으로 기대됩니다.
위 내용은 DECO: 순수 컨볼루셔널 쿼리 기반 탐지기가 DETR을 능가합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

thinkphp是国产框架。ThinkPHP是一个快速、兼容而且简单的轻量级国产PHP开发框架,是为了简化企业级应用开发和敏捷WEB应用开发而诞生的。ThinkPHP从诞生以来一直秉承简洁实用的设计原则,在保持出色的性能和至简的代码的同时,也注重易用性。

什么是 celery这次我们来介绍一下 Python 的一个第三方模块 celery,那么 celery 是什么呢? celery 是一个灵活且可靠的,处理大量消息的分布式系统,可以在多个节点之间处理某个任务; celery 是一个专注于实时处理的任务队列,支持任务调度; celery 是开源的,有很多的使用者; celery 完全基于 Python 语言编写;所以 celery 本质上就是一个任务调度框架,类似于 Apache 的 airflow,当然 airflow 也是基于 Python

AI就像一个黑匣子,能自己做出决定,但是人们并不清楚其中缘由。建立一个AI模型,输入数据,然后再输出结果,但有一个问题就是我们不能解释AI为何会得出这样的结论。需要了解AI如何得出某个结论背后的原因,而不是仅仅接受一个在没有上下文或解释的情况下输出的结果。可解释性旨在帮助人们理解:如何学习的?学到了什么?针对一个特定输入为什么会做出如此决策?决策是否可靠?在本文中,我将介绍6个用于可解释性的Python框架。SHAPSHapleyAdditiveexplanation(SHapleyAdditi

AOP(面向切面编程)是一种编程思想,用于解耦业务逻辑和横切关注点(如日志、权限等)。在PHP中,使用AOP框架可以简化编码,提高代码可维护性和可扩展性。本文将介绍在PHP中使用AOP框架的基本原理和实现方法。一、AOP的概念和原理面向切面编程,指的是将程序的业务逻辑和横切关注点分离开来,通过AOP框架来实现统一管理。横切关注点指的是在程序中需要重复出现并且

已安装Microsoft.NET版本4.5.2、4.6或4.6.1的MicrosoftWindows用户如果希望Microsoft将来通过产品更新支持该框架,则必须安装较新版本的Microsoft框架。据微软称,这三个框架都将在2022年4月26日停止支持。支持日期结束后,产品将不会收到“安全修复或技术支持”。大多数家庭设备通过Windows更新保持最新。这些设备已经安装了较新版本的框架,例如.NETFramework4.8。未自动更新的设备可能

如果你在Windows11上安装了2022年5月累积更新,你可能已经注意到你一直使用的许多应用程序都不像以前那样工作了。强制性安全更新KB5013943正在使某些使用.NET框架的应用程序崩溃。在某些情况下,用户会收到错误代码:0xc0000135。可选更新中报告了类似的问题,但并不普遍。随着2022年5月的更新,该错误似乎已进入生产渠道,这次有更多用户受到影响。崩溃在使用.NETFramework的应用程序中很常见,Discord或MicrosoftTeams等

近几年人工智能领域的突破大多由自监督学习推动,比如BERT中提出的MLM(MaskedLanguageModel),通过将文本中的部分单词遮盖后重新预测,使得海量无标记文本数据也能用来训练模型,自此开启了大规模预训练模型的新时代。但自监督学习算法也有明显的局限性,通常只适用于单一模态(如图像、文本、语音等)的数据,并且需要大量的算力从海量数据中进行学习。相比之下,人类的学习效率要显著高于当前的AI模型,并且可以从不同类型的数据中进行学习。2022年1月,MetaAI发布了自监督学习框架data2


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.
