標題:DECO: Query-Based End-to-End Object Detection with ConvNets
論文:https://arxiv.org/pdf/2312.13735 .pdf
原始碼:https://github.com/xinghaochen/DECO
原文:https://zhuanlan.zhihu.com/p/686011746@王雲鶴
引言
引入Detection Transformer(DETR)後,目標偵測領域掀起了一股熱潮,許多後續研究都在精度和速度方面對原始DETR進行了改進。然而,關於Transformer是否能夠完全主導視覺領域的討論仍在持續。一些研究如ConvNeXt和RepLKNet表明,CNN結構在視覺領域仍具有巨大的潛力。
我們這個工作探究的就是如何利用純卷積的架構,來得到一個效能能打的類別 DETR 框架的偵測器。致敬 DETR,我們稱我們的方法為DECO
(Detection ConvNets)。採用 DETR 類似的結構設定,搭配不同的 Backbone,DECO 在 COCO 上取得了38.6%和40.8%的AP,在V100上取得了35 FPS和28 FPS的速度,取得比DETR更好的性能。搭配類似RT-DETR的多尺度特徵等模組,DECO取得了47.8% AP和34 FPS的速度,整體表現跟很多DETR改進方法比都有不錯的優勢。
方法
網路架構
DETR的主要特點是利用Transformer Encoder-Decoder的結構,對一個輸入影像,利用一組Query跟著影像特徵交互,可以直接輸出指定數量的偵測框,從而可以擺脫對NMS等後處理操作的依賴。我們提出的DECO總體架構上跟DETR類似,也包括了Backbone來進行圖像特徵提取,一個Encoder-Decoder的結構跟Query進行交互,最後輸出特定數量的檢測結果。唯一的不同在於,DECO的Encoder和Decoder是純卷積的結構,因此DECO是一個由純卷積構成的Query-Based端對端檢測器。
編碼器
DETR 的 Encoder 結構替換相對比較直接,我們選擇使用4個ConvNeXt Block來構成Encoder結構。具體來說,Encoder的每一層都是透過疊加7x7的深度卷積、一個LayerNorm層、一個1x1的捲積、一個GELU活化函數以及另一個1x1卷積來實現的。此外,在DETR中,因為Transformer架構對輸入具有排列不變性,所以每層編碼器的輸入都需要添加位置編碼,但是對於卷積組成的Encoder來說,則無需添加任何位置編碼
解碼器
比較而言,Decoder的替換則複雜得多。 Decoder的主要作用為對影像特徵和Query進行充分的交互,使得Query可以充分感知到影像特徵訊息,從而對影像中的目標進行座標和類別的預測。 Decoder主要包括兩個輸入:Encoder的特徵輸出和一組可學的查詢向量(Query)。我們把Decoder的主要結構分成兩個模組:自互動模組(Self-Interaction Module, SIM)和交叉互動模組(Cross-Interaction Module, CIM)。
這裡,SIM模組主要融合Query和上層Decoder層的輸出,這部分的結構,可以利用若干個卷積層來組成,使用9x9 depthwise卷積和1x1卷積分別在空間維度和通道維度進行資訊交互,充分獲取所需的目標資訊以送到後面的CIM模組進行進一步的目標檢測特徵提取。 Query為一組隨機初始化的向量,該數量決定了檢測器最終輸出的檢測框數量,其具體的值可以隨實際需要進行調節。對DECO來說,因為所有的結構都是由卷積構成的,因此我們把Query變成二維,例如100個Query,則可以變成10x10的維度。
CIM模組的主要作用是讓影像特徵和Query進行充分的交互,使得Query可以充分感知到影像特徵訊息,從而對影像中的目標進行座標和類別的預測。對於Transformer結構來說,利用cross attention機制可以很方便地實現這一目的,但對於卷積結構來說,如何讓兩個特徵進行充分交互,則是一個最大的困難。
要把大小不同的SIM輸出和encoder輸出全域特徵融合,必須先把兩者進行空間對齊然後進行融合,首先我們對SIM的輸出進行最近鄰上採樣:
使得上採樣後的特徵與Encoder輸出的全局特徵有相同的尺寸,然後將上採樣後的特徵和encoder輸出的全局特徵進行融合,然後進入深度卷積進行特徵交互後加上殘差輸入:
最後將交互後的特徵透過FNN進行通道資訊交互,之後pooling到目標數大小得到decoder的輸出embedding:
最後我們將得到的輸出embedding送入偵測頭,以進行後續的分類和迴歸。
多尺度特徵
跟原始的DETR一樣,上述框架得到的DECO有個共同的短板,即缺少多尺度特徵,而這對於高精度目標檢測來說是影響很大的。 Deformable DETR透過使用一個多尺度的可變形注意力模組來整合不同尺度的特徵,但這個方法是跟Attention算子強耦合的,因此沒法直接用在我們的DECO上。為了讓DECO也能處理多尺度特徵,我們在Decoder輸出的特徵之後,採用了RT-DETR提出的一個跨尺度特徵融合模組。實際上,DETR誕生之後衍生了一系列的改進方法,我們相信很多策略對DECO來說同樣是適用的,這也希望有興趣的人共同來探討。
實驗
我們在COCO上進行了實驗,在保持主要架構不變的情況下將DECO和DETR進行了比較,例如保持Query數量一致,保持Decoder層數不變等等,僅將DETR中的Transformer結構依上文所述換成我們的捲積結構。可以看出,DECO取得了比DETR更好的精度和速度的Tradeoff。
我們也把搭配了多尺度特徵後的DECO跟更多目標檢測方法進行了對比,其中包括了很多DETR的變體,從下圖中可以看到,DECO取得了很不錯的效果,比許多以前的偵測器都取得了更好的效能。
文章中DECO的結構進行了許多的消融實驗及視覺化,包括在Decoder中選用的具體融合策略(相加、點乘、Concat),以及Query的維度怎麼設定才有最優的效果等,也有一些比較有趣的發現,更詳細的結果和討論請參考原文。
總結
本文旨在研究是否能夠建構一個基於查詢的端到端目標偵測框架,而不採用複雜的Transformer架構。提出了一種名為Detection ConvNet(DECO)的新型檢測框架,包括主幹網路和卷積編碼器-解碼器結構。透過精心設計DECO編碼器和引入一種新穎的機制,使DECO解碼器能夠透過卷積層實現目標查詢和影像特徵之間的交互作用。在COCO基準上與先前檢測器進行了比較,儘管簡單,DECO在檢測準確度和運行速度方面取得了競爭性表現。具體來說,使用ResNet-50和ConvNeXt-Tiny主幹,DECO在COCO驗證集上分別以35和28 FPS獲得了38.6%和40.8%的AP,優於DET模型。希望DECO提供了設計目標偵測框架的新視角。
以上是DECO: 純卷積Query-Based檢測器超越DETR!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

thinkphp是国产框架。ThinkPHP是一个快速、兼容而且简单的轻量级国产PHP开发框架,是为了简化企业级应用开发和敏捷WEB应用开发而诞生的。ThinkPHP从诞生以来一直秉承简洁实用的设计原则,在保持出色的性能和至简的代码的同时,也注重易用性。

什么是 celery这次我们来介绍一下 Python 的一个第三方模块 celery,那么 celery 是什么呢? celery 是一个灵活且可靠的,处理大量消息的分布式系统,可以在多个节点之间处理某个任务; celery 是一个专注于实时处理的任务队列,支持任务调度; celery 是开源的,有很多的使用者; celery 完全基于 Python 语言编写;所以 celery 本质上就是一个任务调度框架,类似于 Apache 的 airflow,当然 airflow 也是基于 Python

AI就像一个黑匣子,能自己做出决定,但是人们并不清楚其中缘由。建立一个AI模型,输入数据,然后再输出结果,但有一个问题就是我们不能解释AI为何会得出这样的结论。需要了解AI如何得出某个结论背后的原因,而不是仅仅接受一个在没有上下文或解释的情况下输出的结果。可解释性旨在帮助人们理解:如何学习的?学到了什么?针对一个特定输入为什么会做出如此决策?决策是否可靠?在本文中,我将介绍6个用于可解释性的Python框架。SHAPSHapleyAdditiveexplanation(SHapleyAdditi

AOP(面向切面编程)是一种编程思想,用于解耦业务逻辑和横切关注点(如日志、权限等)。在PHP中,使用AOP框架可以简化编码,提高代码可维护性和可扩展性。本文将介绍在PHP中使用AOP框架的基本原理和实现方法。一、AOP的概念和原理面向切面编程,指的是将程序的业务逻辑和横切关注点分离开来,通过AOP框架来实现统一管理。横切关注点指的是在程序中需要重复出现并且

已安装Microsoft.NET版本4.5.2、4.6或4.6.1的MicrosoftWindows用户如果希望Microsoft将来通过产品更新支持该框架,则必须安装较新版本的Microsoft框架。据微软称,这三个框架都将在2022年4月26日停止支持。支持日期结束后,产品将不会收到“安全修复或技术支持”。大多数家庭设备通过Windows更新保持最新。这些设备已经安装了较新版本的框架,例如.NETFramework4.8。未自动更新的设备可能

如果你在Windows11上安装了2022年5月累积更新,你可能已经注意到你一直使用的许多应用程序都不像以前那样工作了。强制性安全更新KB5013943正在使某些使用.NET框架的应用程序崩溃。在某些情况下,用户会收到错误代码:0xc0000135。可选更新中报告了类似的问题,但并不普遍。随着2022年5月的更新,该错误似乎已进入生产渠道,这次有更多用户受到影响。崩溃在使用.NETFramework的应用程序中很常见,Discord或MicrosoftTeams等

近几年人工智能领域的突破大多由自监督学习推动,比如BERT中提出的MLM(MaskedLanguageModel),通过将文本中的部分单词遮盖后重新预测,使得海量无标记文本数据也能用来训练模型,自此开启了大规模预训练模型的新时代。但自监督学习算法也有明显的局限性,通常只适用于单一模态(如图像、文本、语音等)的数据,并且需要大量的算力从海量数据中进行学习。相比之下,人类的学习效率要显著高于当前的AI模型,并且可以从不同类型的数据中进行学习。2022年1月,MetaAI发布了自监督学习框架data2


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版
好用的JavaScript開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境