搜尋
首頁科技週邊人工智慧用於精確目標偵測的多網格冗餘邊界框標註

一、前言

目前領先的目標偵測器是基於深度CNN的主幹分類器網路重新調整用途的兩級或單級網路。 YOLOv3就是這樣一種眾所周知的最先進的單級檢測器,它接收輸入圖像並將其劃分為大小相等的網格矩陣。具有目標中心的網格單元負責偵測特定目標。

今天分享的,就是提出了一種新的數學方法,該方法為每個目標分配多個網格,以實現精確的tight-fit邊界框預測。研究者也提出了一種有效的離線複製貼上資料增強來進行目標偵測。新提出的方法顯著優於一些目前最先進的目標偵測器,並有望獲得更好的效能。

二、背景

目標偵測網路旨在使用精確匹配邊界框在影像上定位物件並準確標記它們。最近,有兩種不同的方法可以實現這一目標。第一種方法是效能方面,最主要的方法是兩階段目標檢測,最好的代表是區域卷積神經網路(RCNN)及其衍生物[Faster R-CNN: Towards real-time object detection with region proposal networks]、[Fast R-CNN]。相比之下,第二組目標檢測實現的因其出色的檢測速度和輕量級而被人們所知,被稱為單階段網絡,代表性示例為[You only look once: Unified, real-time object detection]、[SSD: Single shot multibox detector]、[Focal loss for dense object detection]。兩階段網絡依賴於一個潛在的區域建議網絡,該網絡生成了可能包含感興趣對象的圖像的候選區域。此網路產生的候選區域可以包含物件感興趣的區域,在單階段目標偵測中,偵測是在一個完整的前向傳遞中同時處理分類和定位。因此,通常情況下,單階段網路更輕、更快且易於實現。

用於精確目標偵測的多網格冗餘邊界框標註

今天的研究依然是堅持YOLO的方法,特別是YOLOv3,並提出了一種簡單的hack,可以同時使用多個網絡單元元素預測目標座標、類別和目標置信度。每個物件的多網路單元元素背後的基本原理是透過強制多個單元元素在同一物件上工作來增加預測緊密擬合邊界框的可能性。

用於精確目標偵測的多網格冗餘邊界框標註

多重網格指派的一些優點包括:

目標偵測器提供它正在偵測的物件的多視角圖,而不僅僅依靠一個網格單元來預測物件的類別和座標。

(b ) 較少隨機且不確定的邊界框預測,這意味著高精度和召回率,因為附近的網路單元被訓練來預測相同的目標類別和座標;

(c) 減少具有感興趣物件的網格單元與沒有感興趣物件的網格之間的不平衡。

此外,由於多網格分配是對現有參數的數學利用,並且不需要額外的關鍵點池化層和後處理來將關鍵點重新組合到其對應的目標,如CenterNet和CornerNet,可以說它是一個更實現無錨或基於關鍵點的目標偵測器試圖實現的自然方式。除了多網格冗餘註釋,研究者還引入了一種新的基於離線複製貼上的資料增強技術,用於準確的目標檢測。

三、MULTI-GRID ASSIGNMENT

用於精確目標偵測的多網格冗餘邊界框標註

#上圖包含三個目標,分別是狗狗、腳踏車和汽車。為簡潔起見,我們將解釋我們在一個物件上的多網格分配。上圖顯示了三個物件的邊界框,其中包含更多關於狗的邊界框的細節。下圖顯示了上圖的縮小區域,重點是狗的邊界框中心。包含狗邊界框中心的網格單元的左上角座標以數字0標記,而包含中心的網格周圍的其他八個網格單元的標籤從1到8。

用於精確目標偵測的多網格冗餘邊界框標註

到目前為止,我已經解釋了包含目標邊界框中心的網格如何註釋目標的基本事實。這種對每個物件僅一個網格單元的依賴來完成預測類別的困難工作和精確的tight-fit邊界框引發了許多問題,例如:

(a)正負網格之間的巨大不平衡,即有和沒有物件中心的網格座標

(b)緩慢的邊界框收斂到GT

(c)缺乏要預測的物件的多視角(角度)視圖。

所以這裡要問的一個自然問題是,「顯然,大多數物件包含一個以上網格單元的區域,因此是否有一種簡單的數學方法來分配更多這些網格單元來嘗試預測物件的類別和座標連同中心網格單元?這樣做的一些優點是(a)減少不平衡,(b)更快的訓練以收斂到邊界框,因為現在多個網格單元同時針對同一個對象,(c)增加預測tight-fit邊界框的機會(d) 為YOLOv3等基於網格的偵測器提供多視角視圖,而不是物件的單點視圖。新提出的多重網格分配試圖回答上述問題。

用於精確目標偵測的多網格冗餘邊界框標註

Ground-truth encoding

四、訓練

 A. The Detection Network: MultiGridDet

MultiGridDet是一個目標檢測網絡,透過從YOLOv3中刪除六個darknet卷積塊來使其更輕、更快。一個卷積塊有一個Conv2D Batch Normalization LeakyRelu。移除的區塊不是來自分類主幹,即Darknet53。相反,將它們從三個多尺度檢測輸出網路或頭中刪除,每個輸出網路兩個。儘管通常深度網路表現良好,但太深的網路也往往會快速過度擬合或大幅降低網路速度。

B. The Loss function

用於精確目標偵測的多網格冗餘邊界框標註

用於精確目標偵測的多網格冗餘邊界框標註

#Coordinate activation function plot with different β values

C. Data Augmentation

離線複製貼上人工訓練圖像合成工作如下:首先,使用簡單的圖像搜索腳本,使用地標、雨、森林等關鍵字從Google圖像下載數千張背景無物件圖像,即沒有我們感興趣的物件的圖像。然後,我們從整個訓練資料集的隨機q個影像中迭代地選擇p個物件及其邊界框。然後,我們產生使用它們的索引作為ID選擇的p個邊界框的所有可能組合。從組合集合中,我們選擇滿足以下兩個條件的邊界框子集:

  • if arranged in some random order side by side, they must fit within a given target background image area
  • and should efficiently utilize the background image space in its entirety or at least most part of it without the objects overlap.

#五、實驗及視覺化

Pascal VOC 2007上的效能比較

用於精確目標偵測的多網格冗餘邊界框標註

用於精確目標偵測的多網格冗餘邊界框標註

用於精確目標偵測的多網格冗餘邊界框標註

用於精確目標偵測的多網格冗餘邊界框標註

###################### ######coco資料集上的效能比較###############################從圖中可以看出,第一行顯示了六個輸入影像,而第二行顯示了網路在非極大抑制(NMS)之前的預測,最後一行顯示了MultiGridDet在NMS之後對輸入影像的最終邊界框預測。 ############

以上是用於精確目標偵測的多網格冗餘邊界框標註的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
AI太空公司誕生了AI太空公司誕生了May 12, 2025 am 11:07 AM

本文展示了AI如何以Tomorrow.io為典型的例子來徹底改變空間行業。 與像SpaceX這樣的建立太空公司不同,SpaceX並非沒有AI的核心,明天是AI本地公司。 讓我們探索

印度的10個機器學習實習(2025)印度的10個機器學習實習(2025)May 12, 2025 am 10:47 AM

在印度(2025)登陸您夢想中的機器學習實習! 對於學生和早期職業專業人員來說,機器學習實習是一個有意義的職業的完美髮射台。 跨不同部門的印度公司 - 尖端的基因

嘗試Fellou AI並向Google和Chatgpt說再見嘗試Fellou AI並向Google和Chatgpt說再見May 12, 2025 am 10:26 AM

在過去的一年中,在線瀏覽的景觀經歷了重大轉變。 這種轉變始於增強,個性化的搜索結果,例如困惑和副駕駛等平台,並隨著Chatgpt的整合而加速了

個人黑客將是一隻非常兇猛的熊個人黑客將是一隻非常兇猛的熊May 11, 2025 am 11:09 AM

網絡攻擊正在發展。 通用網絡釣魚電子郵件的日子已經一去不復返了。 網絡犯罪的未來是超個性化的,利用了容易獲得的在線數據和AI來製作高度針對性的攻擊。 想像一個知道您的工作的騙子

教皇獅子座XIV揭示了AI如何影響他的名字選擇教皇獅子座XIV揭示了AI如何影響他的名字選擇May 11, 2025 am 11:07 AM

新當選的教皇獅子座(Leo Xiv)在對紅衣主教學院的就職演講中,討論了他的同名人物教皇里奧XIII的影響,他的教皇(1878-1903)與汽車和汽車和汽車公司的黎明相吻合

Fastapi -MCP初學者和專家教程-Analytics VidhyaFastapi -MCP初學者和專家教程-Analytics VidhyaMay 11, 2025 am 10:56 AM

本教程演示瞭如何使用模型上下文協議(MCP)和FastAPI將大型語言模型(LLM)與外部工具集成在一起。 我們將使用FastAPI構建一個簡單的Web應用程序,並將其轉換為MCP服務器,使您的L

dia-1.6b tts:最佳文本到二元格生成模型 - 分析vidhyadia-1.6b tts:最佳文本到二元格生成模型 - 分析vidhyaMay 11, 2025 am 10:27 AM

探索DIA-1.6B:由兩個本科生開發的開創性的文本對語音模型,零資金! 這個16億個參數模型產生了非常現實的語音,包括諸如笑聲和打噴嚏之類的非語言提示。本文指南

AI可以使指導比以往任何時候都更有意義AI可以使指導比以往任何時候都更有意義May 10, 2025 am 11:17 AM

我完全同意。 我的成功與導師的指導密不可分。 他們的見解,尤其是關於業務管理,構成了我的信念和實踐的基石。 這種經驗強調了我對導師的承諾

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。