一、前言
目前領先的目標偵測器是基於深度CNN的主幹分類器網路重新調整用途的兩級或單級網路。 YOLOv3就是這樣一種眾所周知的最先進的單級檢測器,它接收輸入圖像並將其劃分為大小相等的網格矩陣。具有目標中心的網格單元負責偵測特定目標。
今天分享的,就是提出了一種新的數學方法,該方法為每個目標分配多個網格,以實現精確的tight-fit邊界框預測。研究者也提出了一種有效的離線複製貼上資料增強來進行目標偵測。新提出的方法顯著優於一些目前最先進的目標偵測器,並有望獲得更好的效能。
二、背景
目標偵測網路旨在使用精確匹配邊界框在影像上定位物件並準確標記它們。最近,有兩種不同的方法可以實現這一目標。第一種方法是效能方面,最主要的方法是兩階段目標檢測,最好的代表是區域卷積神經網路(RCNN)及其衍生物[Faster R-CNN: Towards real-time object detection with region proposal networks]、[Fast R-CNN]。相比之下,第二組目標檢測實現的因其出色的檢測速度和輕量級而被人們所知,被稱為單階段網絡,代表性示例為[You only look once: Unified, real-time object detection]、[SSD: Single shot multibox detector]、[Focal loss for dense object detection]。兩階段網絡依賴於一個潛在的區域建議網絡,該網絡生成了可能包含感興趣對象的圖像的候選區域。此網路產生的候選區域可以包含物件感興趣的區域,在單階段目標偵測中,偵測是在一個完整的前向傳遞中同時處理分類和定位。因此,通常情況下,單階段網路更輕、更快且易於實現。
今天的研究依然是堅持YOLO的方法,特別是YOLOv3,並提出了一種簡單的hack,可以同時使用多個網絡單元元素預測目標座標、類別和目標置信度。每個物件的多網路單元元素背後的基本原理是透過強制多個單元元素在同一物件上工作來增加預測緊密擬合邊界框的可能性。
多重網格指派的一些優點包括:
目標偵測器提供它正在偵測的物件的多視角圖,而不僅僅依靠一個網格單元來預測物件的類別和座標。
(b ) 較少隨機且不確定的邊界框預測,這意味著高精度和召回率,因為附近的網路單元被訓練來預測相同的目標類別和座標;
(c) 減少具有感興趣物件的網格單元與沒有感興趣物件的網格之間的不平衡。
此外,由於多網格分配是對現有參數的數學利用,並且不需要額外的關鍵點池化層和後處理來將關鍵點重新組合到其對應的目標,如CenterNet和CornerNet,可以說它是一個更實現無錨或基於關鍵點的目標偵測器試圖實現的自然方式。除了多網格冗餘註釋,研究者還引入了一種新的基於離線複製貼上的資料增強技術,用於準確的目標檢測。
三、MULTI-GRID ASSIGNMENT
#上圖包含三個目標,分別是狗狗、腳踏車和汽車。為簡潔起見,我們將解釋我們在一個物件上的多網格分配。上圖顯示了三個物件的邊界框,其中包含更多關於狗的邊界框的細節。下圖顯示了上圖的縮小區域,重點是狗的邊界框中心。包含狗邊界框中心的網格單元的左上角座標以數字0標記,而包含中心的網格周圍的其他八個網格單元的標籤從1到8。
到目前為止,我已經解釋了包含目標邊界框中心的網格如何註釋目標的基本事實。這種對每個物件僅一個網格單元的依賴來完成預測類別的困難工作和精確的tight-fit邊界框引發了許多問題,例如:
(a)正負網格之間的巨大不平衡,即有和沒有物件中心的網格座標
(b)緩慢的邊界框收斂到GT
(c)缺乏要預測的物件的多視角(角度)視圖。
所以這裡要問的一個自然問題是,「顯然,大多數物件包含一個以上網格單元的區域,因此是否有一種簡單的數學方法來分配更多這些網格單元來嘗試預測物件的類別和座標連同中心網格單元?這樣做的一些優點是(a)減少不平衡,(b)更快的訓練以收斂到邊界框,因為現在多個網格單元同時針對同一個對象,(c)增加預測tight-fit邊界框的機會(d) 為YOLOv3等基於網格的偵測器提供多視角視圖,而不是物件的單點視圖。新提出的多重網格分配試圖回答上述問題。
Ground-truth encoding
四、訓練
A. The Detection Network: MultiGridDet
MultiGridDet是一個目標檢測網絡,透過從YOLOv3中刪除六個darknet卷積塊來使其更輕、更快。一個卷積塊有一個Conv2D Batch Normalization LeakyRelu。移除的區塊不是來自分類主幹,即Darknet53。相反,將它們從三個多尺度檢測輸出網路或頭中刪除,每個輸出網路兩個。儘管通常深度網路表現良好,但太深的網路也往往會快速過度擬合或大幅降低網路速度。
B. The Loss function
#Coordinate activation function plot with different β values
C. Data Augmentation
離線複製貼上人工訓練圖像合成工作如下:首先,使用簡單的圖像搜索腳本,使用地標、雨、森林等關鍵字從Google圖像下載數千張背景無物件圖像,即沒有我們感興趣的物件的圖像。然後,我們從整個訓練資料集的隨機q個影像中迭代地選擇p個物件及其邊界框。然後,我們產生使用它們的索引作為ID選擇的p個邊界框的所有可能組合。從組合集合中,我們選擇滿足以下兩個條件的邊界框子集:
- if arranged in some random order side by side, they must fit within a given target background image area
- and should efficiently utilize the background image space in its entirety or at least most part of it without the objects overlap.
#五、實驗及視覺化
Pascal VOC 2007上的效能比較
以上是用於精確目標偵測的多網格冗餘邊界框標註的詳細內容。更多資訊請關注PHP中文網其他相關文章!

利用微調LLM的功能與Monsterapi:綜合指南 想像一個虛擬助手完美理解並預測您的需求。 由於大型語言模型(LLMS)的進步,這已成為現實。 但是,

數據科學的基本統計測試:綜合指南 從數據中解鎖有價值的見解至關重要。 掌握統計測試對於實現這一目標至關重要。這些測試使數據科學家能夠嚴格瓦爾

介紹 原始變壓器的引入為當前的大語言模型鋪平了道路。同樣,在引入變壓器模型之後,引入了視覺變壓器(VIT)。喜歡

Langchain文本拆分器:優化LLM輸入以提高效率和準確性 我們上一篇文章介紹了Langchain的文檔加載程序。 但是,LLM具有上下文窗口大小的限制(以代幣測量)。 超過此限制會截斷數據,comp

生成的AI:革命性的創造力和創新 生成的AI通過按下按鈕來創建文本,圖像,音樂和虛擬世界來改變行業。 它的影響跨越視頻編輯,音樂製作,藝術,娛樂,HEA

利用嵌入模型的力量來回答高級問題 在當今信息豐富的世界中,立即獲得精確答案的能力至關重要。 本文展示了使用強大的提問(QA)模型

本文探討了十個徹底改變人工智能(AI)和機器學習(ML)的開創性出版物。 我們將研究神經網絡和算法的最新突破,並解釋驅動現代AI的核心概念。 Th

AI在SEO中的崛起:超過SEO代理商的前11個工具 AI的快速發展已深刻地重塑了SEO景觀。 旨在提高頂級搜索引擎排名的企業正在利用AI優化其在線策略的能力。 來自AU


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver Mac版
視覺化網頁開發工具

記事本++7.3.1
好用且免費的程式碼編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。