首頁 >科技週邊 >人工智慧 >YoloCS：有效降低特徵圖空間複雜度

YoloCS：有效降低特徵圖空間複雜度

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2024-06-12 17:49:26442瀏覽

YoloCS：有效降低特徵圖空間複雜度

論文地址：YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification (arxiv.org)

#01 總述

在今天分享中，研究者檢視了在特徵純化和梯度反向傳播過程中通道特徵和卷積核之間的關聯，重點是網絡內的前向和反向傳播。因此，研究者提出了一種稱為密集通道壓縮的特徵空間固化方法。根據此方法的核心概念，引入了兩個用於骨幹網路和頭部網路的創新模組：用於特徵空間固化的密集通道壓縮（DCFS）和非對稱多層壓縮解耦頭部（ADH）。當整合到YOLOv5模型中時，這兩個模組表現出非凡的性能，從而產生了一個被稱為YOLOCS的改進模型。

YoloCS：有效降低特徵圖空間複雜度

在MSCOCO資料集上評估，大、中、小YOLOCS模型的AP分別為50.1%、47.6%和42.5% 。在保持與YOLOv5模型的推理速度相似的情況下，大、中、小YOLOCS模型分別達到了1.1%、2.3%和5.2%的優勢超過YOLOv5的AP。

02 背景

近年來，目標偵測技術在電腦視覺領域受到了廣泛關注。其中，基於單發多框演算法的目標偵測技術（Single Shot Multi Box Detector，簡稱SSD）和基於卷積神經網路的目標偵測技術（Convolutional Neural Networks，簡稱CNN）是兩種最常用的目標偵測技術。然而，由於單發多框演算法的精度較低，而基於卷積神經網路的目標檢測技術的計算複雜度較高，因此，尋找一種高效且精度較高的目標檢測技術成為了當前研究的熱點之一。

YoloCS：有效降低特徵圖空間複雜度

Dense Channel Compression (DCC) 是一種新型的捲積神經網路壓迫技術，它透過對卷積神經網路中的特徵圖進行空間固化，從而實現網路參數的壓縮和加速。然而，DCC技術在目標偵測領域的應用尚未得到充分的研究。 Dense Channel Compression (DCC) 技術旨在透過減少網路參數的數量來提高運算效率。具體而言，DCC透過對卷積層的輸出特徵圖進行通道壓縮，從而減少卷積層的參數數量。這種壓縮技術可以透過刪除冗餘和不必要的通道，或使用低秩分解等方法來實現。儘管DCC技術在影像分類任務上

YoloCS：有效降低特徵圖空間複雜度

因此，提出了一種基於Dense Channel Compression的目標偵測技術，命名為YOLOCS（YOLO with Dense Channel Compression）。 YOLOCS技術將DCC技術與YOLO（You Only Look Once）演算法結合，實現了對目標偵測的高效且精度較高的處理。具體來說，YOLOCS技術透過DCC技術對特徵圖進行空間固化，從而實現了對目標標位置的精確定位；同時，YOLOCS技術利用YOLO演算法的單發多框演算法特點，實現了對目標標別分類的快速計算。

03 新框架

Dense Channel Compression for Feature Spatial Solidification Structure (DCFS)

YoloCS：有效降低特徵圖空間複雜度

#在提出的方法中（上圖（c））中，研究者不僅解決了網路寬度和深度之間的平衡問題，也透過3×3卷積壓縮了來自不同深度層的特徵，在輸出和融合特徵之前將通道數量減少了一半。這種方法使研究者能夠在更大程度上細化來自不同層的特徵輸出，從而在融合階段增強特徵的多樣性和有效性。

此外，來自每一層的壓縮特徵都帶有更大的捲積核權重（3×3），從而有效地擴展了輸出特徵的感受野。將這種方法稱為特徵空間固化的密集通道壓縮。用於特徵空間固化的密集通道壓縮背後的基本原理依賴於利用較大的捲積核來促進通道壓縮。該技術具有兩個關鍵優點：首先，它擴展了前向傳播過程中特徵感知的感受域，從而確保了區域相關的特徵細節被納入，以最大限度地減少整個壓縮階段的特徵損失。其次，誤差反向傳播過程中誤差細節的增強允許更準確的權重調整。

為了進一步闡明這兩個優點，使用具有兩種不同核類型（1×1和3×3）的捲積來壓縮兩個通道，如下圖：

YoloCS：有效降低特徵圖空間複雜度

DCFS的網路結構如下圖所示。採用三層瓶頸結構，在網路前向傳播的過程中逐漸壓縮頻道。半通道3×3卷積應用於所有分支，然後是批次歸一化（BN）和激活函數層。隨後，使用1×1卷積層來壓縮輸出特徵通道，以符合輸入特徵通道。

YoloCS：有效降低特徵圖空間複雜度

Asymmetric Multi-level Channel Compression Decoupled Head (ADH)

#為了解決YOLOX模型中的解耦頭問題，研究者進行了一系列的研究和實驗。研究結果揭示了解耦頭部結構的利用與相關損失函數之間的邏輯相關性。具體而言，對於不同的任務，應根據損失計算的複雜度調整解耦頭的結構。此外，當將解耦的頭部結構應用於各種任務時，由於最終輸出維度的差異，將前一層的特徵通道（如下圖）直接壓縮為任務通道可能會導致顯著的特徵損失。這反過來又會對模型的整體性能產生不利影響。

YoloCS：有效降低特徵圖空間複雜度

此外，考慮提出的用於特徵空間固化的密集通道壓縮方法時，直接減少最終層中的通道數量以匹配輸出通道可能會導致前向傳播過程中的特徵遺失，從而降低網路效能。同時，在反向傳播的背景下，這種結構可能會導致次優誤差反向傳播，阻礙梯度穩定性的實現。為了應對這些挑戰，引入了一種新的解耦頭，稱為非對稱多級通道壓縮解耦頭（如下圖（b））。

YoloCS：有效降低特徵圖空間複雜度

具體而言，研究者深化了專用於目標評分任務的網路路徑，並使用3個卷積來擴展該任務的感受野和參數數量。同時，沿著通道維度壓縮每個卷積層的特徵。此方法不僅有效地減輕了與目標評分任務相關的訓練難度，提高了模型性能，而且大大減少了解耦頭部模組的參數和GFLOP，從而顯著提高了推理速度。此外，使用1卷積層來分離分類和邊界框任務。這是因為對於匹配的正樣本，與兩個任務相關聯的損失相對較小，因此避免了過度擴展。這種方法大大降低了解耦頭中的參數和GFLOP，最終提高了推理速度。