Heim >Technologie-Peripheriegeräte >KI >YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

WBOYOriginal: 2024-06-12 17:49:26406Durchsuche

Papieradresse: YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification (arxiv.org)

01 Zusammenfassung

In der heutigen Freigabe untersuchte der Forscher die Merkmale der Merkmalsreinigung und des Gradienten Korrelation zwischen Kanaleigenschaften und Faltungskernen während der Rückausbreitung, wobei der Schwerpunkt auf der Vorwärts- und Rückwärtsausbreitung innerhalb des Netzwerks liegt. Daher schlugen die Forscher eine Methode zur Verfestigung des Merkmalsraums vor, die als dichte Kanalkomprimierung bezeichnet wird. Basierend auf den Kernkonzepten der Methode werden zwei innovative Module für Backbone- und Head-Netzwerke vorgestellt: Dense-Channel-Compression (DCFS) zur Feature-Space-Solidifizierung und asymmetrische Multi-Level-Compression-Decoupled-Head (ADH). Bei der Integration in das YOLOv5-Modell zeigten diese beiden Module eine außergewöhnliche Leistung, was zu einem verbesserten Modell namens YOLOCS führte.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Ausgewertet anhand des MSCOCO-Datensatzes beträgt der AP der großen, mittleren und kleinen YOLOCS-Modelle 50,1 %, 47,6 % bzw. 42,5 %. Unter Beibehaltung einer ähnlichen Inferenzgeschwindigkeit wie das YOLOv5-Modell erzielten die großen, mittleren und kleinen YOLOCS-Modelle 1,1 %, 2,3 % bzw. 5,2 % Vorteile gegenüber dem AP von YOLOv5.

02 Hintergrund

In den letzten Jahren hat die Objekterkennungstechnologie im Bereich Computer Vision große Aufmerksamkeit erhalten. Dazu gehören die Zielerkennungstechnologie, die auf dem Single-Shot-Multi-Box-Algorithmus (Single Shot Multi Box Detector, kurz SSD) basiert, und die Zielerkennungstechnologie, die auf dem Faltungs-Neuronalen Netzwerk (Convolutional Neural Networks, kurz CNN) basiert die beiden am häufigsten verwendeten Zielerkennungstechnologien. Aufgrund der geringen Genauigkeit des Single-Shot-Multi-Frame-Algorithmus und der hohen Rechenkomplexität der auf Faltungs-Neuronalen Netzen basierenden Zielerkennungstechnologie ist die Suche nach einer effizienten und hochpräzisen Zielerkennungstechnologie jedoch zu einem Brennpunkt in der aktuellen Forschung geworden. eins.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Dense Channel Compression (DCC) ist eine neue Convolutional Neural Network-Komprimierungstechnologie, die eine Komprimierung und Beschleunigung von Netzwerkparametern durch räumliche Verfestigung der Feature-Maps im Convolutional Neural Network erreicht. Allerdings ist die Anwendung der DCC-Technologie im Bereich der Zielerkennung noch nicht vollständig untersucht. Die Dense-Channel-Compression-Technologie (DCC) zielt darauf ab, die Recheneffizienz durch Reduzierung der Anzahl der Netzwerkparameter zu verbessern. Insbesondere reduziert DCC die Anzahl der Parameter der Faltungsschicht, indem es eine Kanalkomprimierung an der Ausgabe-Feature-Map der Faltungsschicht durchführt. Diese Komprimierungstechnik kann durch Entfernen redundanter und unnötiger Kanäle oder durch den Einsatz von Methoden wie der Low-Rank-Zerlegung erreicht werden. Obwohl die DCC-Technologie bei Bildklassifizierungsaufgaben sehr effektiv ist, wird daher eine auf Dense-Channel-Komprimierung basierende Zielerkennungstechnologie namens YOLOCS (YOLO mit Dense-Channel-Komprimierung) vorgeschlagen. Die YOLOCS-Technologie kombiniert die DCC-Technologie mit dem YOLO-Algorithmus (You Only Look Once), um eine effiziente und hochpräzise Verarbeitung der Zielerkennung zu erreichen. Insbesondere verwendet die YOLOCS-Technologie die DCC-Technologie, um die Feature-Map räumlich zu verfestigen und so eine präzise Positionierung der Zielposition zu erreichen. Gleichzeitig nutzt die YOLOCS-Technologie die Eigenschaften des Single-Shot-Multi-Frame-Algorithmus, um eine schnelle Zielklassifizierung zu erreichen Berechnung.

03 Neues Framework Das Problem zwischen Netzwerkbreite und -tiefe komprimiert auch Features aus verschiedenen Tiefenschichten durch 3×3-Faltung, wodurch die Anzahl der Kanäle vor der Ausgabe und Zusammenführung von Features um die Hälfte reduziert wird. Dieser Ansatz ermöglicht es Forschern, die Feature-Ausgaben aus verschiedenen Schichten stärker zu verfeinern und so die Feature-Vielfalt und Effektivität während der Fusionsphase zu verbessern.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Darüber hinaus weisen die komprimierten Merkmale jeder Schicht größere Faltungskerngewichte (3×3) auf, wodurch das Empfangsfeld der Ausgabemerkmale effektiv erweitert wird. Dieser Ansatz wird als Feature-Space-Solidified-Dense-Channel-Komprimierung bezeichnet. Der Grundgedanke hinter der dichten Kanalkomprimierung zur Verfestigung des Merkmalsraums beruht auf der Verwendung größerer Faltungskerne, um die Kanalkomprimierung zu erleichtern. Diese Technik hat zwei wesentliche Vorteile: Erstens erweitert sie das Empfangsfeld der Merkmalswahrnehmung während der Vorwärtsausbreitung und stellt so sicher, dass regional relevante Merkmalsdetails einbezogen werden, um den Merkmalsverlust während der Komprimierungsphase zu minimieren. Zweitens ermöglicht die Verbesserung der Fehlerdetails während der Fehler-Backpropagation eine genauere Gewichtsanpassung.

Um diese beiden Vorteile weiter zu veranschaulichen, werden zwei Kanäle mithilfe von Faltungen mit zwei verschiedenen Kerneltypen (1×1 und 3×3) komprimiert, wie unten gezeigt:

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Netzwerk von DCFS Die Struktur wird angezeigt in der Abbildung unten. Es wird eine dreischichtige Engpassstruktur verwendet, um den Kanal während des Vorwärtsausbreitungsprozesses des Netzwerks schrittweise zu komprimieren. Auf alle Zweige wird eine Halbkanal-3×3-Faltung angewendet, gefolgt von Batch-Normalisierung (BN) und Aktivierungsfunktionsschichten. Anschließend wird eine 1 × 1-Faltungsschicht verwendet, um die Ausgabe-Feature-Kanäle so zu komprimieren, dass sie mit den Eingabe-Feature-Kanälen übereinstimmen.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

asymmetrische mehrstufige Kanalkanalkomprimierung entkoppeltes Kopf (ADH)

in der Befehl, das entkoppelte Kopfproblem im Yolox-Modell zu lösen, führten die Forscher eine Reihe von einer Reihe von Forschen und experimentieren. Die Ergebnisse zeigen einen logischen Zusammenhang zwischen der Nutzung entkoppelter Kopfstrukturen und den damit verbundenen Verlustfunktionen. Konkret sollte für unterschiedliche Aufgabenstellungen der Aufbau des Entkopplungskopfes entsprechend der Komplexität der Verlustberechnung angepasst werden. Wenn die entkoppelte Kopfstruktur außerdem auf verschiedene Aufgaben angewendet wird, kann die direkte Komprimierung der Merkmalskanäle der vorherigen Schicht (wie unten gezeigt) in Aufgabenkanäle aufgrund von Unterschieden in den endgültigen Ausgabeabmessungen zu einem erheblichen Merkmalsverlust führen. Dies wiederum kann sich negativ auf die Gesamtleistung des Modells auswirken.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Darüber hinaus kann bei der Betrachtung der vorgeschlagenen Komprimierungsmethode für dichte Kanäle zur Verfestigung des Merkmalsraums die direkte Reduzierung der Anzahl der Kanäle in der letzten Schicht, um sie an die Ausgabekanäle anzupassen, zu einem Merkmalsverlust während der Vorwärtsausbreitung führen und somit die Netzwerkleistung verringern . Gleichzeitig kann diese Struktur im Kontext der Backpropagation zu einer suboptimalen Fehler-Backpropagation führen, was das Erreichen der Gradientenstabilität behindert. Um diesen Herausforderungen zu begegnen, wird ein neuer Entkopplungskopf eingeführt, ein sogenannter asymmetrischer mehrstufiger Kompressions-Entkopplungskopf (siehe Abbildung (b) unten).

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Konkret vertieften die Forscher den Netzwerkpfad, der der Zielbewertungsaufgabe gewidmet war, und verwendeten drei Faltungen, um das Empfangsfeld und die Anzahl der Parameter der Aufgabe zu erweitern. Gleichzeitig werden die Merkmale jeder Faltungsschicht entlang der Kanaldimension komprimiert. Diese Methode lindert nicht nur effektiv die mit der Zielbewertungsaufgabe verbundenen Trainingsschwierigkeiten und verbessert die Modellleistung, sondern reduziert auch die Parameter und GFLOPs des entkoppelten Kopfmoduls erheblich, wodurch die Inferenzgeschwindigkeit erheblich verbessert wird. Darüber hinaus wird eine Faltungsschicht verwendet, um die Klassifizierungs- und Begrenzungsrahmenaufgaben zu trennen. Dies liegt daran, dass bei übereinstimmenden positiven Stichproben die mit beiden Aufgaben verbundenen Verluste relativ gering sind, wodurch eine Überdehnung vermieden wird. Dieser Ansatz reduziert Parameter und GFLOPs im Entkopplungsheader erheblich und erhöht letztendlich die Inferenzgeschwindigkeit. 04 Visualisierung des Experiments

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Das obige ist der detaillierte Inhalt vonYoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Object for channel 算法 cnn YOLO

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Meta bringt „Chameleon“ auf den Markt, um GPT-4o herauszufordern, 34B-Parameter führen die multimodale Revolution an! 10-Billionen-Token-Training erfrischt SOTANächster Artikel：Meta bringt „Chameleon“ auf den Markt, um GPT-4o herauszufordern, 34B-Parameter führen die multimodale Revolution an! 10-Billionen-Token-Training erfrischt SOTA

In Verbindung stehende Artikel

Mehr sehen