Heim >Technologie-Peripheriegeräte >KI >YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~
Heutige Deep-Learning-Methoden konzentrieren sich auf den Entwurf der am besten geeigneten Zielfunktion, damit die Vorhersageergebnisse des Modells der tatsächlichen Situation am nächsten kommen. Gleichzeitig muss eine geeignete Architektur entworfen werden, um ausreichend Informationen für die Vorhersage zu erhalten. Bestehende Methoden ignorieren die Tatsache, dass bei der schichtweisen Merkmalsextraktion und räumlichen Transformation der Eingabedaten eine große Menge an Informationen verloren geht. Dieser Artikel befasst sich mit wichtigen Themen bei der Datenübertragung über tiefe Netzwerke, nämlich Informationsengpässen und umkehrbaren Funktionen. Darauf aufbauend wird das Konzept der programmierbaren Gradienteninformation (PGI) vorgeschlagen, um die verschiedenen Änderungen zu bewältigen, die tiefe Netzwerke zur Erreichung mehrerer Ziele erfordern. PGI kann vollständige Eingabeinformationen für die Zielaufgabe zur Berechnung der Zielfunktion bereitstellen und so zuverlässige Gradienteninformationen zur Aktualisierung der Netzwerkgewichte erhalten. Darüber hinaus wird eine neue, leichtgewichtige Netzwerkarchitektur entwickelt – ein Generalized Efficient Layer Aggregation Network (GELAN), das auf der Gradientenpfadplanung basiert.
Die Verifizierungsergebnisse zeigen, dass die GELAN-Architektur durch PGI bei leichten Modellen erhebliche Vorteile erzielt. Experimente mit dem MS COCO-Datensatz zeigen, dass GELAN in Kombination mit PGI eine bessere Parameterausnutzung erreichen kann als die hochmodernen Methoden, die auf tiefer Faltung basieren und nur herkömmliche Faltungsoperatoren verwenden. Aufgrund seiner Vielseitigkeit eignet sich PGI für eine Vielzahl von Modellen, von leichten bis hin zu großen Modellen. Mit PGI ist das Modell vollständig informiert, sodass mit einem von Grund auf trainierten Modell bessere Ergebnisse erzielt werden können als mit einem hochmodernen Modell, das anhand eines großen Datensatzes vorab trainiert wurde.
Artikeladresse: https://arxiv.org/pdf/2402.13616
Code-Link: https://github.com/WongKinYiu/yolov9
Laut Echtzeitziel im MS COCO-Datensatz Die Ergebnisse des Detektorvergleichs zeigen, dass die auf GELAN und PGI basierenden Zielerkennungsmethoden hinsichtlich der Zielerkennungsleistung den vorherigen, von Grund auf neu trainierten Methoden deutlich voraus sind. Die neue Methode übertrifft RT DETR, das auf einem Vortraining großer Datensätze basiert, hinsichtlich der Genauigkeit und übertrifft auch YOLO MS, das auf einem tiefen Faltungsdesign basiert, hinsichtlich der Parameternutzung. Diese Ergebnisse deuten darauf hin, dass GELAN- und PGI-Methoden potenzielle Vorteile im Bereich der Zielerkennung bieten und zu wichtigen Technologieoptionen für zukünftige Forschungen und Anwendungen werden könnten.
Wie in der folgenden Abbildung gezeigt, (a) Path Aggregation Network (PAN), (b) Reversible Column (RevCol), (c) Traditional Depth Überwachung und (d) Programmable Gradient Information (PGI), vorgeschlagen von YOLOv9.
PGI besteht hauptsächlich aus drei Komponenten:
ist in der folgenden Abbildung dargestellt: (a) CSPNet, (b) ELAN und (c) GELAN, vorgeschlagen von YOLOv9. Es imitiert CSPNet und erweitert ELAN auf GELAN, das jeden Rechenblock unterstützen kann.
Die folgende Tabelle listet den Vergleich von YOLOv9 mit anderen von Grund auf trainierten Echtzeit-Objektdetektoren auf. Insgesamt sind YOLO MS-S für leichte Modelle, YOLO MS für mittlere Modelle, YOLOv7 AF für allgemeine Modelle und YOLOv8-X für große Modelle die leistungsstärksten Methoden unter den vorhandenen Methoden. Im Vergleich zu YOLO MS leichter und mittlerer Modelle verfügt YOLOv9 über etwa 10 % weniger Parameter und 5–15 % weniger Berechnungen, weist jedoch immer noch eine Verbesserung des AP um 0,4–0,6 % auf. Im Vergleich zu YOLOv7 AF hat YOLOv9-C 42 % weniger Parameter und 21 % weniger Berechnungen, erreicht aber den gleichen AP (53 %). Im Vergleich zu YOLOv8-X verfügt YOLOv9-X über 15 % weniger Parameter, 25 % weniger Berechnungen und eine deutliche Verbesserung des AP, der um 1,7 % zugenommen hat. Die obigen Vergleichsergebnisse zeigen, dass YOLOv9 in allen Aspekten gegenüber bestehenden Methoden deutlich verbessert ist.
Die am Vergleich teilnehmenden Methoden verwenden alle ImageNet als Gewichte vor dem Training, einschließlich RT DETR, RTMDet und PP-YOLOE. YOLOv9, das die Scratch-Trainingsmethode verwendet, übertrifft die Leistung anderer Methoden deutlich.
Feature-Map (visualisierte Ergebnisse): Ausgabe durch zufällige Anfangsgewichte von PlainNet, ResNet, CSPNet und GELAN in verschiedenen Tiefen. Nach 100 Schichten beginnt ResNet mit der Erzeugung einer Feed-Forward-Ausgabe, die ausreicht, um die Zielinformationen zu verwirren. Das hier vorgeschlagene GELAN kann auf der 150. Schicht immer noch recht vollständige Informationen behalten und verfügt auf der 200. Schicht immer noch über ausreichende Unterscheidungsfähigkeit.
PAN-Feature-Maps (Visualisierungsergebnisse) von GELAN und YOLOv9 (GELAN + PGI): Nach einer Bias-Aufwärmrunde. GELAN wies zunächst einige Abweichungen auf, konnte sich aber nach dem Hinzufügen des reversiblen PGI-Zweigs besser auf das Zielobjekt konzentrieren.
Visualisierungsergebnisse zufälliger Ausgangsgewichtungs-Feature-Maps für verschiedene Netzwerkarchitekturen: (a) Eingabebild, (b) PlainNet, (c) ResNet, (d) CSPNet und (e) vorgeschlagenes GELAN. Aus der Abbildung ist ersichtlich, dass in verschiedenen Architekturen der Grad der zur Berechnung des Verlusts der Zielfunktion bereitgestellten Informationen unterschiedlich ist und unsere Architektur die vollständigsten Informationen speichern und die zuverlässigsten Gradienteninformationen für die Berechnung der Zielfunktion bereitstellen kann.
In diesem Artikel wird vorgeschlagen, PGI zu verwenden, um das Problem von Informationsengpässen und das Problem zu lösen, dass tiefe Überwachungsmechanismen für leichte neuronale Netze nicht geeignet sind. hat GELAN entwickelt, ein effizientes und leichtes neuronales Netzwerk. In Bezug auf die Zielerkennung zeigt GELAN unter verschiedenen Rechenmodulen und Tiefeneinstellungen eine starke und stabile Leistung. Es ist in der Tat weitgehend auf Modelle skalierbar, die für eine Vielzahl von Inferenzgeräten geeignet sind. Als Reaktion auf die beiden oben genannten Probleme ermöglicht die Einführung von PGI sowohl bei leichten Modellen als auch bei tiefen Modellen erhebliche Verbesserungen der Genauigkeit. YOLOv9, das durch die Kombination von PGI und GELAN entwickelt wurde, zeigt eine starke Wettbewerbsfähigkeit. Sein hervorragendes Design ermöglicht es dem tiefen Modell, die Anzahl der Parameter um 49 % und den Berechnungsaufwand um 43 % im Vergleich zu YOLOv8 zu reduzieren, erreicht aber dennoch eine AP-Verbesserung von 0,6 % gegenüber dem MS COCO-Datensatz.
Originallink: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw
Das obige ist der detaillierte Inhalt vonYOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!