Heim > Artikel > Technologie-Peripheriegeräte > Neues SOTA zur Zielerkennung: YOLOv9 erscheint und die neue Architektur erweckt die traditionelle Faltung wieder zum Leben
Im Bereich der Zielerkennung macht YOLOv9 weiterhin Fortschritte im Implementierungsprozess. Durch die Einführung neuer Architekturen und Methoden wird die Parameternutzung der herkömmlichen Faltung effektiv verbessert, wodurch die Leistung den Produkten der vorherigen Generation weit überlegen ist.
Nach der offiziellen Veröffentlichung von YOLOv8 im Januar 2023, mehr als ein Jahr später, ist YOLOv9 endlich da!
Seit Joseph Redmon, Ali Farhadi und andere im Jahr 2015 das YOLO-Modell der ersten Generation vorgeschlagen haben, haben Forscher auf dem Gebiet der Zielerkennung es viele Male aktualisiert und iteriert. YOLO ist ein Vorhersagesystem, das auf globalen Bildinformationen basiert und dessen Modellleistung kontinuierlich verbessert wird. Durch die kontinuierliche Verbesserung von Algorithmen und Technologien haben Forscher bemerkenswerte Ergebnisse erzielt und YOLO bei Zielerkennungsaufgaben immer leistungsfähiger gemacht. Diese kontinuierlichen Verbesserungen und Optimierungen haben neue Chancen und Herausforderungen für die Entwicklung der Zielerkennungstechnologie mit sich gebracht und gleichzeitig den Fortschritt und die Innovation in diesem Bereich gefördert. Der Erfolg von YOLO hat auch Forscher dazu inspiriert, ihre Bemühungen fortzusetzen
Dieses Mal wurde YOLOv9 gemeinsam von der Academia Sinica in Taiwan, der Taipei University of Technology und anderen Institutionen entwickelt " wurde veröffentlicht.
Papieradresse: https://arxiv.org/pdf/2402.13616.pdf
GitHub-Adresse: https://github.com/WongKinYiu/yolov9
Die heutigen Deep-Learning-Methoden konzentrieren sich darauf, wie man am meisten entwirft geeignete Zielfunktion, sodass die Vorhersageergebnisse des Modells der realen Situation am nächsten kommen können. Gleichzeitig muss eine geeignete Architektur entworfen werden, die dabei helfen kann, ausreichend Informationen für die Vorhersage zu erhalten. Bestehende Methoden ignorieren jedoch die Tatsache, dass bei der schichtweisen Merkmalsextraktion und räumlichen Transformation der Eingabedaten eine große Menge an Informationen verloren geht.
Daher untersucht YOLOv9 eingehend die wichtigen Probleme des Datenverlusts, wenn Daten über tiefe Netzwerke übertragen werden, nämlich Informationsengpässe und umkehrbare Funktionen.
Forscher schlugen das Konzept der „programmierbaren Gradienteninformation (PGI)“ vor, um die verschiedenen Änderungen zu bewältigen, die tiefe Netzwerke zum Erreichen mehrerer Ziele erfordern. PGI kann vollständige Eingabeinformationen für die Zielaufgabe zur Berechnung der Zielfunktion bereitstellen und so zuverlässige Gradienteninformationen zur Aktualisierung der Netzwerkgewichte erhalten. Darüber hinaus entwarfen Forscher eine neue, leichtgewichtige Netzwerkarchitektur, die auf der Gradientenpfadplanung basiert, nämlich
Generalized Efficient Layer Aggregation Network (GELAN). Diese Architektur bestätigt, dass PGI bei leichten Modellen hervorragende Ergebnisse erzielen kann. Die Forscher überprüften das vorgeschlagene GELAN und die PGI für die Zielerkennungsaufgabe basierend auf dem MS COCO-Datensatz. Die Ergebnisse zeigen, dass GELAN im Vergleich zu SOTA-Methoden, die auf der Grundlage tiefer Faltungen entwickelt wurden, eine bessere Parameterausnutzung erreicht, wenn nur herkömmliche Faltungsoperatoren verwendet werden.
Für PGI ist es sehr anpassungsfähig und kann auf verschiedenen Modellen von leicht bis groß verwendet werden. Wir können dies nutzen, um vollständige Informationen zu erhalten, sodass
ein von Grund auf trainiertes Modell bessere Ergebnisse erzielen kannals ein SOTA-Modell, das mit einem großen Datensatz vorab trainiert wurde. Abbildung 1 unten zeigt einige Vergleichsergebnisse.
Quelle: https://twitter.com/alexeyab84/status/1760685626247250342Einige Internetnutzer sagten: Scheint der neue SOTA-Echtzeit-Objektdetektor zu sein, der über ein eigenes benutzerdefiniertes Schulungs-Tutorial verfügt auch der Weg.
Quelle: https://twitter.com/skalskip92/status/1760717291593834648S Einige „fleißige“ Internetnutzer haben dem YOLOv9-Modell Pip-Unterstützung hinzugefügt. P Quelle: https://twitter.com/kadirnar_ai/status/1760716187896283635
In den Details von YOLOV9. Problemstellung
Normalerweise führen Menschen das Konvergenzschwierigkeitsproblem tiefer
neuronaler Netzeauf Faktoren wie das Verschwinden des Gradienten oder die Gradientensättigung zurück, und diese Phänomene gibt es in traditionellen tiefen neuronalen Netzen. Moderne tiefe
neuronale Netzehaben die oben genannten Probleme jedoch grundsätzlich gelöst, indem sie verschiedene Normalisierungs- und Aktivierungsfunktionen entworfen haben. Dennoch gibt es immer noch Probleme mit einer langsamen Konvergenzgeschwindigkeit oder einem schlechten Konvergenzeffekt in tiefen neuronalen Netzen. Was ist also der Kern dieses Problems? Durch eine eingehende Analyse des Informationsengpasses leiteten die Forscher die Grundursache des Problems ab: Kurz nachdem der Gradient zunächst aus dem sehr tiefen Netzwerk herausgegeben wurde, gehen viele der zum Erreichen des Ziels erforderlichen Informationen verloren. Um diese Schlussfolgerung zu überprüfen, führten die Forscher eine Feedforward-Verarbeitung in tiefen Netzwerken unterschiedlicher Architektur mit Anfangsgewichten durch. Abbildung 2 veranschaulicht dies visuell. Offensichtlich verliert PlainNet viele wichtige Informationen, die für die Objekterkennung in tiefen Schichten erforderlich sind. Der Anteil wichtiger Informationen, den ResNet, CSPNet und GELAN behalten können, steht in der Tat in einem positiven Zusammenhang mit der Genauigkeit, die nach dem Training erreicht werden kann. Darüber hinaus entwickelten die Forscher eine auf reversiblen Netzwerken basierende Methode, um die Ursachen der oben genannten Probleme zu lösen. Einführung in die Methode
Programmierbare Gradienteninformationen (PGI)Diese Studie schlägt einen neuen Hilfsüberwachungsrahmen vor: Programmierbare Gradienteninformationen (PGI), wie in Abbildung 3(d) gezeigt.
PGI besteht hauptsächlich aus drei Teilen, nämlich (1) Hauptzweig, (2) umkehrbarer Hilfszweig, (3) mehrstufige Hilfsinformationen.
Der Inferenzprozess von PGI verwendet nur den Hauptzweig, sodass keine zusätzlichen Argumentationskosten anfallen.
Experimentelle Ergebnisse
Um die Leistung von YOLOv9 zu bewerten, verglich diese Studie YOLOv9 zunächst umfassend mit anderen von Grund auf trainierten Echtzeit-Objektdetektoren. Die Ergebnisse sind in Tabelle 1 unten aufgeführt. Die Studie umfasste auch das vorab trainierte ImageNet-Modell in den Vergleich. Die Ergebnisse sind in Abbildung 5 unten dargestellt. Es ist erwähnenswert, dass YOLOv9 mit traditioneller Faltung sogar besser ist als YOLO MS mit tiefer Faltung bei der Parameternutzung.AblationsexperimenteUm die Rolle jeder Komponente in YOLOv9 zu untersuchen, führte diese Studie eine Reihe von Ablationsexperimenten durch. Diese Studie führte zunächst ein Ablationsexperiment am GELAN-Rechenblock durch. Wie in Tabelle 2 unten gezeigt, ergab die Studie, dass das System durch das Ersetzen der Faltungsschichten in ELAN durch andere Rechenblöcke eine gute Leistung beibehielt.
Dann führte die Studie Ablationsexperimente an GELAN unterschiedlicher Größe für ELAN-Blocktiefe und CSP-Blocktiefe durch. Die Ergebnisse sind in Tabelle 3 unten aufgeführt.
In Bezug auf PGI führten die Forscher Ablationsstudien zu reversiblen Hilfszweigen und mehrstufigen Hilfsinformationen zum Rückgratnetzwerk bzw. zum Hals durch. Tabelle 4 listet die Ergebnisse aller Experimente auf. Wie aus Tabelle 4 ersichtlich ist, ist PFH nur für tiefe Modelle wirksam, während das in diesem Artikel vorgeschlagene PGI die Genauigkeit bei verschiedenen Kombinationen verbessern kann.
Die Forscher implementierten außerdem PGI und Tiefenüberwachung an Modellen unterschiedlicher Größe und verglichen die Ergebnisse. Die Ergebnisse sind in Tabelle 5 dargestellt.
Abbildung 6 zeigt die Ergebnisse des schrittweisen Hinzufügens von Komponenten von der Basislinie YOLOv7 zu YOLOv9-E.
Visualisierung
Die Forscher untersuchten das Problem des Informationsengpasses und visualisierten es. Abbildung 6 zeigt die Visualisierungsergebnisse der Feature-Maps, die mit zufälligen Anfangsgewichten als Feedforward unter verschiedenen Architekturen erhalten wurden.
Abbildung 7 zeigt, ob PGI während des Trainings zuverlässigere Gradienten liefern kann, sodass die zur Aktualisierung verwendeten Parameter die Beziehung zwischen den Eingabedaten und dem Ziel effektiv erfassen können.
Für weitere technische Details lesen Sie bitte den Originalartikel.
Das obige ist der detaillierte Inhalt vonNeues SOTA zur Zielerkennung: YOLOv9 erscheint und die neue Architektur erweckt die traditionelle Faltung wieder zum Leben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!