Heim >Technologie-Peripheriegeräte >KI >DetZero: Waymo belegt den ersten Platz in der 3D-Erkennungsliste, vergleichbar mit manueller Annotation!
Dieser Artikel schlägt eine Reihe von Offline-3D-Objekterkennungsalgorithmen DetZero vor. Durch umfassende Recherche und Auswertung des öffentlichen Datensatzes von Waymo kann DetZero kontinuierliche und vollständige Objekttrajektoriensequenzen generieren und langfristige Punktwolken vollständig nutzen. Funktionen verbessern die Qualität der wahrgenommenen Ergebnisse erheblich. Gleichzeitig belegte es mit einer Leistung von 85,15 mAPH (L2) den ersten Platz in der Rangliste der WOD-3D-Objekterkennung. Darüber hinaus kann DetZero eine hochwertige automatische Kennzeichnung für das Online-Modelltraining bereitstellen, und seine Ergebnisse haben das Niveau der manuellen Kennzeichnung erreicht oder sogar übertroffen.
Dies ist der Papierlink: https://arxiv.org/abs/2306.06023
Der Inhalt, der neu geschrieben werden muss, ist: Codelink: https://github.com/PJLab-ADG/DetZero
Bitte besuchen der Homepage-Link: https://superkoma.github.io/detzero-page
Um die Effizienz der Datenanmerkung zu verbessern, haben wir eine neue Methode untersucht. Diese Methode basiert auf Deep Learning und unüberwachtem Lernen und kann automatisch annotierte Daten generieren. Mithilfe großer Mengen unbeschrifteter Daten können wir ein autonomes Fahrwahrnehmungsmodell trainieren, um Objekte auf der Straße zu erkennen und zu erkennen. Diese Methode kann nicht nur die Kosten für die Kennzeichnung von Daten senken, sondern auch die Effizienz der Nachbearbeitung verbessern. Wir haben Waymos Offline-3D-Objekterkennungsmethode 3DAL[] als Vergleichsbasis für unsere Experimente verwendet und die Ergebnisse zeigen, dass unsere vorgeschlagene Methode erhebliche Verbesserungen in Bezug auf Genauigkeit und Effizienz aufweist. Wir glauben, dass diese Methode eine wichtige Rolle in der zukünftigen autonomen Fahrtechnologie spielen wird. Objekterkennung (
Erkennung): Geben Sie eine kleine Menge kontinuierlicher Punktwolken-Rahmendaten ein und geben Sie den Begrenzungsrahmen und die Kategorieinformationen des 3D-Objekts in jedem Rahmen aus ;Das auf dem Bewegungszustand basierende Optimierungsmodell sagt die Größe des Objekts voraus (a), und das geometrische Optimierungsmodell sagt die Größe des Objekts nach der Aggregation aller Punktwolken aus verschiedenen Perspektiven voraus (b)
In diesem Artikel wird ein neues Offline-Algorithmus-Framework für die 3D-Objekterkennung namens DetZero vorgeschlagen. Dieses Framework weist die folgenden Merkmale auf: (1) Verwenden Sie Multi-Frame-3D-Detektoren und Offline-Tracker als Upstream-Module, um eine genaue und vollständige Objektverfolgung bereitzustellen, wobei der Schwerpunkt auf einem hohen Rückruf von Objektsequenzen (Track-Level-Recall) liegt Enthält ein auf dem Aufmerksamkeitsmechanismus basierendes Optimierungsmodell, das langfristige Punktwolkenfunktionen verwendet, um verschiedene Attribute von Objekten zu lernen und vorherzusagen, einschließlich verfeinerter geometrischer Abmessungen, Positionen glatter Bewegungsbahnen und aktualisierter Konfidenzwerte
Wir verwenden den öffentlichen CenterPoint[] als Basisdetektor. Um mehr Erkennungskandidatenrahmen bereitzustellen, haben wir ihn in drei Aspekten verbessert: (1) Verwendung verschiedener Rahmenpunktwolkenkombinationen als Eingabe, um die Leistung zu maximieren Reduzieren der Leistung; (2) Verwenden Sie Punktwolkendichteinformationen, um die ursprünglichen Punktwolkenmerkmale und Voxelmerkmale in einem zweistufigen Modul zusammenzuführen, um die Grenzergebnisse der ersten Stufe zu optimieren. (3) Verwenden Sie die Inferenzstufen-Datenerweiterung (TTA). -Modell-Ergebnisfusion (Ensemble) und andere Technologien werden verwendet, um die Anpassungsfähigkeit des Modells an komplexe Umgebungen zu verbessern. Im Offline-Tracking-Modul wird eine zweistufige Korrelationsstrategie eingeführt, um falsche Übereinstimmungen zu reduzieren zum Vertrauen, und die hohe Gruppe besteht darin, dass Assoziationen vorhandene Trajektorien aktualisieren, und nicht aktualisierte Trajektorien sind mit niedrigen Gruppierungen verbunden. Gleichzeitig kann die Länge der Objekttrajektorie bis zum Ende der Sequenz andauern, wodurch Probleme beim ID-Wechsel vermieden werden. Darüber hinaus führen wir den Tracking-Algorithmus in umgekehrter Reihenfolge aus, um einen weiteren Satz von Trajektorien zu generieren, diese durch Positionsähnlichkeit zu verknüpfen und schließlich die WBF-Strategie zu verwenden, um die erfolgreich abgeglichenen Trajektorien zu verschmelzen, um die Integrität des Anfangs und Endes der Sequenz weiter zu verbessern. Schließlich wird für die differenzierte Objektsequenz die entsprechende Punktwolke jedes Frames extrahiert und gespeichert; die nicht aktualisierten redundanten Boxen und einige kürzere Sequenzen werden ohne nachgelagerte Optimierung direkt in die endgültige Ausgabe eingefügt.
2.2 Objektoptimierungsmodul basierend auf AttributvorhersageInteraktion zwischen lokalen und globalen Positionen: Wählen Sie zufällig eine beliebige Box in der Objektsequenz als Ursprung aus, übertragen Sie alle anderen Boxen und entsprechenden Objektpunktwolken in dieses Koordinatensystem und berechnen Sie die Summe jedes Punktes zum Mittelpunkt der jeweiligen Begrenzung Box Der Abstand zwischen den acht Eckpunkten dient als Schlüssel und Wert des globalen Positionsmerkmals. Jedes Beispiel in der Objektsequenz wird als Positionsabfrage verwendet und an die Selbstaufmerksamkeitsschicht gesendet, um den relativen Abstand zwischen der aktuellen Position und anderen Positionen zu bestimmen. Anschließend wird es in die Queraufmerksamkeitsschicht eingegeben, um die Kontextbeziehung zu simulieren Lokale zu globalen Positionen und prognostizieren Sie den Versatz zwischen jedem anfänglichen Mittelpunkt und dem wahren Mittelpunkt sowie die Kurswinkeldifferenz.
Unser Offline-Tracker achtet mehr auf die Integrität der Objektsequenz, obwohl die Die MOTA-Leistung der beiden ist gering, aber die Leistung von Recall@track ist einer der Gründe für den großen Unterschied in der endgültigen Optimierungsleistung. Leistungsvergleich der Leistung des Offline-Trackers (Trk2) und des 3DAL-Trackers (Trk1). von MOTA und Recall@track
Darüber hinaus zeigt sich dies auch im Vergleich zu anderen hochmodernen Trackern
Recall@track ist der vom Tracking-Algorithmus verarbeitete Sequenzabruf, 3D APH ist die endgültige Leistung, die von verarbeitet wird das gleiche Optimierungsmodell
3.3 Generalisierungsleistung
Um zu überprüfen, ob unser Optimierungsmodell fest an einen bestimmten Upstream-Ergebnissatz angepasst werden kann, haben wir Upstream-Erkennungsverfolgungsergebnisse mit unterschiedlicher Leistung als Eingabe ausgewählt. Die Ergebnisse zeigen, dass wir erhebliche Leistungsverbesserungen erzielt haben, was ein weiterer Beweis dafür ist, dass unser Optimierer die Eigenschaften seiner Zeitreihen-Punktwolke effektiv zur Optimierung nutzen kann, solange das Upstream-Modul immer vollständigere Objektsequenzen abrufen kann Waymo-Validierungssatz Überprüfung der Generalisierungsleistung, der Indikator ist 3D APH3.4 Vergleich mit der menschlichen Markierungsfähigkeit
Das rote Feld stellt die Upstream-Eingabe dar Ergebnisse, und das blaue Kästchen stellt das optimierte Modell dar. Die AusgabeergebnisseDie erste Zeile stellt die Upstream-Eingabeergebnisse dar, die zweite Zeile stellt die Ausgabeergebnisse des Optimierungsmodells dar und die Objekte innerhalb der gepunkteten Linien stellen die Orte dar, an denen der Unterschied offensichtlich ist vor und nach der Optimierung
Originallink: https://mp.weixin.qq.com/s/HklBecJfMOUCC8gclo-t7Q
Das obige ist der detaillierte Inhalt vonDetZero: Waymo belegt den ersten Platz in der 3D-Erkennungsliste, vergleichbar mit manueller Annotation!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!