Heim >Technologie-Peripheriegeräte >KI >Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

WBOY
WBOYnach vorne
2024-04-11 16:16:20753Durchsuche

Death of Labeling

Statische Objekterkennung (SOD), einschließlich Ampeln, Leitschilder und Verkehrskegel, die meisten Algorithmen sind datengesteuerte tiefe neuronale Netze und erfordern eine große Menge an Trainingsdaten. Die aktuelle Praxis umfasst typischerweise die manuelle Annotation einer großen Anzahl von Trainingsbeispielen auf LiDAR-gescannten Punktwolkendaten, um Long-Tail-Fälle zu beheben.

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

Manuelle Annotation ist schwierig, die Variabilität und Komplexität realer Szenen zu erfassen, und berücksichtigt häufig Verdeckungen, unterschiedliche Lichtverhältnisse und unterschiedliche Betrachtungswinkel nicht (gelbe Pfeile in Abbildung 1). Der gesamte Prozess hat lange Verknüpfungen, ist äußerst zeitaufwändig, fehleranfällig und kostspielig (Abbildung 2). Daher sind Unternehmen derzeit auf der Suche nach automatischen Etikettierungslösungen, insbesondere basierend auf reiner Sicht. Schließlich verfügt nicht jedes Auto über Lidar.

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

VRSO+ ist ein visionsbasiertes Annotationssystem für statische Objektannotationen. Es nutzt hauptsächlich Informationen aus SFM, 2D-Objekterkennung und Instanzsegmentierungsergebnissen. Der Gesamteffekt ist:

  • Der durchschnittliche Projektionsfehler der Annotation beträgt ist 2,6 Pixel, etwa ein Viertel der Waymo-Annotation (10,6 Pixel)
  • Im Vergleich zur manuellen Annotation wird die Geschwindigkeit um etwa das 16-fache erhöht

Bei statischen Objekten extrahiert VRSO Schlüsselpunkte durch Instanzsegmentierung und Konturen, um die Herausforderung zu lösen Die Integration und Deduplizierung statischer Objekte aus verschiedenen Blickwinkeln sowie die Schwierigkeit einer Unterbeobachtung aufgrund von Okklusionsproblemen verbessert die Anmerkungsgenauigkeit. Aus Abbildung 1 geht hervor, dass VRSO im Vergleich zu den manuellen Annotationsergebnissen des Waymo Open-Datensatzes eine höhere Robustheit und geometrische Genauigkeit zeigt.

(Sie haben das alle gesehen. Wischen Sie doch mit dem Daumen nach oben und klicken Sie auf die Karte oben, um mir zu folgen. Der gesamte Vorgang dauert nur 1,328 Sekunden und Sie erhalten dann alle nützlichen Informationen die Zukunft, falls es nützlich ist~)

Wie man die Situation durchbricht

Das VRSO-System ist hauptsächlich in zwei Teile unterteilt: Szenenrekonstruktion und Statische Objektanmerkung.

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

Der Rekonstruktionsteil steht nicht im Mittelpunkt, er basiert auf dem SFM-Algorithmus, um die Bildhaltung und spärliche 3D-Schlüsselpunkte wiederherzustellen.

Statischer Objektannotationsalgorithmus, kombiniert mit Pseudocode, der allgemeine Prozess ist (im Folgenden wird Schritt für Schritt detailliert beschrieben):

  • Verwendung vorgefertigter 2D-Objekterkennungs- und Segmentierungsalgorithmen zur Generierung von Kandidaten
  • Verwendung von 3D-2D Schlüsselpunktkorrespondenz im SFM-Modell Beziehungen zur Verfolgung von 2D-Instanzen über Frames hinweg
  • Einführung der Reprojektionskonsistenz zur Optimierung der 3D-Anmerkungsparameter statischer Objekte

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

1. Verfolgung von Beziehungen

  • Schritt 1: Extrahieren Sie 3D-Grenzen basierend auf Schlüsselpunkte des SFM-Modells 3D-Punkte innerhalb der Box.
  • Schritt 2: Berechnen Sie die Koordinaten jedes 3D-Punkts auf der 2D-Karte basierend auf der 2D-3D-Übereinstimmungsbeziehung.
  • Schritt 3: Bestimmen Sie die entsprechende Instanz des 3D-Punkts auf der aktuellen 2D-Karte basierend auf den 2D-Kartenkoordinaten und den Eckpunkten der Instanzsegmentierung.
  • Schritt 4: Bestimmen Sie die Entsprechung zwischen 2D-Beobachtungen und 3D-Begrenzungsrahmen für jedes 2D-Bild.

2.proposal generiert

, um die 3D-Box-Parameter (Position, Richtung, Größe) des statischen Objekts für den gesamten Videoclip zu initialisieren. Jeder Schlüsselpunkt von SFM verfügt über eine genaue 3D-Position und ein entsprechendes 2D-Bild. Für jede 2D-Instanz werden Merkmalspunkte innerhalb der 2D-Instanzmaske extrahiert. Dann kann ein Satz entsprechender 3D-Schlüsselpunkte als Kandidaten für 3D-Begrenzungsrahmen betrachtet werden.

Ein Straßenschild wird als Rechteck mit einer Ausrichtung im Raum dargestellt, das 6 Freiheitsgrade hat, einschließlich Translation (,,), Ausrichtung (θ) und Größe (Breite und Höhe). Aufgrund ihrer Tiefe verfügt eine Ampel über 7 Freiheitsgrade. Verkehrskegel werden ähnlich wie Ampeln dargestellt.

3.Vorschlag verfeinern

  • Schritt 1: Extrahieren Sie den Umriss jedes statischen Objekts aus der 2D-Instanzsegmentierung.
  • Schritt 2: Passen Sie den minimal orientierten Begrenzungsrahmen (OBB) für die Konturkontur an.
  • Schritt 3: Extrahieren Sie die Eckpunkte des minimalen Begrenzungsrahmens.
  • Schritt 4: Berechnen Sie die Richtung basierend auf den Scheitelpunkten und Mittelpunkten und bestimmen Sie die Scheitelpunktreihenfolge.
  • Schritt 5: Der Segmentierungs- und Zusammenführungsprozess wird basierend auf den Ergebnissen der 2D-Erkennung und der Instanzsegmentierung durchgeführt.
  • Schritt 6: Beobachtungen mit Verdeckungen erkennen und verwerfen. Das Extrahieren von Eckpunkten aus der 2D-Instanzsegmentierungsmaske erfordert, dass alle vier Ecken jedes Zeichens sichtbar sind. Bei Verdeckungen werden achsenausgerichtete Begrenzungsrahmen (AABBs) aus der Instanzsegmentierung extrahiert und das Flächenverhältnis zwischen AABBs und 2D-Erkennungsrahmen berechnet. Wenn keine Verdeckungen vorhanden sind, sollten diese beiden Flächenberechnungsmethoden nahe beieinander liegen.

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

4. Triangulation

Erhalten Sie den anfänglichen Scheitelpunktwert des statischen Objekts unter 3D-Bedingungen durch Triangulation.

Durch die Überprüfung der Anzahl der Schlüsselpunkte in den 3D-Begrenzungsrahmen, die durch SFM und Instanzsegmentierung während der Szenenrekonstruktion erhalten wurden, gelten nur Instanzen, deren Anzahl der Schlüsselpunkte den Schwellenwert überschreitet, als stabile und gültige Beobachtungen. In diesen Fällen wird der entsprechende 2D-Begrenzungsrahmen als gültige Beobachtung betrachtet. Durch die 2D-Beobachtung mehrerer Bilder werden die Eckpunkte des 2D-Begrenzungsrahmens trianguliert, um die Koordinaten des Begrenzungsrahmens zu erhalten.

Bei kreisförmigen Schildern, die die Scheitelpunkte „unten links, oben links, oben rechts, oben rechts und unten rechts“ auf der Maske nicht unterscheiden, müssen diese kreisförmigen Schilder identifiziert werden. Unter Verwendung von 2D-Erkennungsergebnissen als Beobachtungen kreisförmiger Objekte werden 2D-Instanzsegmentierungsmasken zur Konturextraktion verwendet. Der Mittelpunkt und der Radius werden durch einen Anpassungsalgorithmus der kleinsten Quadrate berechnet. Zu den Parametern des Kreiszeichens gehören der Mittelpunkt (,,), die Richtung (θ) und der Radius ().

5. Tracking-Verfeinerung

Tracking-Feature-Punkt-Zuordnung basierend auf SFM. Bestimmen Sie, ob diese getrennten Instanzen basierend auf dem euklidischen Abstand der Eckpunkte des 3D-Begrenzungsrahmens und der IoU der 2D-Begrenzungsrahmenprojektion zusammengeführt werden sollen. Sobald die Zusammenführung abgeschlossen ist, können 3D-Feature-Punkte innerhalb einer Instanz gruppiert werden, um weitere 2D-Feature-Punkte zuzuordnen. Es wird eine iterative 2D-3D-Assoziation durchgeführt, bis keine 2D-Feature-Punkte mehr hinzugefügt werden können.

6. Endgültige Parameteroptimierung

Am Beispiel des rechteckigen Zeichens umfassen die Parameter, die optimiert werden können, Position (,,), Richtung (θ) und Größe (,) mit insgesamt sechs Grad der Freiheit. Die Hauptschritte umfassen:

  • Konvertieren Sie sechs Freiheitsgrade in vier 3D-Punkte und berechnen Sie die Rotationsmatrix.
  • Projizieren Sie die konvertierten vier 3D-Punkte auf das 2D-Bild.
  • Berechnen Sie den Rest zwischen dem Projektionsergebnis und dem durch Instanzsegmentierung erhaltenen Eckpunktergebnis.
  • Verwendung von Huber zur Optimierung und Aktualisierung der Begrenzungsrahmenparameter

Anmerkungseffekte

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

Es gibt auch einige herausfordernde Long-Tail-Fälle, wie z. B. extrem niedrige Auflösung und unzureichende Beleuchtung.

Effizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!

Zusammenfassend

Das VRSO-Framework ermöglicht eine hochpräzise und konsistente 3D-Annotation statischer Objekte, integriert Erkennungs-, Segmentierungs- und SFM-Algorithmen eng, eliminiert manuelle Eingriffe bei der intelligenten Fahrannotation und liefert vergleichbare LiDAR-basierte Ergebnisse zur manuellen Anmerkung. Qualitative und quantitative Auswertungen wurden mit dem weithin anerkannten Waymo Open Dataset durchgeführt: Im Vergleich zur manuellen Annotation wird die Geschwindigkeit um etwa das 16-fache erhöht, bei gleichzeitig bester Konsistenz und Genauigkeit.

Das obige ist der detaillierte Inhalt vonEffizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen