Heim >Technologie-Peripheriegeräte >KI >Wahrnehmungsnetzwerk zur Tiefen-, Lage- und Straßeneinschätzung in gemeinsamen Fahrszenarien
Das am 22. Juli hochgeladene arXiv-Papier „JPerceiver: Joint Perception Network for Depth, Pose and Layout Estimation in Driving Scenes“ berichtet über die Arbeit von Professor Tao Dacheng von der University of Sydney, Australien, und dem Beijing JD Research Institute.
Tiefenschätzung, visuelle Odometrie (VO) und Szenenlayoutschätzung aus der Vogelperspektive (BEV) sind drei Schlüsselaufgaben für die Wahrnehmung von Fahrszenen, die die Grundlage für Bewegungsplanung und Navigation beim autonomen Fahren bilden. Obwohl sie sich ergänzen, konzentrieren sie sich in der Regel auf separate Aufgaben und behandeln selten alle drei gleichzeitig.
Ein einfacher Ansatz besteht darin, dies unabhängig in sequentieller oder paralleler Weise durchzuführen, aber es gibt drei Nachteile, nämlich 1) Tiefe und VO-Ergebnisse werden durch das inhärente Skalenmehrdeutigkeitsproblem beeinflusst; 2) BEV-Layout wird normalerweise separat für Straße und Straße geschätzt Fahrzeug, wobei die explizite Overlay-Underlay-Beziehung ignoriert wird. 3) Obwohl die Tiefenkarte ein nützlicher geometrischer Anhaltspunkt für die Ableitung des Szenenlayouts ist, wird das BEV-Layout tatsächlich direkt aus dem Vorderansichtsbild vorhergesagt, ohne dass tiefenbezogene Informationen verwendet werden.
Dieser Artikel schlägt ein gemeinsames Wahrnehmungs-Framework JPerceiver vor, um diese Probleme zu lösen und gleichzeitig die skalenwahrgenommene Tiefe, VO- und BEV-Layout aus monokularen Videosequenzen zu schätzen. Verwenden Sie die geometrische Cross-View-Transformation (CGT), um den absoluten Maßstab vom Straßenlayout auf die Tiefe und VO gemäß einem sorgfältig entworfenen Maßstabsverlust zu übertragen. Gleichzeitig soll ein Cross-View- und Cross-Modal-Transfer-Modul (CCT) Tiefenhinweise nutzen, um durch Aufmerksamkeitsmechanismen Überlegungen zum Straßen- und Fahrzeuglayout anzustellen.
JPerceiver ist in einer End-to-End-Multitask-Lernmethode geschult, bei der die CGT-Skalenverlust- und CCT-Module den Wissenstransfer zwischen Aufgaben fördern und das Lernen von Funktionen für jede Aufgabe erleichtern. Der Code und das Modell können heruntergeladen werdenhttps://github.com/sunnyHelen/JPerceiver.
Wie in der Abbildung gezeigt, besteht JPerceiver aus drei Netzwerken: Tiefe, Haltung und Straßenlayout , die alle auf einer Encoder-Decoder-Architektur basieren. Das Tiefennetzwerk zielt darauf ab, die Tiefenkarte Dt des aktuellen Frames It vorherzusagen, wobei jeder Tiefenwert den Abstand zwischen einem 3D-Punkt und der Kamera darstellt. Das Ziel des Posennetzwerks besteht darin, die Posentransformation Tt→t+m zwischen dem aktuellen Frame It und seinem benachbarten Frame It+m vorherzusagen. Das Ziel des Straßenlayoutnetzwerks besteht darin, das BEV-Layout Lt des aktuellen Rahmens abzuschätzen, dh die semantische Belegung von Straßen und Fahrzeugen in der kartesischen Draufsichtebene. Die drei Netzwerke werden im Training gemeinsam optimiert. Die beiden Netzwerke zur Vorhersage von Tiefe und Pose werden gemeinsam mit photometrischem Verlust und Glätteverlust auf selbstüberwachte Weise optimiert. Darüber hinaus soll der CGT-Skalenverlust auch das Skalenmehrdeutigkeitsproblem der monokularen Tiefen- und VO-Schätzung lösen. Um eine skalenbewusste Umgebungswahrnehmung zu erreichen, wird unter Verwendung der Skaleninformationen im BEV-Layout der Skalenverlust von CGT für Tiefenschätzung und VO vorgeschlagen. Da das BEV-Layout die semantische Besetzung in der kartesischen Ebene des BEV zeigt, deckt es den Bereich von Z Metern vor dem Fahrzeug und (Z/2) Metern links bzw. rechts ab. Es liefert ein natürliches Distanzfeld z, den metrischen Abstand zij jedes Pixels relativ zum eigenen Fahrzeug, wie in der Abbildung dargestellt: Angenommen, die BEV-Ebene ist der Boden und ihr Ursprung liegt genau im Ursprung von Das Koordinatensystem des eigenen Fahrzeugs. Anschließend kann die BEV-Ebene basierend auf den extrinsischen Parametern der Kamera durch Homographietransformation auf die vordere Kamera projiziert werden. Daher kann das BEV-Entfernungsfeld z in die Vorwärtskamera projiziert werden, wie in der Abbildung oben gezeigt, und zur Anpassung der vorhergesagten Tiefe d verwendet werden, wodurch der CGT-Skalenverlust abgeleitet wird: Für die Schätzung des Straßenlayouts ein Encoder -Decoder wird in der Netzwerkstruktur verwendet. Es ist erwähnenswert, dass ein gemeinsamer Encoder als Merkmalsextraktor und verschiedene Decoder verwendet werden, um das BEV-Layout verschiedener semantischer Kategorien gleichzeitig zu lernen. Darüber hinaus soll ein CCT-Modul die Merkmalsinteraktion und den Wissenstransfer zwischen Aufgaben verbessern und 3D-geometrische Informationen für das räumliche Denken von BEV bereitstellen. Um das Straßennetz zu regulieren, werden verschiedene Verlustterme kombiniert, um einen Hybridverlust zu bilden und verschiedene Klassen einer ausgewogenen Optimierung zu erreichen. CCT untersucht die Korrelation zwischen dem Vorwärtsansichtsmerkmal Ff, dem BEV-Layoutmerkmal Fb, dem rückkonvertierten Vorwärtsmerkmal Ff‘ und dem Vorwärtstiefenmerkmal FD und verfeinert die Layoutmerkmale entsprechend, wie in der Abbildung gezeigt: Zwei Teile, nämlichCCT -CV und CCT-CM des Cross-View-Moduls und des Cross-Modal-Moduls.
In CCT werden Ff und Fd vom Encoder des entsprechenden Wahrnehmungszweigs extrahiert, während Fb durch einen Ansichtsprojektions-MLP zur Konvertierung von Ff in BEV und einen zyklusverlustbeschränkten gleichen MLP zur erneuten Konvertierung in Ff′ erhalten wird.
In CCT-CV wird der Queraufmerksamkeitsmechanismus verwendet, um die geometrische Entsprechung zwischen der Vorwärtsansicht und den BEV-Merkmalen zu ermitteln. Anschließend leitet er die Verfeinerung der Vorwärtsansichtsinformationen und bereitet die BEV-Schlussfolgerung vor. Um die Bildfunktionen der Vorwärtsansicht vollständig nutzen zu können, werden Fb und Ff auf Patches projiziert: Qbi und Kbi als Abfrage bzw. Schlüssel.
Zusätzlich zur Nutzung der Vorwärtsansichtsfunktionen wird CCT-CM auch zum Übertragen von 3D-Geometrieinformationen aus Fd eingesetzt. Da Fd aus dem Vorwärtsansichtsbild extrahiert wird, ist es sinnvoll, Ff als Brücke zu verwenden, um die modalübergreifende Lücke zu verringern und die Entsprechung zwischen Fd und Fb zu lernen. Fd spielt die Rolle des Werts, wodurch wertvolle 3D-Geometrieinformationen im Zusammenhang mit BEV-Informationen erhalten und die Genauigkeit der Straßenlayoutschätzung weiter verbessert werden.
Bei der Erforschung eines gemeinsamen Lernrahmens zur gleichzeitigen Vorhersage verschiedener Layouts gibt es große Unterschiede in den Merkmalen und Verteilungen verschiedener semantischer Kategorien. Für Features muss in der Regel das Straßenlayout in Fahrszenarien verbunden werden, während unterschiedliche Fahrzeugziele segmentiert werden müssen.
Für die Verteilung werden mehr gerade Straßenszenen als Abbiegeszenen beobachtet, was in realen Datensätzen sinnvoll ist. Dieser Unterschied und dieses Ungleichgewicht erhöhen die Schwierigkeit des BEV-Layout-Lernens, insbesondere der gemeinsamen Vorhersage verschiedener Kategorien, da ein einfacher Kreuzentropieverlust (CE) oder L1-Verlust in diesem Fall fehlschlägt. Mehrere Segmentierungsverluste, darunter verteilungsbasierter CE-Verlust, regionsbasierter IoU-Verlust und Grenzverlust, werden zu einem Hybridverlust kombiniert, um das Layout jeder Kategorie vorherzusagen.
Die experimentellen Ergebnisse sind wie folgt:
Das obige ist der detaillierte Inhalt vonWahrnehmungsnetzwerk zur Tiefen-, Lage- und Straßeneinschätzung in gemeinsamen Fahrszenarien. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!