Heim >Technologie-Peripheriegeräte >KI >Tsinghuas neuestes! RoadBEV: Wie kann eine Straßenoberflächenrekonstruktion unter BEV erreicht werden?
Originaltitel: RoadBEV: Road Surface Reconstruction in Bird's Eye View
Papierlink: https://arxiv.org/pdf/2404.06605.pdf
Codelink: https://github.com/ztsrxh/RoadBEV
Autorenzugehörigkeit: Tsinghua University, University of California, Berkeley
Straßenoberflächenbedingungen, insbesondere geometrische Konturen, haben großen Einfluss auf die Fahrfähigkeit autonomer Fahrzeuge. Es wird erwartet, dass die visionsbasierte Online-Straßenrekonstruktion Straßeninformationen im Voraus erfasst. Bestehende Lösungen wie die monokulare Tiefenschätzung und die Stereosichtschätzung haben ihre Grenzen. Die neueste Technologie zur Wahrnehmung aus der Vogelperspektive (BEV) bietet enorme Motivation für eine zuverlässigere und genauere Rekonstruktion. In diesem Artikel werden einheitlich zwei effektive BEV-Straßenhöhenrekonstruktionsmodelle mit den Namen RoadBEV-mono und RoadBEV-stereo vorgeschlagen, die sich von der Verwendung monokularer und binokularer Bilder zur Straßenhöhenschätzung unterscheiden. Ersteres schätzt die Straßenhöhe direkt aus einem einzelnen Bild, während letzteres die Straßenhöhe mithilfe volumetrischer Links- und Rechtsansichten schätzt. Eine eingehende Analyse offenbart deren Konsistenz und Unterschiede zu den Perspektiven. Experimente mit realen Datensätzen zeigen die Wirksamkeit und Überlegenheit des Modells. Die Höhenfehler von RoadBEV-mono und RoadBEV-stereo betragen 1,83 Meter bzw. 0,56 Meter. Die Leistung der BEV-Schätzung basierend auf monokularen Bildern wird um 50 % verbessert. Das Modell in diesem Artikel soll eine wertvolle Referenz für visionsbasierte autonome Fahrtechnologie liefern.
Dieser Beitrag demonstriert erstmals die Notwendigkeit und Überlegenheit der Fahrbahnsanierung aus der Vogelperspektive sowohl unter theoretischen als auch unter experimentellen Gesichtspunkten.
In diesem Artikel werden zwei Modelle vorgestellt: RoadBEV-mono und RoadBEV-stereo. In diesem Artikel werden die Mechanismen für monokulare und stereobasierte Schemata ausführlich erläutert.
Dieser Artikel testet und analysiert umfassend die Leistung des vorgeschlagenen Modells und liefert wertvolle Erkenntnisse und Perspektiven für zukünftige Forschung.
In den letzten Jahren hat die rasante Entwicklung unbemannter Bodenfahrzeuge (UGVs) höhere Anforderungen an Bordsensorsysteme gestellt. Das Echtzeitverständnis der Fahrumgebung und -bedingungen ist für eine genaue Bewegungsplanung und -steuerung von entscheidender Bedeutung [1]-[3]. Für Fahrzeuge sind Straßen das einzige Kontaktmedium mit der physischen Welt. Der Zustand der Straßenoberfläche bestimmt viele Fahrzeugeigenschaften und das Fahrverhalten [4]. Wie in Abbildung 1(a) dargestellt, verschlechtern Straßenunebenheiten wie Unebenheiten und Schlaglöcher das Fahrerlebnis des Fahrzeugs, was intuitiv wahrnehmbar ist. Die Wahrnehmung des Straßenoberflächenzustands in Echtzeit, insbesondere der geometrischen Höhe, trägt erheblich zur Verbesserung des Fahrkomforts bei [5], [6].
Verglichen mit anderen Wahrnehmungsaufgaben in unbemannten Bodenfahrzeugen (UGVs) wie Segmentierung und Erkennung ist die Straßenoberflächenrekonstruktion (RSR) eine aufstrebende Technologie, die in letzter Zeit zunehmend Beachtung gefunden hat. Ähnlich wie bestehende Wahrnehmungsprozesse nutzt RSR typischerweise integrierte LiDAR- und Kamerasensoren, um Informationen zur Straßenoberfläche zu speichern. LiDAR scannt direkt Straßenkonturen und leitet Punktwolken ab [7], [8]. Straßenhöhen auf Fahrzeugtrajektorien können ohne komplexe Algorithmen direkt extrahiert werden. Allerdings schränken die hohen Kosten von Lidar-Sensoren ihren Einsatz in wirtschaftlichen Massenfahrzeugen ein. Im Gegensatz zu größeren Verkehrsobjekten wie Fahrzeugen und Fußgängern sind Straßenunregelmäßigkeiten in der Regel von geringerem Ausmaß, sodass die Genauigkeit der Punktwolke von entscheidender Bedeutung ist. Beim Echtzeit-Straßenscannen sind Bewegungskompensation und Filterung erforderlich, was darüber hinaus eine hochpräzise Positionierung auf Zentimeterebene erfordert.
Bildbasierte Straßenoberflächenrekonstruktion (RSR) als dreidimensionale Sichtaufgabe ist hinsichtlich Genauigkeit und Auflösung vielversprechender als LiDAR. Außerdem bleibt die Textur der Straßenoberfläche erhalten, wodurch die Straßenwahrnehmung umfassender wird. Bei der bildbasierten Straßenhöhenrekonstruktion handelt es sich tatsächlich um ein Tiefenschätzungsproblem. Bei monokularen Kameras kann die monokulare Tiefenschätzung basierend auf einem einzelnen Bild implementiert werden, oder Multi-View-Stereo (MVS) kann basierend auf Sequenzen implementiert werden, um die Tiefe direkt abzuschätzen [9]. Bei binokularen Kameras führt das binokulare Matching zu Regressions-Disparitätskarten, die in Tiefe umgewandelt werden können [10], [11]. Unter Berücksichtigung der Kameraparameter kann die Straßenpunktwolke im Kamerakoordinatensystem wiederhergestellt werden. Durch einen vorläufigen Nachbearbeitungsprozess werden schließlich Straßenstruktur- und Höheninformationen erhalten. Unter der Anleitung von Ground-Truth-Labels (GT) kann ein hochpräzises und zuverlässiges RSR erreicht werden.
Allerdings weist die bildperspektivische Straßenoberflächenrekonstruktion (RSR) inhärente Mängel auf. Die Tiefenschätzung für ein bestimmtes Pixel besteht eigentlich darin, optimale Bins entlang der Richtung senkrecht zur Bildebene zu finden (dargestellt als orangefarbener Punkt in Abbildung 1(b)). Zwischen der Tiefenrichtung und der Straßenoberfläche besteht eine gewisse Winkelabweichung. Änderungen und Trends bei Straßenprofilmerkmalen stimmen nicht mit Änderungen und Trends in der Suchrichtung überein. Informationshinweise zu Straßenhöhenänderungen sind in der Tiefenansicht spärlich. Darüber hinaus ist der Tiefensuchbereich für jedes Pixel derselbe, sodass das Modell eher die globale geometrische Hierarchie als die lokale Oberflächenstruktur erfasst. Aufgrund der globalen, aber groben Tiefensuche werden feine Straßenhöheninformationen zerstört. Da sich dieser Artikel auf die Höhe in vertikaler Richtung konzentriert, ist der Aufwand in Tiefenrichtung vergeblich. In perspektivischen Ansichten gehen Texturdetails über große Entfernungen verloren, was eine weitere Herausforderung für eine effiziente Tiefenregression darstellt, sofern keine weiteren a priori-Einschränkungen eingeführt werden [12].
Die Schätzung der Straßenhöhe aus einer Draufsicht (d. h. Vogelperspektive, BEV) ist eine naheliegende Idee, da die Höhe im Wesentlichen Vibrationen in vertikaler Richtung beschreibt. Die Vogelperspektive ist ein wirksames Paradigma für die Darstellung multimodaler und multiviewer Daten in einheitlichen Koordinaten [13], [14]. Aktuelle Leistungen auf dem neuesten Stand der Technik bei 3D-Objekterkennungs- und Segmentierungsaufgaben wurden durch Ansätze erreicht, die auf Vogelperspektiven basieren [15], im Gegensatz zu perspektivischen Ansichten, die durch die Einführung geschätzter Köpfe auf ansichtstransformierten Bildmerkmalen durchgeführt werden. Abbildung 1 veranschaulicht die Motivation für diese Arbeit. Anstatt sich auf die globale Struktur in der Bildansicht zu konzentrieren, identifiziert die Rekonstruktion in der Vogelperspektive direkt Straßenmerkmale innerhalb eines bestimmten kleinen Bereichs in vertikaler Richtung. Aus der Vogelperspektive projizierte Straßenmerkmale spiegeln Struktur- und Konturveränderungen dicht wider und erleichtern so eine effiziente und verfeinerte Suche. Auch der Einfluss perspektivischer Effekte wird unterdrückt, da Straßen gleichmäßig in einer Ebene senkrecht zum Betrachtungswinkel dargestellt werden. Es wird erwartet, dass die Straßenrekonstruktion auf der Grundlage von Merkmalen aus der Vogelperspektive eine höhere Leistung erzielen wird.
Dieses Papier rekonstruiert die Straßenoberfläche unter BEV, um die oben identifizierten Probleme zu lösen. Dieser Artikel konzentriert sich insbesondere auf die Straßengeometrie, nämlich die Höhe. Um monokulare und binokulare Bilder zu nutzen und die umfassende Machbarkeit der Wahrnehmung aus der Vogelperspektive zu demonstrieren, werden in diesem Artikel zwei Untermodelle mit den Namen RoadBEV-mono und RoadBEV-stereo vorgeschlagen. In Anlehnung an das Paradigma der Vogelperspektive definiert dieser Artikel interessierende Voxel, die potenzielle Straßenentlastungen abdecken. Diese Voxel fragen Pixelmerkmale durch 3D-2D-Projektion ab. Für RoadBEV-mono stellt dieser Artikel einen Höhenschätzungskopf für die neu geformten Voxelmerkmale vor. Die Struktur von RoadBEV-Stereo stimmt mit der binokularen Anpassung in Bildansichten überein. Basierend auf den Merkmalen des linken und rechten Voxels wird in der Vogelperspektive ein 4D-Kostenvolumen erstellt, das durch 3D-Faltung aggregiert wird. Die Höhenregression wird als Klassifizierung vordefinierter Abschnitte betrachtet, um ein effizienteres Modelllernen zu ermöglichen. Dieses Papier validiert diese Modelle anhand eines zuvor von den Autoren veröffentlichten Datensatzes aus der realen Welt und zeigt, dass sie enorme Vorteile gegenüber herkömmlichen monokularen Tiefenschätzungs- und Stereo-Matching-Methoden haben.
Abbildung 1. Motivation dieses Artikels. (a) Unabhängig von der monokularen oder binokularen Konfiguration übertrifft unsere Rekonstruktionsmethode in der Vogelperspektive (BEV) die Methode in der Bildansicht. (b) Bei der Durchführung einer Tiefenschätzung in der Bildansicht wird die Suchrichtung von der Straßenhöhenrichtung beeinflusst. In der Tiefenansicht sind Straßenumrissmerkmale spärlich vorhanden. Schlaglöcher sind nicht leicht zu erkennen. (c) Aus der Vogelperspektive können Konturschwingungen wie Schlaglöcher, Bordsteinstufen und sogar Spurrillen präzise erfasst werden. Straßenhöhenmerkmale in vertikaler Richtung sind dichter und leichter zu identifizieren.
Abbildung 2. Koordinatendarstellung und Generierung von Ground-Truth-Höhenbeschriftungen (GT). (a) Koordinaten (b) Region of Interest (ROI) in der Bildansicht (c) Region of Interest (ROI) in der Vogelperspektive (d) Generieren von Ground Truth (GT)-Beschriftungen im Raster
Abb. Beispiele für Straßenbilder und Ground Truth (GT)-Höhenkarten.
Abbildung 4. Interessante Voxel in der Bildansicht. Die Mittelpunkte gestapelter Voxel, die sich an derselben horizontalen Position befinden, werden auf Pixel auf dem roten Liniensegment projiziert.
Abbildung 5. Architektur von RoadBEV-mono. In diesem Artikel wird die 3D-zu-2D-Projektion zum Abfragen von Pixelmerkmalen verwendet. Der Höhenschätzungskopf verwendet eine 2D-Faltung, um Merkmale auf den neu geformten BEV-Merkmalen (Bird's Eye View) zu extrahieren.
Abbildung 6. Mechanismus von RoadBEV-mono. Voxel werden in der Seitenansicht dargestellt.
Abbildung 7. RoadBEV-Stereoarchitektur. Die im linken Kamerakoordinatensystem definierten Voxel fragen die Pixelmerkmale der linken und rechten Merkmalskarten ab. In diesem Artikel wird ein Differenzvolumen in der Vogelperspektive (BEV) durch Subtraktion zwischen linken und rechten Voxelmerkmalen erstellt. Anschließend aggregiert die 3D-Faltung das 4D-Volumen in der Vogelperspektive.
Abbildung 8. Der Mechanismus von RoadBEV-Stereo.
Abbildung 9. Trainingsverlust von (a) RoadBEV-mono und (b) RoadBEV-stereo.
Abbildung 10. Vergleich der Höhenfehler in der Entfernungsrichtung mit dem SOTA-Modell basierend auf Monokular und Binokular.
Abbildung 11. Straßenoberflächenvisualisierung, rekonstruiert von RoadBEV-mono.
Abbildung 12. Straßenoberflächenvisualisierung, rekonstruiert von RoadBEV-Stereo.
Dieser Artikel rekonstruiert erstmals die Höhe der Straßenoberfläche aus der Vogelperspektive. In diesem Artikel werden zwei Modelle vorgeschlagen und analysiert, die auf monokularen und binokularen Bildern basieren und die Bezeichnungen RoadBEV-mono bzw. RoadBEV-stereo tragen. In diesem Artikel wird festgestellt, dass es sich bei der monokularen Schätzung und dem binokularen Matching in BEV um dieselben Mechanismen wie in perspektivischen Ansichten handelt, die durch die Eingrenzung des Suchbereichs und das Mining von Merkmalen direkt in Höhenrichtung verbessert werden. Umfassende Experimente an realen Datensätzen bestätigen die Machbarkeit und Überlegenheit des vorgeschlagenen BEV-Volumens, der Schätzhöhe und der Parametereinstellungen. Bei monokularen Kameras ist die Rekonstruktionsleistung im BEV im Vergleich zur perspektivischen Ansicht um 50 % verbessert. Gleichzeitig ist die Leistung binokularer Kameras im BEV dreimal so hoch wie die Leistung monokularer Kameras. Dieser Artikel bietet eine ausführliche Analyse und Anleitung zum Modell. Die bahnbrechende Untersuchung dieses Artikels bietet auch wertvolle Hinweise für weitere Forschung und Anwendungen im Zusammenhang mit BEV-Wahrnehmung, 3D-Rekonstruktion und 3D-Erkennung.
Das obige ist der detaillierte Inhalt vonTsinghuas neuestes! RoadBEV: Wie kann eine Straßenoberflächenrekonstruktion unter BEV erreicht werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!