Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!

PHPz
PHPznach vorne
2024-03-21 17:21:09359Durchsuche

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!

Dieses Papier untersucht das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren, insbesondere wie man effektiv von der Perspektivansicht (PV) zum Vogelperspektivenraum (BEV) wechselt Transformationsfunktionen: Diese Transformation wird durch das Visual Transformation (VT)-Modul implementiert. Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und Aufmerksamkeitsgewichte für die Entsprechung zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht dies die Komplexität der Berechnung und Bereitstellung.

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!

Der Artikel weist darauf hin, dass bestehende Methoden wie HeightFormer und FB-BEV versuchen, diese beiden VT-Strategien zu kombinieren, diese Methoden jedoch aufgrund der unterschiedlichen Merkmalstransformationen der dualen VT normalerweise eine zweistufige Strategie anwenden durch die anfängliche Funktionsleistung begrenzt. Dies behindert die nahtlose Integration zwischen zwei VTs. Darüber hinaus stehen diese Methoden immer noch vor Herausforderungen, wenn es darum geht, autonomes Fahren in Echtzeit umzusetzen.

Als Reaktion auf diese Probleme schlägt das Papier eine einheitliche Methode zur Merkmalskonvertierung vor, die für die visuelle Konvertierung von 2D in 3D und von 3D in 2D geeignet ist, und bewertet die Entsprechung zwischen 3D- und 2D-Merkmalen durch drei Wahrscheinlichkeitsmessungen: BEV-Wahrscheinlichkeit, Projektionswahrscheinlichkeit und Bild Wahrscheinlichkeit. Diese neue Methode zielt darauf ab, die Auswirkungen leerer Bereiche im BEV-Gitter auf die Feature-Konstruktion zu mildern, mehrere Entsprechungen zu unterscheiden und Hintergrund-Features während des Feature-Konvertierungsprozesses auszuschließen.

Durch die Anwendung dieser einheitlichen Merkmalstransformation untersucht der Artikel eine neue Methode der visuellen 3D-zu-2D-Transformation unter Verwendung von Convolutional Neural Networks (CNN) und stellt eine Methode namens HeightTrans vor. Es demonstriert nicht nur seine überlegene Leistung, sondern zeigt auch das Potenzial für Beschleunigung durch Vorberechnung, wodurch es für Anwendungen im autonomen Fahren in Echtzeit geeignet ist. Gleichzeitig wird durch die Integration dieser Merkmalstransformation der traditionelle LSS-Prozess verbessert und seine Universalität für aktuelle Detektoren demonstriert.

Durch die Kombination von HeightTrans und Prob-LSS stellt das Papier DualBEV vor, eine innovative Methode, die die Entsprechungen von BEV und perspektivischen Ansichten in einem Schritt berücksichtigt und zusammenführt und so die Abhängigkeit von anfänglichen Merkmalen beseitigt. Darüber hinaus wird ein leistungsstarkes BEV-Feature-Fusion-Modul namens Dual Feature Fusion (DFF)-Modul vorgeschlagen, um die BEV-Wahrscheinlichkeitsvorhersage durch die Nutzung von Kanalaufmerksamkeitsmodulen und räumlichen Aufmerksamkeitsmodulen weiter zu verfeinern. DualBEV folgt dem Prinzip „umfangreiche Eingabe, strikte Ausgabe“ und versteht und stellt die Wahrscheinlichkeitsverteilung der Szene dar, indem es eine präzise probabilistische Korrespondenz mit zwei Ansichten verwendet.

Die Hauptbeiträge des Artikels lauten wie folgt:

  1. enthüllt die intrinsische Ähnlichkeit zwischen der visuellen Transformation von 3D zu 2D und von 2D zu 3D und schlägt eine einheitliche Methode zur Merkmalstransformation vor, die sowohl aus BEV- als auch aus perspektivischer Sicht genau ist und eine entsprechende Beziehung herstellt verringert die Lücke zwischen den beiden Strategien erheblich.
  2. Hat eine neue CNN-basierte visuelle 3D-zu-2D-Konvertierungsmethode HeightTrans vorgeschlagen, die durch Wahrscheinlichkeitsstichproben und Vorberechnung von Nachschlagetabellen effektiv und effizient eine genaue 3D-2D-Korrespondenz herstellt.
  3. DFF wird für die Dual-View-Feature-Fusion eingeführt. Diese Fusionsstrategie erfasst Informationen von Nah- und Fernregionen in einem Schritt und generiert so umfassende BEV-Features.
  4. Ihr effizientes Framework DualBEV erreicht 55,2 % mAP und 63,4 % NDS auf dem nuScenes-Testsatz, auch ohne Verwendung von Transformer, was die Bedeutung der Erfassung einer genauen Dual-View-Korrespondenz für die Ansichtstransformation unterstreicht.

Durch diese Innovationen schlägt das Papier eine neue Strategie vor, um die Einschränkungen bestehender Methoden zu überwinden und eine effizientere und genauere Objekterkennung in Echtzeit-Anwendungsszenarien wie dem autonomen Fahren zu erreichen.

Detaillierte Erklärung von DualBEV

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!

Die in diesem Artikel vorgeschlagene Methode zielt darauf ab, das BEV-Objekterkennungsproblem (Vogelperspektive) beim autonomen Fahren durch ein einheitliches Feature-Konvertierungs-Framework, DualBEV, zu lösen. Nachfolgend finden Sie den Hauptinhalt des Abschnitts „Methoden“ mit einem Überblick über die verschiedenen Unterabschnitte und wichtigsten Neuerungen.

DualBEV-Übersicht

Der Verarbeitungsablauf von DualBEV beginnt mit den Bildfunktionen , die von mehreren Kameras erhalten wurden, und verwendet dann SceneNet, um Instanzmasken und Tiefenkarten zu generieren. Anschließend erfolgt die Extraktion über das HeightTrans-Modul und Prob-LSS Pipeline- und Transformationsfunktionen, und schließlich werden diese Funktionen zusammengeführt und verwendet, um die Wahrscheinlichkeitsverteilung des BEV-Raums vorherzusagen, um die endgültigen BEV-Funktionen für nachfolgende Aufgaben zu erhalten.

HeightTrans

HeightTrans basiert auf dem Prinzip der visuellen Konvertierung von 3D in 2D, indem 3D-Positionen ausgewählt und in den Bildraum projiziert werden und diese 3D-2D-Entsprechungen ausgewertet werden. Diese Methode tastet zunächst eine Reihe von 3D-Punkten in einer vordefinierten BEV-Karte ab und berücksichtigt und filtert dann diese Korrespondenzen sorgfältig, um BEV-Features zu generieren. HeightTrans erhöht die Aufmerksamkeit auf kleine Objekte und löst das durch Hintergrundpixel verursachte irreführende Problem durch die Anwendung einer Multi-Resolution-Sampling-Strategie und einer Wahrscheinlichkeits-Sampling-Methode. Darüber hinaus wird das Problem des leeren BEV-Gitters durch die Einführung der BEV-Wahrscheinlichkeit gelöst . Das HeightTrans-Modul ist eine der in der Arbeit vorgeschlagenen Schlüsseltechnologien und konzentriert sich auf die Verarbeitung und Transformation von Merkmalen durch visuelle Transformation (VT) von 3D in 2D. Es basiert auf der Auswahl von 3D-Standorten aus einer vordefinierten BEV-Karte (Bird's Eye View) und der Projektion dieser Standorte in den Bildraum, wodurch die Entsprechung zwischen 3D und 2D bewertet wird. Im Folgenden finden Sie eine detaillierte Einführung in die Funktionsweise von HeightTrans:

BEV Height

Die HeightTrans-Methode verwendet bei der Höhenverarbeitung eine Abtaststrategie mit mehreren Auflösungen, die den gesamten Höhenbereich (von -5 Metern bis 3 Metern) abdeckt Interessengebiet Die Auflösung innerhalb des ROI (definiert als -2 Meter bis 2 Meter) beträgt 0,5 Meter und die Auflösung außerhalb dieses Bereichs beträgt 1,0 Meter. Diese Strategie trägt dazu bei, die Konzentration auf kleine Objekte zu erhöhen, die bei der Abtastung mit gröberer Auflösung möglicherweise übersehen werden.

Prob-Sampling

HeightTrans übernimmt die folgenden Schritte beim probabilistischen Sampling:

  1. Definieren von 3D-Sampling-Punkten: Definieren Sie einen Satz von 3D-Sampling-Punkten vor, jeder Punkt wird durch seine Position im 3D-Raum bestimmt Definition.
  2. Projektion in den 2D-Raum: Projizieren Sie den 3D-Punkt mithilfe der extrinsischen Parametermatrix und der intrinsischen Parametermatrix der Kamera auf einen Punkt im 2D-Bildraum , wobei die Tiefe des Punktes darstellt.
  3. Feature-Sampling: Verwenden Sie einen bilinearen Grid-Sampler , um Bildmerkmale an der Projektionsposition abzutasten :
  4. Instanzmaske verwenden : Um zu vermeiden, dass die Projektionsposition auf die Hintergrundpixel fällt, verwenden Sie SceneNet um eine Instanzmaske zu generieren, um die Bildwahrscheinlichkeit darzustellen und sie auf Bildmerkmale anzuwenden, um die Auswirkungen irreführender Informationen zu reduzieren:
  5. Behandeln Sie mehrere Korrespondenzen : Verwenden Sie einen trilinearen Raster-Sampler in der Tiefenkarte und wertet die aus Situation, in der mehrere 3D-Punkte derselben 2D-Position zugeordnet sind, d Die BEV-Wahrscheinlichkeit wird eingeführt. Stellt die Belegungswahrscheinlichkeit des BEV-Gitters dar, wobei
  6. die Position im BEV-Raum ist: beschleunigt
  7. durch Vorberechnung des Index der 3D-Punkte im BEV-Raum und Festlegung des Bildmerkmalsindex und Tiefenkartenindex während der Inferenz kann HeightTrans den visuellen Konvertierungsprozess beschleunigen. Die letzte HeightTrans-Funktion erweitert die traditionelle LSS-Pipeline (Lift, Splat, Shoot), indem sie Tiefenwahrscheinlichkeiten für jedes Pixel mit vordefiniertem

Prob-LSS

Prob-LSS für jedes BEV-Netz vorhersagt. Es wird in den BEV-Raum projiziert. Diese Methode integriert BEV-Wahrscheinlichkeiten weiter, um LSS-Merkmale über die folgende Formel zu erstellen:

Dadurch kann die Unsicherheit in der Tiefenschätzung besser gehandhabt werden, wodurch redundante Informationen im BEV-Raum reduziert werden.

Dual Feature Fusion (DFF)

Das DFF-Modul wurde entwickelt, um Features von HeightTrans und Prob-LSS zu fusionieren und die BEV-Wahrscheinlichkeit effektiv vorherzusagen. Durch die Kombination des Kanalaufmerksamkeitsmoduls und des durch räumliche Aufmerksamkeit erweiterten ProbNet ist DFF in der Lage, die Merkmalsauswahl und die BEV-Wahrscheinlichkeitsvorhersage zu optimieren, um die Darstellung von nahen und entfernten Objekten zu verbessern. Diese Fusionsstrategie berücksichtigt die Komplementarität der Merkmale der beiden Streams und erhöht gleichzeitig die Genauigkeit der BEV-Wahrscheinlichkeit durch Berechnung der lokalen und globalen Aufmerksamkeit.

Kurz gesagt, das in diesem Dokument vorgeschlagene DualBEV-Framework ermöglicht eine effiziente Bewertung und Konvertierung der Korrespondenz zwischen 3D- und 2D-Features durch die Kombination von HeightTrans und Prob-LSS sowie einem innovativen Dual-Feature-Fusion-Modul. Dies schließt nicht nur die Lücke zwischen 2D-zu-3D- und 3D-zu-2D-Konvertierungsstrategien, sondern beschleunigt auch den Feature-Konvertierungsprozess durch Vorberechnung und Wahrscheinlichkeitsmessung, wodurch er für autonome Fahranwendungen in Echtzeit geeignet ist. Der Schlüssel zu dieser Methode liegt in der präzisen Übereinstimmung und effizienten Fusion von Merkmalen aus verschiedenen Blickwinkeln, wodurch eine hervorragende Leistung bei der BEV-Objekterkennung erzielt wird.

Experimente

Die Variante der DualBEV-Methode (DualBEV* mit einem Sternchen) schnitt unter der Einzelbild-Eingabebedingung am besten ab und erreichte 35,2 % mAP und 42,5 % NDS, was zeigt, dass sie genau ist anderen Methoden hinsichtlich Genauigkeit und umfassender Leistung überlegen. Insbesondere bei mAOE erreicht DualBEV* einen Wert von 0,542, was den besten Wert unter den Single-Frame-Methoden darstellt. Allerdings ist die Leistung auf mATE und mASE nicht wesentlich besser als bei anderen Methoden.

Wenn die Anzahl der Eingaberahmen auf zwei Rahmen erhöht wird, wird die Leistung von DualBEV weiter verbessert, wobei mAP 38,0 % und NDS 50,4 % erreicht. Dies ist der höchste NDS unter allen aufgeführten Methoden, was darauf hinweist, dass DualBEV bei der Verarbeitung umfassender ist komplexere Eingaben die Szene verstehen. Unter den Multi-Frame-Methoden zeigt es auch eine starke Leistung bei mATE, mASE und mAAE, insbesondere eine deutliche Verbesserung bei maOE, was seinen Vorteil bei der Schätzung von Objektrichtungen zeigt.

Anhand dieser Ergebnisse kann analysiert werden, dass DualBEV und seine Varianten bei mehreren wichtigen Leistungsindikatoren gut abschneiden, insbesondere in der Multi-Frame-Einstellung, was darauf hinweist, dass es eine gute Genauigkeit und Genauigkeit für BEV-Objekterkennungsaufgaben aufweist. Darüber hinaus unterstreichen diese Ergebnisse auch die Bedeutung der Verwendung von Multi-Frame-Daten zur Verbesserung der Gesamtleistung und Schätzgenauigkeit des Modells.

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!

Das Folgende ist eine Analyse der Ergebnisse jedes Ablationsexperiments:

  • Das Hinzufügen von Komponenten wie ProbNet, HeightTrans, CAF (Channel Attention Fusion), SAE (Spatial Attention Enhanced) usw. hat die Leistung schrittweise verbessert der Grundlinie.
  • Die Hinzufügung von HeightTrans verbessert mAP und NDS erheblich, was zeigt, dass die Einbeziehung von Höheninformationen in die visuelle Transformation effektiv ist.
  • CAF verbessert mAP weiter, erhöht jedoch leicht die Latenz.
  • Die Einführung von SAE erhöhte den NDS auf maximal 42,5 % und verbesserte auch mAP, was darauf hindeutet, dass der räumliche Aufmerksamkeitsmechanismus die Modellleistung effektiv steigerte.
  • Verschiedene Wahrscheinlichkeitsmaße (Projektionswahrscheinlichkeit , Bildwahrscheinlichkeit , BEV-Wahrscheinlichkeit ) werden nach und nach zu den Vergleichsexperimenten hinzugefügt.
  • Das Modell erreichte den höchsten mAP und NDS, wenn alle drei Wahrscheinlichkeiten gleichzeitig verwendet wurden, was darauf hindeutet, dass die Kombination dieser Wahrscheinlichkeiten für die Modellleistung entscheidend ist.
  • Prob-Sampling hat einen höheren NDS (39,0 %) als andere VT-Operationen bei einer ähnlichen Verzögerung (0,32 ms), was die Leistungsüberlegenheit des probabilistischen Samplings unterstreicht.
  • Mit der Multi-Resolution (MR)-Sampling-Strategie kann bei Verwendung der gleichen Anzahl von Sampling-Punkten eine ähnliche oder bessere Leistung erzielt werden als mit der einheitlichen Sampling-Strategie.
  • Durch das Hinzufügen von Projektionswahrscheinlichkeit, Bildwahrscheinlichkeit und BEV-Wahrscheinlichkeit zum LSS-Prozess übertrifft Prob-LSS andere LSS-Varianten, verbessert mAP und NDS und zeigt die Wirksamkeit der Kombination dieser Wahrscheinlichkeiten.
  • Im Vergleich zur mehrstufigen Verfeinerungsstrategie können sowohl die einstufige Add-Strategie als auch das DFF-Modul einen höheren NDS erzielen, und DFF weist auch eine leichte Verbesserung des mAP auf, was zeigt, dass DFF eine einstufige Fusionsstrategie ist Vorteile hinsichtlich Effizienz und Leistung.

Ablationsexperimente zeigen, dass Komponenten und Strategien wie HeightTrans, probabilistische Maßnahmen, Prob-Sampling und DFF entscheidend für die Verbesserung der Modellleistung sind. Darüber hinaus beweist auch die Verwendung einer Multi-Resolution-Sampling-Strategie für Höheninformationen ihre Wirksamkeit. Diese Ergebnisse stützen das Argument der Autoren, dass jede der im Methodenteil vorgestellten Techniken positiv zur Modellleistung beiträgt.

Diskussion

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!

Dieser Artikel demonstriert die Leistung seiner Methode anhand einer Reihe von Ablationsexperimenten. Aus den experimentellen Ergebnissen geht hervor, dass das in der Arbeit vorgeschlagene DualBEV-Framework und seine verschiedenen Komponenten einen positiven Einfluss auf die Verbesserung der Genauigkeit der Objekterkennung aus der Vogelperspektive (BEV) haben.

Die Methode des Papiers führt schrittweise die Module ProbNet, HeightTrans, CAF (Channel Attention Fusion) und SAE (Spatial Attention Enhanced) in das Basismodell ein und zeigt signifikante Verbesserungen sowohl bei den mAP- als auch bei den NDS-Indikatoren spielt eine wichtige Rolle in der Gesamtarchitektur. Insbesondere nach der Einführung von SAE stieg der NDS-Score auf den Höchstwert von 42,5 %, während die Verzögerung nur geringfügig zunahm, was zeigt, dass die Methode ein gutes Gleichgewicht zwischen Genauigkeit und Verzögerung erreicht.

Die experimentellen Ergebnisse der probabilistischen Ablation bestätigen weiterhin die Bedeutung der Projektionswahrscheinlichkeit, der Bildwahrscheinlichkeit und der BEV-Wahrscheinlichkeit für die Verbesserung der Erkennungsleistung. Wenn diese Wahrscheinlichkeiten nacheinander eingeführt werden, verbessern sich die mAP- und NDS-Werte des Systems stetig, was zeigt, wie wichtig es ist, diese Wahrscheinlichkeitsmaße in die BEV-Objekterkennungsaufgabe zu integrieren.

Im Vergleich von visuellen Transformationsoperationen (VT) zeigt die in der Arbeit vorgeschlagene Prob-Sampling-Methode im Vergleich zu anderen Operationen wie SCAda und Bilinear-Sampling eine geringere Latenz und einen höheren NDS-Score, was ihre Leistung in Bezug auf Effizienz und Leistungsvorteile hervorhebt . Darüber hinaus kann bei unterschiedlichen Höhen-Sampling-Strategien die Anwendung einer Multi-Resolution-Strategie (MR) anstelle einer einheitlichen Sampling-Strategie den NDS-Score weiter verbessern, was zeigt, wie wichtig es ist, Informationen in unterschiedlichen Höhen in der Szene zu berücksichtigen, um die Erkennungsleistung zu verbessern.

Darüber hinaus zeigt das Papier für verschiedene Feature-Fusion-Strategien, dass die DFF-Methode immer noch hohe NDS-Scores aufrechterhalten und gleichzeitig das Modell vereinfachen kann, was bedeutet, dass die Fusion von Dual-Stream-Features in einem einstufigen Verarbeitungsfluss effektiv ist.

Obwohl die in der Arbeit vorgeschlagene Methode in vielen Aspekten eine gute Leistung erbringt, führt jede Verbesserung auch zu einer Erhöhung der Systemkomplexität und der Rechenkosten. Beispielsweise erhöht sich die Latenz des Systems jedes Mal, wenn eine neue Komponente eingeführt wird (z. B. ProbNet, HeightTrans usw.). Obwohl die Erhöhung der Latenz subtil ist, ist dies bei Anwendungen mit Echtzeit- oder niedrigen Latenzanforderungen der Fall könnte eine Überlegung werden. Darüber hinaus tragen probabilistische Maßnahmen zwar zu Leistungsverbesserungen bei, erfordern aber auch zusätzliche Rechenressourcen, um diese Wahrscheinlichkeiten abzuschätzen, was möglicherweise zu einem höheren Ressourcenverbrauch führt.

Die in der Arbeit vorgeschlagene DualBEV-Methode hat bemerkenswerte Ergebnisse bei der Verbesserung der Genauigkeit und umfassenden Leistung der BEV-Objekterkennung erzielt, insbesondere durch die Kombination der neuesten Fortschritte im Deep Learning mit der visuellen Transformationstechnologie. Allerdings gehen diese Fortschritte mit einer leicht erhöhten Rechenlatenz und einem höheren Ressourcenverbrauch einher, und praktische Anwendungen müssen diese Faktoren von Fall zu Fall abwägen.

Fazit

Diese Methode funktioniert gut bei der BEV-Objekterkennungsaufgabe und verbessert die Genauigkeit und Gesamtleistung erheblich. Durch die Einführung von probabilistischem Sampling, Höhentransformation, Aufmerksamkeitsmechanismus und räumlichem Aufmerksamkeitserweiterungsnetzwerk verbessert DualBEV erfolgreich mehrere wichtige Leistungsindikatoren, insbesondere die Genauigkeit der Vogelperspektive (BEV) und das Szenenverständnis. Experimentelle Ergebnisse zeigen, dass die Methode des Papiers besonders effektiv bei der Verarbeitung komplexer Szenen und Daten aus verschiedenen Perspektiven ist, was für autonomes Fahren und andere Echtzeitüberwachungsanwendungen von entscheidender Bedeutung ist.

Das obige ist der detaillierte Inhalt vonDualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen