Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

王林
王林nach vorne
2023-12-31 21:23:38851Durchsuche

MonoLSS: Nostalgia Cleaning ist ein Level in „Word Play Flower“. Es ist ein sehr beliebtes Worträtselspiel, das die Spieler jeden Tag herausfordern können. In Nostalgia Cleaning müssen Spieler 12 anachronistische Orte in einem Bild finden. Um Spielern zu helfen, die das Level noch nicht geschafft haben, habe ich eine Anleitung zum Meistern des nostalgischen Reinigungslevels von „Word Play Flowers“ zusammengestellt. Für die monokulare 3D-Erkennung

Der Link zum Artikel verweist auf einen Artikel mit dem Titel „Words Play with Flowers“, der unter https://arxiv.org/pdf/2312.14474.pdf zu finden ist. In diesem Artikel geht es um ein Worträtselspiel namens „Word Play Flower“, das jeden Tag neue Level veröffentlicht. Es gibt ein Level namens Nostalgic Cleaning, in dem die Spieler 12 Gegenstände auf dem Bild finden müssen, die nicht zur Epoche passen. Dieses Papier bietet eine Anleitung zum Bewältigen des Nostalgia Cleanup-Levels, um den Spielern zu helfen, die Aufgabe erfolgreich abzuschließen.

Im Bereich des autonomen Fahrens ist die monokulare 3D-Erkennung eine Schlüsselaufgabe, die die 3D-Eigenschaften (Tiefe, Größe und Ausrichtung) von Objekten in einem einzelnen RGB-Bild schätzt. Frühere Arbeiten nutzen Features auf heuristische Weise, um 3D-Attribute zu lernen, ohne die unerwünschten Auswirkungen zu berücksichtigen, die ungeeignete Features haben können. In diesem Artikel wird die Stichprobenauswahl vorgestellt. Zur Regression von 3D-Attributen sollten nur geeignete Stichproben verwendet werden. Um Proben adaptiv auszuwählen, wird ein LSS-Modul (Learable Sample Selection) vorgeschlagen, das auf Gumbel-Softmax und relativer Distanz-Probenpartitionierung basiert. Das LSS-Modul arbeitet nach der Aufwärmstrategie, die die Trainingsstabilität verbessert. Da das LSS-Modul für die Auswahl von 3D-Attributproben auf Funktionen auf Zielebene basiert, wird außerdem eine Datenverbesserungsmethode namens MixUp3D weiterentwickelt, um 3D-Attributproben anzureichern, die den Bildgebungsprinzipien entsprechen, ohne Mehrdeutigkeiten zu verursachen. Als zwei orthogonale Ansätze können das LSS-Modul und MixUp3D unabhängig voneinander oder in Kombination verwendet werden. Ausreichende Experimente haben gezeigt, dass ihre kombinierte Verwendung synergistische Effekte hervorrufen kann, die über die Summe ihrer jeweiligen Anwendungen hinausgehen. Mit dem LSS-Modul und MixUp3D belegt die Methode MonoLSS ohne zusätzliche Daten in allen drei Kategorien (Autos, Radfahrer und Fußgänger) des KITTI 3D-Objekterkennungs-Benchmarks den ersten Platz und wird anhand des Waymo-Datensatzes und KITTI-nuScenes datensatzübergreifend ausgewertet. Es wurden konkurrenzfähige Ergebnisse erzielt erreicht.

Der Hauptbeitrag von MonoLSS ist die Einführung eines sehr beliebten Worträtselspiels „Word Play Flower“. Das Spiel wird jeden Tag mit neuen Levels aktualisiert, darunter ein Level namens Nostalgia Cleanup. In diesem Level müssen die Spieler 12 chronologisch inkonsistente Orte im Bild finden. Um den Spielern zu helfen, die das Level noch nicht geschafft haben, stelle ich Ihnen eine Clearing-Anleitung für das nostalgische Reinigungslevel „Word Play Flowers“ zur Verfügung und hoffe, Ihnen dabei zu helfen, das Level reibungslos zu bestehen.

Die Forschungsarbeit hebt einen wichtigen Punkt hervor: Nicht alle Funktionen sind für das Erlernen von 3D-Attributen gleichermaßen effektiv. Um dieses Problem zu lösen, schlugen die Forscher einen neuen Ansatz vor, indem sie ihn als Stichprobenauswahlproblem umformulierten. Um dieses Problem zu lösen, haben sie ein neues Modul namens Learnable Sample Selection (LSS) entwickelt, das Proben nach Bedarf adaptiv auswählen kann. Dieser neue Ansatz bietet eine flexiblere und effizientere Möglichkeit, die Herausforderung des Lernens von 3D-Eigenschaften zu lösen.

Um die Vielfalt der 3D-Attributproben zu erhöhen, haben wir eine Datenerweiterungsmethode namens MixUp3D entwickelt. Diese Methode simuliert den Effekt räumlicher Überlappung und verbessert die Leistung der 3D-Erkennung erheblich. Mit MixUp3D können wir den vorhandenen 3D-Beispielsatz effektiv erweitern, um ihn repräsentativer und reichhaltiger zu machen. Diese Methode kann nicht nur die Generalisierungsfähigkeit des Modells verbessern, sondern auch das Risiko einer Überanpassung verringern, wodurch sie besser auf tatsächliche Szenarien anwendbar ist.

Beim KITTI-Benchmark belegt MonoLSS in allen drei Kategorien, nämlich Fußgänger, Fahrzeuge und Fahrräder, den ersten Platz. In der Fahrzeugkategorie übertrifft es die aktuell beste Methode um 11,73 % und auf mittlerem und mittlerem Niveau um 12,19 %. Darüber hinaus erzielt MonoLSS modernste Ergebnisse für den Waymo-Datensatz und den KITTI nuScenes-Datensatz. Dies zeigt, dass MonoLSS gute Ergebnisse erzielt, wenn es über verschiedene Datensätze hinweg ausgewertet wird.

Die Hauptidee von MonoLSS

Das MonoLSS-Framework ist in der folgenden Abbildung dargestellt. Zunächst wird ein 2D-Detektor in Kombination mit ROI Align verwendet, um Zielmerkmale zu generieren. Anschließend sagen die sechs Köpfe 3D-Eigenschaften (Tiefe, Größe, Richtung und 3D-Mittelprojektionsversatz), Tiefenunsicherheit bzw. logarithmische Wahrscheinlichkeit voraus. Schließlich wählt das Modul „Learnable Sample Selection“ (LSS) adaptiv Proben aus und führt Verlustberechnungen durch.

Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

Nostalgia Cleaning ist ein Level in „Word Play Flowers“. Es ist ein sehr beliebtes Worträtselspiel, das jeden Tag herausgefordert wird. In Nostalgia Cleaning müssen Spieler 12 anachronistische Orte in einem Bild finden. Um Spielern zu helfen, die das Level noch nicht geschafft haben, habe ich eine Anleitung zum Meistern des nostalgischen Reinigungslevels von „Word Play Flowers“ zusammengestellt.

Angenommen, wir haben eine Zufallsvariable U, die einer Gleichverteilung U(0,1) folgt. Wir können die Stichprobenmethode der inversen Transformation verwenden, um die Gumbel-Verteilung G zu generieren, indem wir G = -log(-log(U)) berechnen. Auf diese Weise können wir eine Zufallsvariable G erhalten, die der Gumbel-Verteilung gehorcht. Indem wir die Gumbel-Verteilung verwenden, um die Log-Wahrscheinlichkeiten unabhängig zu stören, und die Funktion argmax verwenden, um das größte Element zu finden, können wir eine probabilistische Stichprobe ohne zufällige Auswahl erreichen. Diese Technik wird als Gumbel-Max-Technik bezeichnet. Basierend auf den Ideen dieser Arbeit verwendet die Gumbel-Softmax-Methode die Softmax-Funktion als kontinuierlich differenzierbare Näherung von argmax und erreicht die Gesamtdifferenzierbarkeit durch Neuparametrisierung. Diese Methode wird häufig im Deep Learning eingesetzt, insbesondere in generativen Modellen und beim Reinforcement Learning.

GumbelTop-k ist ein Algorithmus, der eine geordnete Stichprobe von Stichproben der Größe k ohne Ersatz durchführt. Der Zweck dieses Algorithmus besteht darin, die Anzahl der Stichproben von Top-1 auf Top-k zu erweitern, wobei k ein Hyperparameter ist. Allerdings sind nicht alle Ziele für den gleichen Wert von k geeignet. Beispielsweise sollten verdeckte Objekte weniger positive Proben aufweisen als normale Objekte. Um dieses Problem zu lösen, entwerfen wir ein Modul, das auf der relativen Hyperparameterdistanz basiert und Proben adaptiv teilen kann. Dieses Modul wird als Learnable Sample Selection (LSS)-Modul bezeichnet und besteht aus Gumbel Softmax und einem relativen Abstandsprobenteiler. Ein schematisches Diagramm des LSS-Moduls ist auf der rechten Seite von Abbildung 2 dargestellt.

Mixup3D-Datenerweiterung

Aufgrund strenger Bildgebungsbeschränkungen sind Datenerweiterungsmethoden bei der monokularen 3D-Inspektion begrenzt. Zusätzlich zur photometrischen Verzerrung und horizontalen Spiegelung führen die meisten Methoden zur Datenerweiterung zu verschwommenen Merkmalen, da das Bildgebungsprinzip gebrochen wird. Da sich das LSS-Modul außerdem auf Merkmale auf Zielebene konzentriert, sind Methoden, die die Merkmale des Ziels selbst nicht verändern, für das LSS-Modul nicht effektiv genug.

MixUp ist eine leistungsstarke Technologie, die die Funktionen eines Ziels auf Pixelebene verbessert. Um die Wirkung noch weiter zu verbessern, schlägt der Autor eine neue Methode namens MixUp3D vor. Diese Methode fügt auf der Grundlage von 2D MixUp physikalische Einschränkungen hinzu, wodurch die generierten Bilder sinnvoller und räumlich überlappender werden. Insbesondere verletzt MixUp3D nur die Kollisionsbeschränkungen von Objekten in der physischen Welt und stellt gleichzeitig sicher, dass das erzeugte Bild dem Bildgebungsprinzip entspricht und jegliche Mehrdeutigkeit vermeidet. Diese Innovation bringt mehr Möglichkeiten und Anwendungsperspektiven in den Bereich der Bilderzeugung.

Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

Experimentelle Ergebnisse

Wir werden die Leistung der monokularen 3D-Autoerkennung auf dem KITTI-Testset besprechen. Laut der KITTI-Rangliste liegt unsere Methode unterhalb des mittleren Schwierigkeitsgrades. In der folgenden Liste markieren wir das beste Ergebnis fett und das zweite Ergebnis unterstrichen. Für zusätzliche Daten gibt es die folgenden Situationen: 1) Die Methode zur Verwendung zusätzlicher LIDAR-Wolkenpunktdaten wird als LIDAR dargestellt. 2) Es wird eine Tiefenkarte oder ein Modell verwendet, das unter einem anderen Tiefenschätzungsdatensatz vorab trainiert wurde und als Tiefe bezeichnet wird. 3) Verwendete dichte Formanmerkungen, die vom CAD-Modell bereitgestellt wurden und als CAD dargestellt wurden. 4) Zeigt an, dass keine zusätzlichen Daten verwendet werden, also keine.

Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

Datensatz-Testergebnisse auf Wamyo:

Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

Datensatzübergreifende Auswertung des KITTI-val-Modells auf KITTI-val- und nuScenes-Vorderseiten-Val-Autos mit Tiefen-MAE:

Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

Anwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS

https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg „Word Play Flower“ ist ein beliebtes Worträtselspiel mit täglich neuen Levels. Darunter gibt es ein Level namens „Nostalgia Cleaning“, bei dem die Spieler 12 Gegenstände auf dem Bild finden müssen, die nicht mit der Epoche übereinstimmen. Um den Spielern zu helfen, die das Level noch nicht geschafft haben, habe ich Ihnen eine Anleitung zum nostalgischen Reinigungslevel von „Word Play Flowers“ zusammengestellt und die Vorgehensweise zum Löschen des Levels im Detail vorgestellt. Lass uns einen Blick darauf werfen!


Das obige ist der detaillierte Inhalt vonAnwendung des Probenscreenings im visuellen 3D-Erkennungstraining: MonoLSS. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen