Heim > Artikel > Technologie-Peripheriegeräte > CVPR 2024 |. Vierdimensionales Raum-Zeit-Vortraining des Weltmodells für autonomes Fahren
Die Universität Peking und das EVLO-Innovationsteam haben gemeinsam DriveWorld vorgeschlagen, einen vierdimensionalen Raum-Zeit-Vortrainingsalgorithmus für autonomes Fahren. Diese Methode verwendet ein Weltmodell für das Vortraining, entwirft ein Speicherzustandsraummodell für die vierdimensionale räumlich-zeitliche Modellierung und reduziert die Zufallsunsicherheit und Wissensunsicherheit, mit denen autonomes Fahren konfrontiert ist, durch Vorhersage des Besetzungsrasters der Szene. Dieses Papier wurde vom CVPR 2024 angenommen.
Papiertitel: DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving
Papierlink: https://www.php.cn/link/293643def1ba1161bcdcfbfe434ab76d
1. Motivation
Die Aufgabe des Szenenverständnisses beim autonomen Fahren umfasst mehrere Ebenen wie die Wahrnehmung der Szene und die Vorhersage zukünftiger Veränderungen. Diese Ebenen umfassen nicht nur die dreidimensionale Struktur im Raum, sondern auch dynamische Veränderungen in der Zeitdimension. Dieses komplexe Szenenverständnis erfordert, dass das Modell in der Lage ist, die intrinsische Korrelation von vierdimensionalem Raum und Zeit zu erfassen und zu verstehen, um genaue Entscheidungen treffen zu können. Das Erlernen vierdimensionaler räumlich-zeitlicher Darstellungen ist aufgrund der stochastischen Natur natürlicher Szenen, der lokalen Beobachtbarkeit der Umgebung und der Vielfalt verschiedener nachgelagerter Aufgaben äußerst anspruchsvoll. Das Vortraining spielt eine Schlüsselrolle bei der Gewinnung universeller Darstellungen aus großen Datenmengen und ermöglicht die Erstellung eines Basismodells mit universellem Wissen. Allerdings gibt es noch relativ wenige Pre-Training-Studien zur vierdimensionalen Raumzeit beim autonomen Fahren.
Der Entwurf und die Implementierung autonomer Fahrsysteme müssen sich verschiedenen Unsicherheiten stellen und diese bewältigen, die hauptsächlich in zwei Kategorien unterteilt werden: aleatorische Unsicherheit und epistemische Unsicherheit. Aleatorische Unsicherheit entsteht durch die inhärente Zufälligkeit der Welt, etwa durch die plötzliche Bewegung von Fußgängern oder das unerwartete Verhalten von Fahrzeugen. Epistemische Unsicherheit entsteht durch unvollständige Kenntnisse der Umgebung, beispielsweise durch fehlende Informationen aufgrund von Okklusion oder Sensoreinschränkungen. Um diese Unsicherheiten effektiv zu bewältigen, müssen autonome Fahrsysteme in der Lage sein, vergangene Erfahrungen zu nutzen, um mögliche zukünftige Zustände vorherzusagen und Rückschlüsse auf unsichtbare Bereiche zu ziehen. Diese Arbeit geht diese Herausforderung durch ein vierdimensionales räumlich-zeitliches vorab trainiertes Weltmodell an und zielt darauf ab, die Leistung autonomer Fahrsysteme bei Wahrnehmungs-, Vorhersage- und Planungsaufgaben zu verbessern.
2. Methode
Für die Sequenz von T-Videobildern o1:T, die vom autonomen Fahr-Surround-Kamerasystem beobachtet werden, sowie deren entsprechendes Expertenverhalten a1:T und die dreidimensionale Belegungsrasterbezeichnung y1:T, Hier können die dreidimensionalen Occupancy-Rasterbeschriftungen mithilfe von 3D-LiDAR-Punktwolken- und Lagedaten ermittelt werden. Unser Ziel ist es, eine kompakte BEV-Darstellung aus einem Weltmodell zu erlernen, das aktuelle und zukünftige 3D-Belegungsraster aus vergangenen Multi-View-Bildern und Aktionen vorhersagt.
2.1 Zeitreihen-Wahrscheinlichkeitsmodell
Um dem Modell die Möglichkeit zu geben, vierdimensionalen Raum und Zeit zu modellieren, führen wir zunächst zwei potentielle Variablen (h1:T, s1:T) ein, wobei ht darstellt Die historische Informationsvariable, einschließlich aller historischen Informationen zum Zeitpunkt t, st stellt die zufällige Zustandsvariable dar, die der Schlüssel für das Modell ist, das den zukünftigen Zustand vorhersagt. ht wird durch historische Informationen h1:t−1 und Zufallszustand s1:t−1 aktualisiert. Um den zukünftigen Zustand vorherzusagen, folgen wir dem Recurrent State-Space Model (RSSM) und konstruieren die Posterior-Zustandsverteilung q(st∣o≤t,a Angesichts der Tatsache, dass die Dimensionalität der BEV-Merkmale hoch ist, konvertieren wir sie in einen eindimensionalen Vektor xt und tasten dann eine Gaußsche Verteilung aus (ht,at−1,xt) ab, um die hintere Zustandsverteilung zu generieren: In Ermangelung beobachteter Bilder leitet das Modell die vorherige Zustandsverteilung basierend auf historischen Informationen und vorhergesagten Aktionen ab: 2.1.1 Dynamische Nachrichtenübermittlung Beim Szenenverständnis des autonomen Fahrens ist die Berücksichtigung der Bewegung von Objekten entscheidend, um zukünftige Zustände genau vorherzusagen. Um diese dynamischen Informationen zu erfassen, schlagen wir vor, die Bewegung von Objekten durch Einführung von Bewegungsparametern zu modellieren, um eine Bewegungswahrnehmung während der Ausbreitung dynamischer Informationen zu erreichen. Wir führen die bewegungsbewusste Layer-Normalisierung (MLN) ein. Zu den Bewegungsattributen gehören die Geschwindigkeit v und das relative Zeitintervall Δt. (v,Δt) wird abgeflacht und durch zwei lineare Schichten (ξ1,ξ2) in affine Vektoren γ und β umgewandelt: γ=ξ1(v,Δt),β=ξ2(v,Δt). Anschließend wird eine affine Transformation durchgeführt, um den zugrunde liegenden stochastischen Zustand der Bewegungswahrnehmung zu erhalten, ausgedrückt als st=γ⋅LN(st)+β. Während sich das Fahrzeug bewegt, kann der deterministische historische Zustand ht eine dynamische Speicherbibliothek h1:t aufbauen. Durch die Durchführung von Cross-Attention-Mechanismus-Berechnungen mit der dynamischen Speicherbank kann der deterministische historische Zustand ht ermittelt werden. 2.1.2 Räumliche Informationsübertragung Im Szenenverständnis des autonomen Fahrens sind neben dynamischen Änderungsinformationen auch räumliche Strukturinformationen gleichermaßen wichtig. Da kontinuierliche Szenenbilder normalerweise nur geringfügige Änderungen enthalten und der Hauptinhalt der Szene häufig aus statischen Objekten wie Straßen, Bäumen und Verkehrszeichen besteht, ist es bei der Verarbeitung dieser Informationen möglich, das Eingabebild direkt in ein Bild umzuwandeln Dies führt zum Verlust wichtiger räumlicher Strukturinformationen. Wir wählen zufällig einen Frame o′ von 1 bis T Frames aus und verwenden seine BEV-Merkmale b′, um eine latente statische Darstellung b^=zθ(b′) zu konstruieren, die die räumliche Wahrnehmungsstruktur beschreibt. Wir kombinieren die räumlich bewusste statische Darstellung b^ mit der sich dynamisch ändernden Bewegungsdarstellung st, um eine umfassende Darstellung der umgebenden Szene zu erhalten. 2.2 Hilfsaufgaben vor dem Training Ein umfassendes Verständnis der Umgebung ist entscheidend für autonomes Fahren. Wir schlagen vor, die physische Welt als dreidimensionale Belegungsgitterstruktur zu modellieren, um die Umgebung um das Fahrzeug herum zu beschreiben. Der dreidimensionale Belegungsgitterdecoder ist auf y^t=lθ(mθ(h~t,st),b^) eingestellt, wobei mθ ein Netzwerk ist, das eindimensionale Merkmale auf die BEV-Dimension erweitert, und lθ dazu verwendet wird Vorhersage des Belegungsgitters im 3D-Faltungsnetzwerk. Dieses vierdimensionale Belegungsgitter-Vortraining kann nicht nur die statische Struktur der Szene erfassen, sondern auch die dynamischen Veränderungen der Szene im Laufe der Zeit verstehen und so ein umfassenderes und dynamischeres Umgebungsverständnis für das autonome Fahrsystem bereitstellen. 2.3 Aufgabenaufforderungsmechanismus Obwohl die vierdimensionale räumlich-zeitliche Darstellung durch die vom Weltmodell entworfenen Vortrainingsaufgaben erlernt werden kann, konzentrieren sich verschiedene nachgelagerte Aufgaben auf unterschiedliche Informationen. Um dieses Problem zu lindern, wird, inspiriert von semantischen Hinweisen für die Bilderkennung mit wenigen Aufnahmen und visuellen, beispielgeführten Hinweisen beim Lernen mit mehreren Aufgaben, ein „Aufgabenhinweis“-Mechanismus eingeführt, der spezifische Hinweise für verschiedene Aufgaben bereitstellt, um sie bei der Extraktion aufgabenbezogener Informationen zu unterstützen Besonderheit. Da zwischen verschiedenen Aufgaben semantische Korrelationen bestehen, verwenden wir große Sprachmodelle gφ(⋅) (z. B. BERT, CLIP), um diese Aufgabenhinweise zu erstellen. Beispielsweise konzentriert sich die Aufgabenaufforderung für die Aufgabe zur Rekonstruktion des dreidimensionalen Belegungsgitters mehr auf die aktuelle Szene und ist auf „Die Aufgabe besteht darin, das dreidimensionale Belegungsgitter der aktuellen Szene vorherzusagen“ festgelegt. Wir geben den Prompt-ptext in gφ(⋅) ein, um die Prompt-Kodierung gφ(ptext) zu erhalten. Anschließend wird es auf die Dimension des BEV erweitert, die als qφ(gφ(ptext)) bezeichnet wird, und mit den erlernten raumzeitlichen Merkmalen integriert. 2.4 Zielfunktion vor dem Training Zu den Zielen von DriveWorld vor dem Training gehören die Minimierung des Unterschieds zwischen der Verteilung des hinteren Zustands und der Verteilung des vorherigen Zustands (d. h. Kullback-Leibler (KL)-Divergenz) und die Minimierung des Unterschieds zwischen der Vergangenheit und der Vergangenheit Verlust im Zusammenhang mit dem zukünftigen dreidimensionalen Belegungsgitter (d. h. Kreuzentropieverlust (CE)) und Aktion (d. h. L1-Verlust). Wir übernehmen das Modell, um die Eingabe für T Zeitschritte zu beobachten und dann das zukünftige dreidimensionale Besetzungsgitter und L Aktionsschritte vorherzusagen. 3. Experiment Wir verwenden die Multi-Frame-LiDAR-Punktwolkenaggregation, um dichte 3D-Belegungsgitterbeschriftungen zu erhalten. 3.2 Experimentelle Ergebnisse Ein Teil der Ergebnisse wird hier angezeigt. Weitere Ergebnisse finden Sie im Papier.
4. Zusammenfassung DriveWorld verbessert das Verständnis und die Vorhersagefähigkeit des autonomen Fahrsystems für die Umgebung durch ein vierdimensionales Raum-Zeit-Vortraining auf der Grundlage des Weltmodells und verringert die Unsicherheit, mit der autonomes Fahren konfrontiert ist. DriveWorld schlug ein Speicherzustandsraummodell für die räumlich-zeitliche Modellierung vor, das ein dynamisches Speicherspeichermodul zum Lernen zeitbewusster Darstellungen und ein statisches Szenenausbreitungsmodul zum Lernen räumlich bewusster Darstellungen umfasst. Um die Anpassungsfähigkeit und Flexibilität des Modells weiter zu verbessern, führt DriveWorld außerdem einen Task-Prompt-Mechanismus ein, der es dem Modell ermöglicht, seine Darstellung entsprechend den aktuellen Aufgabenanforderungen adaptiv anzupassen und so die beste Leistung bei verschiedenen autonomen Fahraufgaben zu erzielen. Referenz [1]Chen Min, et al. Occupancy-mae: Selbstüberwachte großflächige Lidar-Punktwolken vor dem Training mit maskierten Belegungs-Autoencodern[J]. IEEE Transactions on Intelligent Vehicles, 2023. Zhao Jian , China Telecom Artificial Intelligenzdirektor und junger Wissenschaftler des Multimedia Cognitive Learning Laboratory (EVOL Lab) des Intelligent Research Institute, Forscher und Doktorvater am Institut für Optoelektronik und Intelligenz der Northwestern Polytechnical University. Er schloss sein Studium an der National University of Singapore ab Zu den Forschungsinteressen gehören Multimedia-Analyse, lokale Sicherheit und Verkörperung von Intelligenz. Insgesamt wurden mehr als 60 CCF-A-Artikel veröffentlicht, darunter ein T-PAMI×2 (IF: 24.314) und ein IJCV×3 (IF: 13.369). Der erste Erfinder hat 5 nationale Erfindungspatente genehmigt. Relevante technologische Errungenschaften wurden von sechs führenden Unternehmen der Technologiebranche, darunter Baidu, Ant Financial und Qihoo 360, umgesetzt und haben zu erheblichen Vorteilen geführt. Er wurde in das „Young Talent Promotion Project“ der China Association for Science and Technology und der Beijing Association for Science and Technology aufgenommen und war Gastgeber von sechs Projekten, darunter dem National Natural Youth Science Fund. Gewann den Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023), den ersten Preis des Wu Wenjun Artificial Intelligence Natural Science Award (2/5, 2022), den Lee Hwee Kuan Award der Singapore Pattern Recognition and Machine Intelligence Association (PREMIA) und den einziger bester Student des ACM Multimedia Paper Award (Erstarbeit, 1/208, CCF-A-Konferenz, 2018), gewann die Meisterschaft siebenmal bei wichtigen internationalen wissenschaftlichen und technologischen Veranstaltungen. Denkte als Direktor der Beijing Image and Graphics Society, als Redaktionsmitglied der international renommierten Fachzeitschriften „Artificial Intelligence Advances“ und „IET Computer Vision“ und als Gastredakteur der Sonderausgaben von „Pattern Recognition Letters“ und „Electronics“. ", ein leitender Field Chairman von VALSE und ein ACM Multimedia 2021-Scorer. Forumsvorsitzender, CICAI 2022/2023 Area Chairman, CCBR 2024 Forum Chairman, leitendes Mitglied der China Artificial Intelligence Society/China Image and Graphics Society, Juror der „Challenge“. Cup" College Student Science and Technology Works Competition, Mitglied des Expertenkomitees des China Artificial Intelligence Competition usw. GitHub-Homepage: , Distinguished Associate der Beijing Post and Telecommunications University Zu den Hauptforschungsrichtungen des Forschers gehören Computer Vision, Data Mining und Mustererkennung, mit eingehender Forschung zur menschlichen Haltungsschätzung, zur Erkennung menschlicher Handlungen, zur Analyse des menschlichen Körpers und anderen Unterbereichen. Verwandte Ergebnisse wurden in hochrangigen Konferenzen und Fachzeitschriften veröffentlicht B. CVPR, AAAI, NIPS und ACMMM, und es wurden insgesamt mehr als 40 SCI/EI-indizierte Artikel veröffentlicht, darunter 11 hochrangige Artikel, darunter Artikel, die als Erstautor im JCR-Bereich 1 der Chinesischen Akademie veröffentlicht wurden of Sciences (IEEE Transactions on MultiMedia), CCF-A-Konferenz CVPR, ACMMM-Beiträge, JCR Area 2 der Chinesischen Akademie der Wissenschaften (Sensoren), IEEE Sensor Journal)-Beiträge usw. Gastgeber eines National Natural Science Foundation of China Youth Fund, Teilnahme an zwei nationalen Schlüsselprojekten für Forschung und Entwicklung und vier Projekten der Natural Science Foundation of China. Wir haben uns bei der Organisation von ICCV2021/CVPR2023-Workshops (Anti-UAV Workshop & Challenge) viele Male auf Top-Konferenzen verlassen. Anleitung von Studenten zum Gewinn des ersten Preises im National College Bio-Internet Technology and Application „Three Innovations“-Wettbewerb (Wettbewerb der Kategorie A, anerkannt von der Beijing University of Posts and Telecommunications). , Ph.D. von der Fakultät für Informatik der Universität Peking, Sonderforschungsassistent am Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften, umfasst autonomes Fahren, verkörperte Intelligenz und drei- dimensionale Rekonstruktion. Relevante Ergebnisse wurden in hochrangigen Konferenzen und Konferenzen wie CVPR, ICCV, ICRA und RAL Journals veröffentlicht, einschließlich der CCF-A-Konferenz CVPR als Erstautor, der Top-Robotik-Konferenz ICRA, der maßgeblichen Robotik-Zeitschrift RAL usw . Teilnahme an einer Reihe wichtiger nationaler Forschungs- und Entwicklungsprojekte.
p(st ∣ht− 1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
wobei st als Normalverteilung mit diagonaler Kovarianz parametrisiert ist, the Die Anfangsverteilung ist auf s1∽N(0,I) eingestellt. (μϕ,σϕ) ist ein mehrschichtiges Perzeptron mit parametrisierter hinterer Zustandsverteilung.
p(st∣ht−1,st−1)∽N(μθ(ht,a^t− 1) ,σθ(ht,a^t−1)I),
wobei (μθ,σθ) die vorherige Zustandsverteilung parametrisiert. ?? ist ein Richtliniennetzwerk, das zur Vorhersage der Aktion a^t−1 verwendet wird, basierend auf historischen Informationen ht−1 und zufälligen Zuständen st−1.
Der deterministische historische Zustand ist ht+1=fθ(ht,st).
Das obige ist der detaillierte Inhalt vonCVPR 2024 |. Vierdimensionales Raum-Zeit-Vortraining des Weltmodells für autonomes Fahren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!