Alles in jeder Szene: Realistische Objekteinfügung (zur Unterstützung der Synthese verschiedener Fahrdaten)-KI-php.cn

Heim

Technologie-Peripheriegeräte

Alles in jeder Szene: Realistische Objekteinfügung (zur Unterstützung der Synthese verschiedener Fahrdaten)

王林

Mar 06, 2024 pm 10:10 PM

视频模型视频编辑

Originaltitel: Anything in Any Scene: Photorealistic Video Object Insertion

Papierlink: https://arxiv.org/pdf/2401.17509.pdf

Codelink: https://github.com/AnythingInAnyScene/anything_in_anyscene

Zugehörigkeit des Autors: Vor allem, wenn die Aufnahme von Videos in der realen Welt unpraktisch oder teuer ist. Bestehende Methoden in der Videosimulation sind oft nicht in der Lage, Beleuchtungsumgebungen genau zu modellieren, Objektgeometrien darzustellen oder ein hohes Maß an Fotorealismus zu erreichen. In diesem Artikel wird „Anything in Any Scene“ vorgeschlagen, ein neuartiges und vielseitiges Simulationsframework für reale Videos, das jedes Objekt nahtlos in vorhandene dynamische Videos einfügen und den physischen Realismus betonen kann. Der in diesem Artikel vorgeschlagene Gesamtrahmen enthält drei Schlüsselprozesse: 1) Integration realer Objekte in ein bestimmtes Szenenvideo und deren Platzierung an geeigneten Orten, um geometrischen Realismus sicherzustellen; 2) Schätzung der Verteilung der Himmels- und Umgebungsbeleuchtung sowie Simulation realer Schatten und Verbesserung des Lichtrealismus; 3) Verwenden Sie ein Stilübertragungsnetzwerk, um die endgültige Videoausgabe zu verfeinern und den Fotorealismus zu maximieren. Dieser Artikel beweist experimentell, dass das Anything in Any Scene-Framework Simulationsvideos mit ausgezeichnetem geometrischem Realismus, Beleuchtungsrealismus und Fotorealismus generieren kann. Durch die deutliche Reduzierung der mit der Videodatengenerierung verbundenen Herausforderungen bietet unser Framework eine effiziente und kostengünstige Lösung für den Erhalt hochwertiger Videos. Darüber hinaus gehen seine Anwendungen weit über die Verbesserung von Videodaten hinaus und zeigen vielversprechendes Potenzial in der virtuellen Realität, der Videobearbeitung und verschiedenen anderen videozentrierten Anwendungen.

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成） Hauptbeitrag

In diesem Artikel wird ein neuartiges und erweiterbares Anything in Any Scene-Videosimulationsframework vorgestellt, mit dem jedes Objekt in jedes dynamische Szenenvideo integriert werden kann.

Dieser Artikel ist einzigartig strukturiert und konzentriert sich auf die Beibehaltung von Geometrie, Beleuchtung und Fotorealismus in Videosimulationen, um eine hohe Qualität und Authentizität der Ausgabeergebnisse sicherzustellen.

Nach umfassender Verifizierung zeigen die Ergebnisse, dass das Framework in der Lage ist, äußerst realistische Videosimulationen zu erstellen und damit den Anwendungsbereich und das Entwicklungspotenzial dieses Bereichs deutlich zu erweitern.

Thesis Design

Bild- und Videosimulationen werden in einer Vielzahl von Anwendungen von der virtuellen Realität bis zur Filmproduktion erfolgreich eingesetzt. Die Fähigkeit, durch fotorealistische Bild- und Videosimulation vielfältige und qualitativ hochwertige visuelle Inhalte zu generieren, hat das Potenzial, diese Bereiche voranzutreiben und neue Möglichkeiten und Anwendungen zu eröffnen. Während die Authentizität von Bildern und Videos, die in der realen Welt aufgenommen wurden, von unschätzbarem Wert ist, wird sie oft durch Long-Tail-Verbreitungen eingeschränkt. Dies führt zu einer Überrepräsentation häufiger Szenarien und einer Unterrepräsentation seltener, aber kritischer Situationen, was eine Herausforderung darstellt, die als Out-of-Distribution-Problem bekannt ist. Herkömmliche Methoden zur Beseitigung dieser Einschränkungen durch Videoaufnahme und -bearbeitung erwiesen sich als unpraktisch oder zu teuer, da es schwierig war, alle möglichen Szenarien abzudecken. Die Bedeutung der Videosimulation, insbesondere durch die Integration vorhandener Videos mit neu eingefügten Objekten, wird für die Bewältigung dieser Herausforderungen von entscheidender Bedeutung. Durch die Generierung umfangreicher, vielfältiger und realistischer visueller Inhalte trägt die Videosimulation dazu bei, Anwendungen in der virtuellen Realität, der Videobearbeitung und der Videodatenerweiterung zu erweitern.

Allerdings ist die Erstellung realistischer Simulationsvideos unter Berücksichtigung des physikalischen Realismus immer noch ein herausforderndes offenes Problem. Bestehende Methoden weisen häufig Einschränkungen auf, da sie sich auf bestimmte Umgebungen konzentrieren, insbesondere auf Innenräume [9, 26, 45, 46, 57]. Diese Methoden berücksichtigen möglicherweise nicht ausreichend die Komplexität von Außenszenen, einschließlich unterschiedlicher Lichtverhältnisse und sich schnell bewegender Objekte. Methoden, die auf der Registrierung von 3D-Modellen basieren, beschränken sich auf die Integration begrenzter Objektklassen [12, 32, 40, 42]. Viele Methoden ignorieren wichtige Faktoren wie die Modellierung der Beleuchtungsumgebung, die korrekte Objektplatzierung und das Erreichen von Realismus [12, 36]. Der fehlgeschlagene Fall ist in Abbildung 1 dargestellt. Daher schränken diese Einschränkungen ihre Anwendung in Bereichen stark ein, die hoch skalierbare, geometrisch konsistente und realistische Szenenvideosimulationen erfordern, wie etwa autonomes Fahren und Robotik.

In diesem Artikel wird „Anything in Any Scene“ vorgeschlagen, ein umfassendes Framework für das Einfügen fotorealistischer Videoobjekte, das diese Herausforderungen angeht. Das Framework ist so konzipiert, dass es vielseitig und für Innen- und Außenszenen geeignet ist und physikalische Genauigkeit in Bezug auf geometrischen Realismus, Beleuchtungsrealismus und Fotorealismus gewährleistet. Das Ziel dieser Arbeit besteht darin, Videosimulationen zu erstellen, die nicht nur für die visuelle Datenerweiterung beim maschinellen Lernen nützlich sind, sondern auch für verschiedene Videoanwendungen wie virtuelle Realität und Videobearbeitung geeignet sind.

Die Übersicht über das Anything in Any Scene-Framework dieses Artikels ist in Abbildung 2 dargestellt. In diesem Artikel wird in Abschnitt 3 unsere neuartige und skalierbare Pipeline zum Aufbau einer vielfältigen Asset-Bibliothek aus Szenenvideos und Objektnetzen beschrieben. In diesem Artikel wird eine visuelle Datenabfrage-Engine vorgestellt, die entwickelt wurde, um relevante Videoclips aus visuellen Abfragen mithilfe beschreibender Schlüsselwörter effizient abzurufen. Als Nächstes werden in diesem Artikel zwei Methoden zum Generieren von 3D-Netzen vorgeschlagen, die sowohl vorhandene 3D-Assets als auch die Bildrekonstruktion mit mehreren Ansichten nutzen. Dies ermöglicht das uneingeschränkte Einfügen jedes gewünschten Objekts, auch wenn es sehr unregelmäßig oder semantisch schwach ist. In Abschnitt 4 beschreibt das Papier Methoden zur Integration von Objekten in dynamische Szenenvideos, wobei der Schwerpunkt auf der Aufrechterhaltung des physischen Realismus liegt. In diesem Artikel wird die in Abschnitt 4.1 beschriebene Methode zur Objektplatzierung und -stabilisierung entworfen, um sicherzustellen, dass das eingefügte Objekt in aufeinanderfolgenden Videobildern stabil verankert ist. Um der Herausforderung gerecht zu werden, realistische Licht- und Schatteneffekte zu erzeugen, schätzt dieses Dokument die Himmels- und Umgebungsbeleuchtung und erzeugt beim Rendern realistische Schatten, wie in Abschnitt 4.2 beschrieben. Die generierten simulierten Videobilder enthalten unweigerlich unrealistische Artefakte, die sich von real aufgenommenen Videos unterscheiden, wie z. B. Unterschiede in der Bildqualität in Bezug auf Rauschpegel, Farbtreue und Schärfe. In diesem Artikel wird das Stilübertragungsnetzwerk verwendet, um den Fotorealismus in Abschnitt 4.3 zu verbessern.

Die aus dem in diesem Artikel vorgeschlagenen Framework generierten Simulationsvideos erreichen ein hohes Maß an Beleuchtungsrealismus, geometrischem Realismus und Fotorealismus und übertreffen andere Videos sowohl in Qualität als auch in Quantität, wie in Abschnitt 5.3 gezeigt. Dieser Artikel demonstriert weiter die Anwendung des Simulationsvideos dieses Artikels beim Training von Wahrnehmungsalgorithmen in Abschnitt 5.4, um seinen praktischen Wert zu überprüfen. Das „Anything in Any Scene“-Framework ermöglicht die Erstellung umfangreicher, kostengünstiger Videodatensätze zur Datenerweiterung mit Zeiteffizienz und realistischer visueller Qualität, wodurch die Belastung durch die Videodatengenerierung verringert und möglicherweise Long-Tail- und Out-of-View-Daten verbessert werden. Herausforderungen im Vertrieb. Mit seinem allgemeinen Framework-Design kann das Anything in Any Scene-Framework problemlos verbesserte Modelle und neue Module, wie beispielsweise verbesserte 3D-Netzrekonstruktionsmethoden, integrieren, um die Leistung der Videosimulation weiter zu verbessern.

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成） Abbildung 1. Beispiele für simulierte Videobilder mit Fehlern bei der Schätzung der Beleuchtungsumgebung, Fehlern bei der Objektplatzierung und unrealistischen Texturstilen. Diese Probleme führen dazu, dass dem Bild der physische Realismus fehlt. Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成） Abbildung 2. Übersicht über das Anything in Any Scene-Framework für das Einfügen fotorealistischer Videoobjekte. Abbildung 3. Beispiel eines Fahrszenenvideos für die Objektplatzierung. Die roten Punkte in jedem Bild zeigen an, wo die Objekte eingefügt wurden.