


Alles in jeder Szene: Realistische Objekteinfügung (zur Unterstützung der Synthese verschiedener Fahrdaten)
Originaltitel: Anything in Any Scene: Photorealistic Video Object Insertion
Papierlink: https://arxiv.org/pdf/2401.17509.pdf
Codelink: https://github.com/AnythingInAnyScene/anything_in_anyscene
Zugehörigkeit des Autors: Vor allem, wenn die Aufnahme von Videos in der realen Welt unpraktisch oder teuer ist. Bestehende Methoden in der Videosimulation sind oft nicht in der Lage, Beleuchtungsumgebungen genau zu modellieren, Objektgeometrien darzustellen oder ein hohes Maß an Fotorealismus zu erreichen. In diesem Artikel wird „Anything in Any Scene“ vorgeschlagen, ein neuartiges und vielseitiges Simulationsframework für reale Videos, das jedes Objekt nahtlos in vorhandene dynamische Videos einfügen und den physischen Realismus betonen kann. Der in diesem Artikel vorgeschlagene Gesamtrahmen enthält drei Schlüsselprozesse: 1) Integration realer Objekte in ein bestimmtes Szenenvideo und deren Platzierung an geeigneten Orten, um geometrischen Realismus sicherzustellen; 2) Schätzung der Verteilung der Himmels- und Umgebungsbeleuchtung sowie Simulation realer Schatten und Verbesserung des Lichtrealismus; 3) Verwenden Sie ein Stilübertragungsnetzwerk, um die endgültige Videoausgabe zu verfeinern und den Fotorealismus zu maximieren. Dieser Artikel beweist experimentell, dass das Anything in Any Scene-Framework Simulationsvideos mit ausgezeichnetem geometrischem Realismus, Beleuchtungsrealismus und Fotorealismus generieren kann. Durch die deutliche Reduzierung der mit der Videodatengenerierung verbundenen Herausforderungen bietet unser Framework eine effiziente und kostengünstige Lösung für den Erhalt hochwertiger Videos. Darüber hinaus gehen seine Anwendungen weit über die Verbesserung von Videodaten hinaus und zeigen vielversprechendes Potenzial in der virtuellen Realität, der Videobearbeitung und verschiedenen anderen videozentrierten Anwendungen.
Hauptbeitrag
In diesem Artikel wird ein neuartiges und erweiterbares Anything in Any Scene-Videosimulationsframework vorgestellt, mit dem jedes Objekt in jedes dynamische Szenenvideo integriert werden kann.
Dieser Artikel ist einzigartig strukturiert und konzentriert sich auf die Beibehaltung von Geometrie, Beleuchtung und Fotorealismus in Videosimulationen, um eine hohe Qualität und Authentizität der Ausgabeergebnisse sicherzustellen.Nach umfassender Verifizierung zeigen die Ergebnisse, dass das Framework in der Lage ist, äußerst realistische Videosimulationen zu erstellen und damit den Anwendungsbereich und das Entwicklungspotenzial dieses Bereichs deutlich zu erweitern.
Thesis Design
Bild- und Videosimulationen werden in einer Vielzahl von Anwendungen von der virtuellen Realität bis zur Filmproduktion erfolgreich eingesetzt. Die Fähigkeit, durch fotorealistische Bild- und Videosimulation vielfältige und qualitativ hochwertige visuelle Inhalte zu generieren, hat das Potenzial, diese Bereiche voranzutreiben und neue Möglichkeiten und Anwendungen zu eröffnen. Während die Authentizität von Bildern und Videos, die in der realen Welt aufgenommen wurden, von unschätzbarem Wert ist, wird sie oft durch Long-Tail-Verbreitungen eingeschränkt. Dies führt zu einer Überrepräsentation häufiger Szenarien und einer Unterrepräsentation seltener, aber kritischer Situationen, was eine Herausforderung darstellt, die als Out-of-Distribution-Problem bekannt ist. Herkömmliche Methoden zur Beseitigung dieser Einschränkungen durch Videoaufnahme und -bearbeitung erwiesen sich als unpraktisch oder zu teuer, da es schwierig war, alle möglichen Szenarien abzudecken. Die Bedeutung der Videosimulation, insbesondere durch die Integration vorhandener Videos mit neu eingefügten Objekten, wird für die Bewältigung dieser Herausforderungen von entscheidender Bedeutung. Durch die Generierung umfangreicher, vielfältiger und realistischer visueller Inhalte trägt die Videosimulation dazu bei, Anwendungen in der virtuellen Realität, der Videobearbeitung und der Videodatenerweiterung zu erweitern. Allerdings ist die Erstellung realistischer Simulationsvideos unter Berücksichtigung des physikalischen Realismus immer noch ein herausforderndes offenes Problem. Bestehende Methoden weisen häufig Einschränkungen auf, da sie sich auf bestimmte Umgebungen konzentrieren, insbesondere auf Innenräume [9, 26, 45, 46, 57]. Diese Methoden berücksichtigen möglicherweise nicht ausreichend die Komplexität von Außenszenen, einschließlich unterschiedlicher Lichtverhältnisse und sich schnell bewegender Objekte. Methoden, die auf der Registrierung von 3D-Modellen basieren, beschränken sich auf die Integration begrenzter Objektklassen [12, 32, 40, 42]. Viele Methoden ignorieren wichtige Faktoren wie die Modellierung der Beleuchtungsumgebung, die korrekte Objektplatzierung und das Erreichen von Realismus [12, 36]. Der fehlgeschlagene Fall ist in Abbildung 1 dargestellt. Daher schränken diese Einschränkungen ihre Anwendung in Bereichen stark ein, die hoch skalierbare, geometrisch konsistente und realistische Szenenvideosimulationen erfordern, wie etwa autonomes Fahren und Robotik. In diesem Artikel wird „Anything in Any Scene“ vorgeschlagen, ein umfassendes Framework für das Einfügen fotorealistischer Videoobjekte, das diese Herausforderungen angeht. Das Framework ist so konzipiert, dass es vielseitig und für Innen- und Außenszenen geeignet ist und physikalische Genauigkeit in Bezug auf geometrischen Realismus, Beleuchtungsrealismus und Fotorealismus gewährleistet. Das Ziel dieser Arbeit besteht darin, Videosimulationen zu erstellen, die nicht nur für die visuelle Datenerweiterung beim maschinellen Lernen nützlich sind, sondern auch für verschiedene Videoanwendungen wie virtuelle Realität und Videobearbeitung geeignet sind.Die Übersicht über das Anything in Any Scene-Framework dieses Artikels ist in Abbildung 2 dargestellt. In diesem Artikel wird in Abschnitt 3 unsere neuartige und skalierbare Pipeline zum Aufbau einer vielfältigen Asset-Bibliothek aus Szenenvideos und Objektnetzen beschrieben. In diesem Artikel wird eine visuelle Datenabfrage-Engine vorgestellt, die entwickelt wurde, um relevante Videoclips aus visuellen Abfragen mithilfe beschreibender Schlüsselwörter effizient abzurufen. Als Nächstes werden in diesem Artikel zwei Methoden zum Generieren von 3D-Netzen vorgeschlagen, die sowohl vorhandene 3D-Assets als auch die Bildrekonstruktion mit mehreren Ansichten nutzen. Dies ermöglicht das uneingeschränkte Einfügen jedes gewünschten Objekts, auch wenn es sehr unregelmäßig oder semantisch schwach ist. In Abschnitt 4 beschreibt das Papier Methoden zur Integration von Objekten in dynamische Szenenvideos, wobei der Schwerpunkt auf der Aufrechterhaltung des physischen Realismus liegt. In diesem Artikel wird die in Abschnitt 4.1 beschriebene Methode zur Objektplatzierung und -stabilisierung entworfen, um sicherzustellen, dass das eingefügte Objekt in aufeinanderfolgenden Videobildern stabil verankert ist. Um der Herausforderung gerecht zu werden, realistische Licht- und Schatteneffekte zu erzeugen, schätzt dieses Dokument die Himmels- und Umgebungsbeleuchtung und erzeugt beim Rendern realistische Schatten, wie in Abschnitt 4.2 beschrieben. Die generierten simulierten Videobilder enthalten unweigerlich unrealistische Artefakte, die sich von real aufgenommenen Videos unterscheiden, wie z. B. Unterschiede in der Bildqualität in Bezug auf Rauschpegel, Farbtreue und Schärfe. In diesem Artikel wird das Stilübertragungsnetzwerk verwendet, um den Fotorealismus in Abschnitt 4.3 zu verbessern.
Die aus dem in diesem Artikel vorgeschlagenen Framework generierten Simulationsvideos erreichen ein hohes Maß an Beleuchtungsrealismus, geometrischem Realismus und Fotorealismus und übertreffen andere Videos sowohl in Qualität als auch in Quantität, wie in Abschnitt 5.3 gezeigt. Dieser Artikel demonstriert weiter die Anwendung des Simulationsvideos dieses Artikels beim Training von Wahrnehmungsalgorithmen in Abschnitt 5.4, um seinen praktischen Wert zu überprüfen. Das „Anything in Any Scene“-Framework ermöglicht die Erstellung umfangreicher, kostengünstiger Videodatensätze zur Datenerweiterung mit Zeiteffizienz und realistischer visueller Qualität, wodurch die Belastung durch die Videodatengenerierung verringert und möglicherweise Long-Tail- und Out-of-View-Daten verbessert werden. Herausforderungen im Vertrieb. Mit seinem allgemeinen Framework-Design kann das Anything in Any Scene-Framework problemlos verbesserte Modelle und neue Module, wie beispielsweise verbesserte 3D-Netzrekonstruktionsmethoden, integrieren, um die Leistung der Videosimulation weiter zu verbessern.
Abbildung 1. Beispiele für simulierte Videobilder mit Fehlern bei der Schätzung der Beleuchtungsumgebung, Fehlern bei der Objektplatzierung und unrealistischen Texturstilen. Diese Probleme führen dazu, dass dem Bild der physische Realismus fehlt.
Abbildung 2. Übersicht über das Anything in Any Scene-Framework für das Einfügen fotorealistischer Videoobjekte.
Abbildung 3. Beispiel eines Fahrszenenvideos für die Objektplatzierung. Die roten Punkte in jedem Bild zeigen an, wo die Objekte eingefügt wurden.
Experimentelle Ergebnisse
Abbildung 4. Beispiele für Original-Himmelsbilder, rekonstruierte HDR-Bilder und die zugehörigen Karten zur Verteilung der Sonneneinstrahlung
Abbildung 5. Beispiele für Original- und rekonstruierte HDR-Umgebungspanoramabilder
Abbildung 6. Beispiel für die Erzeugung von Schatten für eingefügte Objekte
Abbildung 7. Qualitativer Vergleich simulierter Videobilder aus dem PandaSet-Datensatz unter Verwendung verschiedener Übertragungsnetzwerke.
Abbildung 8. Qualitativer Vergleich simulierter Videobilder aus dem PandaSet-Datensatz unter verschiedenen Rendering-Bedingungen.
Zusammenfassung:
Dieses Papier schlägt ein innovatives und erweiterbares Framework vor, „Anything in Any Scene“, das für eine realistische Videosimulation entwickelt wurde. Das in diesem Artikel vorgeschlagene Framework integriert verschiedene Objekte nahtlos in verschiedene dynamische Videos und stellt so sicher, dass geometrischer Realismus, Beleuchtungsrealismus und Fotorealismus erhalten bleiben. Durch ausführliche Demonstrationen demonstriert dieses Papier seine Wirksamkeit bei der Bewältigung der mit der Erfassung und Generierung von Videodaten verbundenen Herausforderungen und bietet kostengünstige und zeitsparende Lösungen für eine Vielzahl von Szenarien. Die Anwendung unseres Frameworks zeigt signifikante Verbesserungen bei nachgelagerten Wahrnehmungsaufgaben, insbesondere bei der Lösung des Long-Tail-Verteilungsproblems bei der Objekterkennung. Die Flexibilität unseres Frameworks ermöglicht die direkte Integration verbesserter Modelle für jedes Modul und unser Framework legt eine solide Grundlage für zukünftige Erkundungen und Innovationen im Bereich der realistischen Videosimulation.
Zitat:
Anything in Any Scene: Photorealistic Video Object Insertion[J].
Das obige ist der detaillierte Inhalt vonAlles in jeder Szene: Realistische Objekteinfügung (zur Unterstützung der Synthese verschiedener Fahrdaten). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
![Kann Chatgpt nicht verwenden! Erklären Sie die Ursachen und Lösungen, die sofort getestet werden können [die neueste 2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
Chatgpt ist nicht zugänglich? Dieser Artikel bietet eine Vielzahl von praktischen Lösungen! Viele Benutzer können auf Probleme wie Unzugänglichkeit oder langsame Reaktion stoßen, wenn sie täglich ChatGPT verwenden. In diesem Artikel werden Sie geführt, diese Probleme Schritt für Schritt basierend auf verschiedenen Situationen zu lösen. Ursachen für Chatgpts Unzugänglichkeit und vorläufige Fehlerbehebung Zunächst müssen wir feststellen, ob sich das Problem auf der OpenAI -Serverseite oder auf dem eigenen Netzwerk- oder Geräteproblemen des Benutzers befindet. Bitte befolgen Sie die folgenden Schritte, um Fehler zu beheben: Schritt 1: Überprüfen Sie den offiziellen Status von OpenAI Besuchen Sie die OpenAI -Statusseite (status.openai.com), um festzustellen, ob der ChatGPT -Dienst normal ausgeführt wird. Wenn ein roter oder gelber Alarm angezeigt wird, bedeutet dies offen

Am 10. Mai 2025 teilte der MIT-Physiker Max Tegmark dem Guardian mit, dass AI Labs Oppenheimers Dreifaltigkeitstestkalkül emulieren sollten, bevor sie künstliche Super-Intelligence veröffentlichen. „Meine Einschätzung ist, dass die 'Compton Constant', die Wahrscheinlichkeit, dass ein Rennen ums Rasse

Die KI -Musikkreationstechnologie verändert sich mit jedem Tag. In diesem Artikel werden AI -Modelle wie ChatGPT als Beispiel verwendet, um ausführlich zu erklären, wie mit AI die Erstellung der Musik unterstützt und sie mit tatsächlichen Fällen erklärt. Wir werden vorstellen, wie man Musik durch Sunoai, Ai Jukebox auf Umarmung und Pythons Music21 -Bibliothek kreiert. Mit diesen Technologien kann jeder problemlos Originalmusik erstellen. Es ist jedoch zu beachten, dass das Urheberrechtsproblem von AI-generierten Inhalten nicht ignoriert werden kann, und Sie müssen bei der Verwendung vorsichtig sein. Lassen Sie uns die unendlichen Möglichkeiten der KI im Musikfeld zusammen erkunden! OpenAIs neuester AI -Agent "Openai Deep Research" führt vor: [CHATGPT] ope

Die Entstehung von Chatgpt-4 hat die Möglichkeit von AI-Anwendungen erheblich erweitert. Im Vergleich zu GPT-3,5 hat sich ChatGPT-4 erheblich verbessert. Es verfügt über leistungsstarke Kontextverständnisfunktionen und kann auch Bilder erkennen und generieren. Es ist ein universeller AI -Assistent. Es hat in vielen Bereichen ein großes Potenzial gezeigt, z. B. die Verbesserung der Geschäftseffizienz und die Unterstützung der Schaffung. Gleichzeitig müssen wir jedoch auch auf die Vorsichtsmaßnahmen ihrer Verwendung achten. In diesem Artikel werden die Eigenschaften von ChatGPT-4 im Detail erläutert und effektive Verwendungsmethoden für verschiedene Szenarien einführt. Der Artikel enthält Fähigkeiten, um die neuesten KI -Technologien voll auszunutzen. Weitere Informationen finden Sie darauf. OpenAIs neueste AI -Agentin, klicken Sie auf den Link unten, um Einzelheiten zu "OpenAI Deep Research" zu erhalten.

CHATGPT -App: Entfesselt Ihre Kreativität mit dem AI -Assistenten! Anfängerführer Die ChatGPT -App ist ein innovativer KI -Assistent, der eine breite Palette von Aufgaben erledigt, einschließlich Schreiben, Übersetzung und Beantwortung von Fragen. Es ist ein Werkzeug mit endlosen Möglichkeiten, die für kreative Aktivitäten und Informationssammeln nützlich sind. In diesem Artikel werden wir für Anfänger eine leicht verständliche Weise von der Installation der ChatGPT-Smartphone-App bis hin zu den Funktionen für Apps wie Spracheingangsfunktionen und Plugins sowie die Punkte erklären, die Sie bei der Verwendung der App berücksichtigen sollten. Wir werden auch die Pluginbeschränkungen und die Konfiguration der Geräte-zu-Device-Konfiguration genauer betrachten

Chatgpt Chinesische Version: Schalte neue Erfahrung des chinesischen KI -Dialogs frei Chatgpt ist weltweit beliebt. Wussten Sie, dass es auch eine chinesische Version bietet? Dieses leistungsstarke KI -Tool unterstützt nicht nur tägliche Gespräche, sondern behandelt auch professionelle Inhalte und ist mit vereinfachtem und traditionellem Chinesisch kompatibel. Egal, ob es sich um einen Benutzer in China oder ein Freund, der Chinesisch lernt, Sie können davon profitieren. In diesem Artikel wird detailliert eingeführt, wie die chinesische ChatGPT -Version verwendet wird, einschließlich der Kontoeinstellungen, der Eingabeaufgabe der chinesischen Eingabeaufforderung, der Filtergebrauch und der Auswahl verschiedener Pakete sowie potenziellen Risiken und Antwortstrategien. Darüber hinaus werden wir die chinesische Chatgpt -Version mit anderen chinesischen KI -Tools vergleichen, um die Vorteile und Anwendungsszenarien besser zu verstehen. Openais neueste KI -Intelligenz

Diese können als der nächste Sprung nach vorne im Bereich der generativen KI angesehen werden, was uns Chatgpt und andere Chatbots mit großer Sprache modellierte. Anstatt nur Fragen zu beantworten oder Informationen zu generieren, können sie in unserem Namen Maßnahmen ergreifen, Inter

Effiziente Mehrfachkontoverwaltungstechniken mit Chatgpt | Eine gründliche Erklärung, wie man Geschäft und Privatleben nutzt! Chatgpt wird in verschiedenen Situationen verwendet, aber einige Leute machen sich möglicherweise Sorgen über die Verwaltung mehrerer Konten. In diesem Artikel wird ausführlich erläutert, wie mehrere Konten für ChatGPT, was zu tun ist, wenn Sie es verwenden und wie Sie es sicher und effizient bedienen. Wir decken auch wichtige Punkte wie den Unterschied in der Geschäfts- und Privatnutzung sowie die Einhaltung der Nutzungsbedingungen von OpenAI ab und bieten einen Leitfaden zur Verfügung, mit dem Sie mehrere Konten sicher verwenden können. Openai


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SublimeText3 Englische Version
Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor
