Heim >Technologie-Peripheriegeräte >KI >MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

王林
王林nach vorne
2023-10-04 12:17:031471Durchsuche

Die realistische Bilderzeugung findet vielfältige Anwendungsmöglichkeiten in Bereichen wie Virtual Reality, Augmented Reality, Videospielen und Filmproduktion.

Mit der rasanten Entwicklung von Diffusionsmodellen in den letzten zwei Jahren wurden große Durchbrüche auf dem Gebiet der Bilderzeugung erzielt. Eine Reihe von Open-Source- oder kommerziellen Modellen, die von Stable Diffusion zur Generierung von Bildern basierend auf Textbeschreibungen abgeleitet wurden, hatten enorme Auswirkungen auf Design, Spiele und andere Bereiche.

Allerdings geht es darum, wie man qualitativ hochwertige Bilder basierend auf gegebenem Text oder anderem generiert Bedingungen? Multi-View-Bilder bleiben eine Herausforderung. Bestehende Methoden weisen offensichtliche Mängel in der Konsistenz mehrerer Ansichten auf.

Derzeit gängige Methoden können grob in zwei Kategorien unterteilt werden. Die erste Kategorie von Methoden dient der Erstellung von Bildern und Tiefenkarten einer Szene und dem Erhalt des entsprechenden Netzes B. Text2Room, SceneScape – verwenden Sie zuerst Stable Diffusion, um das erste Bild zu generieren, und verwenden Sie dann die autoregressive Methode der Bildverzerrung und Bildinpainting, um nachfolgende Bilder und Tiefenkarten zu generieren.

Allerdings kann eine solche Lösung leicht dazu führen, dass sich bei der Generierung mehrerer Bilder nach und nach Fehler anhäufen, und es kommt in der Regel zu Closed-Loop-Problemen (z. B. wenn sich die Kamera dreht und in die Nähe der Ausgangsposition zurückkehrt, die erzeugt wird). Der Inhalt unterscheidet sich vom ersten Bild. Die Bilder sind nicht vollständig konsistent. Dies führt zu einer schlechten Leistung, wenn die Szene groß ist oder sich der Betrachtungswinkel zwischen den Bildern stark ändert.

Der zweite Methodentyp generiert mehrere Bilder gleichzeitig, indem der Generierungsalgorithmus des Diffusionsmodells erweitert wird, um umfangreichere Inhalte als ein einzelnes Bild zu erzeugen (z. B. die Generierung eines 360-Grad-Panoramas oder das Verschieben des Inhalts eines Bildes). auf beiden Seiten unendliche Extrapolation), wie MultiDiffusion und DiffCollage. Da das Kameramodell jedoch nicht berücksichtigt wird, handelt es sich bei den mit dieser Art von Methode generierten Ergebnissen nicht um echte Panoramen. Das Ziel von MVDiffusion besteht darin, Bilder mit mehreren Ansichten zu erzeugen, die einem bestimmten Kameramodell entsprechen, und diese Bilder sind inhaltlich strikt konsistent und haben eine einheitliche globale Semantik. Die Kernidee dieser Methode besteht darin, gleichzeitig die Korrespondenz zwischen Bildern zu entrauschen und zu lernen, um die Konsistenz aufrechtzuerhalten

Bitte besuchen Sie die Projektwebsite: https://mvdiffusion.github.io/

Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion

Code: https://github. com/Tangshitao/ MVDiffusionMVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

Konferenz veröffentlicht: NeurIPS (Schlüsselpunkte)

Das Ziel von MVDiffusion ist es, durch gleichzeitige Rauschunterdrückung und globales Bewusstsein basierend auf der Korrespondenz Multi-View-Bilder mit hochkonsistentem Inhalt und einheitlicher globaler Semantik zu generieren zwischen Bildern

Konkret erweiterten die Forscher das bestehende Text-Bild-Diffusionsmodell (z. B. Stable Diffusion), indem sie zunächst die parallele Verarbeitung mehrerer Bilder ermöglichten und dem Original außerdem einen zusätzlichen „Correspondence-aware Attention“-Mechanismus hinzufügten UNet Um Konsistenz zwischen mehreren Perspektiven und globale Einheit zu lernen.

Durch die Feinabstimmung einer kleinen Menge von Multi-View-Bild-Trainingsdaten kann das resultierende Modell gleichzeitig Multi-Perspektiv-Bilder mit hochgradig konsistentem Inhalt generieren.

MVDiffusion hat in drei verschiedenen Anwendungsszenarien gute Ergebnisse erzielt:

Generieren Sie mehrere Ansichten basierend auf Text und fügen Sie sie dann zusammen, um ein Panorama zu erhalten.

2. Extrapolieren Sie das perspektivische Bild (Outpainting). komplettes 360-Grad-Panorama;

3.

Anzeige von AnwendungsszenarienAnwendung 1: Der Prozess der Panoramagenerierung besteht darin, mehrere Fotos oder Videos zusammenzufügen, um ein perspektivisches Panoramabild oder -video zu erstellen. Bei diesem Vorgang werden in der Regel spezielle Software oder Tools verwendet, um diese Bilder oder Videos automatisch oder manuell auszurichten, zu überblenden und zu reparieren. Durch die Panoramagenerierung können Menschen Szenen wie Landschaften, Gebäude oder Innenräume aus einer breiteren Sicht betrachten und erleben. Diese Technologie hat ein breites Anwendungsspektrum im Tourismus, im Immobilienwesen, in der virtuellen Realität und in anderen Bereichen (je nach Text).

Nehmen Sie als Beispiel die Erstellung eines Panoramas, geben Sie einen Text ein, der die Szene beschreibt, und MVDIffusion kann ein multiperspektivisches Bild generieren der Szene

Geben Sie Folgendes ein, um 8 Mehrfachansichtsbilder zu erhalten: „Diese Küche ist eine charmante Mischung aus Rustikalem und Modernem und verfügt über eine große Insel aus Altholz mit Marmorarbeitsplatten und einem von Schränken umgebenen Waschbecken. Links von Die Insel ist ein hoher Kühlschrank aus Edelstahl. Rechts neben der Spüle befinden sich eingebaute Holzschränke, die in Pastellfarben gestrichen sind

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

Diese 8 Bilder können zu einem Panorama zusammengefügt werden:

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

MVDiffusion unterstützt auch die Bereitstellung unterschiedlicher Textbeschreibungen für jedes Bild, aber die semantische Konsistenz zwischen diesen Beschreibungen muss gewahrt bleiben.

Anwendung 2: Der Prozess der Panoramagenerierung besteht darin, mehrere Fotos oder Videos zusammenzufügen, um ein perspektivisches Panoramabild oder -video zu erstellen. Bei diesem Vorgang werden in der Regel spezielle Software oder Tools verwendet, um diese Bilder oder Videos automatisch oder manuell auszurichten, zu überblenden und zu reparieren. Durch die Panoramagenerierung können Menschen Szenen wie Landschaften, Gebäude oder Innenräume aus einer breiteren Sicht betrachten und erleben. Diese Technologie findet breite Anwendung im Tourismus, im Immobilienwesen, in der virtuellen Realität und in anderen Bereichen (basierend auf einem perspektivischen Bild).

MVDiffusion kann ein perspektivisches Bild in ein vollständiges 360-Grad-Panorama extrapolieren (übermalen).

Angenommen, wir geben zum Beispiel die folgende Perspektive ein:

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

MVDiffusion kann weiterhin das folgende Panorama generieren:

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

Wie Sie sehen können, ist das generierte Panorama semantisch Das Eingabebild ist erweitert und die Inhalte ganz links und ganz rechts werden verbunden (es gibt kein Closed-Loop-Problem). Anwendung 3: Generieren von Szenenmaterialien Pose und Tiefenkarte können wir die Entsprechung zwischen den Pixeln des Mehransichtsbildes erhalten.

Als nächstes verwendet MVDiffusion die Multi-View-Tiefenkarte als Bedingung, um gleichzeitig konsistente Multi-View-RGB-Bilder zu generieren.

Da die generierten Mehrfachansichtsbilder den Inhalt hochkonsistent halten und ihn dann wieder in das Netz zurückwerfen können, können Sie ein hochwertiges strukturiertes Netz (texturiertes Netz) erhalten.

Hier sind weitere Beispiele für Effekte:

Der Prozess der Panoramagenerierung besteht darin, mehrere Fotos oder Videos zusammenzufügen, um eine Panoramaansicht des Bildes oder Videos zu erstellen. Bei diesem Vorgang werden in der Regel spezielle Software oder Tools verwendet, um diese Bilder oder Videos automatisch oder manuell auszurichten, zu überblenden und zu reparieren. Durch die Panoramagenerierung können Menschen Szenen wie Landschaften, Gebäude oder Innenräume aus einer breiteren Sicht betrachten und erleben. Diese Technologie hat ein breites Anwendungsspektrum im Tourismus, im Immobilienwesen, in der virtuellen Realität und in anderen Bereichen In diesen Anwendungsszenarien , Besonderes Es wird erwähnt, dass die beim Training von MVDiffusion verwendeten Multi-View-Bilddaten zwar alle aus Panoramen von Innenszenen stammen und die Stile alle einzeln sind

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

MVDiffusion ändert jedoch nicht die ursprünglichen stabilen Diffusionsparameter, sondern nur Die neu hinzugefügte korrespondenzbewusste Aufmerksamkeit wurde trainiert

Schließlich kann das Modell basierend auf dem gegebenen Text immer noch verschiedene Stile von Multi-View-Bildern (z. B. Outdoor, Cartoon usw.) generieren.

Der Inhalt, der neu geschrieben werden muss, ist: Einzelansicht e Material Generation

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

Wir werden Zunächst stellt dieser Artikel den spezifischen Bilderzeugungsprozess von MVDiffusion in drei verschiedenen Aufgaben vor und stellt schließlich den Kernteil der Methode vor, nämlich das Modul „Correspondence-aware Attention“. Abbildung 1 zeigt einen Überblick über MVDiffusion

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien1 Der Prozess der Panoramagenerierung besteht darin, mehrere Fotos oder Videos zusammenzufügen, um ein perspektivisches Panoramabild oder -video zu erstellen. Bei diesem Vorgang werden in der Regel spezielle Software oder Tools verwendet, um diese Bilder oder Videos automatisch oder manuell auszurichten, zu überblenden und zu reparieren. Durch die Panoramagenerierung können Menschen Szenen wie Landschaften, Gebäude oder Innenräume aus einer breiteren Sicht betrachten und erleben. Diese Technologie findet breite Anwendung in den Bereichen Tourismus, Immobilien, virtuelle Realität und anderen Bereichen (je nach Text). Panorama. In diesen 8 perspektivischen Bildern bestimmt eine 3x3-Homographiematrix die Pixelkorrespondenz zwischen jeweils zwei Bildern.


Im spezifischen Generierungsprozess verwendet MVDiffusion zunächst die Gaußsche Zufallsinitialisierung, um 8 Ansichten von Bildern zu generieren. Anschließend werden diese 8 Bilder in ein vorab trainiertes Unet-Netzwerk mit stabiler Diffusion mit mehreren Zweigen eingegeben, um eine synchrone Rauschunterdrückung durchzuführen Erhalten Sie die generierten Ergebnisse.

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

Dem UNet-Netzwerk wurde ein neues Modul „Correspondence-aware Attention“ (hellblauer Teil im Bild oben) hinzugefügt, mit dem die geometrische Konsistenz zwischen Queransichten erlernt wird, sodass diese 8 Bilder erstellt werden können in ein einheitliches Panorama gespleißt.

2. Der Prozess der Panoramagenerierung besteht darin, mehrere Fotos oder Videos zusammenzufügen, um ein perspektivisches Panoramabild oder -video zu erstellen. Bei diesem Vorgang werden in der Regel spezielle Software oder Tools verwendet, um diese Bilder oder Videos automatisch oder manuell auszurichten, zu überblenden und zu reparieren. Durch die Panoramagenerierung können Menschen Szenen wie Landschaften, Gebäude oder Innenräume aus einer breiteren Sicht betrachten und erleben. Diese Technologie findet breite Anwendung in den Bereichen Tourismus, Immobilien, virtuelle Realität und anderen Bereichen (basierend auf einem perspektivischen Bild)

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

MVDiffusion kann auch ein einzelnes perspektivisches Bild in ein Panorama vervollständigen. Bei der Panoramaerstellung werden mehrere Fotos oder Videos zusammengefügt, um eine Panoramaansicht des Bildes oder Videos zu erstellen. Bei diesem Vorgang werden in der Regel spezielle Software oder Tools verwendet, um diese Bilder oder Videos automatisch oder manuell auszurichten, zu überblenden und zu reparieren. Durch die Panoramagenerierung können Menschen Szenen wie Landschaften, Gebäude oder Innenräume aus einer breiteren Sicht betrachten und erleben. Diese Technologie hat ein breites Anwendungsspektrum in den Bereichen Tourismus, Immobilien, virtuelle Realität und anderen Bereichen. MVDiffusion gibt acht perspektivische Bilder (einschließlich Perspektiven, die perspektivischen Ansichten entsprechen) zufällig in das vorab trainierte UNet-Netzwerk mit stabiler Diffusion ein. Im Stable Diffusion Inpainting-Modell besteht der Unterschied darin, dass UNet eine zusätzliche Eingabemaske verwendet, um das Bild als Bedingung und das zu generierende Bild zu unterscheiden.

Die der Perspektive entsprechende Perspektive, Maske Wenn der Code ist Auf 1 gesetzt, stellt das UNet dieses Zweigs die Perspektive direkt wieder her. Für andere Perspektiven wird die Maske auf 0 gesetzt und das UNet des entsprechenden Zweigs generiert eine neue perspektivische Ansicht

In ähnlicher Weise verwendet MVDiffusion das Modul „Correspondence-aware Attention“, um die geometrische Konsistenz zwischen dem generierten Bild und zu lernen das bedingte Bild.

3. Generierung von Szenenmaterial ein Netz.

Die Pixelkorrespondenz von RGB-Bildern kann über die Tiefenkarte und die Kameraposition ermittelt werden.

Der Prozess bei der Panoramagenerierung besteht darin, mehrere Fotos oder Videos zusammenzufügen, um eine Panoramaansicht des Bildes oder Videos zu erstellen. Bei diesem Vorgang werden in der Regel spezielle Software oder Tools verwendet, um diese Bilder oder Videos automatisch oder manuell auszurichten, zu überblenden und zu reparieren. Durch die Panoramagenerierung können Menschen Szenen wie Landschaften, Gebäude oder Innenräume aus einer breiteren Sicht betrachten und erleben. Diese Technologie hat ein breites Anwendungsspektrum in den Bereichen Tourismus, Immobilien, virtuelle Realität und anderen Bereichen. Wir verwenden UNet mit mehreren Zweigen und fügen „korrespondenzbewusste Aufmerksamkeit“ ein, um geometrische Konsistenz über Perspektiven hinweg zu erlernen.

4. Correspondence-aware Attention-Mechanismus

„Correspondence-aware Attention“ (CAA) ist der Kern von MVDiffusion und wird verwendet, um geometrische Konsistenz und semantische Einheit zwischen mehreren Ansichten zu erlernen. MVDiffusion fügt nach jedem UNet-Block in Stable Diffusion UNet den Block „Correspondence-aware Attention“ ein. CAA berücksichtigt eine Quell-Feature-Map und N Ziel-Feature-Maps.

Für einen Standort in der Quell-Feature-Map berechnen wir die Aufmerksamkeitsausgabe basierend auf dem entsprechenden Pixel und seiner Nachbarschaft in der Ziel-Feature-Map.

Konkret berücksichtigt MVDiffusion für jedes Zielpixel t^l eine K x K-Nachbarschaft, indem eine ganzzahlige Verschiebung (dx/dy) zu den (x/y)-Koordinaten hinzugefügt wird, wobei |dx| repräsentiert die Verschiebung in x-Richtung, |dy| repräsentiert die Verschiebung in y-Richtung

In praktischen Anwendungen verwendet der MVDiffusion-Algorithmus K=3 und wählt 9-Punkt-Nachbarschaften aus, um die Qualität des Panoramas zu verbessern. Bei der Generierung von Mehransichtsbildern unter geometrischen Bedingungen wählen wir jedoch zur Verbesserung der Betriebseffizienz die Verwendung von K = 1MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

Die Berechnung des CAA-Moduls folgt dem Standard-Aufmerksamkeitsmechanismus, wie in gezeigt Formel oben, wobei W_Q, W_K und W_V die lernbaren Gewichte der Abfrage-, Schlüssel- und Wertmatrizen sind; die Zielmerkmale befinden sich nicht an ganzzahligen Positionen, sondern werden durch bilineare Interpolation erhalten.

Der Hauptunterschied besteht darin, dass dem Zielmerkmal eine Positionskodierung basierend auf der 2D-Verschiebung (Panorama) oder dem 1D-Tiefenfehler (Geometrie) zwischen den entsprechenden Positionen s^l und s im Quellbild hinzugefügt wird.

MVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien

Bei der Panoramagenerierung (Anwendung 1 und Anwendung 2) liefert diese Verschiebung die relative Position in der lokalen Nachbarschaft.

Und bei der Tiefen-zu-Bild-Generierung (Anwendung 3) liefert die Disparität Hinweise auf Tiefendiskontinuitäten oder Okklusionen, was für die Erzeugung von Bildern mit hoher Wiedergabetreue sehr wichtig ist.

Bitte beachten Sie, dass es sich bei der Verschiebung um ein Konzept handelt, das einen 2D- (Verschiebung) oder 1D- (Tiefenfehler) Vektor enthält. MVDiffusion wendet eine Standardfrequenzkodierung auf die x- und y-Koordinaten der Verschiebung an

Das obige ist der detaillierte Inhalt vonMVDiffusion: Erzielen Sie eine hochwertige Multi-View-Bilderzeugung und eine genaue Wiedergabe von Szenenmaterialien. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen