Heim >Technologie-Peripheriegeräte >KI >Verschiedene Arten der VCT-Anleitung, alle mit einem Bild, sodass Sie sie einfach implementieren können

Verschiedene Arten der VCT-Anleitung, alle mit einem Bild, sodass Sie sie einfach implementieren können

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2023-08-22 13:49:041409Durchsuche

In den letzten Jahren hat die Bilderzeugungstechnologie viele wichtige Durchbrüche erzielt. Insbesondere seit der Veröffentlichung großer Modelle wie DALLE2 und Stable Diffusion ist die Technologie zur Textgenerierung von Bildern allmählich ausgereift, und die Generierung hochwertiger Bilder bietet breite praktische Szenarien. Die detaillierte Bearbeitung vorhandener Bilder ist jedoch immer noch ein schwieriges Problem

Einerseits kann das vorhandene hochwertige Textbildmodell aufgrund der Einschränkungen der Textbeschreibung nur Text verwenden, um Bilder beschreibend und für bestimmte Zwecke zu bearbeiten Effekte, Text ist schwer zu beschreiben; andererseits verfügen Bildverfeinerungsbearbeitungsaufgaben oft nur über eine kleine Anzahl von Referenzbildern, Dadurch sind viele Lösungen, die für das Training eine große Datenmenge erfordern, klein Datenmengen, insbesondere wenn nur ein Referenzbild vorhanden ist, sind schwierig zu verarbeiten.

Kürzlich haben Forscher vom NetEase Interactive Entertainment AI Lab eine Bild-zu-Bild-Bearbeitungslösung vorgeschlagen, die auf der Einzelbildführung basiert. Bei einem einzelnen Referenzbild können die Objekte oder Stile im Referenzbild ohne Änderung in das Quellbild migriert werden die Gesamtstruktur des Quellbildes.

Das Forschungspapier wurde vom ICCV 2023 angenommen und der entsprechende Code ist Open Source.

Verschiedene Arten der VCT-Anleitung, alle mit einem Bild, sodass Sie sie einfach implementieren können Thesis-Renderings: Die obere linke Ecke jedes Bildsatzes ist das Quellbild, die untere linke Ecke ist das Referenzbild und die rechte Seite ist das generierte Ergebnisbild

Hauptrahmen

Der Autor des Artikels schlug ein Bildbearbeitungs-Framework vor, das auf

Inversion-Fusion – VCT (visueller Konzeptübersetzer, visueller Konzeptkonverter) basiert.

Wie in der folgenden Abbildung dargestellt, umfasst das Gesamtgerüst von VCT zwei Prozesse: den Inhalt-Konzept-Inversionsprozess (Content-Konzept-Inversion) und den Inhalt-Konzept-Fusionsprozess (Inhalt-Konzept-Fusion). Der Inhaltskonzept-Inversionsprozess verwendet zwei verschiedene Inversionsalgorithmen, um die latenten Vektoren der Strukturinformationen des Originalbilds bzw. die semantischen Informationen des Referenzbilds zu lernen und darzustellen. Der Inhaltskonzept-Fusionsprozess verwendet die latenten Vektoren der Strukturinformationen und semantische Informationen Fusion, um das Endergebnis zu generieren.

Verschiedene Arten der VCT-Anleitung, alle mit einem Bild, sodass Sie sie einfach implementieren können Der Inhalt, der neu geschrieben werden muss, ist: das Hauptgerüst des Papiers

Es ist erwähnenswert, dass im Bereich der Generative Adversarial Networks (GAN) in den letzten Jahren die Inversionsmethode verwendet wurde weit verbreitet und in vielen Bereichen eingesetzt. Bei Bilderzeugungsaufgaben wurden bemerkenswerte Ergebnisse erzielt [1]. Wenn GAN Inhalte umschreibt, muss der Originalsatz nicht in den verborgenen Raum des trainierten GAN-Generators umgewandelt werden, und der Zweck der Bearbeitung kann durch die Steuerung erreicht werden versteckter Raum. Dieses Inversionsschema kann die generative Kraft vorab trainierter generativer Modelle voll ausnutzen. In dieser Studie wird der Inhalt tatsächlich mit GAN neu geschrieben, und der Originalsatz muss nicht a priori auf Bildbearbeitungsaufgaben angewendet werden, die auf dem Diffusionsmodell basieren.

Verschiedene Arten der VCT-Anleitung, alle mit einem Bild, sodass Sie sie einfach implementieren können Beim Umschreiben des Inhalts muss der Originaltext ins Chinesische umgeschrieben werden und der Originalsatz muss nicht erscheinen

Einführung in die Methode

Basierend auf der Idee der Umkehrung, VCT hat einen Diffusionsprozess mit zwei Zweigen entworfen, der einen Zweig B* für die Inhaltsrekonstruktion und einen Hauptzweig B für die Bearbeitung umfasst. Sie beginnen mit demselben Rauschen xT, das von DDIM Inversion

【2】^{erhalten wird, einem Algorithmus, der Diffusionsmodelle verwendet, um Rauschen aus Bildern für die Inhaltsrekonstruktion bzw. Inhaltsbearbeitung zu berechnen. Das in diesem Artikel verwendete Vortrainingsmodell ist Latent Diffusion Models (kurz LDM). Der Diffusionsprozess findet im latenten Vektorraum z-Raum statt. Der Doppelzweigprozess kann wie folgt ausgedrückt werden:}

Doppelzweig-Diffusionsprozess

Der Inhaltsrekonstruktionszweig B* lernt T-Inhaltsmerkmalsvektoren Verschiedene Arten der VCT-Anleitung, alle mit einem Bild, sodass Sie sie einfach implementieren können , der verwendet wird, um die Strukturinformationen des Originalbilds wiederherzustellen, und durch das Soft-Attention-Control-Schema die Struktur der Informationen wird an den Editor des Hauptzweigs B übergeben. Das Soft-Attention-Control-Schema basiert auf der Arbeit von prompt2prompt [3]: