Heim >Technologie-Peripheriegeräte >KI >Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

WBOYnach vorne: 2023-04-08 17:41:011466Durchsuche

Bildwiederherstellung bezieht sich auf die Vervollständigung fehlender Bildbereiche, was eine der Grundaufgaben des Computer Vision ist. Diese Richtung hat viele praktische Anwendungen, wie z. B. Objektentfernung, Bild-Retargeting, Bildsynthese usw.

Frühe Inpainting-Methoden basierten auf Bildblocksynthese oder Farbdiffusion, um fehlende Teile des Bildes auszufüllen. Um komplexere Bildstrukturen zu erreichen, wenden sich Forscher datengesteuerten Ansätzen zu, bei denen sie tiefe generative Netzwerke nutzen, um visuelle Inhalte und Erscheinungsbild vorherzusagen. Es hat sich gezeigt, dass generative Inpainting-Modelle durch Training an großen Bildmengen und unterstützt durch Rekonstruktion und kontroverse Verluste bei verschiedenen Arten von Eingabedaten, einschließlich natürlicher Bilder und menschlicher Gesichter, optisch ansprechendere Ergebnisse liefern.

Bestehende Arbeiten können jedoch nur bei der Vervollständigung einfacher Bildstrukturen gute Ergebnisse zeigen, und die Generierung von Bildinhalten mit komplexer Gesamtstruktur und hochauflösenden Details ist immer noch eine große Herausforderung, insbesondere wenn das Bild Löcher aufweist, wenn es groß ist.

Im Wesentlichen steht das Bild-Inpainting vor zwei Hauptproblemen: Zum einen geht es darum, den globalen Kontext genau auf unvollständige Regionen zu übertragen, und zum anderen darum, echte lokale Details zu synthetisieren, die mit globalen Hinweisen übereinstimmen. Um das Problem der globalen Kontextausbreitung zu lösen, nutzen bestehende Netzwerke Encoder-Decoder-Strukturen, atrous Faltungen, kontextuelle Aufmerksamkeit oder Fourier-Faltungen, um weitreichende Merkmalsabhängigkeiten zu integrieren und das effektive Empfangsfeld zu erweitern. Darüber hinaus basieren der zweistufige Ansatz und das iterative Füllen von Lücken auf der Vorhersage grober Ergebnisse, um die globale Struktur zu verbessern. Diesen Modellen fehlt jedoch ein Mechanismus, um die Semantik unmaskierter Regionen auf hoher Ebene zu erfassen und sie effektiv in Löcher zu übertragen, um eine globale Gesamtstruktur zu synthetisieren.

Auf dieser Grundlage haben Forscher der University of Rochester und Adobe Research ein neues generatives Netzwerk vorgeschlagen: CM-GAN (cascaded modulation GAN), das die Gesamtstruktur und lokale Details besser synthetisieren kann. CM-GAN umfasst einen Encoder mit Fourier-Faltungsblöcken, um mehrskalige Merkmalsdarstellungen aus Eingabebildern mit Löchern zu extrahieren. Es gibt auch einen Zwei-Stream-Decoder in CM-GAN, der auf jeder Skalenebene einen neuartigen kaskadierten globalen räumlichen Modulationsblock festlegt.

In jedem Decoderblock wenden wir zunächst eine globale Modulation an, um eine grobe und semantisch bewusste Struktursynthese durchzuführen, und führen dann eine räumliche Modulation durch, um die Feature-Map auf räumlich adaptive Weise weiter anzupassen. Darüber hinaus wurde in dieser Studie ein Trainingsschema für die Objektwahrnehmung entwickelt, um Artefakte innerhalb des Hohlraums zu verhindern und den Anforderungen von Objektentfernungsaufgaben in realen Szenen gerecht zu werden. Die Studie führte umfangreiche Experimente durch, um zu zeigen, dass CM-GAN bestehende Methoden sowohl bei quantitativen als auch qualitativen Bewertungen deutlich übertrifft.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Papieradresse: https://arxiv.org/pdf/2203.11947.pdf
Projektadresse: https://github.com/htzheng/CM-GAN-Inpainting

Sehen wir uns zunächst den Bildreparatureffekt an. Im Vergleich zu anderen Methoden kann CM-GAN bessere Texturen rekonstruieren:

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

CM-GAN kann bessere globale Strukturen synthetisieren:

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

CM-GAN hat bessere Objektgrenzen:

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Werfen wir einen Blick auf die Methode und die experimentellen Ergebnisse dieser Studie.

Methode

Kaskadenmodulation GAN

Um den globalen Kontext der Bildvervollständigung besser zu modellieren, schlägt diese Studie einen neuen Mechanismus zur Kaskadierung globaler Codemodulation mit räumlicher Codemodulation vor. Dieser Mechanismus hilft, mit teilweise ungültigen Features umzugehen und gleichzeitig den globalen Kontext besser in den räumlichen Bereich einzufügen. Die neue Architektur CM-GAN kann die Gesamtstruktur und lokale Details gut synthetisieren, wie in Abbildung 1 unten dargestellt.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Wie in Abbildung 2 (links) unten dargestellt, basiert CM-GAN auf einem Encoderzweig und zwei parallelen kaskadierten Decoderzweigen, um eine visuelle Ausgabe zu erzeugen. Der Encoder verwendet einen Teil des Bildes und der Maske als Eingabe und generiert Feature-Maps mit mehreren Maßstäben Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails. .

Im Gegensatz zu den meisten Encoder-Decoder-Methoden extrahiert diese Studie zur Vervollständigung der Gesamtstruktur die globalen Stilcodes aus den Merkmalen der höchsten Ebene Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails. der vollständig verbundenen Schicht und führt dann eine Normalisierung durch. Darüber hinaus generiert ein MLP-basiertes Mapping-Netzwerk Stilcodes w aus Rauschen, um die Zufälligkeit der Bilderzeugung zu simulieren. Codes w werden mit s kombiniert, um einen globalen Code g = [s; w] zu erzeugen, der in nachfolgenden Decodierungsschritten verwendet wird.

Globale räumliche Kaskadenmodulation. Um den globalen Kontext in der Dekodierungsphase besser zu verbinden, schlägt diese Studie eine globale räumliche kaskadierte Modulation (CM) vor. Wie in Abbildung 2 (rechts) dargestellt, basiert die Decodierungsstufe auf zwei Zweigen: dem globalen Modulationsblock (GB) und dem räumlichen Modulationsblock (SB) und führt ein paralleles Hochsampeln globaler Merkmale F_g und lokaler Merkmale F_s durch.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Im Gegensatz zu bestehenden Methoden führt CM-GAN eine neue Methode ein, globalen Kontext in Lochregionen einzufügen. Auf konzeptioneller Ebene besteht es aus kaskadierten globalen und räumlichen Modulationen zwischen Merkmalen auf jeder Skala und integriert natürlich drei Kompensationsmechanismen für die globale Kontextmodellierung: 1) Merkmals-Upsampling; 3) räumliche Modulation.

Objektwahrnehmungstraining

Der Algorithmus, der Masken für das Training generiert, ist entscheidend. Im Wesentlichen sollte die abgetastete Maske der im tatsächlichen Anwendungsfall gezeichneten Maske ähneln und die Maske sollte vermeiden, das gesamte Objekt oder große Teile neuer Objekte abzudecken. Zu stark vereinfachte Maskierungsschemata können zu Artefakten führen.

Um reale Anwendungsfälle zum Entfernen von Objekten besser zu unterstützen und gleichzeitig zu verhindern, dass das Modell neue Objekte innerhalb von Löchern synthetisiert, schlägt diese Studie ein Objektbewusstseins-Trainingsschema vor, das während des Trainings realistischere Masken generiert, wie unten in 4 gezeigt.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Konkret leitet die Studie zunächst die Trainingsbilder an das Panorama-Segmentierungsnetzwerk PanopticFCN weiter, um hochpräzise Segmentierungsanmerkungen auf Instanzebene zu generieren, und tastet dann eine Mischung aus freien Löchern und Objektlöchern als Ausgangsmaske ab. und schließlich die Überlappungsrate zwischen dem Loch und jeder Instanz im Bild berechnen. Wenn das Überlappungsverhältnis größer als der Schwellenwert ist, schließt die Methode die Vordergrundinstanz aus dem Loch aus. Andernfalls bleibt das Loch unverändert und das simulierte Objekt wird mit dem auf 0,5 gesetzten Schwellenwert fertiggestellt. Die Studie erweitert und übersetzt Objektmasken nach dem Zufallsprinzip, um eine Überanpassung zu vermeiden. Darüber hinaus vergrößert diese Studie Löcher an Instanzsegmentierungsgrenzen, um zu verhindern, dass Hintergrundpixel in der Nähe von Löchern in den eingefärbten Bereich gelangen.

Trainingsziel mit Masked-R_1-Regularisierung

Das Modell wird mit einer Kombination aus gegnerischem Verlust und segmentierungsbasiertem Wahrnehmungsverlust trainiert. Experimente zeigen, dass diese Methode auch bei reiner Nutzung kontradiktorischer Verluste gute Ergebnisse erzielen kann, das Hinzufügen von Wahrnehmungsverlusten jedoch die Leistung weiter verbessern kann.

Darüber hinaus schlägt diese Studie eine maskierte R_1-Regularisierung speziell für das kontradiktorische Training stabiler Inpainting-Aufgaben vor, bei der eine Maske m verwendet wird, um die Berechnung von Gradienteneinbußen außerhalb der Maske zu vermeiden.

Experimente

Diese Studie führte Bild-Inpainting-Experimente am Places2-Datensatz mit einer Auflösung von 512 × 512 durch und präsentierte quantitative und qualitative Bewertungsergebnisse des Modells.

Quantitative Auswertung: Tabelle 1 unten zeigt den Vergleich zwischen CM-GAN und anderen Maskierungsmethoden. Die Ergebnisse zeigen, dass CM-GAN andere Methoden in Bezug auf FID, LPIPS, U-IDS und P-IDS deutlich übertrifft. Mit Hilfe von Perceptual Loss, LaMa, erreicht CM-GAN dank der zusätzlichen semantischen Führung durch das vorab trainierte Wahrnehmungsmodell deutlich bessere LPIPS-Scores als CoModGAN und andere Methoden. Im Vergleich zu LaMa/CoModGAN reduziert CM-GAN den FID von 3,864/3,724 auf 1,628.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Wie in Tabelle 3 unten gezeigt, erzielte CM-GAN mit oder ohne Feinabstimmung sowohl auf LaMa- als auch auf CoModGAN-Masken deutlich bessere Leistungssteigerungen als LaMa und CoModGAN, was darauf hinweist, dass das Modell über die Fähigkeit zur Generalisierung verfügt. Es ist erwähnenswert, dass die Leistung von CM-GAN, das auf der CoModGAN-Maske und der objektbewussten Maske trainiert wurde, immer noch besser ist als die der CoModGAN-Maske, was bestätigt, dass CM-GAN über eine bessere Generierungsfähigkeit verfügt.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Qualitative Bewertung: Abbildung 5, Abbildung 6, Abbildung 8 zeigen die visuellen Vergleichsergebnisse der CM-GAN- und SOTA-Methoden in Bezug auf synthetische Masken. ProFill ist in der Lage, inkohärente globale Strukturen zu erzeugen, CoModGAN erzeugt Strukturartefakte und Farbflecken und LaMa ist anfällig für große Bildunschärfe bei natürlichen Szenen. Im Gegensatz dazu erzeugt die CM-GAN-Methode eine kohärentere semantische Struktur und eine klarere Textur und kann auf verschiedene Szenarien angewendet werden.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Um die Bedeutung jeder Komponente im Modell zu überprüfen, führte die Studie eine Reihe von Ablationsexperimenten durch und alle Modelle wurden mit dem Places2-Datensatz trainiert und bewertet . Die Ergebnisse des Ablationsexperiments sind in Tabelle 2 und Abbildung 7 unten dargestellt.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Die Studie führte auch eine Benutzerstudie durch, um die Qualität der visuellen Generierung der CM-GAN-Methode besser zu bewerten. Die Ergebnisse sind in Tabelle 5 unten aufgeführt. Darüber hinaus bietet der Anhang weitere visuelle Vergleiche und experimentelle Analysen als Referenz für den Leser.

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Das obige ist der detaillierte Inhalt vonSelbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Wie baut man ein vertrauenswürdiges GNN auf? Die neueste Rezension ist da! Vertrauenswürdige graphische neuronale Netze: Dimensionen, Methoden, TrendsNächster Artikel：Wie baut man ein vertrauenswürdiges GNN auf? Die neueste Rezension ist da! Vertrauenswürdige graphische neuronale Netze: Dimensionen, Methoden, Trends

In Verbindung stehende Artikel

Mehr sehen

Selbst wenn ein großer Bereich des Bildes fehlt, kann es realistisch wiederhergestellt werden. Das neue Modell CM-GAN berücksichtigt die globalen Struktur- und Texturdetails.

Methode

Kaskadenmodulation GAN​

Objektwahrnehmungstraining

Trainingsziel mit Masked-R_1-Regularisierung

Experimente

In Verbindung stehende Artikel

Kaskadenmodulation GAN