Ein gut aussehendes Foto zu bekommen wird immer einfacher.
Bei Reisen im Urlaub ist das Fotografieren ein Muss. Allerdings sind die meisten Fotos, die an malerischen Orten aufgenommen wurden, mehr oder weniger bedauerlich. Entweder ist etwas im Hintergrund, oder es fehlt etwas.
Ein „perfektes“ Bild zu erhalten, ist eines der Ziele, die CV-Forscher seit langem anstreben. Kürzlich haben Forscher von Google Research und der Cornell University gemeinsam eine „Authentic Image Completion“-Technologie vorgeschlagen – RealFill, ein generatives Modell für die Bildvervollständigung.
Der Vorteil des RealFill-Modells besteht darin, dass es mit einer kleinen Anzahl von Szenenreferenzbildern personalisiert werden kann, die nicht auf das Zielbild ausgerichtet werden müssen und sogar hinsichtlich Blickwinkel, Lichtverhältnissen, Kamerablende usw. stark variieren können Bildstil. Sobald die Personalisierung abgeschlossen ist, kann RealFill das Zielbild mit visuell ansprechenden Inhalten ergänzen, die der Originalszene entsprechen.
Bitte klicken Sie auf den folgenden Link, um das Papier anzuzeigen: https://arxiv.org/abs/2309.16668
Link zur Projektseite: https://realfill.github.io/
Bei den Inpainting- und Outpainting-Modellen handelt es sich um Technologien, die qualitativ hochwertige und sinnvolle Bildinhalte in unbekannten Bildbereichen erzeugen können. Der von diesen Modellen generierte Inhalt muss jedoch unrealistisch sein, da diese Modelle in der realen Welt nicht realistisch sind sind Mängel in der Kontextinformation der Szene. Im Gegensatz dazu generiert RealFill Inhalte, die vorhanden sein „sollten“, wodurch die Ergebnisse der Bildvervollständigung realistischer werden. Die Autoren wiesen in dem Artikel darauf hin, dass sie ein neues Bildvervollständigungsproblem definiert haben – „Authentic Image Completion“. Im Gegensatz zur herkömmlichen generativen Bildwiederherstellung (der Inhalt, der den fehlenden Bereich ersetzt, stimmt möglicherweise nicht mit der Originalszene überein) besteht das Ziel der echten Bildvervollständigung darin, den fertigen Inhalt so originalgetreu wie möglich an die Originalszene anzupassen und dabei Inhalte zu verwenden, die „erscheinen sollen“. Dort". Vervollständigen Sie das Zielbild mit Inhalten, die „da draußen sein könnten". Der Autor gab an, dass RealFill die erste Methode ist, die Ausdruckskraft generativer Bildreparaturmodelle durch das Hinzufügen weiterer Bedingungen (z. B. Hinzufügen von Referenzbildern) zum Prozess zu erweitern. RealFill übertrifft bestehende Methoden deutlich bei einem neuen Bildvervollständigungs-Benchmark, der eine Reihe vielfältiger und herausfordernder Szenarien abdeckt. Das Ziel der RealFill besteht darin, eine kleine Anzahl von Referenzbildern zu verwenden, um die fehlenden Teile eines bestimmten Zielbilds zu vervollständigen und gleichzeitig die Authentizität so weit wie möglich beizubehalten. Konkret erhalten Sie bis zu 5 Referenzbilder und ein Zielbild, das ungefähr dieselbe Szene einfängt (aber möglicherweise ein anderes Layout oder Erscheinungsbild aufweist). Für eine bestimmte Szene erstellen die Forscher zunächst ein personalisiertes generatives Modell, indem sie ein vorab trainiertes Inpainting-Diffusionsmodell anhand von Referenz- und Zielbildern verfeinern. Dieser Feinabstimmungsprozess ist so konzipiert, dass das feinabgestimmte Modell nicht nur gute Bildprioritäten beibehält, sondern auch den Szeneninhalt, die Beleuchtung und den Stil im Eingabebild lernt. Dieses fein abgestimmte Modell wird dann verwendet, um fehlende Bereiche im Zielbild durch einen Standard-Diffusions-Sampling-Prozess zu füllen. Es ist erwähnenswert, dass dieses Modell aus praktischen Gründen besonderes Augenmerk auf den anspruchsvolleren und uneingeschränkteren Fall legt, d. h. das Zielbild und das Referenzbild können sehr unterschiedliche Standpunkte und Umgebungen haben Bedingungen, Kamerablende, Bildstil und sogar sich bewegende Objekte. Experimentelle ErgebnisseLaut Referenzbild auf der linken Seite kann RealFill das Zielbild auf der rechten Seite erweitern (zuschneiden) oder reparieren (einmalen). Sie müssen aber auch mit dem Referenzbild übereinstimmen, selbst wenn große Unterschiede zwischen dem Referenzbild und dem Zielbild hinsichtlich Blickwinkel, Blende, Beleuchtung, Bildstil und Objektbewegung bestehen.
RealFill-Modellausgabeeffekt. Bei einem Referenzbild auf der linken Seite kann RealFill das entsprechende Zielbild auf der rechten Seite erweitern. Die Bereiche innerhalb der White Box werden dem Netzwerk als bekannte Pixel zur Verfügung gestellt, während die Bereiche außerhalb der White Box generiert werden. Die Ergebnisse zeigen, dass RealFill qualitativ hochwertige Bilder erzeugen kann, die dem Referenzbild treu bleiben, selbst wenn große Unterschiede zwischen dem Referenzbild und dem Zielbild bestehen, einschließlich Blickwinkel, Blende, Beleuchtung, Bildstil und Objektbewegung. Quelle: Papier
Kontrollierte ExperimenteDie Forscher verglichen das RealFill-Modell mit anderen Basismethoden. Im Vergleich dazu liefert RealFill qualitativ hochwertige Ergebnisse und schneidet hinsichtlich der Szenentreue und Konsistenz mit Referenzbildern besser ab. Paint-by-Example kann kein hohes Maß an Szenentreue erreichen, da es auf der CLIP-Einbettung basiert, die nur semantische Informationen auf hoher Ebene erfassen kann. Stable Diffusion Inpainting kann scheinbar vernünftige Ergebnisse liefern, aber aufgrund der begrenzten Ausdruckskraft von Prompt stimmen die endgültigen Ergebnisse nicht mit dem Referenzbild überein.
Vergleich von RealFill mit anderen beiden Basismethoden. Der von einer transparenten weißen Maske abgedeckte Bereich ist der unveränderte Teil des Zielbilds. Quelle: realfill.github.io Die Fähigkeit des Models, mit herausfordernden Situationen umzugehen. Konkret: RealFill erfordert einen verlaufsbasierten Feinabstimmungsprozess für das Eingabebild, was die Ausführung relativ langsam macht.
Wenn der Blickwinkelwechsel zwischen dem Referenzbild und dem Zielbild sehr groß ist, ist RealFill oft nicht in der Lage, die 3D-Szene wiederherzustellen, insbesondere wenn nur ein Referenzbild vorhanden ist. Da RealFill hauptsächlich auf Bild-Prioritäten basiert, die vom vorab trainierten Basismodell geerbt wurden, kann es keine Situationen bewältigen, die für das Basismodell eine Herausforderung darstellen, wie z. B. stabile Diffusionsmodelle, die Text nicht gut verarbeiten können.
Abschließend danken die Autoren ihren Mitarbeitern:
Wir möchten Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely danken. Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin und Jon Barron für wertvolle Diskussionen und Feedback. Wir danken außerdem Zeya Peng, Rundi Wu und Shan Nan für ihre Beiträge zum Bewertungsdatensatz. Besonders dankbar sind wir Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern und Nicole Brichtova für ihr Feedback und ihre Unterstützung zum Projekt.
Bitte lesen Sie das Originalpapier und besuchen Sie die Projekthomepage für weitere Informationen
Das obige ist der detaillierte Inhalt vonDie Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben ein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!