Bei gängigen Bildbearbeitungsvorgängen bezieht sich die Bildsynthese auf den Prozess, bei dem das Vordergrundobjekt eines Bildes mit einem anderen Hintergrundbild kombiniert wird, um ein zusammengesetztes Bild zu erzeugen. Der visuelle Effekt des synthetisierten Bildes ähnelt der Übertragung des Vordergrundobjekts von einem Bild auf ein anderes Hintergrundbild, wie in der folgenden Abbildung dargestellt. Die Bildsynthese wird in der Kunsterstellung, im Plakatdesign, im E-Commerce und in der virtuellen Realität verwendet , Datenerweiterung und andere Bereiche sind weit verbreitet
Durch einfaches Ausschneiden und Einfügen erhaltene synthetische Bilder können viele Probleme haben. In früheren Forschungsarbeiten wurden aus der Bildsynthese unterschiedliche Teilaufgaben abgeleitet, um jeweils unterschiedliche Teilprobleme zu lösen. Ziel der Bildüberblendung ist es beispielsweise, unnatürliche Grenzen zwischen Vorder- und Hintergrund aufzulösen. Ziel der Bildharmonisierung ist es, die Beleuchtung des Vordergrunds so anzupassen, dass sie mit dem Hintergrund harmoniert. Ziel der Perspektivanpassung ist es, die Pose des Vordergrunds so anzupassen, dass sie mit dem Hintergrund übereinstimmt. Ziel der Objektplatzierung ist es, die geeignete Position, Größe und den richtigen Perspektivenwinkel für Vordergrundobjekte vorherzusagen. Ziel der Schattenerzeugung ist es, angemessene Schatten für Vordergrundobjekte im Hintergrund zu erzeugen. Wie in der Abbildung unten gezeigt, führten frühere Forschungsarbeiten die oben genannten Teilaufgaben seriell oder parallel durch, um realistische und natürliche synthetische Bilder zu erhalten. Im seriellen Framework können wir einige Teilaufgaben entsprechend den tatsächlichen Anforderungen ausführen. Im parallelen Framework ist die derzeit beliebte Methode die Verwendung des Diffusionsmodells. Es akzeptiert ein Hintergrundbild mit einem Vordergrundbegrenzungsrahmen und einem Vordergrundobjektbild als Eingabe und generiert direkt das endgültige zusammengesetzte Bild. Dadurch kann das Vordergrundobjekt nahtlos in das Hintergrundbild integriert werden, die Licht- und Schatteneffekte sind angemessen und die Haltung wird an den Hintergrund angepasst. Dieses parallele Framework entspricht der gleichzeitigen Ausführung mehrerer Teilaufgaben. Einige davon können nicht selektiv ausgeführt werden Unteraufgaben und ist nicht kontrollierbar. Sex kann unnötige oder unangemessene Änderungen an der Haltung oder Farbe von Vordergrundobjekten mit sich bringen. Was neu geschrieben werden muss, ist: Um die Steuerbarkeit des parallelen Frameworks zu verbessern und einige selektiv auszuführen Unteraufgaben haben wir das steuerbare Bildkompositionsmodell Controlable Image Composition (ControlCom) vorgeschlagen. Wie in der folgenden Abbildung dargestellt, verwenden wir einen Indikatorvektor als Bedingungsinformation des Diffusionsmodells, um die Eigenschaften der Vordergrundobjekte im zusammengesetzten Bild zu steuern. Der Indikatorvektor ist ein zweidimensionaler binärer Vektor, wobei jede Dimension steuert, ob die Beleuchtungsattribute bzw. Haltungsattribute des Vordergrundobjekts angepasst werden sollen, wobei 1 Anpassung bedeutet, 0 Beibehalten bedeutet
Konkret bedeutet (0,0) keine Änderung Die Vordergrundbeleuchtung verändert nicht die Vordergrundhaltung, sondern fügt das Objekt einfach nahtlos in das Hintergrundbild ein, was einer Bildüberblendung entspricht. (1,0) bedeutet, dass nur die Vordergrundbeleuchtung geändert wird, um sie mit dem Hintergrund harmonieren zu lassen und die Vordergrundhaltung beizubehalten, was einer Bildharmonisierung entspricht. (0,1) bedeutet, dass nur die Vordergrundposition geändert wird, um sie an den Hintergrund anzupassen, und die Vordergrundbeleuchtung beibehalten wird, was einer perspektivischen Anpassung (Ansichtssynthese) entspricht. (1,1) bedeutet, dass gleichzeitig die Beleuchtung und die Haltung des Vordergrunds geändert werden, was der aktuellen unkontrollierbaren parallelen Bildsynthese entspricht
Wir integrieren vier Aufgaben in dasselbe Framework und realisieren die Funktion eines Vier-in- Ein Objektportal durch Indikatorvektoren, das ein Objekt an einen bestimmten Ort in der Szene teleportieren kann. Diese Arbeit wurde von der Shanghai Jiao Tong University und der Ant Group abgeschlossen. Der Code und das Modell werden bald Open Source sein. Klicken Sie bitte auf den folgenden Link, um das Papier anzuzeigen: https://arxiv.org/abs/2308.10040
Link zum Codemodell: https://github.com/bcmi/ControlCom-Image-Composition
Im Bild unten zeigen wir die Funktion der steuerbaren Bildkomposition
In der linken Spalte die Haltung des Vordergrundobjekts ursprünglich an das Hintergrundbild angepasst ist, möchte der Benutzer möglicherweise die Pose von Vordergrundobjekten beibehalten. Die bisherigen Methoden PbE [1] und ObjectStitch [2] führen zu unnötigen und unkontrollierbaren Änderungen an der Pose von Vordergrundobjekten. Die (1,0)-Version unserer Methode ist in der Lage, die Pose des Vordergrundobjekts beizubehalten und das Vordergrundobjekt nahtlos mit dem Hintergrundbild mit harmonischer Beleuchtung zu verschmelzen. In der rechten Spalte sollte die Beleuchtung des Vordergrundobjekts sein das gleiche wie die Hintergrundbeleuchtung. Bisherige Methoden können zu unerwarteten Farbveränderungen von Vordergrundobjekten wie Fahrzeugen und Kleidung führen. Unsere Methode (Version 0.1) ist in der Lage, die Farbe eines Vordergrundobjekts beizubehalten und gleichzeitig seine Pose so anzupassen, dass es sich auf natürliche Weise in das Hintergrundbild einfügt
Als nächstes zeigen wir weitere Ergebnisse von vier Versionen unserer Methode (0,0), (1,0), (0,1), (1,1). Es ist ersichtlich, dass unsere Methode bei Verwendung verschiedener Indikatorvektoren einige Attribute von Vordergrundobjekten selektiv anpassen, den Effekt des zusammengesetzten Bildes effektiv steuern und den unterschiedlichen Anforderungen der Benutzer gerecht werden kann.
Was wir neu schreiben müssen, ist: Welche Modellstruktur kann die vier Funktionen realisieren? Unsere Methode verwendet die folgende Modellstruktur. Die Eingabe des Modells umfasst Hintergrundbilder mit Vordergrundbegrenzungsrahmen und Vordergrundobjektbildern. Wir extrahieren die globalen Merkmale von die Vordergrundobjekte und lokalen Features und verschmelzen zuerst globale Features und dann lokale Features. Während des lokalen Fusionsprozesses verwenden wir ausgerichtete Vordergrund-Feature-Maps zur Feature-Modulation, um eine bessere Detailerhaltung zu erreichen. Gleichzeitig werden Indikatorvektoren sowohl bei der globalen Fusion als auch bei der lokalen Fusion verwendet, um die Eigenschaften von Vordergrundobjekten besser zu steuern.
Wir verwenden den vorab trainierten stabilen Diffusionsalgorithmus, um das Modell basierend auf 1,9 Millionen Bildern von OpenImage zu trainieren. Um vier Teilaufgaben gleichzeitig zu trainieren, haben wir eine Reihe von Datenverarbeitungs- und -verbesserungsprozessen entworfen. Einzelheiten zu den Daten und zum Training finden Sie im Dokument
Wir haben den COCOEE-Datensatz und einen selbst erstellten Datensatz getestet. Da frühere Methoden nur eine unkontrollierbare Bildsynthese erreichen können, haben wir sie mit der (1,1)-Version und früheren Methoden verglichen. Die Vergleichsergebnisse sind in der folgenden Abbildung dargestellt. PCTNet ist eine Bildharmonisierungsmethode, die die Details von Objekten beibehalten kann, jedoch weder die Position des Vordergrunds anpassen noch die Vordergrundobjekte vervollständigen kann. Andere Methoden können die gleiche Art von Objekten erzeugen, sind jedoch weniger effektiv bei der Beibehaltung von Details, wie z. B. dem Kleidungsstil, der Textur von Körbchen, der Farbe von Vogelfedern usw. Unsere Methode ist besser bei der Beibehaltung der Details im Vordergrund Details, unvollständige Vordergrundobjekte vervollständigen und die Beleuchtung, Haltung und Anpassung der Vordergrundobjekte an den Hintergrund anpassen
Diese Arbeit ist der erste Versuch einer kontrollierbaren Bildsynthese, und es gibt immer noch viele Allerdings ist die Leistung des Modells nicht stabil und robust genug. Darüber hinaus können neben Beleuchtung und Haltung auch die Eigenschaften von Vordergrundobjekten weiter verfeinert werden, um eine feinkörnigere, steuerbare Bildsynthese zu erreichen.
Um die ursprüngliche Absicht beizubehalten, muss dies der Fall sein neu geschrieben Der Inhalt ist: Referenz
Yang, Gu, Zhang, Zhang, Chen, Sun, Chen, Wen (2023). Beispielbasierte Bildbearbeitungs- und Diffusionsmodelle. In CVPR
[2] Song Yongzhong, Zhang Zhi, Lin Zhilong, Cohen, S. D., Price, B. L., Zhang Jing, Jin Suying, Arriaga, D. G. 2023. ObjectStitch: Generative Objektsynthese. Im CVPR
Das obige ist der detaillierte Inhalt von„Scene Control Portal: Vier-in-eins-Objektteleportation, übermittelt und produziert'. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!