Heim > Artikel > Technologie-Peripheriegeräte > Das einst beliebte InstantID hat eine neue Spielweise: die Generierung stilisierter Bilder, die Open Source ist
Das ursprüngliche Team von InstantID hat eine neue Methode zur Stilmigration namens InstantStyle eingeführt.
Die Erzeugung stilisierter Bilder wird oft als Stilübertragung bezeichnet. Ihr Ziel besteht darin, Bilder zu erzeugen, deren Stil mit dem Referenzbild und dem ursprünglichen Bildinhalt übereinstimmt. Diese Technologie basiert auf Diffusionsmethoden (wie LoRA) für das Batch-Training derselben Stildaten und kann nicht auf neue Stile migriert werden. Oder basierend auf Inversionsoperationen (z. B. StyleAlign) werden durch Wiederherstellen des Stilbilds auf latentes Rauschen die durch Vorwärtsausbreitung erhaltenen K- und V-Werte verwendet, um das Stilbild bei der Generierung zu ersetzen. Diese Methode verschlechtert häufig den Generierungsstil aufgrund der Inversionsoperation.
Vor kurzem hat das ursprüngliche Team von InstantID eine neue Methode zur Stilmigration namens InstantStyle eingeführt. Im Gegensatz zu Face ID handelt es sich um ein allgemeines Bildstil-Injection-Framework, das zwei einfache, aber sehr effektive Techniken verwendet, um eine effektive Trennung von Stil und Inhalt von Referenzbildern zu erreichen. Diese Methode stellt eine einfache, aber sehr effektive Technik dar, um eine wirksame Trennung von Stil und Inhalt vom Referenzbild zu erreichen und so eine wirksame Verschmelzung von Stil und Inhalt zu erreichen.
Papier: InstantStyle: Kostenloses Mittagessen zur Stilerhaltung bei der Text-zu-Bild-Generierung
Papieradresse: https://huggingface.co/papers/2404.02733
Projekthomepage: https ://instantstyle.github.io/
Code-Link: https://github.com/InstantStyle/InstantStyle
Demo-Adresse: https://huggingface.co/spaces/InstantX/InstantStyle
Als Motivation für die automatisierte Einführung: (1) Erstens ist der Stil undefiniert und es gibt keinen klaren Standard, um ihn zu definieren. Er umfasst sogar viele Elemente wie Farbe, Atmosphäre, Material, Layout usw Wenn es manuell ausgewertet wird, ist es auch schwierig, zu einer einheitlichen Schlussfolgerung zu gelangen. (2) Die vorherige Methode, die auf der Inversion basiert, führt zu einer offensichtlichen Stilverschlechterung, die für einige Stile, wie z. B. Texturen, nicht akzeptabel ist. (3) Beim Einfügen von Bildstilen Das kritischste Problem besteht darin, die Intensität der Stilinjektion und den Inhaltsverlust des Referenzbilds auszugleichen.
In diesem Zusammenhang führte das Team des Autors eine Reihe experimenteller Analysen durch. Sie stellten fest, dass die Probleme des IP-Adapters offensichtlich durch viele andere Methoden übertrieben wurden. Der Autor löste die meisten davon nur durch manuelle Anpassung der Bildgewichtung Das in dem Artikel behauptete Problem der Inhaltsleckage. Dennoch ist es in manchen Fällen immer noch schwierig für den IP-Adapter, einen geeigneten Schwellenwert für den Ausgleich zu finden. Da die aktuellen Adapter-basierten Methoden im Allgemeinen CLIP zum Extrahieren von Bildfunktionen verwenden, bestätigte der Autor am Beispiel des Bildabrufs, dass im CLIP-Funktionsraum die Funktionen von Bildern und Text hinzugefügt und entfernt werden können. Die Antwort liegt auf der Hand: Warum nicht? Zeigen Sie die Funktionen an, bevor Sie sie in das Netzwerk einspeisen. Wie können Inhalt und Stil von Bildfunktionen entkoppelt werden, indem möglicherweise durchgesickerte Inhaltsinformationen abgezogen werden?
Abschließend analysierte der Autor, inspiriert von der B-LoRA-Methode, sorgfältig die Auswirkung der IP-Adapter-Injektion auf jeder Ebene und stellte überrascht fest, dass es zwei unabhängige Ebenen gibt, die jeweils auf Stil- und räumliche Layoutinformationen reagieren. Zu diesem Zweck stellen die Autoren die vorgeschlagene Methode vor.
Einführung in die Methode
Basierend auf den obigen Beobachtungen und Experimenten schlug der Autor die InstantStyle-Methode vor, wie in der Abbildung gezeigt. Der Kern dieser Methode enthält zwei Module:
(1) Merkmalssubtraktion: Verwenden CLIP-Leerlauffunktionen führen explizit eine Feature-Subtraktion durch, entfernen Inhaltsinformationen in Bildfunktionen und reduzieren die Auswirkungen von Referenzbildinhalten auf generierte Bilder. Im Vergleich zur Unterbestimmtheit des Stils lassen sich Inhaltsinformationen oft einfach durch Text beschreiben, sodass der Text-Encoder von CLIP zum Extrahieren von Inhaltsmerkmalen zur Entkopplung verwendet werden kann.
(2) Nur Stil-Layer-Injektion: Die Feature-Injektion wird nur in einer bestimmten Stil-Ebene durchgeführt, wodurch implizit eine Entkopplung von Stil und Inhalt erreicht wird. Nahe dem mittleren Block von UNet entdeckte der Autor zwei spezifische Ebenen, die den Stil bzw. das räumliche Layout steuern, und stellte fest, dass bei einigen Stilen das räumliche Layout auch eine Art Stil sein kann.
Insgesamt ist die Idee von InstantStyle recht einfach und leicht zu verstehen. Mit nur wenigen Codezeilen wird das problematischste Problem des Inhaltsverlusts bei der Stilmigration behoben.
Experimentelle Ergebnisse
Der Autor zeigt in dem Artikel die Generierungsergebnisse von zwei Strategien. Diese beiden Strategien sind nicht auf bestimmte Modelle beschränkt und können separat und unabhängig verwendet werden, wobei beide hervorragende Ergebnisse erzielen.
Das Ergebnis der Merkmalssubtraktion:
Nur Style-Layer-Injektion:
Vergleich mit aktuell führenden Methoden:
Stilisierung basierend auf dem Originalbild:
Community-Gameplay
InstantStyle ist bereits für Entwickler verfügbar Finden Sie Rich-Code-Implementierungen direkt über GitHub, einschließlich Wenshengtu, Tushengtu und Inpainting. Kürzlich wurde es auch vom Videogenerierungsprojekt AnyV2V als empfohlenes Stilisierungstool verwendet. Für Community-Benutzer unterstützt InstantStyle auch nativ ComfyUI (der Autor dieses Knotens ist auch Mitautor von InstantStyle), und Benutzer können es schnell ausprobieren, indem sie den IP-Adapter-Knoten aktualisieren.
Wie kommt es, dass wir als Autor von InstantID ein Co-Branding mit InstantID haben? Im Vergleich zu InstantID, das den generierten Stil nur durch Text steuert, kann InstantStyle den Stil zweifellos vielfältiger machen. Das Autorenteam wird die Gesichtsstilisierungsfunktion offiziell unterstützen, sobald der GitHub-Stern 1.000 erreicht.
Der Autor unterstützt auch offiziell die Huggingface-Demo und kann online ausprobiert werden.
Das obige ist der detaillierte Inhalt vonDas einst beliebte InstantID hat eine neue Spielweise: die Generierung stilisierter Bilder, die Open Source ist. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!