Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Das einst beliebte InstantID hat eine neue Spielweise: die Generierung stilisierter Bilder, die Open Source ist

Das einst beliebte InstantID hat eine neue Spielweise: die Generierung stilisierter Bilder, die Open Source ist

WBOY
WBOYnach vorne
2024-04-15 15:58:20586Durchsuche
Das ursprüngliche Team von InstantID hat eine neue Methode zur Stilmigration namens InstantStyle eingeführt.

Die Erzeugung stilisierter Bilder wird oft als Stilübertragung bezeichnet. Ihr Ziel besteht darin, Bilder zu erzeugen, deren Stil mit dem Referenzbild und dem ursprünglichen Bildinhalt übereinstimmt. Diese Technologie basiert auf Diffusionsmethoden (wie LoRA) für das Batch-Training derselben Stildaten und kann nicht auf neue Stile migriert werden. Oder basierend auf Inversionsoperationen (z. B. StyleAlign) werden durch Wiederherstellen des Stilbilds auf latentes Rauschen die durch Vorwärtsausbreitung erhaltenen K- und V-Werte verwendet, um das Stilbild bei der Generierung zu ersetzen. Diese Methode verschlechtert häufig den Generierungsstil aufgrund der Inversionsoperation.

Vor kurzem hat das ursprüngliche Team von InstantID eine neue Methode zur Stilmigration namens InstantStyle eingeführt. Im Gegensatz zu Face ID handelt es sich um ein allgemeines Bildstil-Injection-Framework, das zwei einfache, aber sehr effektive Techniken verwendet, um eine effektive Trennung von Stil und Inhalt von Referenzbildern zu erreichen. Diese Methode stellt eine einfache, aber sehr effektive Technik dar, um eine wirksame Trennung von Stil und Inhalt vom Referenzbild zu erreichen und so eine wirksame Verschmelzung von Stil und Inhalt zu erreichen.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

  • Papier: InstantStyle: Kostenloses Mittagessen zur Stilerhaltung bei der Text-zu-Bild-Generierung

  • Papieradresse: https://huggingface.co/papers/2404.02733

  • Projekthomepage: https ://instantstyle.github.io/

  • Code-Link: https://github.com/InstantStyle/InstantStyle

  • Demo-Adresse: https://huggingface.co/spaces/InstantX/InstantStyle

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Als Motivation für die automatisierte Einführung: (1) Erstens ist der Stil undefiniert und es gibt keinen klaren Standard, um ihn zu definieren. Er umfasst sogar viele Elemente wie Farbe, Atmosphäre, Material, Layout usw Wenn es manuell ausgewertet wird, ist es auch schwierig, zu einer einheitlichen Schlussfolgerung zu gelangen. (2) Die vorherige Methode, die auf der Inversion basiert, führt zu einer offensichtlichen Stilverschlechterung, die für einige Stile, wie z. B. Texturen, nicht akzeptabel ist. (3) Beim Einfügen von Bildstilen Das kritischste Problem besteht darin, die Intensität der Stilinjektion und den Inhaltsverlust des Referenzbilds auszugleichen.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

In diesem Zusammenhang führte das Team des Autors eine Reihe experimenteller Analysen durch. Sie stellten fest, dass die Probleme des IP-Adapters offensichtlich durch viele andere Methoden übertrieben wurden. Der Autor löste die meisten davon nur durch manuelle Anpassung der Bildgewichtung Das in dem Artikel behauptete Problem der Inhaltsleckage. Dennoch ist es in manchen Fällen immer noch schwierig für den IP-Adapter, einen geeigneten Schwellenwert für den Ausgleich zu finden. Da die aktuellen Adapter-basierten Methoden im Allgemeinen CLIP zum Extrahieren von Bildfunktionen verwenden, bestätigte der Autor am Beispiel des Bildabrufs, dass im CLIP-Funktionsraum die Funktionen von Bildern und Text hinzugefügt und entfernt werden können. Die Antwort liegt auf der Hand: Warum nicht? Zeigen Sie die Funktionen an, bevor Sie sie in das Netzwerk einspeisen. Wie können Inhalt und Stil von Bildfunktionen entkoppelt werden, indem möglicherweise durchgesickerte Inhaltsinformationen abgezogen werden?

Abschließend analysierte der Autor, inspiriert von der B-LoRA-Methode, sorgfältig die Auswirkung der IP-Adapter-Injektion auf jeder Ebene und stellte überrascht fest, dass es zwei unabhängige Ebenen gibt, die jeweils auf Stil- und räumliche Layoutinformationen reagieren. Zu diesem Zweck stellen die Autoren die vorgeschlagene Methode vor.

Einführung in die Methode

Basierend auf den obigen Beobachtungen und Experimenten schlug der Autor die InstantStyle-Methode vor, wie in der Abbildung gezeigt. Der Kern dieser Methode enthält zwei Module:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

(1) Merkmalssubtraktion: Verwenden CLIP-Leerlauffunktionen führen explizit eine Feature-Subtraktion durch, entfernen Inhaltsinformationen in Bildfunktionen und reduzieren die Auswirkungen von Referenzbildinhalten auf generierte Bilder. Im Vergleich zur Unterbestimmtheit des Stils lassen sich Inhaltsinformationen oft einfach durch Text beschreiben, sodass der Text-Encoder von CLIP zum Extrahieren von Inhaltsmerkmalen zur Entkopplung verwendet werden kann.

(2) Nur Stil-Layer-Injektion: Die Feature-Injektion wird nur in einer bestimmten Stil-Ebene durchgeführt, wodurch implizit eine Entkopplung von Stil und Inhalt erreicht wird. Nahe dem mittleren Block von UNet entdeckte der Autor zwei spezifische Ebenen, die den Stil bzw. das räumliche Layout steuern, und stellte fest, dass bei einigen Stilen das räumliche Layout auch eine Art Stil sein kann.

Insgesamt ist die Idee von InstantStyle recht einfach und leicht zu verstehen. Mit nur wenigen Codezeilen wird das problematischste Problem des Inhaltsverlusts bei der Stilmigration behoben.

Experimentelle Ergebnisse

Der Autor zeigt in dem Artikel die Generierungsergebnisse von zwei Strategien. Diese beiden Strategien sind nicht auf bestimmte Modelle beschränkt und können separat und unabhängig verwendet werden, wobei beide hervorragende Ergebnisse erzielen.

Das Ergebnis der Merkmalssubtraktion:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Nur Style-Layer-Injektion:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Vergleich mit aktuell führenden Methoden:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Stilisierung basierend auf dem Originalbild:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Community-Gameplay

InstantStyle ist bereits für Entwickler verfügbar Finden Sie Rich-Code-Implementierungen direkt über GitHub, einschließlich Wenshengtu, Tushengtu und Inpainting. Kürzlich wurde es auch vom Videogenerierungsprojekt AnyV2V als empfohlenes Stilisierungstool verwendet. Für Community-Benutzer unterstützt InstantStyle auch nativ ComfyUI (der Autor dieses Knotens ist auch Mitautor von InstantStyle), und Benutzer können es schnell ausprobieren, indem sie den IP-Adapter-Knoten aktualisieren.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Wie kommt es, dass wir als Autor von InstantID ein Co-Branding mit InstantID haben? Im Vergleich zu InstantID, das den generierten Stil nur durch Text steuert, kann InstantStyle den Stil zweifellos vielfältiger machen. Das Autorenteam wird die Gesichtsstilisierungsfunktion offiziell unterstützen, sobald der GitHub-Stern 1.000 erreicht.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Der Autor unterstützt auch offiziell die Huggingface-Demo und kann online ausprobiert werden.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Das obige ist der detaillierte Inhalt vonDas einst beliebte InstantID hat eine neue Spielweise: die Generierung stilisierter Bilder, die Open Source ist. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen