Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Midjourneys Rivale ist da! Googles StyleDrop-Ass „Customization Master“ lässt den KI-Kunstkreis explodieren

Midjourneys Rivale ist da! Googles StyleDrop-Ass „Customization Master“ lässt den KI-Kunstkreis explodieren

WBOY
WBOYnach vorne
2023-06-05 13:33:25683Durchsuche

Sobald Google StyleDrop herauskam, gelangte es sofort ins Internet.

Angesichts von Van Goghs Sternennacht wird KI zum Meister Van Gogh und schafft nach einem umfassenden Verständnis dieses abstrakten Stils unzählige ähnliche Gemälde.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Ein weiterer Cartoon-Stil, die Objekte, die ich zeichnen möchte, sind viel niedlicher.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Sogar die Details können genau kontrolliert und ein Logo im Originalstil entworfen werden.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Der Charme von StyleDrop besteht darin, dass Sie nur ein Bild als Referenz benötigen. Egal wie komplex der künstlerische Stil ist, Sie können ihn dekonstruieren und neu erstellen.

Netizens haben gesagt, dass es sich um die Art von KI-Tool handelt, das Designer eliminiert.

StyleDrop Hot Research ist das neueste Produkt des Google-Forschungsteams.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Papieradresse: https://arxiv.org/pdf/2306.00983.pdf

Jetzt können Sie mit Tools wie StyleDrop nicht nur kontrollierbarer zeichnen, sondern auch das fertigstellen Vorherige Arbeit Unvorstellbar detaillierte Arbeit, wie zum Beispiel das Zeichnen eines Logos.

Sogar NVIDIA-Wissenschaftler nannten es eine „phänomenale“ Leistung.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

„Customization“ Master

Der Autor des Artikels stellte vor, dass die Inspiration für StyleDrop von Eyedropper (Farbabsorptions-/Farbauswahlwerkzeug) kam.

In ähnlicher Weise hofft StyleDrop auch, dass jeder schnell und mühelos einen Stil aus einem oder mehreren Referenzbildern „auswählen“ kann, um ein Bild dieses Stils zu erstellen. Ein Faultier kann 18 Stile haben: Ein Panda kann 24 Stile haben: Ein Aquarellgemälde, gezeichnet von einem Kind , Style Drop perfekte Kontrolle , Sogar die Falten des Papiers wurden wiederhergestellt.

Ich muss sagen, es ist zu stark. Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Es gibt auch StyleDrops Design englischer Buchstaben, die auf verschiedenen Stilen basieren:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Es ist auch ein Buchstabe im Van-Gogh-Stil.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Es gibt auch Strichzeichnungen. Das Zeichnen von Strichen ist ein sehr abstraktes Bild und erfordert eine sehr hohe Rationalität bei der Bildkomposition. Frühere Methoden waren schwierig.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Die Striche des Käseschattens im Originalbild werden wiederhergestellt Objekte jedes Bildes überlegen.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Siehe Android-LOGO-Erstellung.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Darüber hinaus erweiterten die Forscher auch die Möglichkeiten von StyleDrop, nicht nur um den Stil anzupassen, sondern auch um Kombinieren Sie es mit DreamBooth-Inhalten.

Zum Beispiel, immer noch im Van-Gogh-Stil, erstellen Sie ein ähnliches Gemälde für den kleinen Corgi:

#🎜 🎜## 🎜🎜#Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Hier ist noch einer, der Corgi unten fühlt sich an wie die „Sphinx“ auf den ägyptischen Pyramiden. Wie funktioniert

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

?

StyleDrop basiert auf Muse und besteht aus zwei Hauptteilen:

Einer ist die effektive Feinabstimmung der Parameter von Der generierte visuelle Transformator. Der andere ist iteratives Training mit Feedback.

Die Forscher synthetisierten dann Bilder der beiden fein abgestimmten Modelle.

Muse ist das neueste Text-zu-Bild-Synthesemodell, das auf einem maskengenerierten Bildtransformator basiert. Es enthält zwei Synthesemodule für die Basisbilderzeugung (256 × 256) und die Superauflösung (512 × 512 oder 1024 × 1024).

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Jedes Modul besteht aus einem Textkodierer T und einem Transformator G, a Sampler S, einen Bild-Encoder E und einen Decoder D.

T ordnet die Textaufforderung t∈T dem kontinuierlichen Einbettungsraum E zu. G verarbeitet Texteinbettungen e ∈ E, um Logarithmen visueller Tokensequenzen l ∈ L zu generieren. S extrahiert eine Folge visueller Token v ∈ V aus dem Logarithmus durch iterative Dekodierung, die mehrere Schritte der Transformatorinferenz durchführt, abhängig von der Texteinbettung e und den aus vorherigen Schritten dekodierten visuellen Token.

Schließlich ordnet D die diskrete Token-Sequenz dem Pixelraum I zu. Zusammenfassend sieht die Zusammensetzung des Bildes I bei einer gegebenen Textaufforderung t wie folgt aus:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Abbildung 2 ist a Vereinfachte Muse-Transformator-Layer-Architektur, die teilweise geändert wurde, um Parameter Efficient Fine-Tuning (PEFT) und Adapter zu unterstützen.

Verwenden Sie den Transformator der L-Ebene, um die in Grün angezeigte visuelle Token-Sequenz unter der Bedingung der Texteinbettung zu verarbeiten. Die erlernten Parameter θ werden verwendet, um Gewichte für die Adapterabstimmung zu konstruieren.

Um θ zu trainieren, geben Forscher in vielen Fällen möglicherweise nur Bilder als Stilreferenzen an.

Forscher müssen Textaufforderungen manuell anhängen. Sie schlugen einen einfachen, auf Vorlagen basierenden Ansatz zur Erstellung von Textaufforderungen vor, der aus einer Beschreibung des Inhalts, gefolgt von einer Phrase im Beschreibungsstil, besteht.

Zum Beispiel verwendet der Forscher „Katze“, um ein Objekt in Tabelle 1 zu beschreiben, und fügt „Aquarellmalerei“ als Stilbeschreibung hinzu.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Das Einfügen einer Beschreibung von Inhalt und Stil in eine Textaufforderung ist von entscheidender Bedeutung, da sie dabei hilft, Inhalt und Stil zu trennen, was das Hauptziel des Forschers ist.

Abbildung 3 zeigt iteratives Training mit Feedback.

Beim Training mit einem einzelnen Stilreferenzbild (oranges Feld) können einige von StyleDrop generierte Bilder Inhalte aufweisen, die aus dem Stilreferenzbild (rotes Feld, der Bildhintergrund enthält ähnliche Elemente wie das Stilbild) extrahiert wurden.

Andere Bilder (blaue Kästchen) trennen den Stil besser vom Inhalt. Das iterative Training von StyleDrop an guten Beispielen (blauer Kasten) führt zu einer besseren Balance zwischen Stil und Texttreue (grüner Kasten).

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Hier verwendeten die Forscher auch zwei Methoden:

-CLIP-Score

Mit dieser Methode wird die Ausrichtung von Bildern und Text gemessen. Daher kann die Qualität der generierten Bilder durch Messung des CLIP-Scores (d. h. der Kosinusähnlichkeit visueller und textueller CLIP-Einbettungen) bewertet werden.

Forscher können das CLIP-Bild mit der höchsten Punktzahl auswählen. Sie nennen diese Methode CLIP-Feedback Iterative Training (CF).

In Experimenten fanden die Forscher heraus, dass die Verwendung von CLIP-Scores zur Bewertung der Qualität synthetischer Bilder eine wirksame Möglichkeit ist, die Erinnerung (d. h. die Texttreue) ohne übermäßigen Verlust der Stiltreue zu verbessern.

Andererseits stimmen CLIP-Scores jedoch möglicherweise nicht vollständig mit der menschlichen Absicht überein und erfassen auch subtile Stilmerkmale nicht.

-HF

Human Feedback (HF) ist eine direktere Möglichkeit, die Absicht des Benutzers direkt in die Bewertung der synthetischen Bildqualität einfließen zu lassen.

Bei der LLM-Feinabstimmung für Reinforcement Learning hat HF ​​seine Leistungsfähigkeit und Wirksamkeit unter Beweis gestellt.

HF kann verwendet werden, um die Unfähigkeit von CLIP-Scores auszugleichen, subtile Stilattribute zu erfassen.

Derzeit konzentriert sich ein großer Teil der Forschung auf das Personalisierungsproblem von Text-zu-Bild-Diffusionsmodellen, um Bilder mit mehreren persönlichen Stilen zu synthetisieren.

Forscher zeigen, wie DreamBooth und StyleDrop auf einfache Weise kombiniert werden können, um Stil und Inhalt zu personalisieren.

Dies erfolgt durch Stichprobenentnahme aus zwei modifizierten generativen Verteilungen, geleitet von θs für Stil und θc für Inhalt bzw. Adapterparametern, die unabhängig auf Stil- und Inhaltsreferenzbildern trainiert werden.

Im Gegensatz zu bestehenden Standardprodukten erfordert der Ansatz des Teams kein gemeinsames Training lernbarer Parameter für mehrere Konzepte, was zu größeren kombinatorischen Fähigkeiten führt, da die vorab trainierten Adapter individuell auf einzelne Themen und Stile trainiert werden.

Der gesamte Sampling-Prozess der Forscher folgt der iterativen Dekodierung von Gleichung (1), wobei in jedem Dekodierungsschritt eine andere Art der Logarithmen-Sampling-Methode verwendet wird.

Sei t der Text-Prompt und c der Text-Prompt ohne Stildeskriptor. Der Logarithmus wird in Schritt k wie folgt berechnet:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

wobei: γ zum Ausgleichen von StyleDrop und DreamBooth verwendet wird – wenn γ ist 0, wir bekommen StyleDrop, wenn 1, bekommen wir DreamBooth.

Durch die entsprechende Einstellung von γ können wir ein geeignetes Bild erhalten.

Experimenteller Aufbau

Bisher gab es keine umfassende Forschung zur Stilanpassung von generativen Text-Bild-Modellen.

Deshalb schlugen die Forscher einen neuen Versuchsplan vor:

-Datensammlung

Die Forscher sammelten Dutzende Bilder verschiedener Stile, von Aquarellen und Ölgemälden, flachen Illustrationen, 3D-Renderings bis hin zu Skulpturen aus verschiedenen Materialien .

- Modellkonfiguration

Forscher verwenden Adapter, um Muse-basiertes StyleDrop abzustimmen. Für alle Experimente wurde der Adam-Optimierer verwendet, um die Adaptergewichte für 1000 Schritte mit einer Lernrate von 0,00003 zu aktualisieren. Sofern nicht anders angegeben, verwenden die Forscher StyleDrop zur Darstellung der zweiten Runde des Modells, das anhand von mehr als 10 synthetischen Bildern mit menschlichem Feedback trainiert wurde.

-Bewertung

Quantitative Bewertung von Forschungsberichten basierend auf CLIP, Messung der Stilkonsistenz und Textausrichtung. Darüber hinaus führten die Forscher Studien zu Benutzerpräferenzen durch, um die Stilkonsistenz und die Textausrichtung zu bewerten.

Wie im Bild gezeigt, sind die Ergebnisse der StyleDrop-Verarbeitung von 18 Bildern verschiedener Stile, die von den Forschern gesammelt wurden.

Wie Sie sehen, ist StyleDrop in der Lage, die Nuancen von Textur, Schattierung und Struktur verschiedener Stile zu erfassen, sodass Sie den Stil besser kontrollieren können als zuvor.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Zum Vergleich stellten die Forscher auch die Ergebnisse von DreamBooth auf Imagen, die LoRA-Implementierung von DreamBooth auf Stable Diffusion und die Ergebnisse der Textinversion vor.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Die spezifischen Ergebnisse sind in der Tabelle dargestellt, die Bewertungsindikatoren für die menschliche Bewertung (oben) und die CLIP-Bewertung (unten) für die Bild-Text-Ausrichtung (Text) und die visuelle Stilausrichtung (Stil).

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Qualitativer Vergleich von (a) DreamBooth, (b) StyleDrop und (c) DreamBooth + StyleDrop:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Hier verwendeten die Forscher die oben genannten zwei Metriken CLIP für die Partitur - Text und Stil der Partituren.

Für die Textbewertung messen Forscher die Kosinusähnlichkeit zwischen Bild- und Texteinbettungen. Für die Stilbewertung messen die Forscher die Kosinusähnlichkeit zwischen der Stilreferenz und der synthetischen Bildeinbettung.

Die Forscher generierten insgesamt 1520 Bilder für 190 Textaufforderungen. Obwohl die Forscher hofften, dass das Endergebnis höher ausfallen würde, sind die Messwerte nicht perfekt.

Und iteratives Training (IT) verbesserte die Textbewertung, was den Zielen der Forscher entspricht.

Als Kompromiss werden jedoch ihre Stilwerte für das Erstrundenmodell reduziert, da sie auf synthetischen Bildern trainiert werden und der Stil möglicherweise durch Auswahlverzerrungen verzerrt ist.

DreamBooth auf Imagen ist StyleDrop in der Stilbewertung unterlegen (0,644 vs. 0,694 für HF).

Die Forscher stellten fest, dass der Anstieg des Style-Scores von DreamBooth auf Imagen nicht offensichtlich war (0,569 → 0,644), während der Anstieg von StyleDrop auf Muse offensichtlicher war (0,556 → 0,694).

Forscher haben analysiert, dass die Stiloptimierung bei Muse effektiver ist als die bei Imagen.

Darüber hinaus erfasst StyleDrop für eine feinkörnige Steuerung subtile Stilunterschiede wie Farbversatz, Abstufung oder scharfe Winkelsteuerung.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Heiße Kommentare von Internetnutzern

Wenn Designer StyleDrop haben, wird ihre Arbeitseffizienz zehnmal schneller sein, was bereits rasant zugenommen hat.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Eines Tages auf KI, 10 Jahre auf der Erde, entwickelt sich AIGC mit Lichtgeschwindigkeit, der Art von Lichtgeschwindigkeit, die die Augen der Menschen blendet!

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Werkzeuge folgen einfach dem Trend, und diejenigen, die abgeschafft werden sollten, sind längst abgeschafft.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Dieses Tool ist zum Erstellen von Logos viel einfacher zu verwenden als Midjourney.

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Das obige ist der detaillierte Inhalt vonMidjourneys Rivale ist da! Googles StyleDrop-Ass „Customization Master“ lässt den KI-Kunstkreis explodieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen