Heim >Technologie-Peripheriegeräte >KI >Erzeugen Sie in zwei Schritten 25 Frames hochwertiger Animationen, berechnet als 8 % der SVD | Online spielbar

Erzeugen Sie in zwei Schritten 25 Frames hochwertiger Animationen, berechnet als 8 % der SVD | Online spielbar

PHPz
PHPznach vorne
2024-02-20 15:54:16849Durchsuche

Die verbrauchten Rechenressourcen betragen nur 2/25 des herkömmlichen Stable Video Diffusion(SVD)Modells!

AnimateLCM-SVD-xt wird veröffentlicht und ändert das Videodiffusionsmodell für wiederholte Rauschunterdrückung, was zeitaufwändig ist und viele Berechnungen erfordert.

Sehen wir uns zunächst den erzeugten Animationseffekt an.

Cyberpunk-Stil ist leicht zu kontrollieren, der Junge trägt Kopfhörer und steht in der neonfarbenen Stadtstraße:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Realistischer Stil kann auch verwendet werden, ein frisch verheiratetes Paar kuschelt zusammen und hält einen exquisiten Blumenstrauß in der Hand Erleben Sie die Liebe unter der alten Steinmauer:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bild

Science-Fiction-Stil und spüren Sie auch die Invasion der Erde durch Außerirdische:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bild

AnimateLCM-SVD-xt von MMLab, The Chinese Universität Hongkong, gemeinsam vorgeschlagen von Forschern von Avolution AI, Shanghai Artificial Intelligence Laboratory und SenseTime Research Institute.

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Sie können hochwertige Animationen mit 25 Bildern und einer Auflösung von 576 x 1024 in 2 bis 8 Schritten generieren, und ohne Klassifikatorführung

kann das in 4 Schritten generierte Video eine hohe Wiedergabetreue erreichen, d. h besser als herkömmliches SVD Schneller und effizienter:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Derzeit ist der AnimateLCM-Code Open Source und es steht eine Online-Demo zum Testen zur Verfügung.

Legen Sie los und probieren Sie die Demo aus

Wie Sie der Demo-Oberfläche entnehmen können, ist AnimateLCM-SVD-xt für die allgemeine Bild-zu-Video-Generierung vorgesehen; -i2v dient zur personalisierten Bild-zu-Video-Generierung.

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Unten finden Sie einen Konfigurationsbereich, in dem Sie das grundlegende Dreambooth-Modell oder das LoRA-Modell auswählen und den LoRA-Alpha-Wert über den Schieberegler anpassen können.

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Als nächstes können Sie Eingabeaufforderungen und negative Eingabeaufforderungen eingeben, um den Inhalt und die Qualität der generierten Animation zu steuern:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Es gibt auch einige Parameter, die angepasst werden können:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩 Bilder

Fangen wir an. Nach dem Ausprobieren lautet das Eingabeaufforderungswort „Wolken am Himmel“, die Parametereinstellungen sind wie oben gezeigt und der Abtastschritt beträgt nur 4 Schritte, der erzeugte Effekt ist wie folgt:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩 Bild

Der Sampling-Schritt beträgt 25 Schritte. Wenn Sie mit dem Wort „Ein Junge hält ein Kaninchen“ dazu aufgefordert werden, ist der Effekt wie folgt:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Schauen wir uns noch einmal die offiziellen Anzeigeeffekte an. Der Vergleich der Effekte von 2 Schritten, 4 Schritten und 8 Schritten ist wie folgt:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Je mehr Schritte, desto besser ist die Animationsqualität. Nur 4 Schritte können mit AnimateLCM eine hohe Wiedergabetreue erreichen:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

jeder Alle Stile sind realisierbar:

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

🎜

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Wie geht das?

Beachten Sie, dass Videodiffusionsmodelle aufgrund ihrer Fähigkeit, kohärente und hochauflösende Videos zu erzeugen, zwar zunehmend Beachtung finden, eine der Schwierigkeiten jedoch darin besteht, dass der iterative Entrauschungsprozess nicht nur zeitaufwändig, sondern auch rechenintensiv ist, was ihn einschränkt Geltungsbereich.

In dieser Arbeit AnimateLCM ließen sich die Forscher vom Konsistenzmodell (CM) inspirieren, das das vorab trainierte Bilddiffusionsmodell vereinfacht, um die für das Sampling erforderlichen Schritte zu reduzieren und erfolgreich auf das Latent Consistency Model (LCM) für die bedingte Bilderzeugung zu skalieren ) .

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bild

Konkret schlugen die Forscher eine Strategie des Entkoppelten Konsistenzlernens(Entkoppeltes Konsistenzlernen) vor.

Destillieren Sie zunächst das stabile Diffusionsmodell in ein Bildkonsistenzmodell für einen hochwertigen Bild-Text-Datensatz und führen Sie dann eine Konsistenzdestillation für Videodaten durch, um ein Videokonsistenzmodell zu erhalten. Diese Strategie verbessert die Trainingseffizienz durch getrenntes Training auf räumlicher und zeitlicher Ebene.

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Um verschiedene Funktionen von Plug-and-Play-Adaptern (z. B. Verwendung von ControlNet zur Erzielung einer steuerbaren Erzeugung) in der Stable Diffusion-Community zu implementieren, schlugen die Forscher außerdem Lehrer- vor Kostenlose Anpassung der Strategie (Lehrerfreie Anpassung), um den vorhandenen Steuerungsadapter konsistenter mit dem Konsistenzmodell zu machen und eine besser kontrollierbare Videogenerierung zu erreichen.

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩Bilder

Sowohl quantitative als auch qualitative Experimente belegen die Wirksamkeit der Methode.

Bei der Zero-Shot-Text-zu-Video-Generierung auf dem UCF-101-Datensatz erzielt AnimateLCM die beste Leistung sowohl bei FVD- als auch bei CLIPSIM-Metriken. „Bild“ imatelcm. github.io/

两步生成25帧高质量动画,计算为SVD的8% | 在线可玩[2]https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt

Das obige ist der detaillierte Inhalt vonErzeugen Sie in zwei Schritten 25 Frames hochwertiger Animationen, berechnet als 8 % der SVD | Online spielbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen