Heim >Technologie-Peripheriegeräte >KI >Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal: 2024-06-09 11:10:581062Durchsuche

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Die Videogenerierung von Menschentänzen ist eine fesselnde und herausfordernde kontrollierbare Videosyntheseaufgabe, die darauf abzielt, ein Video basierend auf eingegebenen Referenzbildern und Zielpositionssequenzen zu generieren hochwertige, realistische fortlaufende Videos. Mit der rasanten Entwicklung der Videogenerierungstechnologie, insbesondere der iterativen Weiterentwicklung generativer Modelle, hat die Aufgabe der Tanzvideogenerierung beispiellose Fortschritte gemacht und ein breites Anwendungspotenzial aufgezeigt.

Bestehende Methoden lassen sich grob in zwei Gruppen einteilen. Die erste Gruppe basiert typischerweise auf Generative Adversarial Networks (GANs), die eine zwischenstellungsgesteuerte Darstellung nutzen, um ein Referenzbild zu verzerren und sinnvolle Videobilder aus zuvor verzerrten Zielen zu generieren. Methoden, die auf generativen kontradiktorischen Netzwerken basieren, leiden jedoch häufig unter instabilem Training und schlechten Generalisierungsfähigkeiten, was zu offensichtlichen Artefakten und Jitter zwischen Frames führt.

Die zweite Gruppe verwendet das Diffusionsmodell, um realistische Videos zu synthetisieren. Diese Methoden bieten die Vorteile eines stabilen Trainings und starker Übertragungsfunktionen und bieten eine bessere Leistung als GAN-basierte Methoden. Zu den typischen Methoden gehören Disco, MagicAnimate, Animate Everyone, Champ usw.

Obwohl auf Diffusionsmodellen basierende Methoden erhebliche Fortschritte gemacht haben, weisen bestehende Methoden immer noch zwei Einschränkungen auf: Erstens ist ein zusätzliches Referenznetzwerk (ReferenceNet) erforderlich, um Referenzbildmerkmale zu codieren und sie mit der scheinbaren Ausrichtung von 3D-UNet zu kombinieren Der Backbone-Zweig erhöht die Trainingsschwierigkeit und die Modellparameter. Zweitens verwenden sie normalerweise einen zeitlichen Transformator, um die zeitliche Abhängigkeit zwischen Videobildern zu modellieren. Die Komplexität des Transformators wird jedoch quadratisch mit der Länge der generierten Zeit Timing-Länge des generierten Videos. Typische Methoden können nur 24 Videobilder erzeugen, was die praktischen Einsatzmöglichkeiten einschränkt. Obwohl die Schiebefensterstrategie der zeitlichen Überlappung längere Videos erzeugen kann, stellten die Autoren des Teams fest, dass diese Methode leicht zu dem Problem ungleichmäßiger Übergänge und einer inkonsistenten Darstellung an den überlappenden Verbindungsstellen der Segmente führt.

Um diese Probleme zu lösen, schlug ein Forschungsteam der Huazhong University of Science and Technology, Alibaba und der University of Science and Technology of China das UniAnimate-Framework vor, um eine effiziente und langfristige menschliche Videogenerierung zu erreichen.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

Papieradresse: https://arxiv.org/abs/2406.01188
Projekthomepage: https://unianimate.github.io/

Methode Einführung

Das

UniAnimate-Framework ordnet zunächst das Referenzbild, die Posenführung und das Rauschvideo dem Funktionsraum zu und verwendet dann das Unified Video Diffusion Model (Unified Video Diffusion Model) , um gleichzeitig das Referenzbild und die scheinbare Ausrichtung des Video-Backbone-Zweigs zu verarbeiten und Video-Rauschunterdrückungsaufgaben für eine effiziente Funktionsausrichtung und kohärente Videogenerierung.

Zweitens schlug das Forschungsteam auch eine einheitliche Rauscheingabe vor, die eine zufällige Rauscheingabe und eine bedingte Rauscheingabe basierend auf dem ersten Bild unterstützt. Die zufällige Rauscheingabe kann ein Video mit dem Referenzbild und der Posensequenz generieren Die bedingte Rauscheingabe des ersten Frames (First Frame Conditioning) verwendet den ersten Frame des Videos als bedingte Eingabe, um mit der Generierung nachfolgender Videos fortzufahren. Auf diese Weise kann eine Inferenz generiert werden, indem das letzte Bild des vorherigen Videosegments als erstes Bild des nächsten Segments usw. behandelt wird, um eine lange Videogenerierung in einem Framework zu erreichen.

Um lange Sequenzen noch effizienter zu verarbeiten, untersuchte das Forschungsteam schließlich eine Zeitmodellierungsarchitektur auf Basis des Zustandsraummodells (Mamba) als Alternative zum ursprünglichen rechenintensiven Zeitreihen-Transformer. Experimente haben ergeben, dass die auf sequentiellem Mamba basierende Architektur ähnliche Effekte wie der sequentielle Transformer erzielen kann, jedoch weniger Grafikspeicher-Overhead erfordert.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

Mit dem UniAnimate-Framework können Benutzer hochwertige Zeitreihenvideos zum menschlichen Tanz erstellen. Es ist erwähnenswert, dass durch die mehrmalige Verwendung der First-Frame-Conditioning-Strategie ein einminütiges hochauflösendes Video generiert werden kann. Im Vergleich zu herkömmlichen Methoden bietet UniAnimate die folgenden Vorteile:

Keine Notwendigkeit für zusätzliche Referenznetzwerke: Das UniAnimate-Framework eliminiert die Abhängigkeit von zusätzlichen Referenznetzwerken durch ein einheitliches Videodiffusionsmodell, wodurch Trainingsschwierigkeiten und Modellnummern reduziert werden von Parametern.
Führt die Posenkarte des Referenzbildes als zusätzliche Referenzbedingung ein, die das Netzwerk dazu fördert, die Entsprechung zwischen der Referenzpose und der Zielpose zu lernen und eine gute scheinbare Ausrichtung zu erreichen.
Erstellen Sie Videos mit langen Sequenzen innerhalb eines einheitlichen Rahmens: Durch das Hinzufügen eines einheitlichen Rauscheingangs ist UniAnimate in der Lage, Langzeitvideos innerhalb eines Frames zu generieren, ohne den Zeitbeschränkungen herkömmlicher Methoden mehr zu unterliegen.
Hohe Konsistenz: Das UniAnimate-Framework sorgt für einen reibungslosen Übergangseffekt des generierten Videos, indem es iterativ das erste Bild als Bedingung für die Generierung nachfolgender Bilder verwendet, wodurch das Video konsistenter und kohärenter im Erscheinungsbild wird. Diese Strategie ermöglicht es Benutzern auch, mehrere Videoclips zu generieren und das letzte Bild des Clips mit guten Ergebnissen als erstes Bild des nächsten generierten Clips auszuwählen, wodurch es für Benutzer einfacher wird, mit dem Modell zu interagieren und die Generierungsergebnisse nach Bedarf anzupassen. Wenn jedoch lange Videos mit der Schiebefensterstrategie der Überlappung früherer Zeitreihen erstellt werden, kann keine Segmentauswahl durchgeführt werden, da jedes Video in jedem Schritt des Diffusionsprozesses miteinander gekoppelt ist.

Die oben genannten Funktionen machen das UniAnimate-Framework hervorragend für die Synthese hochwertiger, langfristiger menschlicher Tanzvideos und bieten neue Möglichkeiten für ein breiteres Anwendungsspektrum.

Beispiel für generierte Ergebnisse

1. Tanzvideogenerierung basierend auf synthetisierten Bildern.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

2. Tanzvideos basierend auf echten Bildern erstellen.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

3. Erstellung von Tanzvideos basierend auf Bildern im Tonstil.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

4. Moschustänze.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

5. Yann LeCun tanzt.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

6. Tanzvideos basierend auf anderen domänenübergreifenden Bildern generieren.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

7. Erstelle ein einminütiges Tanzvideo.

Original-MP4-Videos und weitere HD-Videobeispiele finden Sie auf der Projekthomepage des Papiers https://unianimate.github.io/.

Experimentelle Vergleichsanalyse

1. Quantitative Vergleichsexperimente mit vorhandenen Methoden am TikTok-Datensatz.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

Wie in der obigen Tabelle gezeigt, erzielt die UniAnimate-Methode die besten Ergebnisse bei Bildindikatoren wie L1, PSNR, SSIM, LPIPS und Videoindikatoren FVD, was darauf hinweist, dass UniAnimate Ergebnisse mit hoher Wiedergabetreue generieren kann.

2. Qualitative Vergleichsexperimente mit bestehenden Methoden.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

Aus den obigen qualitativen Vergleichsexperimenten geht auch hervor, dass die UniAnimate-Methode im Vergleich zu MagicAnimate und Animate Everyone bessere kontinuierliche Ergebnisse ohne offensichtliche Artefakte generieren kann, was auf die Wirksamkeit von UniAnimate hinweist.

3. Peeling-Experiment.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

Wie aus den numerischen Ergebnissen in der obigen Tabelle ersichtlich ist, spielen die in UniAnimate verwendete Referenzpose und das einheitliche Videodiffusionsmodell eine Schlüsselrolle bei der Verbesserung der Leistung.

4. Vergleich von Strategien zur Generierung langer Videos.

Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.

Wie aus der obigen Abbildung ersichtlich ist, kann die häufig verwendete Timing-Overlap-Slide-Window-Strategie zum Generieren langer Videos leicht zu diskontinuierlichen Übergängen führen. Das Forschungsteam geht davon aus, dass dies daran liegt, dass verschiedene Fenster inkonsistente Rauschunterdrückungsschwierigkeiten haben Die zeitliche Überschneidung eines Teils führt dazu, dass die Generierungsergebnisse unterschiedlich sind. Die direkte Mittelung führt zu offensichtlichen Verformungen oder Verzerrungen, und diese Inkonsistenz führt zu einer Fehlerausbreitung. Die in diesem Artikel verwendete Methode zur Generierung der Videofortsetzung im ersten Frame kann sanfte Übergänge erzeugen.

Weitere experimentelle Vergleichsergebnisse und Analysen finden Sie im Originalpapier.

Alles in allem sind die Beispielergebnisse und quantitativen Vergleichsergebnisse von UniAnimate sehr gut. Wir freuen uns auf die Anwendung von UniAnimate in verschiedenen Bereichen wie der Film- und Fernsehproduktion, der Virtual-Reality- und Spielebranche usw., um den Benutzern mehr zu bieten realistische und aufregende menschliche Bilder.

Das obige ist der detaillierte Inhalt vonUnterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构 github transformer https

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Ein geschmeidigerer Regelalgorithmus als PID und Carnegie Mellon UniversityNächster Artikel：Ein geschmeidigerer Regelalgorithmus als PID und Carnegie Mellon University

In Verbindung stehende Artikel

Mehr sehen