Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

WBOY
WBOYnach vorne
2024-03-28 15:40:16576Durchsuche

Sie benötigen lediglich ein Foto und einen Ton, um direkt ein Video des sprechenden Charakters zu erstellen!

Kürzlich haben Forscher von Google das multimodale Diffusionsmodell VLOGGER veröffentlicht, das uns dem virtuellen digitalen Menschen einen Schritt näher bringt.

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Papieradresse: https://enriccorona.github.io/vlogger/paper.pdf

Vlogger kann ein einzelnes Eingabebild sammeln und Text- oder Audiotreiber verwenden, um Videos menschlicher Sprache zu generieren, einschließlich oral Die Form, der Ausdruck, die Körperbewegungen usw. sind alle sehr natürlich.

Schauen wir uns zunächst ein paar Beispiele an:

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Wenn Sie das Gefühl haben, dass die Verwendung der Stimmen anderer Personen im Video etwas inkonsistent ist, wenden Sie sich an den Herausgeber hilft Ihnen, den Ton auszuschalten:

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Man erkennt, dass der gesamte erzeugte Effekt sehr elegant und natürlich ist.

VLOGGER baut auf dem jüngsten Erfolg generativer Diffusionsmodelle auf, einschließlich eines Modells, das Menschen in 3D-Bewegung übersetzt, und einer neuen diffusionsbasierten Architektur zur Verbesserung textgenerierter Bilder mit zeitlicher und räumlicher Kontrolle.

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

VLOGGER kann hochwertige Videos variabler Länge erzeugen, und diese Videos können mit erweiterten Darstellungen von Gesichtern und Körpern einfach gesteuert werden.

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Zum Beispiel können wir die Personen im generierten Video bitten, den Mund zu halten:

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

oder die Augen zu schließen:

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Im Vergleich zu früheren ähnlichen Modellen tut VLOGGER dies nicht erforderlich Es wird auf Einzelpersonen trainiert, basiert nicht auf Gesichtserkennung und Zuschneiden und umfasst Körperbewegungen, Oberkörper und Hintergründe – eine normale menschliche Leistung, die kommunizieren kann.

Die Stimme der KI, der Ausdruck der KI, die Aktion der KI, die Szene der KI, der Wert des Menschen liegt am Anfang darin, Daten bereitzustellen, aber könnten sie in Zukunft keinen Wert mehr haben?

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

In Bezug auf die Daten haben die Forscher einen neuen und vielfältigen Datensatz MENTOR gesammelt, der eine ganze Größenordnung größer ist als der vorherige ähnliche Datensatz. Der Trainingssatz umfasst 2.200 Stunden und 800.000 verschiedene Einzelpersonen, der Testsatz umfasst 120 Stunden und 4000 Personen mit unterschiedlichen Identitäten.

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Die Forscher bewerteten VLOGGER anhand von drei verschiedenen Benchmarks und zeigten, dass das Modell hinsichtlich Bildqualität, Identitätserhaltung und zeitlicher Konsistenz eine Spitzenleistung erzielte.

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

VLOGGER

VLOGGERs Ziel ist es, ein realistisches Video variabler Länge zu erstellen, das den gesamten Sprechvorgang der Zielperson einschließlich Kopfbewegungen und Gesten darstellt.

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Wie oben gezeigt, wird bei einem einzelnen Eingabebild in Spalte 1 und einem Beispiel-Audioeingang in der rechten Spalte eine Reihe zusammengesetzter Bilder angezeigt.

Einschließlich der Erzeugung von Kopfbewegungen, Blicken, Blinzeln, Lippenbewegungen und etwas, was frühere Modelle nicht konnten, nämlich der Erzeugung von Oberkörper und Gesten, was einen großen Fortschritt in der audiogesteuerten Synthese darstellt.

VLOGGER verwendet eine zweistufige Pipeline, die auf einem Zufallsdiffusionsmodell basiert, um eine Eins-zu-viele-Zuordnung von Sprache zu Video zu simulieren.

Das erste Netzwerk verwendet Audiowellenformen als Eingabe, um Körperbewegungssteuerungen zu generieren, die für Blick, Gesichtsausdrücke und Gesten über die Länge des Zielvideos verantwortlich sind.

Das zweite Netzwerk ist ein zeitliches Bild-zu-Bild-Übersetzungsmodell, das das Großbilddiffusionsmodell erweitert, um vorhergesagte Körpersteuerung zur Erzeugung entsprechender Frames zu nutzen. Um diesen Prozess auf eine bestimmte Identität auszurichten, erhält das Netzwerk ein Referenzbild der Zielperson.

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

VLOGGER verwendet statistikbasierte 3D-Körpermodelle, um den Videogenerierungsprozess zu regulieren. Bei einem gegebenen Eingabebild kodieren die vorhergesagten Formparameter die geometrischen Eigenschaften der Zielidentität.

Zuerst nimmt das Netzwerk M die eingegebene Sprache und generiert eine Reihe von N Bildern mit 3D-Gesichtsausdrücken und Körperhaltungen.

Eine dichte Darstellung des sich bewegenden 3D-Körpers wird dann gerendert, um während der Videogenerierungsphase als 2D-Steuerung zu dienen. Diese Bilder dienen zusammen mit den Eingabebildern als Eingabe für das zeitliche Diffusionsmodell und die Superauflösungsmodule.

Audiogesteuerte Bewegungserzeugung

Das erste Netzwerk der Pipeline ist darauf ausgelegt, Bewegungen basierend auf eingegebener Sprache vorherzusagen. Darüber hinaus wird der Eingabetext durch ein Text-to-Speech-Modell in eine Wellenform umgewandelt und das generierte Audio wird als Standard-Mel-Spektrogramm dargestellt.

Die Pipeline basiert auf der Transformer-Architektur und verfügt über vier Multi-Head-Aufmerksamkeitsebenen in der Zeitdimension. Beinhaltet die Positionskodierung der Bildnummer und des Diffusionsschritts sowie die Einbettung von MLP für Eingangsaudio und Diffusionsschritt.

Verwenden Sie in jedem Frame eine kausale Maske, damit sich das Modell nur auf den vorherigen Frame konzentriert. Das Modell wird mithilfe von Videos variabler Länge (z. B. dem TalkingHead-1KH-Datensatz) trainiert, um sehr lange Sequenzen zu generieren.

Die Forscher nutzen statistisch basierte geschätzte Parameter eines 3D-Modells des menschlichen Körpers, um Zwischenkontrolldarstellungen für synthetische Videos zu generieren.

Das Modell berücksichtigt sowohl Mimik als auch Körperbewegungen, um ausdrucksstärkere und dynamischere Gesten zu erzeugen.

Darüber hinaus basieren frühere Arbeiten zur Gesichtsgenerierung normalerweise auf verzerrten Bildern, aber in diffusionsbasierten Architekturen wurde diese Methode ignoriert.

Die Autoren schlagen vor, verzerrte Bilder zu verwenden, um den Generierungsprozess zu leiten, was die Aufgabe des Netzwerks erleichtert und dabei hilft, die Subjektidentität der Charaktere zu bewahren.

Sprechende und sich bewegende Menschen generieren

Das nächste Ziel besteht darin, eine Bewegungsverarbeitung an einem Eingabebild einer Person durchzuführen, sodass es zuvor vorhergesagten Körper- und Gesichtsbewegungen folgt.

Inspiriert von ControlNet froren die Forscher das ursprünglich trainierte Modell ein und übernahmen Eingabezeitkontrollen, um eine nullinitialisierte, trainierbare Kopie der Codierungsschicht zu erstellen.

Der Autor verschachtelt eindimensionale Faltungsschichten im Zeitbereich. Das Netzwerk wird durch den Erhalt aufeinanderfolgender N Frames und Steuerelemente trainiert und generiert Aktionsvideos von Referenzzeichen basierend auf den Eingabesteuerelementen.

Das Modell wird mithilfe des vom Autor erstellten MENTOR-Datensatzes trainiert. Da das Netzwerk während des Trainingsprozesses eine Reihe aufeinanderfolgender Bilder und beliebige Referenzbilder erhält, kann theoretisch jedes Videobild als Referenz bezeichnet werden.

In der Praxis entscheiden sich die Autoren jedoch dafür, Referenzen weiter vom Zielclip entfernt zu sampeln, da nähere Beispiele weniger Verallgemeinerungspotenzial bieten.

Das Netzwerk wird in zwei Phasen trainiert: Zuerst wird eine neue Steuerungsschicht auf einem einzelnen Frame gelernt und dann wird das Video trainiert, indem eine zeitliche Komponente hinzugefügt wird. Dies ermöglicht die Verwendung großer Stapel in der ersten Phase und ein schnelleres Erlernen von Head-Replay-Aufgaben.

Die vom Autor verwendete Lernrate beträgt 5e-5, und das Bildmodell wird in beiden Phasen mit einer Schrittgröße von 400.000 und einer Stapelgröße von 128 trainiert.

Vielfalt

Die folgende Abbildung zeigt die vielfältige Verteilung von Zielvideos, die aus einem Eingabebild generiert wurden. Die Spalte ganz rechts zeigt die Pixelvielfalt, die sich aus den 80 generierten Videos ergibt.

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

Während der Hintergrund fest bleibt, bewegen sich Kopf und Körper der Person deutlich (Rot bedeutet eine größere Vielfalt an Pixelfarben), und trotz der Vielfalt sehen alle Videos gleich aus. Sehr realistisch. Eine der Anwendungen von

Videobearbeitung

Aus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung

ist die Bearbeitung vorhandener Videos. In diesem Fall nimmt VLOGGER ein Video auf und verändert den Gesichtsausdruck der Person, indem sie beispielsweise den Mund oder die Augen schließt.

In der Praxis nutzt der Autor die Flexibilität des Diffusionsmodells, um die Teile des Bildes zu reparieren, die geändert werden sollten, sodass die Videobearbeitung mit den ursprünglichen unveränderten Pixeln übereinstimmt.

Videoübersetzung

Eine der Hauptanwendungen des Modells ist die Videoübersetzung. In diesem Fall nimmt VLOGGER vorhandenes Video in einer bestimmten Sprache und bearbeitet die Lippen und Gesichtsbereiche, um sie an den neuen Ton anzupassen (z. B. Spanisch).

Das obige ist der detaillierte Inhalt vonAus nur einem Bild lässt sich ein KI-Video generieren! Das neue Diffusionsmodell von Google bringt Charaktere in Bewegung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen