Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

王林
王林nach vorne
2023-12-03 11:17:21763Durchsuche

Kürzlich hat eine von Microsoft durchgeführte Studie gezeigt, wie flexibel die Videoverarbeitungssoftware PS ist

In dieser Studie gibt man der KI einfach ein Foto, und sie kann darüber hinaus ein Video der Personen auf dem Foto erstellen können die Mimik und Bewegungen der Charaktere durch Text gesteuert werden. Wenn der Befehl, den Sie beispielsweise geben, „Öffne deinen Mund“ lautet, öffnet die Figur im Video tatsächlich ihren Mund.

Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

Wenn der Befehl, den Sie geben, „traurig“ ist, macht sie traurige Gesichtsausdrücke und Kopfbewegungen.

Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

Beim Befehl „Überraschung“ werden die Stirnfalten des Avatars zusammengedrückt.

Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

Darüber hinaus können Sie auch eine Stimme bereitstellen, um die Mundform und Bewegungen der virtuellen Figur mit der Stimme zu synchronisieren. Alternativ können Sie dem Avatar ein Live-Video zur Nachahmung zur Verfügung stellen

Diese Forschung heißt GAIA (Generative AI for Avatar, generative AI für Avatare) und ihre Demo hat begonnen, sich in den sozialen Medien zu verbreiten. Viele Menschen bewundern seine Wirkung und hoffen, damit die Toten „auferstehen“ zu lassen.

Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

Aber einige Leute befürchten, dass die kontinuierliche Weiterentwicklung dieser Technologien es schwieriger machen wird, Online-Videos zwischen echt und gefälscht zu unterscheiden oder dass sie von Kriminellen für Betrug missbraucht werden. Es scheint, dass die Betrugsbekämpfungsmaßnahmen weiter verbessert werden.

Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

Was ist das Innovative an GAIA?

Zero-Sample-Technologie zur Erzeugung virtueller sprechender Charaktere zielt darauf ab, natürliche Videos basierend auf Sprache zu synthetisieren und sicherzustellen, dass die generierten Mundformen, Ausdrücke und Kopfhaltungen mit dem Sprachinhalt übereinstimmen. Frühere Forschungen erfordern in der Regel ein spezifisches Training oder die Abstimmung spezifischer Modelle für jeden virtuellen Charakter oder die Verwendung von Vorlagenvideos während der Inferenz, um qualitativ hochwertige Ergebnisse zu erzielen. In jüngster Zeit haben sich Forscher auf die Entwicklung und Verbesserung von Methoden zur Erzeugung sprechender Avatare ohne Aufnahme konzentriert, indem sie einfach ein Porträtbild des Ziel-Avatars als Referenz für das Erscheinungsbild verwenden. Diese Methoden verwenden jedoch normalerweise Domänenprioritäten wie Warping-basierte Bewegungsdarstellung und 3D Morphable Model (3DMM), um die Schwierigkeit der Aufgabe zu verringern. Solche Heuristiken sind zwar effektiv, können jedoch die Vielfalt einschränken und zu unnatürlichen Ergebnissen führen. Daher steht das direkte Lernen aus der Datenverteilung im Mittelpunkt zukünftiger ForschungEin Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

In diesem Artikel schlugen Forscher von Microsoft GAIA (Generative AI for Avatar) vor, das natürlich sprechende Menschen aus Sprache und einzelnen Porträtbildern synthetisieren kann. Domänenprioren werden während des Generierungsprozesses eliminiert.

Projektadresse: https://microsoft.github.io/GAIA/Details zu verwandten Projekten finden Sie unter diesem Link

Papierlink: https://arxiv.org/pdf/ 2311.15230 .pdfEin Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

Gaia enthüllt zwei wichtige Erkenntnisse:

  1. Verwenden Sie die Stimme, um die Bewegung der virtuellen Figur zu steuern, während der Hintergrund und das Erscheinungsbild der virtuellen Figur während des gesamten Videos unverändert bleiben. Inspiriert davon trennt dieses Papier die Bewegung und das Erscheinungsbild jedes Bildes, wobei das Erscheinungsbild zwischen den Bildern geteilt wird, während die Bewegung für jedes Bild einzigartig ist. Um Bewegung aus Sprache vorherzusagen, kodiert dieser Artikel Bewegungssequenzen in latente Bewegungssequenzen und verwendet ein Diffusionsmodell, das von der Eingabesprache abhängt, um die latente Sequenz vorherzusagen Es gibt eine enorme Vielfalt an Gesichtsausdrücken und Kopfhaltungen, die einen umfangreichen und vielfältigen Datensatz erfordert. Daher wurde in dieser Studie ein hochwertiger sprechender Avatar-Datensatz gesammelt, der aus 16.000 einzigartigen Sprechern unterschiedlichen Alters, Geschlechts, Hauttyps und Sprechstils besteht, wodurch die Ergebnisse der Generierung natürlich und vielfältig wurden.
  2. Basierend auf den beiden oben genannten Erkenntnissen schlägt dieses Papier das GAIA-Framework vor, das aus einem Variational Autoencoder (VAE) (oranges Modul) und einem Diffusionsmodell (blaue und grüne Module) besteht.

VAEs Hauptfunktion besteht darin, Bewegung und Aussehen aufzuschlüsseln. Es besteht aus zwei Encodern (Bewegungsencoder und Erscheinungsencoder) und einem Decoder. Während des Trainings ist die Eingabe in den Bewegungsencoder das aktuelle Bild der Gesichtsmarkierungen, während die Eingabe in den Erscheinungsencoder ein zufällig abgetastetes Bild im aktuellen Videoclip ist Optimierter Decoder zur Rekonstruktion des aktuellen Frames. Sobald Sie die trainierte VAE erhalten, erhalten Sie die potenziellen Aktionen (d. h. die Ausgabe des Bewegungsencoders) für alle Trainingsdaten Videoclips Bewegungslatenzsequenz, wodurch Erscheinungsinformationen für den Generierungsprozess bereitgestellt werden

Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.Im Inferenzprozess verwendet das Diffusionsmodell bei gegebenem Referenzporträtbild des virtuellen Zielcharakters das Bild und die eingegebene Sprachsequenz als Bedingungen für die Generierung einer Bewegungslatenzsequenz, die dem Sprachinhalt entspricht. Die erzeugte latente Bewegungssequenz und das Referenzporträtbild werden dann durch einen VAE-Decoder geleitet, um die gesprochene Videoausgabe zu synthetisieren.

Die Studie ist in Bezug auf Daten strukturiert und sammelt Datensätze aus verschiedenen Quellen, einschließlich High-Definition Talking Face Dataset (HDTF) und Casual Conversation Datasets v1&v2 (CC v1&v2). Zusätzlich zu diesen drei Datensätzen wurde im Rahmen der Untersuchung auch ein umfangreicher interner sprechender Avatar-Datensatz mit 7.000 Stunden Video und 8.000 Sprecher-IDs erfasst. Die statistische Übersicht über den Datensatz ist in Tabelle 1 dargestellt.

Um die erforderlichen Informationen zu erhalten, schlägt der Artikel mehrere automatische Filterstrategien vor, um die Qualität der Trainingsdaten sicherzustellen:

Lippe erstellen Bewegungen sichtbar, die Vorderrichtung des Avatars sollte zur Kamera zeigen;

Um die Stabilität zu gewährleisten, sollten die Gesichtsbewegungen im Video fließend sein und nicht schnell verwackeln

Ein Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.

Um Extremfälle herauszufiltern Wenn Lippenbewegungen und Sprache inkonsistent sind, sollte der Avatar gelöscht werden. Tragen Sie eine Maske oder schweigen Sie.

    In diesem Artikel werden VAE- und Diffusionsmodelle anhand gefilterter Daten trainiert. Aus den experimentellen Ergebnissen hat dieses Papier drei wichtige Schlussfolgerungen gezogen:
  1. GAIA ist in der Lage, virtuelle Charaktere ohne Stichprobe zu erzeugen, mit überlegener Leistung in Bezug auf Natürlichkeit, Vielfalt, Lippensynchronisationsqualität und visuelle Qualität. Laut subjektiver Bewertung der Forscher übertraf GAIA alle Basismethoden deutlich
  2. GAIA ist ein allgemeines und flexibles Framework, das verschiedene Anwendungen ermöglicht, einschließlich der steuerbaren Erzeugung sprechender Avatare und der Erzeugung von Avataren mit Textbefehlen.
GAIA Wie effektiv ist es?

Während des Experiments verglich die Studie GAIA mit drei leistungsstarken Basislinien, darunter FOMM, HeadGAN und Face-vid2vid. Die Ergebnisse sind in Tabelle 2 dargestellt: VAE in GAIA erzielt konsistente Verbesserungen gegenüber früheren videogesteuerten Basislinien und zeigt, dass GAIA Erscheinungsbild- und Bewegungsdarstellungen erfolgreich zerlegt.
  1. Sprachgesteuerte Ergebnisse. Die sprachgesteuerte Erzeugung sprechender Avatare wird durch die Vorhersage von Bewegungen aus der Sprache erreicht. Tabelle 3 und Abbildung 2 bieten quantitative und qualitative Vergleiche von GAIA mit den Methoden MakeItTalk, Audio2Head und SadTalker.

    Aus den Daten geht hervor, dass GAIA in Bezug auf die subjektive Bewertung alle Basismethoden bei weitem übertrifft. Genauer gesagt, wie in Abbildung 2 gezeigt, hängen die Generierungsergebnisse von Basismethoden normalerweise stark vom Referenzbild ab, selbst wenn das Referenzbild geschlossene Augen oder eine ungewöhnliche Kopfhaltung aufweist. Im Gegensatz dazu zeigt GAIA bei verschiedenen Referenzbildern eine gute Leistung. Robust und erzeugt Ergebnisse mit höherer Natürlichkeit, hoher Lippensynchronisation, besserer visueller Qualität und Bewegungsvielfalt. Der Sync-D-Score von 8,528 liegt nahe am echten Video-Score (8,548), was darauf hinweist, dass das generierte Video eine hervorragende Lippensynchronisation aufweist. Die Studie erzielte mit dem Ausgangswert vergleichbare FID-Werte, die möglicherweise durch unterschiedliche Kopfhaltungen beeinflusst wurden, da die Studie ergab, dass das Modell ohne Diffusionstraining bessere FID-Werte erzielte, wie in Tabelle 6 aufgeführt

Das obige ist der detaillierte Inhalt vonEin Foto erzeugt ein Video. Mund öffnen, nicken, Emotionen, Wut, Trauer und Freude können durch Tippen gesteuert werden.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen