Heim >Technologie-Peripheriegeräte >KI >Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt

Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2023-12-14 23:05:291383Durchsuche

Schau! Nun stehen vor Ihnen vier junge Damen, die ihre heißen Tänze vorführen:

Dachten Sie, es wäre ein Werk, das von einigen Moderatoren auf einer Kurzvideoplattform veröffentlicht wurde?

Nein, nein, nein.

Die eigentliche Antwort lautet: gefälscht, generiert und die Art, die nur auf einem Bild beruht!

Der wahre Weg, es einzuschalten, ist dieser:

Dies ist die neueste Forschung der National University of Singapore und Bytedance, genannt Magic Animate.

Seine Funktion lässt sich in einer einfachen Formel zusammenfassen: ein Bild + eine Reihe von Aktionen = ein Video ohne jegliches Gefühl einer Verletzung.

Mit der Ankündigung dieser Technologie kam es zu Aufruhr im Technologiekreis, und viele Technologieriesen und Geeks haben sich angeschlossen. Sogar

HuggingFace CTO

hat es mit seinem eigenen Avatar versucht:

Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt Von Übrigens habe ich auch auf humorvolle Art und Weise einen Witz gemacht:

Gilt das als Fitness? Ich kann diese Woche auf das Fitnessstudio verzichten.

Es gibt auch recht aktuelle Internetnutzer, die mit den Charakteren im Trailer des neu veröffentlichten

GTA6

(Grand Theft Auto 6):

Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt Sogar die Emoticons sind zu The geworden Von Internetnutzern gewähltes Ziel...

Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt Man kann sagen, dass Magic Animate die Aufmerksamkeit des Technologiekreises auf sich selbst gelenkt hat, daher scherzten einige Internetnutzer:

OpenAI kann eine Pause machen.

Sie können mit nur einem Bild einen Tanz erstellen

MagicAnimate ist so beliebt, wie sollten Sie es verwenden?

Lass es uns ohne weitere Umschweife Schritt für Schritt erleben.

Aktuell hat unser Projektteam eine Online-Erlebnisseite auf HuggingFace eröffnet

Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt Die Bedienung ist sehr einfach und erfordert nur drei Schritte:

Laden Sie ein statisches Foto einer Person hoch.
Laden Sie das Action-Demo-Video hoch, das Sie generieren möchten Clip:

△ Videoquelle: Douyin (ID: QC0217)

Sie können auch die unten auf der Seite bereitgestellte Vorlage auswählen, um Folgendes zu erleben:

Allerdings ist zu beachten, dass MagicAnimate dies ist derzeit zu beliebt, in Während des Generierungsprozesses kann es zu „Ausfallzeiten“ kommen:

Selbst wenn Sie es erfolgreich „essen“, müssen Sie sich möglicherweise anstellen

...

(Das stimmt! Zum Zeitpunkt der Drucklegung wurde noch nicht auf das Ergebnis gewartet) )

Darüber hinaus bietet MagicAnimate auch eine lokale Erlebnismethode in GitHub an ~

Dann ist die nächste Frage:

Wie hat es geklappt? Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt

Im Allgemeinen verwendet MagicAnimate ein Framework, das auf dem

Diffusionsmodell

(Diffusion)

basiert. Der Zweck besteht darin, die zeitliche Konsistenz zu verbessern, die Authentizität des Referenzbildes aufrechtzuerhalten und die Wiedergabetreue der Animation zu verbessern.

Zu diesem Zweck entwickelte das Team zunächst ein

Videodiffusionsmodell

zur Kodierung zeitlicher Informationen.

Dieses Modell kodiert zeitliche Informationen, indem es dem Diffusionsnetzwerk ein zeitliches Aufmerksamkeitsmodul hinzufügt, um die zeitliche Konsistenz zwischen Bildern in der Animation sicherzustellen. Zweitens führte das Team einen neuen Appearance Encoder

(Appearance Encoder)

ein, um die Konsistenz des Erscheinungsbilds zwischen den Frames aufrechtzuerhalten, um die komplexen Details des Referenzbilds beizubehalten.

Dieser Encoder unterscheidet sich von früheren Methoden der CLIP-Kodierung. Er ist in der Lage, dichtere visuelle Merkmale zu extrahieren, um die Animationsproduktion zu steuern und so Informationen wie Identität, Hintergrund und Kleidung besser zu bewahren. In diesen beiden innovativen Technologien Darüber hinaus hat das Team eine einfache Videofusionstechnologie (Video Fusion Technique)

eingeführt, um den reibungslosen Übergang langer Videoanimationen zu fördern.

Abschließend zeigen die Ergebnisse nach der Verifizierung durch zwei Benchmark-Experimente, dass MagicAnimate frühere Methoden bei weitem übertrifft.

Insbesondere beim anspruchsvollen TikTok-Tanzdatensatz übertrifft MagicAnimate die stärkste Basislinie in Bezug auf die Videotreue. Mit mehr als 38 %!

Das Folgende ist ein qualitativer Vergleich des Teams:

Und im Vergleich zum hochmodernen Basismodell von Cross-ID lauten unsere Ergebnisse wie folgt:

One More Thing

Ich muss sagen, dass Projekte wie MagicAnimate in letzter Zeit wirklich sehr beliebt sind Projekt erfordert auch nur „ein Bild“ und „die gewünschte Aktion“:

Daraus haben einige Internetnutzer auch Fragen aufgeworfen:

Dies scheint ein Krieg zwischen MagicAnimate und AnimateAnyone zu sein. Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt Wer ist besser?

Was meint ihr?

Bitte klicken Sie auf den folgenden Link, um das Papier anzuzeigen: https://arxiv.org/abs/2311.16498 Für den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt

Das obige ist der detaillierte Inhalt vonFür den Douyin-Tanz müssen keine echten Menschen vor der Kamera erscheinen, nur ein Foto kann ein qualitativ hochwertiges Video erzeugen! Sogar der gesichtsbedeckende CTO hat die neue Technologie von Byte erlebt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

对象 github https

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Das Microsoft-Videobearbeitungstool Clipchamp fügt automatische KI-Erstellungs- und KI-Text-zu-Sprache-Funktionen hinzuNächster Artikel：Das Microsoft-Videobearbeitungstool Clipchamp fügt automatische KI-Erstellungs- und KI-Text-zu-Sprache-Funktionen hinzu

In Verbindung stehende Artikel

Mehr sehen