suchen
HeimTechnologie-PeripheriegeräteKIKI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.

Nach Sora gibt es tatsächlich ein neues KI-Videomodell, das großartig ist und jeden verrückt macht!

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Damit verwandelt sich Gao Qiqiang, der Bösewicht von „Hurry Up“, in Luo Xiang und kann jeden (Hundekopf) erziehen.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.

Dies ist Alibabas neuestes audiogesteuertes Framework zur Erstellung von Porträtvideos, EMO (Emote Portrait Alive).

Damit können Sie ein KI-Video mit lebendigen Ausdrücken erstellen, indem Sie ein einzelnes Referenzbild und ein Audiostück (Sprache, Gesang oder Rap) eingeben. Die endgültige Länge des Videos hängt von der Länge des Eingangsaudios ab.

Sie können Mona Lisa, eine erfahrene Kandidatin mit Erfahrung in KI-Effekten, bitten, einen Monolog zu rezitieren:

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.

Die junge und hübsche DiCaprio führt eine rasante Rap-Talentshow auf, und ihre Mundform kann nicht beibehalten werden Frage:

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.

Ich kann sogar die kantonesische Lippensynchronisation halten, also habe ich meinen Bruder Leslie Cheung gebeten, „Unconditional“ von Eason Chan zu singen:

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.

Kurz gesagt, ob es das Porträt sein soll singen (verschiedene Arten von Porträts und Liedern), die Porträts sprechen lassen (in verschiedenen Sprachen) oder verschiedene schauspielerübergreifende Darbietungen durchführen. Der EMO-Effekt hat uns für einen Moment verblüfft.

Internetnutzer riefen aus: „Wir betreten eine neue Realität!“

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Die 2019er Version von „Joker“ enthielt die Zeilen der 2008er Version von „The Dark Knight“

Einige Internetnutzer haben sogar damit begonnen, Videos davon zu erstellen EMO Ziehen Sie an der Lasche und analysieren Sie den Effekt Bild für Bild.

Wie im Video unten gezeigt, ist die Protagonistin die von Sora generierte KI-Lady. Das Lied, das sie dieses Mal für Sie gesungen hat, ist „Don’t Start Now“.

Tweeter analysiert:

Die Konsistenz dieses Videos ist noch besser als zuvor!
In dem mehr als einminütigen Video bewegt sich die Sonnenbrille auf Frau Soras Gesicht kaum und ihre Ohren und Augenbrauen bewegen sich unabhängig voneinander.
Das Aufregendste ist, dass Frau Soras Kehle wirklich zu atmen scheint! Ihr Körper zitterte und bewegte sich beim Singen leicht, was mich schockierte!

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Dennoch ist EMO eine heiße neue Technologie, und es ist unvermeidlich, sie mit ähnlichen Produkten zu vergleichen -

Erst gestern hat das KI-Videogenerierungsunternehmen Pika auch die Synchronisierung von Videos gestartet Zeichen und die Lippensynchronisationsfunktion „Lippensynchronisation“ stürzten ab.

Wie wäre es mit dem konkreten Effekt? Wir werden es hier direkt veröffentlichen KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.

Nach dem Vergleich kamen die Internetnutzer im Kommentarbereich zu dem Schluss, dass sie von Ali geschlagen wurden.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Pictures

EMO veröffentlichte das Papier und gab bekannt, dass es Open Source sei.

Aber! Obwohl es sich um Open Source handelt, gibt es auf GitHub immer noch Short-Positionen.

Aber nochmal! Obwohl es sich um eine kurze Position handelt, hat die Anzahl der Sterne 2,1.000 überschritten.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

machten die Internetnutzer wirklich ängstlich, so ängstlich wie König Gigi.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.

Andere Architektur als Sora

Sobald das EMO-Papier herauskam, atmeten viele Menschen im Kreis erleichtert auf.

Es unterscheidet sich von Soras technischem Weg, was zeigt, dass das Kopieren von Sora nicht der einzige Weg ist.

EMO basiert nicht auf einer DiT-ähnlichen Architektur, das heißt, es verwendet keinen Transformer, um das traditionelle UNet zu ersetzen. Sein Backbone-Netzwerk wurde gegenüber Stable Diffusion 1.5 geändert.

Konkret handelt es sich bei EMO um ein ausdrucksstarkes, audiogesteuertes Framework zur Generierung von Porträtvideos, das Videos beliebiger Dauer basierend auf der Länge des Eingabevideos generieren kann.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Das Framework besteht hauptsächlich aus zwei Phasen:

  • Frame-Kodierungsphase

stellt ein UNet-Netzwerk namens ReferenceNet bereit, das für das Extrahieren von Funktionen aus Referenzbildern und Frames von Videos verantwortlich ist.

  • Diffusionsstufe

Zunächst verarbeitet der vorab trainierte Audio-Encoder die Audio-Einbettung und die Gesichtsbereichsmaske wird mit Multi-Frame-Rauschen kombiniert, um die Generierung von Gesichtsbildern zu steuern.

Dann führt das Backbone-Netzwerk den Rauschunterdrückungsvorgang durch. Im Backbone-Netzwerk werden zwei Arten von Aufmerksamkeit angewendet: Referenzaufmerksamkeit und Audioaufmerksamkeit, die dazu dienen, die Identitätskonsistenz der Figur aufrechtzuerhalten bzw. die Bewegung der Figur zu regulieren.

Darüber hinaus dient das Zeitmodul dazu, die Zeitdimension zu manipulieren und die Bewegungsgeschwindigkeit anzupassen.

In Bezug auf Trainingsdaten hat das Team einen großen und vielfältigen Audio- und Videodatensatz erstellt, der mehr als 250 Stunden Video und mehr als 15 Millionen Bilder enthält.

Die spezifischen Merkmale der endgültigen Implementierung sind wie folgt:

  • Kann Videos beliebiger Dauer basierend auf dem Eingangsaudio generieren und gleichzeitig die Konsistenz der Charakteridentität gewährleisten (das längste einzelne Video, das in der Demonstration angegeben wurde, ist 1 Minute und 49 Sekunden).
  • Unterstützt das Sprechen und Singen in verschiedenen Sprachen (Demo umfasst Mandarin, Kantonesisch, Englisch, Japanisch, Koreanisch)
  • Unterstützt verschiedene Malstile (Fotos, traditionelle Gemälde, Comics, 3D-Renderings, digitale KI-Menschen)

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen. Bilder

Der quantitative Vergleich ist im Vergleich zur vorherigen Methode, die SOTA erreicht, ebenfalls erheblich verbessert und dem SyncNet-Indikator, der die Qualität der Lippensynchronisation misst, nur geringfügig unterlegen.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Im Vergleich zu anderen Methoden, die nicht auf Diffusionsmodellen basieren, ist EMO zeitaufwändiger.

Und da keine expliziten Steuersignale verwendet werden, die zur unbeabsichtigten Erzeugung anderer Körperteile wie Hände führen können, besteht eine mögliche Lösung darin, Steuersignale speziell für Körperteile zu verwenden.

EMOs Team

Abschließend werfen wir einen Blick auf die Leute im Team hinter EMO.

Aus dem Papier geht hervor, dass das EMO-Team vom Alibaba Intelligent Computing Research Institute stammt.

Es gibt vier Autoren, nämlich Linrui Tian, ​​​​Qi Wang, Bang Zhang und Liefeng Bo.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Unter ihnen ist Liefeng Bo der derzeitige Leiter des XR-Labors des Alibaba Tongyi Laboratory.

Dr. Bo Liefeng hat seinen Abschluss an der Xi'an University of Electronic Science and Technology gemacht. Er war als Postdoktorand am Toyota Research Institute der University of Chicago tätig. Seine Forschungsschwerpunkte sind ML, CV und Robotik. Die Zahl der Google Scholar-Zitate übersteigt 13.000.

Bevor er zu Alibaba kam, war er zunächst als Chefwissenschaftler in der Amazon-Zentrale in Seattle tätig und wechselte dann als Chefwissenschaftler zum KI-Labor der JD Digital Technology Group.

Im September 2022 kam Bo Liefeng zu Alibaba.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Pictures

EMO ist nicht das erste Mal, dass Alibaba im AIGC-Bereich Erfolg hat.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

OutfitJeder mit KI kann das Outfit mit einem Klick ändern.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Außerdem bringt AnimateAnyone Katzen und Hunde auf der ganzen Welt dazu, den Badetanz zu tanzen.

Das ist das Folgende:

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Nachdem die EMO gestartet ist, beklagen viele Internetnutzer, dass Alibaba einige Technologien darauf angesammelt hat.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Wenn jetzt alle diese Technologien kombiniert werden, ergibt sich der Effekt...

Ich wage nicht darüber nachzudenken, aber ich freue mich darauf.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Kurz gesagt, wir kommen dem Ziel näher, „ein Drehbuch an die KI zu senden und den gesamten Film auszugeben“.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

One More Thing

Sora stellt einen Durchbruch in der textgesteuerten Videosynthese dar.

EMO stellt auch eine neue Ebene der audiogesteuerten Videosynthese dar.

Obwohl die beiden unterschiedliche Aufgaben und spezifische Architekturen haben, haben sie dennoch eine wichtige Gemeinsamkeit:

Es gibt kein explizites physikalisches Modell in der Mitte, aber beide simulieren bis zu einem gewissen Grad physikalische Gesetze.

Manche Leute denken also, dass dies im Widerspruch zu Lecuns Beharren steht, dass „die Modellierung der Welt für Aktionen durch die Generierung von Pixeln verschwenderisch und zum Scheitern verurteilt ist“ und Jim Fans Idee eines „datengesteuerten Weltmodells“ unterstützt.

KI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.Bilder

Verschiedene Methoden sind in der Vergangenheit gescheitert, aber der aktuelle Erfolg könnte tatsächlich auf die „Bitter Lessons“ von Sutton, dem Vater des Reinforcement Learning, zurückzuführen sein, in denen große Anstrengungen Wunder bewirken können.

Ermöglichen Sie der KI, wie Menschen zu entdecken, anstatt einzudämmen, was Menschen entdecken :

https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40

Referenzlink:

[1]https://www.php.cn/link. /0dd4f2526c7c874d06f19523264f6552

Das obige ist der detaillierte Inhalt vonKI-Video explodiert erneut! Aus Foto + Stimme wurde ein Video, Alibaba bat die Heldin Sora, mit Li Zi zu singen und zu rappen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Wie kann man Produktionsgrad-Agenten-Lag-Pipelines überwachen?Wie kann man Produktionsgrad-Agenten-Lag-Pipelines überwachen?Apr 12, 2025 am 09:34 AM

Einführung Im Jahr 2022 revolutionierte der Start von ChatGPT sowohl die technischen als auch die Nicht-Tech-Industrie und befugte Einzelpersonen und Organisationen mit generativer KI. Während des gesamten 2023 konzentrierten sich die Anstrengungen auf die Nutzung des großen Sprachmodus

Wie optimieren Sie das Data Warehouse mit einem Star -Schema?Wie optimieren Sie das Data Warehouse mit einem Star -Schema?Apr 12, 2025 am 09:33 AM

Das Sternschema ist ein effizientes Datenbankdesign, das für Data Warehousing und Business Intelligence verwendet wird. Es organisiert Daten in einer zentralen Faktentabelle, die mit umgebenden Dimensionstabellen verknüpft ist. Diese sternähnliche Struktur vereinfacht das komplexe q

Ein umfassender Leitfaden zum Aufbau multimodaler LappensystemeEin umfassender Leitfaden zum Aufbau multimodaler LappensystemeApr 12, 2025 am 09:29 AM

Abrufen von Augmented-Generierungssystemen, die besser als Rag-Systeme bekannt sind, sind zum De-Facto-Standard für den Aufbau intelligenter AI-Assistenten geworden

Wie agentenlagersysteme verändern die Technologie?Wie agentenlagersysteme verändern die Technologie?Apr 12, 2025 am 09:21 AM

Einführung Künstliche Intelligenz ist in eine neue Ära eingetreten. Vorbei sind die Tage, in denen Modelle einfach Informationen basierend auf vordefinierten Regeln ausgeben würden. Der modernste Ansatz in KI heute dreht sich um Lappen (Retrieval-Augmente

SQL-Assistent bei automatischen GenerenfragenSQL-Assistent bei automatischen GenerenfragenApr 12, 2025 am 09:13 AM

Haben Sie sich jemals gewünscht, Sie könnten einfach mit Ihrer Datenbank sprechen, Fragen in einfacher Sprache stellen und sofortige Antworten erhalten, ohne komplexe SQL -Abfragen zu schreiben oder über Tabellenkalkulationen zu sortieren? Mit Langchains SQL Toolkit, goq a

Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaErste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrAV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

MantisBT

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.