Heim >Technologie-Peripheriegeräte >KI >CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

王林Original: 2024-07-15 17:09:101143Durchsuche

Die Terrakotta-Krieger und -Pferde, die seit mehr als zweitausend Jahren schlafen, sind erwacht?

Die Eröffnungszeile der Qin-Oper führte uns zum Lössplateau. Hätten sie es nicht mit eigenen Augen gesehen, hätten sich viele Zuschauer vielleicht nicht vorstellen können, dass sie Terracotta Warriors und Gem jemals in ihrem Leben „Army March“ auf derselben Bühne spielen sehen würden.

„Die langen Wolken und dunklen schneebedeckten Berge in Qinghai, der einsamen Stadt mit Blick auf den Yumen-Pass in der Ferne.“ Obwohl sich die alte Melodie in der Musik verändert hat, ist der Klang immer noch berührend:

CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

Die „KI-Auferstehungsbeschwörungstechnik“ hinter dieser Aufführung heißt EMO, vom Alibaba Tongyi Lab. Mit nur einem Foto und Ton kann EMO ein Standbild in ein lebensechtes Gesangs- und Auftrittsvideo verwandeln und die Höhen und Tiefen im Ton präzise erfassen.

Bei CCTVs „2024 China AI Festival“, das ebenfalls auf EMO-Technologie basiert, wurde der Schriftsteller der Nördlichen Song-Dynastie, Su Shi, „wiederbelebt“ und sang mit Li Yugang auf derselben Bühne das Lied „Shui Tiao Ge Tou“. „AI Su Shi“s Bewegungen sind einfach und natürlich, als wäre er durch Zeit und Raum gereist:

CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

Inspiriert von Spitzentechnologien im KI-Bereich wie EMO, der ersten Technologie auf nationaler Ebene Fest mit künstlicher Intelligenz als Kernstück „2024 China AI Festival“ ist großartig Bei der Eröffnung wird jedem Publikum vor der Show die modernste heimische KI-Technologieleistung in Form der Integration von „Medien + Technologie + Kunst“ präsentiert:

Dies ist nicht das erste Mal, dass die EMO „aus dem Kreis“ kommt. Das „Gao Qiqiang Integrated Luo Xiang Pufa“, das einst in den sozialen Medien explodierte, wurde ebenfalls von EMO erstellt:

Nach der Anmeldung bei der Tongyi-APP ist EMO mit Hilfe der verschiedenen fantasievollen Versuche der Spieler heute so beliebt geworden, dass es nicht reduziert wurde . Freunde, die es noch nicht ausprobiert haben, können diese App herunterladen, „Channel“ aufrufen und „National Stage“ auswählen, um ein reibungsloses Erlebnis zu haben.

CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

Tatsächlich veröffentlichte das Tongyi Laboratory bereits im Februar dieses Jahres Artikel zum Thema EMO (Emote Portrait Alive). Dieses Papier erhielt bei seiner Veröffentlichung begeisterte Kritiken. Einige Leute lobten sogar: „EMO ist eine revolutionäre Forschung.“

CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

Papieradresse: https://arxiv.org/pdf/2402.17485
Projekthomepage: https://humanaigc.github.io/emote-portrait-alive/

Warum es funktioniert So großes Lob zu erhalten? Dies beginnt auch beim aktuellen Entwicklungsstand der Videoerzeugungstechnologie und der zugrunde liegenden technologischen Innovation von EMO.

Also außerhalb des Kreises, warum ist EMO?

In den letzten Jahren ist der Erfolg von KI bei der Bilderzeugung für alle offensichtlich. Derzeit liegt der Forschungsschwerpunkt im Bereich KI in der Bewältigung einer schwierigeren Aufgabe: der Videogenerierung.

EMO steht vor einer der schwierigsten Aufgaben: Audiogesteuerte Charaktervideogenerierung.

Anders als das übliche Vincent-Video- und Tusheng-Video-Gameplay ist die audiogesteuerte Charaktervideogenerierung ein Prozess, der direkt von der Audio- zur Videomodalität übergeht. Die Erstellung dieser Art von Videos umfasst häufig mehrere Elemente wie Kopfbewegungen, Blicke, Blinzeln, Lippenbewegungen usw., und die Konsistenz und Glätte des Videoinhalts muss gewahrt bleiben.

Bei früheren Methoden führen die meisten Modelle zunächst eine 3D-Modellierung oder Markierung wichtiger Gesichtspunkte für Gesichter, Köpfe oder Körperteile durch und verwenden diese als Zwischenausdruck, um das endgültige Video zu generieren. Die Methode der Verwendung von Zwischenausdrücken kann jedoch dazu führen, dass die Informationen im Audio überkomprimiert werden, was sich auf den emotionalen Ausdruck im endgültig generierten Video auswirkt.

Bo Liefeng, Leiter des Teams für angewandte Bildverarbeitung des Tongyi-Labors, sagte, dass die Schlüsselinnovation „Weak Control Design“ von EMO die oben genannten Probleme gut löst und nicht nur die Kosten für die Videoerzeugung senkt, sondern auch die Kosten erheblich verbessert Qualität der Videogenerierung.

CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

„Schwache Kontrolle“ spiegelt sich in zwei Aspekten wider: Erstens erfordert EMO keine Modellierung und extrahiert direkt Informationen aus dem Audio, um Videos der Gesichtsausdrucksdynamik und Lippensynchronisation zu generieren, wodurch eine komplexe Vorverarbeitung überflüssig wird . Erstellen Sie durchgängig natürliche, flüssige und ausdrucksstarke Porträtvideos. Zweitens hat EMO nicht allzu viel „Kontrolle“ über die generierten Ausdrücke und Körperbewegungen. Die natürlichen und reibungslosen Endergebnisse sind auf die Generalisierungsfähigkeit des Modells selbst zurückzuführen, das durch Lernen aus hochwertigen Daten trainiert wird.

Wenn man die Terrakotta-Krieger und -Pferde sowie Gem Gem im selben Rahmen singt, um „Armeemarsch“ zu singen, werden die Emotionen (z. B. Aufregung), die in dem Lied vermittelt werden sollen, gut auf seinem Gesicht dargestellt, ohne den Menschen ein Gefühl dafür zu vermitteln Ungehorsam:

CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

Basierend auf dem Konzept der schwachen Kontrolle erstellte das Forschungsteam einen großen und vielfältigen Audio- und Videodatensatz für das EMO-Modell, der insgesamt mehr als 250 Stunden Aufzeichnung und mehr als 150 Millionen Bilder umfasst Verschiedene Inhalte, darunter Reden, Filme Mit Fernsehausschnitten und Gesangsdarbietungen in mehreren Sprachen, darunter Chinesisch und Englisch, sorgt die große Auswahl an Videos dafür, dass die Schulungsmaterialien ein breites Spektrum menschlicher Ausdrucks- und Gesangsstile abdecken.

In der akademischen Gemeinschaft herrscht die Ansicht vor, dass die beste verlustfreie Komprimierung für einen Datensatz die beste Verallgemeinerung für Daten außerhalb des Datensatzes ist. Algorithmen, die eine effiziente Komprimierung erreichen können, können oft die tiefgreifenden Muster von Daten aufdecken, was ebenfalls ein wichtiger Ausdruck von Intelligenz ist.

Daher hat das Team während des Trainingsprozesses einen High-Fidelity-Datenkodierungsalgorithmus entwickelt, um sicherzustellen, dass die reichhaltigen Details und der Dynamikbereich der Originalinformationen während des Komprimierungs- oder Verarbeitungsprozesses der Daten so weit wie möglich erhalten bleiben . Speziell beim EMO-Training können die Emotionen des Charakters nur dann gut dargestellt werden, wenn die Audioinformationen vollständig sind.

CCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?

Der Trend zur Videogenerierung boomt

Wie wurde das Tongyi Lab zur ersten Stufe der Welt?

Anfang Februar dieses Jahres brachte die Veröffentlichung von Sora den Trend zur Videogenerierung in Schwung, und viele Technologien dahinter erregten Aufmerksamkeit, darunter DiT (Diffusion Transformer).

Wir wissen, dass U-Net im Diffusionsmodell den Prozess der allmählichen Wiederherstellung von Signalen aus Rauschen simulieren kann. Es kann sich theoretisch jeder komplexen Datenverteilung annähern und ist in Bezug auf Generative Adversarial Networks (GAN) überlegen Bildqualität. Autoencoder (VAEs), die reale Bilder mit natürlicheren Texturen und genaueren Details erzeugen. Das DiT-Papier zeigt jedoch, dass die induktive Vorspannung von U-Net für die Leistung des Diffusionsmodells nicht unbedingt erforderlich ist und leicht durch ein Standarddesign (wie Transformer) ersetzt werden kann. Dies ist das neue Diffusionsmodell DiT, das auf der Transformer-Architektur basiert im Papier vorgeschlagen.

Das Wichtigste ist, dass Sora mit DiT als Kern bestätigt hat, dass das Skalierungsgesetz im Videogenerierungsmodell immer noch existiert, und Forscher können die Modellgröße erweitern, um bessere Ergebnisse zu erzielen, indem sie mehr Parameter und Daten hinzufügen.

Der Erfolg des DiT-Modells bei der Generierung echter Videos hat es der KI-Community ermöglicht, das Potenzial dieser Methode zu erkennen, was dazu geführt hat, dass sich der Bereich der Videogenerierung von der klassischen U-Net-Architektur zum Paradigma der entwickelt hat Transformatorbasierte Diffusions-Backbone-Architektur. Die zeitliche Vorhersage auf der Grundlage des Transformer-Aufmerksamkeitsmechanismus und umfangreiche, hochwertige Videodaten sind die Schlüsselkräfte, die diese Transformation vorantreiben.

Mit Blick auf den aktuellen Bereich der Videogenerierung gibt es jedoch noch keine „einheitliche“ Architektur.

EMO basiert nicht auf einer DiT-ähnlichen Architektur, das heißt, es verwendet keinen Transformer, um das traditionelle U-Net zu ersetzen. Es kann auch die reale physische Welt sehr gut simulieren, was die gesamte Forschung inspiriert hat Feld.

Welche technischen Wege werden sich im Bereich der Videogenerierung in Zukunft ergeben? Sowohl theoretische Forscher als auch Praktiker können „relativ offene Erwartungen“ aufrechterhalten.

Bo Liefeng sagte, dass aktuelle Sprachmodelle und Bild-/Videoerzeugungsmodelle im Wesentlichen den Rahmen des statistischen maschinellen Lernens nicht überschritten haben. Sogar das Skalierungsgesetz hat seine eigenen Grenzen. Obwohl jedes Modell die Entstehung starker und mittlerer Beziehungen relativ genau versteht, ist das Lernen schwacher Beziehungen immer noch unzureichend. Wenn Forscher nicht weiterhin ausreichend qualitativ hochwertige Daten bereitstellen können, wird es schwierig sein, die Fähigkeiten des Modells qualitativ zu verbessern.

Wenn man es aus einer anderen Perspektive betrachtet, bedeutet dies nicht, dass es im Bereich der Videogenerierung eine einheitliche Architektur gibt, die „die Hälfte des Landes einnimmt“. Genau wie im Bereich der natürlichen Sprache wird auch Transformer, der seit jeher fest auf der C-Position steht, von Mamba überholt.

Gerade im Bereich der Videogenerierung hat jeder technische Weg seine eigenen Anwendungsszenarien. Beispielsweise eignen sich der Schlüsselpunkttreiber und der Videotreiber besser für Szenen mit Ausdrucksmigration, und der Audiotreiber eignet sich besser für Szenen, in denen Charaktere sprechen und singen. Im Hinblick auf den Grad der bedingten Kontrolle eignen sich schwache Kontrollmethoden sehr gut für kreative Aufgaben, während viele professionelle und spezifische Aufgaben von starken Kontrollmethoden profitieren können.

Tongyi Laboratory ist eine der ersten Institutionen in China, die sich mit der Entwicklung von Videogenerierungstechnologien befasst. Derzeit werden Forschungen und Entwicklungen in mehreren Richtungen durchgeführt, beispielsweise bei Wensheng Video und Tusheng Video, insbesondere im Bereich der Charaktervideogenerierung. Es wurde eine „People“-Komplettforschungsmatrix gebildet, einschließlich „Animate Everyone“, Rahmenwerk zur Charakterwechsel-Videogenerierung „Outfit Everyone“, Rahmenwerk zum Ersetzen von Charaktervideorollen, Motionshop, Rahmenwerk für Charaktergesang und Performance-Videogenerierung „Emote Portrait Alive“.

： Für weitere Projekte beachten Sie bitte: https://github.com/humanaigc

, wie zum Beispiel vor der EMO dominierte Animate Everyone einst die sozialen Medien und den Freundeskreis. Dieses Modell löste das Problem der Aufrechterhaltung der kurzfristigen Kontinuität und der langfristigen Konsistenz des Charakterauftritts bei der Erstellung von Charakterbewegungsvideos. Anschließend wurde die Funktion „National Dance King“ in der Tongyi-App eingeführt, was eine Welle landesweiter Tanzbewegungen auslöste Höhepunkt.

Von der Technologie in die reale Welt

In den letzten zwei Jahren haben Sprachmodelle leistungsstarke Textfähigkeiten in den Bereichen Dialog, Verständnis, Zusammenfassung, Argumentation usw. bewiesen, und Modelle zur Bilderzeugung haben sich als leistungsstark erwiesen Natürliche Generation, Unterhaltung und künstlerische Fähigkeiten – beide großen Tracks haben viele Hit-Produkte hervorgebracht. Der Erfolg dieser Modelle sagt uns zumindest eines:
Technische Teams, die in dieser Zeit Einfluss gewinnen wollen, müssen lernen, auf zwei Beinen zu gehen: „Basismodelle“ und „Superanwendungen“.

Derzeit verzeichnen Videoinhalte einen explosiven Wachstumstrend und die Menschen freuen sich auf die Entstehung einer KI-Plattform zur Videogenerierung, die für jedermann „nutzbar“ und „praktisch“ ist.
EMO könnte ein wichtiger technologischer Durchbruch sein, um diese Situation zu überwinden, und die Tongyi-App bietet eine breite Plattform für die Technologieimplementierung.

Die nächste Herausforderung in der Videogenerierungstechnologie besteht darin, Inhalte auf professionellem Niveau zu erfassen.

Technologieunternehmen hoffen, die KI-Technologie in ein echtes Produktivitätstool für Kurzvideo-Blogger, Film- und Fernsehproduzenten sowie Werbe- und Spielekreative zu verwandeln. Aus diesem Grund können Anwendungen zur Videogenerierung nicht einfach auf der Ebene des „allgemeinen Inhalts“ bleiben.

Wenn man sich die meisten aktuellen Videogenerierungsanwendungen ansieht, basieren die meisten auf 3 bis 5 Sekunden langen Videogenerierungsmodellen, die offensichtliche Einschränkungen in Bezug auf Anwendung und Erfahrung aufweisen.
Die EMO-Technologie ist jedoch sehr tolerant gegenüber der Audiodauer und die Qualität der generierten Inhalte kann Studiostandards entsprechen. Beispielsweise erforderte in dieser CCTV-Übertragung „Gesang und Auftritt der Terrakotta-Krieger und Pferde“ keine einzige Sekunde des vierminütigen Aufführungsvideos der Terrakotta-Krieger und Pferde eine manuelle „Feinabstimmung“ in der Postproduktion.

Jetzt scheint es, dass die von EMO repräsentierte Technologie zur Charaktervideogenerierung eine der Implementierungsrichtungen ist, die der „Generierungsebene auf professioneller Ebene“ am nächsten kommt. Verglichen mit den vielen Unsicherheiten bei Benutzeraufforderungen in der Wensheng-Videotechnologie entspricht die EMO-Technologie in hohem Maße den Kernanforderungen an Inhaltskohärenz und Konsistenz bei der Erstellung von Charaktervideos und weist einen sehr potenziellen Anwendungsbereich auf.

Der Grund, warum EMO „aus dem Kreis kam“, ist nicht nur die technische Stärke des F&E-Teams, sondern, was noch wichtiger ist, die Beschleunigung der Implementierung der Videogenerierungstechnologie.

Die Ära der „professionellen YouTuber pro Kopf“ ist möglicherweise nicht mehr weit.

Das obige ist der detaillierte Inhalt vonCCTV lobte die heimische KI-Technik zur Auferstehungsbeschwörung, und die Terrakotta-Krieger rappten tatsächlich mit Onkel Edelstein?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构 github 算法人工智能 transformer https prompt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Tao Zhexuan empfiehlt es wärmstens und prüft es persönlich: Folgen Sie einfach dieser Liste, um KI für Mathematik zu lernenNächster Artikel：Tao Zhexuan empfiehlt es wärmstens und prüft es persönlich: Folgen Sie einfach dieser Liste, um KI für Mathematik zu lernen

In Verbindung stehende Artikel

Mehr sehen