suchen
HeimTechnologie-PeripheriegeräteKIDas Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Wenn Sie und Ihre Freunde über den kalten Handybildschirm chatten, müssen Sie den Tonfall der anderen Person erraten. Wenn er spricht, können seine Ausdrücke und sogar seine Handlungen in Ihrem Kopf sichtbar werden. Natürlich wäre es am besten, wenn Sie einen Videoanruf tätigen könnten, aber in tatsächlichen Situationen können Sie zu keinem Zeitpunkt Videoanrufe tätigen.

Wenn Sie mit einem entfernten Freund chatten, geschieht dies nicht über einen kalten Bildschirmtext oder einen Avatar ohne Ausdruck, sondern über eine realistische, dynamische und ausdrucksstarke digitale virtuelle Person. Diese virtuelle Person kann nicht nur das Lächeln, die Augen und sogar subtile Körperbewegungen Ihres Freundes perfekt reproduzieren. Werden Sie sich freundlicher und warmer fühlen? Es verkörpert wirklich den Satz „Ich werde am Netzwerkkabel entlang kriechen, um dich zu finden.“

Das ist keine Science-Fiction-Fantasie, sondern eine Technologie, die in die Realität umgesetzt werden kann.

Mimik und Körperbewegungen enthalten eine große Menge an Informationen, die die Bedeutung des Inhalts stark beeinflussen. Wenn man beispielsweise beim ständigen Blick auf den Gesprächspartner spricht, hat man ein ganz anderes Gefühl als beim Sprechen ohne Augenkontakt, was sich auch auf das Verständnis des Gesprächspartners für den Kommunikationsinhalt auswirkt. Wir haben eine äußerst ausgeprägte Fähigkeit, diese subtilen Ausdrücke und Bewegungen während der Kommunikation zu erkennen und sie zu nutzen, um ein umfassendes Verständnis für die Absicht, das Wohlbefinden oder das Verständnis des Gesprächspartners zu entwickeln. Daher ist die Entwicklung äußerst realistischer Konversations-Avatare, die diese Feinheiten einfangen, für die Interaktion von entscheidender Bedeutung.

Zu diesem Zweck haben Forscher von Meta und der University of California eine Methode vorgeschlagen, um realistische virtuelle Menschen basierend auf dem Sprachaudio eines Gesprächs zwischen zwei Personen zu generieren. Es kann eine Vielzahl hochfrequenter Gesten und ausdrucksstarker Gesichtsbewegungen synthetisieren, die eng mit der Sprache synchronisiert sind. Für Körper und Hand nutzen sie die Vorteile eines autoregressiven VQ-basierten Ansatzes und eines Diffusionsmodells. Für Gesichter verwenden sie ein auf Audio basierendes Diffusionsmodell. Die vorhergesagten Gesichts-, Körper- und Handbewegungen werden dann in realistische virtuelle Menschen übertragen. Wir zeigen, dass das Hinzufügen von geführten Gestenbedingungen zum Diffusionsmodell vielfältigere und sinnvollere Konversationsgesten erzeugen kann als frühere Arbeiten.

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen


  • Papieradresse: https://huggingface.co/papers/2401.01885
  • Projektadresse: https://people.eecs.berkeley.edu/~evonne_ng / project/audio2photoreal/

Die Forscher sagen, dass sie das erste Team sind, das untersucht, wie man realistische Gesichts-, Körper- und Handbewegungen für zwischenmenschliche Gespräche erzeugt. Im Vergleich zu früheren Studien synthetisierten die Forscher realistischere und vielfältigere Aktionen auf der Grundlage von VQ- und Diffusionsmethoden.

Überblick über die Methode

Die Forscher extrahierten latente Ausdruckscodes aus aufgezeichneten Multi-View-Daten, um Gesichter darzustellen, und verwendeten Gelenkwinkel im kinematischen Skelett, um Körperhaltungen darzustellen. Wie in Abbildung 3 dargestellt, besteht dieses System aus zwei generativen Modellen, die Ausdruckscodes und Körperhaltungssequenzen generieren, wenn Audiodaten für Zweipersonengespräche eingegeben werden. Der Ausdruckscode und die Körperhaltungssequenzen können dann Bild für Bild mit dem Neural Avatar Renderer gerendert werden, der aus einer bestimmten Kameraansicht einen vollständig texturierten Avatar mit Gesicht, Körper und Händen generieren kann.

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Es ist zu beachten, dass die Dynamik von Körper und Gesicht sehr unterschiedlich ist. Erstens korrelieren Gesichter stark mit Eingabeaudio, insbesondere Lippenbewegungen, während Körper nur schwach mit Sprache korrelieren. Dies führt zu einer komplexeren Vielfalt an Körpergesten in einer bestimmten Spracheingabe. Zweitens folgen Gesichter und Körper jeweils unterschiedlichen zeitlichen Dynamiken, da sie in zwei unterschiedlichen Räumen dargestellt werden. Daher verwendeten die Forscher zwei unabhängige Bewegungsmodelle, um Gesicht und Körper zu simulieren. Auf diese Weise kann sich das Gesichtsmodell auf Gesichtsdetails „fokussieren“, die mit der Sprache übereinstimmen, während sich das Körpermodell mehr auf die Erzeugung vielfältiger, aber sinnvoller Körperbewegungen konzentrieren kann.

Das Gesichtsbewegungsmodell ist ein Diffusionsmodell, das auf Eingabeaudio und Lippenscheitelpunkten basiert, die von einem vorab trainierten Lippenregressor generiert werden (Abbildung 4a). Für das Bewegungsmodell der Gliedmaßen stellten die Forscher fest, dass die Bewegung, die durch das reine Diffusionsmodell erzeugt wurde, das nur auf Audio bedingt war, nicht vielfältig genug war und in der zeitlichen Abfolge nicht ausreichend koordiniert war. Die Qualität verbesserte sich jedoch, wenn die Forscher unterschiedliche Führungshaltungen verwendeten. Daher teilen sie das Körperbewegungsmodell in zwei Teile auf: Zuerst sagt der autoregressive Audio-Conditioner grobe Führungspositionen bei 1 fp voraus (Abb. 4b), und dann nutzt das Diffusionsmodell diese groben Führungspositionen, um feinkörnige und hochpräzise Positionen auszufüllen. Frequenzbewegungen (Abb. 4c). Weitere Einzelheiten zu den Methodeneinstellungen finden Sie im Originalartikel.

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Experimente und Ergebnisse

Die Forscher bewerteten quantitativ die Fähigkeit von Audio2Photoreal, realistische Dialogaktionen auf der Grundlage realer Daten effektiv zu generieren. Es wurden auch Wahrnehmungsbewertungen durchgeführt, um die quantitativen Ergebnisse zu bestätigen und die Eignung von Audio2Photoreal bei der Generierung von Gesten in einem bestimmten Gesprächskontext zu messen. Experimentelle Ergebnisse zeigten, dass die Prüfer empfindlicher auf subtile Gesten reagierten, wenn die Gesten auf einem realistischen Avatar statt auf einem 3D-Netz dargestellt wurden.

Die Forscher verglichen die generierten Ergebnisse dieser Methode mit drei Basismethoden: KNN, SHOW und LDA, basierend auf zufälligen Bewegungssequenzen im Trainingssatz. Es wurden Ablationsexperimente durchgeführt, um die Wirksamkeit jeder Komponente von Audio2Photoreal ohne Audio oder geführte Gesten, ohne geführte Gesten, aber basierend auf Audio, und ohne Audio, aber basierend auf geführten Gesten, zu testen.

Quantitative Ergebnisse

Tabelle 1 zeigt, dass unsere Methode im Vergleich zu früheren Studien den niedrigsten FD-Score bei der Erzeugung von Bewegung mit der höchsten Diversität aufweist. Während Random eine gute Diversität aufweist, die mit GT übereinstimmt, stimmen Zufallssegmente nicht mit der entsprechenden Konversationsdynamik überein, was zu einem hohen FD_g führt.

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Abbildung 5 zeigt die Vielfalt der durch unsere Methode generierten Führungsposen. VQ-basiertes Transformer-P-Sampling ermöglicht die Generierung sehr unterschiedlicher Gesten mit demselben Audioeingang.

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Wie in Abbildung 6 gezeigt, lernt das Diffusionsmodell, dynamische Aktionen zu generieren, wobei die Aktionen besser zum Gesprächsaudio passen.

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Abbildung 7 zeigt, dass es der durch LDA erzeugten Bewegung an Vitalität mangelt und sie weniger Bewegung hat. Im Gegensatz dazu stimmen die mit dieser Methode synthetisierten Bewegungsänderungen besser mit der tatsächlichen Situation überein.

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Darüber hinaus analysierten die Forscher auch die Genauigkeit dieser Methode bei der Erzeugung von Lippenbewegungen. Wie die Statistiken in Tabelle 2 zeigen, übertrifft Audio2Photoreal die Basismethode SHOW deutlich, ebenso die Leistung nach Entfernung des vortrainierten Lippenregressors in den Ablationsexperimenten. Dieses Design verbessert die Synchronisation der Mundformen beim Sprechen, vermeidet effektiv zufällige Öffnungs- und Schließbewegungen des Mundes, wenn nicht gesprochen wird, ermöglicht dem Modell eine bessere Rekonstruktion der Lippenbewegungen und reduziert gleichzeitig den Fehler der Gesichtsnetzscheitelpunkte (Gitter L2). .

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Qualitative Bewertung

Da die Kohärenz von Gesten in Gesprächen schwer zu quantifizieren ist, verwendeten die Forscher qualitative Methoden zur Bewertung. Sie führten zwei Sätze A/B-Tests auf MTurk durch. Konkret baten sie die Gutachter, sich die generierten Ergebnisse unserer Methode und der Basismethode oder das Videopaar unserer Methode und der realen Szene anzusehen und zu bewerten, welches Video in welcher Bewegung vernünftiger aussah.

Wie in Abbildung 8 dargestellt, ist diese Methode deutlich besser als die vorherige Basismethode LDA, und etwa 70 % der Rezensenten bevorzugen Audio2Photoreal in Bezug auf Raster und Realismus.

Wie im oberen Diagramm von Abbildung 8 dargestellt, änderte sich die Bewertung dieser Methode durch die Bewerter im Vergleich zu LDA von „eher eher“ zu „mag ich sehr“. Im Vergleich zur realen Situation ergibt sich die gleiche Bewertung. Dennoch bevorzugten die Bewerter das Original gegenüber Audio2Photoreal, wenn es um Realismus ging.

Das Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen

Für weitere technische Details lesen Sie bitte das Originalpapier.

Das obige ist der detaillierte Inhalt vonDas Klettern entlang des Netzwerkkabels ist zur Realität geworden, Audio2Photoreal kann durch Dialoge realistische Ausdrücke und Bewegungen erzeugen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Was ist die Denormalisierung in Datenbanken?Was ist die Denormalisierung in Datenbanken?Apr 12, 2025 am 11:10 AM

Einführung Stellen Sie sich vor, Sie führen ein geschäftiges Café, in dem jede Sekunde zählt. Anstatt ständig separate Inventar- und Bestelllisten zu überprüfen, konsolidieren Sie alle wichtigen Details auf eine leicht zu lesende Karte. Dies ähnelt Denormaliza

Erstellen von multimodalen Modellen für die Mäßigung von InhaltenErstellen von multimodalen Modellen für die Mäßigung von InhaltenApr 12, 2025 am 10:51 AM

Einführung Stellen Sie sich vor, Sie scrollen durch Ihre bevorzugte Social -Media -Plattform, wenn aus dem Nichts ein offensiver Post auftaucht. Bevor Sie überhaupt auf den Berichtsknopf klicken können, ist er weg. Das ist Inhalt Moderati

Automatisieren Sie Datenerblicke mit InsightMateAutomatisieren Sie Datenerblicke mit InsightMateApr 12, 2025 am 10:44 AM

Einführung Der Umgang mit riesigen Datensätzen kann in der heutigen datenhaarigen Welt ziemlich überwältigend sein. Hier kommt InsightMate ins Spiel. Es wurde entwickelt, um die Erkundung Ihrer Daten zum Kinderspiel zu machen. Laden Sie einfach Ihren Datensatz hoch und Sie erhalten Instan

Vektor-Streaming: Speichereffiziente Indizierung mit RostVektor-Streaming: Speichereffiziente Indizierung mit RostApr 12, 2025 am 10:42 AM

Einführung Das Vektor-Streaming in Embodeything wird eingeführt, ein Merkmal, mit dem das Einbettung von Dokumenten in großem Maßstab optimiert werden soll. Das Aktivieren von asynchronem Knacken und Einbetten mit Rusts Parallelität verringert den Speicherverbrauch und reduziert

Was ist ein Replit Agent? | Ein Einführungshandbuch - Analytics VidhyaWas ist ein Replit Agent? | Ein Einführungshandbuch - Analytics VidhyaApr 12, 2025 am 10:40 AM

Einführung Stellen Sie sich vor, Sie entwickeln Apps mit der gleichen Leichtigkeit wie ein Gespräch. Es gibt keine komplizierten Entwicklungsumgebungen, die eingerichtet werden müssen und keine Konfigurationsdateien durchsehen müssen. Konvertieren Konzepte in wertvolle Apps

Fine-Tune Open-Source-LLMs unter Verwendung von Lamini-Analytics VidhyaFine-Tune Open-Source-LLMs unter Verwendung von Lamini-Analytics VidhyaApr 12, 2025 am 10:20 AM

Vor kurzem haben wir mit dem Aufkommen großer Sprachmodelle und KI unzähliger Fortschritte bei der Verarbeitung natürlicher Sprache verzeichnet. Modelle in Domänen wie Text, Code und Bild-/Videogenerierung haben menschenähnliche Argumentation und p archiviert

Geschlechtserkennung mit OpenCV und Roboflow in Python - Analytics VidhyaGeschlechtserkennung mit OpenCV und Roboflow in Python - Analytics VidhyaApr 12, 2025 am 10:19 AM

Einführung Die Erkennung der Geschlechter aus Gesichtsbildern ist eine der vielen faszinierenden Anwendungen von Computer Vision. In diesem Projekt kombinieren wir OpenCV für den Standort und die Roboflow -API für die Klassifizierung der Geschlechter und machen a

Welche Rolle spielt die generative KI bei der Personalisierung von Anzeigeninhalten?Welche Rolle spielt die generative KI bei der Personalisierung von Anzeigeninhalten?Apr 12, 2025 am 10:18 AM

Einführung Die Welt der Werbung wurde seit der Konzeption des Tauschhandels in Evolution in Evolution. Werbetreibende haben kreative Wege gefunden, um ihre Produkte aufmerksam zu machen. Im gegenwärtigen Alter erwarten die Verbraucher BR

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion