Heim >Technologie-Peripheriegeräte >KI >Hochpräzise und kostengünstige 3D-Gesichtsrekonstruktionslösung für Spiele, Interpretation des Tencent AI Lab ICCV 2023-Papiers
Die 3D-Gesichtsrekonstruktion ist eine Schlüsseltechnologie, die in den Bereichen Spielfilm- und Fernsehproduktion, digitale Personen, AR/VR, Gesichtserkennung und -bearbeitung usw. weit verbreitet ist. Ziel ist es, aus einem oder mehreren Bildern hochwertige 3D-Personen zu erhalten Gesichtsmodell. Mit Hilfe komplexer Aufnahmesysteme in Studios können derzeit ausgereifte Lösungen in der Branche Rekonstruktionseffekte mit einer Präzision auf Porenebene erzielen, die mit echten Menschen vergleichbar sind [2]. Ihre Produktionskosten sind jedoch hoch und ihre Zykluszeiten sind lang Sie werden im Allgemeinen nur in Film- und Fernseh- oder Spieleprojekten der S-Ebene verwendet.
In den letzten Jahren wurde interaktives Gameplay, das auf kostengünstigen Gesichtsrekonstruktionstechnologien basiert (z. B. Gameplay zum Zusammenziehen von Gesichtern von Spielfiguren, Erzeugung virtueller AR/VR-Bilder usw.), vom Markt begrüßt. Benutzer müssen nur Bilder eingeben, die täglich abgerufen werden können, z. B. einzelne oder mehrere mit Mobiltelefonen aufgenommene Bilder, um schnell ein 3D-Modell zu erhalten. Allerdings ist die Bildqualität der bestehenden Methoden nicht kontrollierbar, die Genauigkeit der Rekonstruktionsergebnisse ist gering und sie sind nicht in der Lage, die Details des Gesichts wiederzugeben [3–4]. Wie man zu geringen Kosten hochauflösende 3D-Gesichter erhalten kann, ist immer noch ein ungelöstes Problem.
Der erste Schritt bei der Gesichtsrekonstruktion besteht darin, die Gesichtsausdrucksmethode zu definieren. Allerdings verfügen die vorhandenen gängigen gesichtsparametrisierten Modelle über begrenzte Ausdrucksmöglichkeiten. Selbst mit mehr Einschränkungsinformationen, wie z. B. Bildern mit mehreren Ansichten, ist es schwierig, die Rekonstruktionsgenauigkeit zu verbessern. Daher hat Tencent AI Lab ein verbessertes Adaptive Skinning-Modell (im Folgenden als ASM bezeichnet) als parametrisches Gesichtsmodell vorgeschlagen, das Gesichtsprioritäten verwendet und ein Gaußsches Mischungsmodell verwendet, um die Anzahl der Gesichtsmaskierungs-Pi-Gewichte erheblich zu reduzieren automatisch gelöst werden können.
Tests zeigen, dass die ASM-Methode nur eine kleine Anzahl von Parametern verwendet, ohne dass ein Training erforderlich ist, was die Ausdrucksfähigkeit von Gesichtern und die Genauigkeit der Gesichtsrekonstruktion mit mehreren Ansichten erheblich verbessert und die SOTA-Ebene revolutioniert. Das entsprechende Papier wurde von ICCV-2023 angenommen. Im Folgenden finden Sie eine detaillierte Erläuterung des Papiers.
Papiertitel: ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling
Papierlink: https://arxiv.org/pdf/2304.09423.pdf
Forschungsherausforderungen: niedrige Kosten, hoch Das Problem der genauen 3D-Gesichtsrekonstruktion – die Gewinnung eines 3D-Modells mit größerem Informationsgehalt aus 2D-Bildern – ist ein unterbestimmtes Problem mit unendlich vielen Lösungen. Um es lösbar zu machen, führen Forscher Gesichtsprioren in die Rekonstruktion ein, was die Schwierigkeit der Lösung verringert und die 3D-Form des Gesichts mit weniger Parametern ausdrückt, also ein parametrisches Gesichtsmodell. Die meisten aktuellen parametrischen Gesichtsmodelle basieren auf dem 3D Morphable Model (3DMM), und seine verbesserte Version 3DMM ist ein parametrisches Gesichtsmodell, das erstmals 1999 von Blanz und Vetter vorgeschlagen wurde [5]. Der Artikel geht davon aus, dass ein Gesicht durch eine lineare oder nichtlineare Kombination mehrerer verschiedener Gesichter erhalten werden kann. Durch das Sammeln von Hunderten hochpräziser 3D-Modelle realer Gesichter wird eine Gesichtsbasisbibliothek erstellt und anschließend parametrisierte Gesichter kombiniert, um neue Merkmale auszudrücken . Gesichtsmodell. Nachfolgende Forschungen optimierten 3DMM, indem sie vielfältigere reale Gesichtsmodelle sammelten [6, 7] und Methoden zur Dimensionsreduzierung verbesserten [8, 9].
Das gesichtsähnliche 3DMM-Modell weist jedoch eine hohe Robustheit, aber eine unzureichende Ausdruckskraft auf. Wenn das Eingabebild verschwommen oder verdeckt ist, kann 3DMM zwar stabil Gesichtsmodelle mit durchschnittlicher Genauigkeit generieren, wenn jedoch mehrere hochwertige Bilder als Eingabe verwendet werden, verfügt 3DMM nur über begrenzte Ausdrucksfähigkeiten und kann daher nicht mehr Eingabeinformationen nutzen. Daher ist die Rekonstruktionsgenauigkeit eingeschränkt. Diese Einschränkung ist auf zwei Aspekte zurückzuführen. Zweitens beruht die Methode auf der Erfassung von Gesichtsmodelldaten. Sie ist nicht nur hoch, sondern auch schwierig in der Praxis anzuwenden auf die Sensibilität von Gesichtsdaten.ASM-Methode: Neugestaltung des Skelett-Haut-Modells
Um das Problem der unzureichenden Ausdrucksfähigkeit des vorhandenen 3DMM-Gesichtsmodells zu lösen, stellt dieser Artikel das in der Spielebranche häufig verwendete „Skelett-Haut-Modell“ vor Basismethode für den Gesichtsausdruck. Modelle mit Skeletthaut sind eine gängige Gesichtsmodellierungsmethode, mit der die Gesichtsformen und Gesichtsausdrücke von Spielfiguren im Prozess der Spiel- und Animationsproduktion ausgedrückt werden. Es ist über virtuelle Knochenpunkte mit den Mesh-Scheitelpunkten verbunden. Das Hautgewicht bestimmt das Einflussgewicht der Knochen auf die Mesh-Scheitelpunkte. Bei Verwendung muss nur die Bewegung der Knochen gesteuert werden die Mesh-Scheitelpunkte.
Normalerweise müssen Animatoren bei Modellen mit Skeletthaut eine präzise Knochenplatzierung und Hautgewichtszeichnung durchführen, was sich durch eine hohe Produktionsschwelle und einen langen Produktionszyklus auszeichnet. Allerdings sind die Formen der Knochen und Muskeln verschiedener Menschen in echten menschlichen Gesichtern sehr unterschiedlich. Es ist schwierig, die verschiedenen Gesichtsformen in der Realität darzustellen. Aus diesem Grund wird in diesem Artikel das vorhandene Skelett-Hautsystem verwendet System Auf der Grundlage eines weiteren Designs wird das adaptive Bone-Skinning-Modell ASM vorgeschlagen, das auf Gaußschen Mischungs-Skinning-Gewichten (GMM Skinning Weights) und einem dynamischen Knochenbindungssystem (Dynamic Bone Binding) basiert, um die Expressionsfähigkeit von Knochen weiter zu verbessern -Hautbildung. Mit Flexibilität kann es adaptiv ein einzigartiges Skelett-Hautmodell für jedes Zielgesicht erzeugen, um reichhaltigere Gesichtsdetails auszudrücken.
Um die Ausdrucksfähigkeit des Skelett-Haut-Modells beim Modellieren verschiedener Gesichter zu verbessern, hat ASM ein neues Design für die Modellierungsmethode des Skelett-Haut-Modells entwickelt.
Abbildung 1: Gesamtrahmen von ASM Mesh-Scheitelpunkte. Traditionelles Bone-Skinning besteht aus zwei Teilen, nämlich der Skin-Gewichtsmatrix und den ASM-Parametern, um ein adaptives Bone-Skinning-Modell zu erhalten. Als nächstes stellen wir die parametrischen Modellierungsmethoden der Hautgewichtsmatrix bzw. der Knochenbindung vor. Formel 1: LBS-Formel des traditionellen Modells mit Skeletthäuschen
Formel 2: ASM-LBS-Formel gaussian Mischhäunungsgewichte (GMM-Skinngewichte) Die Hautgewichtsmatrix ist eine mxn-dimensionale Matrix, wobei m die Anzahl der Knochen und n die Anzahl der Scheitelpunkte im Netz ist. Diese Matrix wird verwendet, um den Einflusskoeffizienten jedes Knochens auf jedem Netzscheitelpunkt zu speichern. Im Allgemeinen ist die Hautgewichtsmatrix sehr spärlich. In Unity wird beispielsweise jeder Mesh-Scheitelpunkt nur von bis zu 4 Knochen beeinflusst. Mit Ausnahme dieser 4 Knochen beträgt der Einflusskoeffizient der anderen Knochen auf den Scheitelpunkt . Beim herkömmlichen Modell mit Knochenhaut werden die Hautgewichte vom Animator gezeichnet. Sobald die Hautgewichte ermittelt wurden, ändern sie sich bei Verwendung nicht mehr. In den letzten Jahren wurde versucht, eine große Datenmenge mit neuronalem Netzwerklernen zu kombinieren, um automatisch Skinning-Gewichte zu generieren. Erstens erfordert das Training des neuronalen Netzwerks eine große Menge Wenn es sich um 3D-Gesichts- oder Hautgewichtsdaten handelt, ist es zweitens schwieriger, die Parameterredundanz bei der Verwendung eines neuronalen Netzwerks zur Modellierung von Hautgewichten zu ermitteln. Gibt es eine Methode zur Modellierung des Hautgewichts, die das Hautgewicht des gesamten Gesichts mithilfe einer kleinen Anzahl von Parametern ohne Training vollständig ausdrücken kann? Durch Beobachtung üblicher Hautgewichte können wir die folgenden Eigenschaften ermitteln: 1. Die Hautgewichte sind lokal glatt. 2. Je weiter der Netzscheitelpunkt von der aktuellen Knochenposition entfernt ist, desto kleiner ist diese Eigenschaft stimmt mit dem Gaussian Mixture Model (GMM) überein und stimmt sehr gut überein. Daher schlägt dieser Artikel Gaußsche gemischte Häutungsgewichte (GMM-Hautgewichte) vor, um die Häutungsgewichtsmatrix als Gaußsche Mischfunktion basierend auf einer bestimmten Abstandsfunktion zwischen Scheitelpunkten und Knochen zu modellieren, sodass ein Satz von GMM-Koeffizienten zum Ausdrücken der Häutung verwendet werden kann Gewichte bestimmter Knochen verteilt. Um die Parameter des Hautgewichts weiter zu komprimieren, übertragen wir das gesamte Gesichtsnetz vom dreidimensionalen Raum in den UV-Raum, sodass wir nur das zweidimensionale GMM und den UV-Abstand vom Scheitelpunkt verwenden müssen des Knochens, um die Maskierung eines bestimmten Scheitelpunkts durch den aktuellen Knochen zu berechnen. Durch die parametrische Modellierung von Hautgewichten können wir nicht nur die Hautgewichtsmatrix mit einer kleinen Anzahl von Parametern ausdrücken, sondern auch die Knochen zur Laufzeit anpassen. Dadurch wird es möglich, die Position zu binden Daher wird in diesem Artikel die Methode der dynamischen Knochenbindung (Dynamic Bone Binding) vorgeschlagen. Wie das Hautgewicht modelliert dieser Artikel die Bindungsposition des Knochens als Koordinatenpunkt im UV-Raum und kann sich im UV-Raum beliebig bewegen. Für die Scheitelpunkte des Gesichtsnetzes können die Scheitelpunkte einfach über die vordefinierte UV-Mapping-Beziehung auf eine feste Koordinate im UV-Raum abgebildet werden. Da die Knochen jedoch nicht im UV-Raum vordefiniert sind, müssen wir hierfür die gebundenen Knochen aus dem dreidimensionalen Raum in den UV-Raum übertragen. Dieser Schritt in diesem Artikel wird durch Interpolation der Koordinaten der Knochen und der umgebenden Scheitelpunkte implementiert. Wir wenden die berechneten Interpolationskoeffizienten auf die UV-Koordinaten der Scheitelpunkte an, um die UV-Koordinaten der Knochen zu erhalten. Das Gleiche gilt umgekehrt. Wenn wir Knochenkoordinaten vom UV-Raum in den dreidimensionalen Raum übertragen müssen, berechnen wir auch den Interpolationskoeffizienten zwischen den UV-Koordinaten des aktuellen Knochens und den UV-Koordinaten benachbarter Eckpunkte und wenden den an Interpolationskoeffizient zum gleichen Scheitelpunkt im dreidimensionalen Raum Auf den dreidimensionalen Koordinaten können die dreidimensionalen Raumkoordinaten der entsprechenden Knochen interpoliert werden. Durch diese Modellierungsmethode vereinheitlichen wir die Bindungspositionen und Hautgewichtskoeffizienten der Knochen in einem Satz von Koeffizienten im UV-Raum. Bei der Verwendung von ASM konvertieren wir die Verformung der Netzscheitelpunkte des Gesichts in eine Kombination aus dem Versatzkoeffizienten der Knochenbindungsposition im UV-Raum, dem Hautbildungskoeffizienten der Gaußschen Mischung im UV-Raum und dem Knochenbewegungskoeffizienten. Die Ausdruckskraft wurde erheblich verbessert Fähigkeit des Modells mit Skeletthaut, die Erzeugung reicherer Gesichtsdetails zu erreichen.每 Tabelle 1: Die Parameterdimension jedes ASM-Knochens Forschungsergebnisse: Die Fähigkeit zum Ausdruck des menschlichen Gesichts und die Genauigkeit der Rekonstruktion mehrerer Ansichten erreichen SOTA-Niveau Vergleich verschiedener Parametrisierungsfunktionen des Modells des menschlichen Gesichts Wir Verwenden Sie ein parametrisches Gesichtsmodell, um ein hochpräzises Gesichtsscanmodell zu registrieren (Registrierung), und kombinieren Sie ASM mit herkömmlichem 3DMM basierend auf PCA-Methoden (BFM [6], FLAME [7], FaceScape [10]) und 3DMM basierend auf der Dimensionalität neuronaler Netzwerke Die Reduktionsmethode (CoMA [8], ImFace [9]) und das branchenführende Knochen-Haut-Modell (MetaHuman) wurden verglichen. Die Ergebnisse zeigten, dass die Ausdrucksfähigkeit von ASM sowohl bei LYHM- als auch bei FaceScape-Datensätzen das SOTA-Niveau erreichte. Tabelle 2: Registrierungsgenauigkeit von LYHM und FaceScape Abbildung 3: LYHM-Visualisierungsergebnisse und Fehler-Heatmap der Registrierung auf FaceScape ASM bei der Multi-View-Gesichtsrekonstruktionsaufgabe Die Rekonstruktionsgenauigkeit des Coop-Testsatzes (Kamera für den Innenbereich, Personen ohne Ausdruck) erreicht das SOTA-Niveau.
Abbildung 4: Ergebnisse der 3D-Gesichtsrekonstruktion im Florence MICC-Datensatz
Abbildung 5: Multiperspektivische Rekonstruktionsergebnisse und Fehler verschiedener Eingaben auf Facescape Zusammenfassung und Ausblick Nachdem die Fähigkeit zum Gesichtsausdruck erheblich verbessert wurde, ist die Konstruktion stärkerer Konsistenzbeschränkungen aus Bildern mit mehreren Ansichten zur weiteren Verbesserung der Genauigkeit der Rekonstruktionsergebnisse zu einem neuen Engpass und einer neuen Herausforderung im aktuellen Bereich der Gesichtsrekonstruktion geworden. Dies wird auch unsere zukünftige Forschungsrichtung sein. Referenzen [1] Noranart Vesdapunt, Mitch Rundle, HsiangTao Wu und Baoyuan Wang Jnr: Gelenkbasierte neuronale Rig-Darstellung für kompakte 3D-Gesichtsmodellierung – ECCV 2020: 16. Europäische Konferenz, Glasgow , Großbritannien, 23.–28. August 2020, Proceedings, Teil XVIII 16, Seiten 389–405. [2] Thabo Beeler, Bernd Bickel, Paul Beardsley, Bob Sumner und Markus Gross High – Hochwertige Einzelaufnahme der Gesichtsgeometrie. In ACM SIGGRAPH 2010-Artikeln, Seiten 1–9 Gesichtsrekonstruktion mit schwach überwachtem Lernen: Vom Einzelbild zum Bildsatz. In Tagungsband der IEEE/CVF-Konferenz zu Workshops zu Computer Vision und Mustererkennung, Seiten 0–0, 2019. [4] Yao Feng, Haiwen Feng , Michael J Black und Timo Bolkart. Lernen eines animierbaren detaillierten 3D-Gesichtsmodells aus Bildern in freier Wildbahn (ToG), 40 (4):1–13, 2021. [5] Volker Blanz und Thomas Vetter. In Proceedings of the 26th Annual Conference on Computer Graphics and Interactive Techniques, Seiten 187–194, 1999. [6] Pascal Paysan, Reinhard Knothe, Brian Amberg, Sami Romdhani, und Thomas Vetter , Timo Bolkart, Michael J Black, Hao Li und Javier Romero. Lernen eines Modells der Gesichtsform und des Gesichtsausdrucks aus 4D-Scans ] Anurag Ranjan, Timo Bolkart, Soubhik Sanyal und Michael J Black. Generieren von 3D-Gesichtern mithilfe von Faltungsnetz-Autoencodern, Seiten 704–720, 2018. [9] Mingwu Zheng, Hongyu Yang, Di Huang und Liming Chen. Imface: Ein nichtlineares 3D-Morphable-Gesichtsmodell mit impliziten neuronalen Darstellungen, Seiten 20343–20352. [10] Haotian Yang, Hao Zhu, Yanru Wang, Mingkai Huang, Qiu Shen, Ruigang Yang und Xun Cao: ein groß angelegter, hochwertiger 3D-Gesichtsdatensatz und eine detaillierte manipulierbare 3D-Gesichtsvorhersage /CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 601–610, 2020.
Das obige ist der detaillierte Inhalt vonHochpräzise und kostengünstige 3D-Gesichtsrekonstruktionslösung für Spiele, Interpretation des Tencent AI Lab ICCV 2023-Papiers. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!