Heim > Artikel > Technologie-Peripheriegeräte > Schlüsseltechnologien für die digitale menschliche Modellierung und Animation
Einführung: In diesem Artikel werden verwandte Forschungsarbeiten zu Schlüsseltechnologien der digitalen menschlichen Modellierung und Animation aus grafischer Sicht vorgestellt B. Gesichtsmodellierung, Haarbearbeitung, virtuelle Kleidung usw., umfassen hauptsächlich die folgenden Teile:
veröffentlichte auf der ACM Multimedia2021 einen mündlichen Bericht über die Fett- und Dünnanpassung von Videoporträts, der sich hauptsächlich mit der Anpassung von Videos befasste Fettigkeit und Dünnheit des Mittelgesichts können erreicht werden, um einen natürlichen Effekt zu erzielen, der visuell nicht sichtbar ist.
# 🎜🎜#
Double Chin Removal ist ein Artikel, der in Siggraph 2021 veröffentlicht wurde. Das Entfernen eines Doppelkinns ist bei der Gesichtsbearbeitung schwierig, da es sowohl um Textur als auch um Geometrie geht. Falls angezeigt, handelt es sich bei der ersten Reihe um das Originalbild, und das Doppelkinn kann durch Anpassen der Parameter (zweite Reihe) nach und nach verschwinden.
Beim Enthaaren eines Porträts werden die Haare der Person auf einem bestimmten Foto entfernt. Sie können Haare bearbeiten, z. B. die Haare einer Figur ändern. Wenn Sie die ursprünglichen Haare beibehalten, wird dies das Syntheseergebnis beeinträchtigen. Wenn bei der dreidimensionalen Rekonstruktion digitaler Personen die ursprünglichen Haare erhalten bleiben, beeinträchtigt dies die Textur. Mit unserer Methode können 3D-Rekonstruktionsergebnisse ohne Beeinträchtigung der Haartextur erzielt werden.
4. Virtuelle Kleidung#🎜 🎜#
Dies ist eine neue Mode im Metaversum. Stellen Sie ein Foto zur Verfügung, um virtuelle Kleidung auf den Körper einer Person zu übertragen, und Sie können neue Kleidung tragen, wie Sie möchten.Im Kontext der nachhaltigen Entwicklung gibt es viele Probleme der Modebranche. Virtuelle Kleidung bietet eine tolle Lösung.
Zum Beispiel ist die linke Seite echte Kleidung und die rechte Seite virtuelle Kleidung. Man erkennt, dass virtuelle Kleidung und reale Kleidung sehr ähnlich sind.
2022 Baidu World Conference digitaler Mensch Xijagas Kleidungsmodell und Animationen werden bereitgestellt von uns.
Das Bild oben zeigt die digitale Person im Film und die Arbeit der virtuellen plastischen Chirurgie. Was wir untersuchen wollen, ist die Entwicklung einer hochpräzisen dreidimensionalen Gesichtsrekonstruktionsmethode. Eine Methode besteht darin, Benutzerfotos zu sammeln und MVS zum Rekonstruieren des dreidimensionalen Modells zu verwenden. Diese Methode hat jedoch nur geringe Auswirkungen auf die Wimpernverarbeitung. Da die Wimpern geometrische Informationen enthalten, wird die Rekonstruktion beeinträchtigt und die Augenpartie wird ungenau.
2. Verwandte Arbeiten: Hochpräzise Gesichtsrekonstruktion 3. Bildausschnitt-Algorithmus und Ausschnitt-Datensatz ① Ausschnittmethode basierend auf Dreipunktbild Um Wimpern zu bearbeiten, können Sie Ausschnitt verwenden, um die Wimpern auszuschneiden Das Obige dient dazu, eine falsch gestellte Gleichung zu lösen, wie in der folgenden Abbildung dargestellt. Dies ist ein Beispiel für einen natürlichen Ausschnitt, der auf dem dritten Teildiagramm basiert und gute Ergebnisse erzielen kann. Diese Methode hat jedoch einen Nachteil: Sie erfordert die Eingabe eines dreiteiligen Diagramms und es ist sehr schwierig, ein dreiteiliges Diagramm zu erstellen. ② Bildausschnitt-Datensatz
In den letzten Jahren wurde viel an Bildausschnitt-Datensätzen gearbeitet, wie beispielsweise am folgenden CVPR2009-Datensatz. ③ Bluescreen-Ausschnitt
Bluescreen-Ausschnitt wird häufig in Filmspezialeffekten verwendet. Normalerweise wird Greenscreen oder Bluescreen verwendet, und dann wird der Wert der Vordergrundmaske mithilfe einiger Triangulationsmethoden berechnet . . 4. Datensatz und Baseline-Methode für den Wimpernausschnitt ① Einführung in die Datensatz-Baseline-Methode Was wir lösen wollen, ist der Wimpernausschnitt. Die Eingabe auf der linken Seite ist ein Foto mit Wimpern, und der Maskenwert wird über das Bildmattennetzwerk EyelashNet berechnet. ② Forschungsmotivation
Es gibt geometrische Texturen im Wimpernbereich, die die Ergebnisse bei der Parametrisierung der dreidimensionalen Rekonstruktion stark beeinträchtigen. Der Effekt ist sehr schlecht und wird es auch sein Es ist sehr zeitaufwändig, sich bei der Reparatur auf einen Künstler zu verlassen. Es ist arbeitsintensiv, daher ist eine Methode erforderlich, um die Wimpern automatisch herauszuziehen.
③Hauptherausforderung Wenn die Wimpern manuell entfernt werden, ist das sehr zeitaufwändig und mühsam. Bei Verwendung der Gabor-Filtermethode ist der Effekt immer noch nicht gut. Es können auch Bildmattierungsmethoden verwendet werden, die Erstellung von Datensätzen ist jedoch sehr schwierig. Wenn Sie einen Bluescreen-Ausschnitt verwenden, wachsen die Wimpern auf den Augenlidern, sodass das Hintergrundbild wie Augenlider und Augenlider nicht getrennt und ersetzt werden kann, was es schwierig macht, beim Wimpernsammeln still zu bleiben mehrere streng ausgerichtete Wimpern zu sammeln und es ist sehr schwierig, Wimpern unterschiedlicher Farbe aufzutragen. ④ Wimperndatenerfassung Wir tragen fluoreszierendes Mittel auf die Wimpern auf, schalten den UVA-Blitz ein, Sie können den Fluoreszenzeffekt sehen und erhalten dann die Segmentierungsergebnisse der Wimpern. Dies reicht jedoch nicht aus und eine weitere Bearbeitung ist erforderlich. ⑤ Berechnung der Wimpernmaske Wir verwenden den im vorherigen Schritt erhaltenen Datensatz als Eingabe und verwenden das Mattierungsnetzwerk, um die tatsächlichen Mattierungsergebnisse vorherzusagen. Wenn wir jedoch nur den Originaldatensatz verwenden, ist der Effekt nicht sehr gut und wir haben keine Grundwahrheit. Wir haben die virtuelle Synthesemethode Render EyelashNet zum Vorheizen entworfen und dann die experimentellen Ergebnisse verwendet, um ein geschätztes Ergebnis vorherzusagen. In Kombination mit manueller Arbeit haben wir diese schlechten Ergebnisse herausgefiltert und schließlich einen Datensatz mit einer anfänglichen Maske erhalten. Anschließend können Sie diesen Datensatz zum Trainieren verwenden und ein verfeinertes Ergebnis erhalten. Das verfeinerte Ergebnis wird in den Datensatz eingefügt und dann trainiert. Nach der Iteration wird schließlich ein besserer Datensatz erhalten. 5. System zur Erfassung von Wimperndaten siehe Screenshot. Wir haben viele Studenten der Zhejiang-Universität eingeladen, fluoreszierendes Mittel auf die Wimpernfärbetabelle aufzutragen. Die Person sollte ruhig bleiben und dann den Laser verwenden Auge. Vergleich der Ergebnisse beim Ein- und Ausschalten des UV-Blitzes: ③ Korrekturausrichtung Idealerweise gibt es keinen Versatz zwischen den beiden Eingangskontrollbildern, aber Menschen Die Augenlider bewegen sich leicht und es kommt zu Abweichungen. Wir verwenden FlowNet2, um ein optisches Flussfeld zu erhalten, verwenden die Ergebnisse des optischen Flussfelds, um die fluoreszierenden Wimpern zu versetzen, und erhalten dann ein streng ausgerichtetes Bild, um so das Segmentierungsergebnis zu erhalten.
① GCA-Netzwerk In der Inferenzphase verwenden wir hauptsächlich das 2020 bei AAAI veröffentlichte GCA-Netzwerk. Die Eingabe des GCA-Netzwerks ist ein RGB-Bild und ein dreiteiliges Bild, und die Ausgabe ist eine Wimpernmaske. Unsere vorherigen Segmentierungsergebnisse können als anfängliches dreiteiliges Bildergebnis verwendet werden. Damit wird das Problem des künstlich konstruierten dreiteiligen Wimpernbildes gelöst. ② Mask Inference Network Hier wird das dreidimensionale Bild durch das Wimpernmaskenbild und das ursprüngliche RGB-Bild als Eingabe ersetzt, und zwar durch progressives Training, kombiniert mit dem Vorwärmen des RenderEyelashNet-Trainings Netzwerk, erhalten Sie ein Maskenergebnis, fügen Sie dieses Ergebnis dann als Trainingssatz zur Eingabe hinzu und erhalten Sie durch manuelles Screening einen visuell korrekten Wimpernausschnitt-Datensatz, sodass sowohl virtuelle als auch reale Daten vorhanden sind. Verwenden Sie diesen Datensatz zum Trainieren und Ableiten und erhalten Sie schließlich die vorhergesagte Version der Wimpernmaske. Fügen Sie es dann in den Trainingssatz ein und iterieren Sie erneut. Normalerweise können Sie das gewünschte Ergebnis in zwei Schritten erzielen. ③ Manuelle Auswahl Selbst die fortschrittlichste Hardware- und Softwareausrüstung kann die Genauigkeit der Wimpernsammlung nicht garantieren. Wir verwenden die manuelle Auswahl, um einige schlechte Ergebnisse zu entfernen und die Genauigkeit der Trainingsdaten sicherzustellen. ④ Basisnetzwerk Geben Sie nach dem Training des Basisnetzwerks ein Bild zum Testen ein, um bessere Ergebnisse zu erzielen. Bei einem unbekannten Bild wissen wir nicht, um welches dreidimensionale Bild es sich handelt. Wenn wir direkt ein Graustufenbild eingeben, können wir dennoch gute Ergebnisse bei der Wimpernvorhersage erzielen. ① Trainingsdatensatz Wir erfassen Wimperndaten für 12 Augenausdrücke und 15 Ansichten. ② Testdatensatz Um unsere Methode zu verifizieren, haben wir während des Tests sowohl die von uns selbst gesammelten Daten als auch einige Bilddaten im Internet verwendet. Nach zwei progressiven Iterationen sind die Ergebnisse, die wir erzielt haben, bereits sehr gut und liegen nahe am wahren Wert. ③ Methodenvergleich Wir und Die aktuellen besten Methoden wurden verglichen und unsere Methode war sowohl visuell als auch quantitativ deutlich besser als die vorherigen Methoden. ④ Ablationsexperiment Wir haben auch Ablationsexperimente durchgeführt, um zu überprüfen, dass jeder Teil unserer Methode unverzichtbar ist. Wir haben einige Fotos im Internet überprüft, diese Fotos haben keine Grundwahrheit. Aber für diese Fotos kann unsere Methode immer noch bessere Ergebnisse beim Wimpernausschnitt berechnen. Wir und Tencent NEXT In Zusammenarbeit mit dem Studio wird mit dieser Methode eine hochpräzise dreidimensionale Gesichtsrekonstruktion durchgeführt und die Wimpernpartie sehr realistisch dargestellt. Eine weitere Anwendung ist die Bearbeitung der Wimpernverschönerung. Sobald Sie Wimpern haben, können Sie deren Farbe ändern oder sie verlängern. Wenn diese Methode jedoch an Orten verwendet wird, an denen Brillenträger sind und die Lichtintensität offensichtlich ist, werden die Ergebnisse verzerrt sein. #🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#8. # Wir schlagen Ihnen EyelashNet vor, den ersten hochwertigen Wimpernausschnitt-Datensatz, der 5400 hochwertig erfasste Wimpernausschnittsdaten und 5272 virtuelle Wimpernausschnittsdaten enthält. Unsere Methode erreicht modernste Leistung bei Bildern mit Wimpernausschnitten. # 🎜🎜# Mit dieser Arbeit soll lockere Kleidung simuliert werden. Wir haben mit der University of Maryland und Tencent NEXT Studio zusammengearbeitet und entsprechende Artikel wurden auf Siggraph2022 veröffentlicht. Diese Arbeit schlägt eine auf Deep Learning basierende Echtzeit-Vorhersagemethode für lockere Kleidung vor, die große Bewegungen gut bewältigen kann und variable Simulationsparameter unterstützt. Eine der Kerntechnologien dieser Arbeit ist das virtuelle Skelett, bei dem es sich um eine Reihe simulierter Knochen handelt, die starre Transformations- und lineare Hybridsimulationsmethoden verwenden, um die Verformung der Kleidung zu steuern. Mithilfe virtueller Knochen können wir die komplexen Verformungen lockerer Kleidung effizient simulieren, und diese Knochen können als Eingabe für die Generierung von Kleidungsdetails verwendet werden. Es gibt im Allgemeinen zwei Arten von Methoden, um Kleidung zu bewegen, die rechenintensiv ist; die andere ist datengesteuert durch Lernen aus echten Daten. Diese Methode ist relativ schnell und weist eine gute Leistung auf. In den letzten Jahren gab es immer mehr Methoden des maschinellen Lernens und des Deep Learning, diese Methoden sagen jedoch entweder die Verformung von Kleidung unter statischen Bedingungen oder die dynamische Verformung von eng anliegender Kleidung voraus. Tatsächlich sind viele Kleidungsstücke wie Röcke locker. Obwohl einige Methoden die Verformung lockerer Kleidungsstücke vorhersagen können, sind sie nicht sehr gut in der Lage, die Verformung großer Bewegungen vorherzusagen. Darüber hinaus unterstützt keine der aktuellen Methoden variable Parameter. Der erste besteht darin, die komplexe Verformung lockerer Kleidung vorherzusagen . ——Niederfrequenzteil und Hochfrequenzteil. Verwenden Sie virtuelle Knochen, um die Verformung des Niederfrequenzteils darzustellen und daraus den Hochfrequenzteil abzuleiten. Der zweite Beitrag besteht darin, die Körperbewegungen in Kombination mit physikalischen Simulationsparametern als Eingabe zu verwenden und diese Methode zur Bewältigung der Heterogenität zu verwenden die beiden Eingänge. 4. Zusammenfassende Beschreibung Erhalten Sie ein Niederfrequenznetz und führen Sie dann eine Hautzerlegungsverarbeitung durch, um virtuelle Knochen und Gewichte zu erhalten. ② Bewegungsnetzwerk Wir möchten verschiedene Parametervariablen auswerten und die Simulationsparameterergebnisse vorhersagen, die wir nicht über das RBF-Netzwerk gesehen haben, damit wir eine Reihe von Netzwerkparametern verwenden können Verschiedene Vorhersagen gemacht werden kann. 5. Methode ① Datenvorbereitung Zuerst müssen wir Ground-Truth-Daten generieren. Wir haben den Houdini Vellum Solver verwendet, um etwa 40.000 Animationsbilder zu simulieren. Wir haben nicht die Motion-Capture-Ergebnisse realer Menschen genutzt, sondern die Videoaktionen aus dem Internet. Das liegt daran, dass wir große Bewegungen simulieren wollen, die Bewegungen realer Menschen jedoch kleiner sind. ②Hautzerlegung Niederfrequente Verformungssequenz Wir verwenden Hautzerlegung, um virtuelle Knochen zu erhalten, und das Ergebnis ist ein lineares Hybrid-Hautmodell. Dieses Modell enthält eine Ruhehaltung und ein entsprechendes Hautgewicht für jeden Knochen . Außerdem werden die Translation und Rotation des virtuellen Skeletts bei jedem Frame ermittelt. Virtuelle Knochen haben keine hierarchische Beziehung, es gibt keine Beziehung zwischen übergeordneten Knochen und untergeordneten Knochen und jeder Knochen hat seine eigene Rotation und Translation. Darüber hinaus haben virtuelle Knochen keine wirklich realistische Bedeutung für jede spezifische Animation. Wir verwenden Motion Network, um die Eingabe des Körpers zu verarbeiten. Die Eingabe ist nur die Drehung der Gelenke und die Verschiebung des Charakters, und die Ausgabe ist das Mesh-Inferenzergebnis, das den physikalischen Parametern entspricht . ③ Aktionsnetzwerk Das Aktionsnetzwerk leitet die niederfrequenten und hochfrequenten Teile nacheinander ab. Der Niederfrequenzteil nutzt das rekurrente neuronale Netzwerk GRU, um die eingegebenen Körperbewegungen in die Rotation und Translation der virtuellen Knochen umzuwandeln Das Netzwerk besteht darin, dass es die Informationen des vorherigen Rahmens abrufen kann, um dynamische Effekte besser zu erfassen. Niederfrequente Verformungen können mithilfe der linearen Mischung virtueller Knochen durch Skinning erzielt werden. Das Aktionsnetzwerk kann zur Vorhersage des Hochfrequenzteils verwendet werden. Eines ist GRU, um Hochfrequenzmerkmale zu erhalten, und das andere ist GNN Um Niederfrequenzteilmerkmale zu erhalten und die beiden Teilmerkmale zu kombinieren, werden Hochfrequenzinformationen durch MLP erhalten. Das Endergebnis wird durch Addition der Hochfrequenz- und Niederfrequenzergebnisse erhalten. Um die physikalische Simulationsparametereingabe zu verarbeiten, haben wir viele Bewegungsnetzwerke mit unterschiedlichen Aktionen trainiert. Für die Parametersimulationsergebnisse, die der Ausgabe des entsprechen Dieselbe Aktion verwenden wir. Das neuronale Netzwerk RBF addiert diese Ergebnisse mit Gewichtungskoeffizienten, die vom Abstand zwischen den Simulationsparametern und den Simulationsparametern des entsprechenden Netzwerks abhängen, und verwendet ein mehrschichtiges Perzeptron, um die Parameter in einen Raum zu projizieren, bevor der Abstand berechnet wird. In der Echtzeitsimulation können lose Kleidungsstücke sehr gut simuliert werden, ohne die Simulationsparameter zu ändern. Die Simulationsergebnisse auf der linken Seite kommen der Grundwahrheit sehr nahe und auf der rechten Seite geht es um variable Parameter. Eine weitere Frage ist, wie man die Anzahl der virtuellen Knochen auswählt. Unser Experiment ergab, dass für den Niederfrequenzteil eine zu kleine Zahl keine gute Wirkung hat und eine zu große Zahl nicht viel hilft. 80 ist ein besseres Ergebnis. Aber für den Hochfrequenzteil gilt: Je mehr virtuelle Knochen, desto besser, damit Details besser ausgedrückt werden können. Dies ist eine Vergleichstabelle zwischen Niederfrequenz- und Hochfrequenzfällen und dem wahren Wert. Unsere Methode kommt der Grundwahrheit näher. Qualitative Vergleichsergebnisse Quantitative Vergleichsergebnisse
RBF-Ablationsexperiment
7. Zukunftsausblick und Zusammenfassung Hochpräzise Gesichtsrekonstruktion und Animation sind in vielen Anwendungen wie Spielen, virtuellen Menschen und dem Metaversum sehr wichtig. Sie alle erfordern eine Echtzeitverarbeitung und stellen auch eine große Herausforderung dar. Darüber hinaus bedeckt Kleidung mehr als 80 % des menschlichen Körpers und ist auch ein wichtiger Bestandteil des digitalen Menschen. Bei Grafikanwendungen achten wir möglicherweise mehr auf Gesichter aus nächster Nähe, aus etwas größerer Entfernung achten wir jedoch mehr auf Kleidung. Ich denke, die zukünftige Entwicklungsrichtung besteht darin, kostengünstige Methoden zu verwenden, um äußerst realistische digitale menschliche Anwendungen in Echtzeit zu erstellen.
A1: Die Berechnung der virtuellen Knochen erfordert die Regeneration neuer Knochen, und auch die Anzahl und Transformation ist unterschiedlich. Sie wird während der Inferenz in Echtzeit berechnet. A2: Es ist immer noch sehr praktisch. Leute, die es noch nie gelernt haben, können es nach dem Training schnell lernen. Selbst wenn Sie ein Outfit von Grund auf entwerfen, können Sie möglicherweise in ein oder zwei Stunden ein sehr kompliziertes Outfit entwerfen. 2. Datensatz und Basismethode zur Wimpernextraktion
Es gibt viele verwandte Forschungsarbeiten, wie Gesichtsgeometrie und Haarrekonstruktion, Augenlid- und Augapfelrekonstruktion usw., aber keine praktikable Methode, Wimpern präzise zu bearbeiten.
② Wimpern färben und Augenpositionierung
6. Inferenzphase
7. Datensatz
1. Virtuelles Skelett
2. Arbeitshintergrund
3. Forschungsbeitrag
erhält den Bewegungsablauf des virtuellen Skeletts durch den Bewegungsablauf des Körpers, sagt niederfrequente Verformungsinformationen über das Bewegungsnetzwerk voraus, verwendet niederfrequente Informationen, um hochfrequente Informationen vorherzusagen, und schließlich erhält die Simulationsergebnisse (Grafik ganz rechts).
③ Simulationsparametervariablen 6. Ergebnisse
IV. Frage- und Antwortsitzung
F1: Wie kann die Verallgemeinerung virtueller Skelette sichergestellt werden?
F2: Ist es praktisch, dreidimensionale Kleidung herzustellen?
Das obige ist der detaillierte Inhalt vonSchlüsseltechnologien für die digitale menschliche Modellierung und Animation. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!