Heim > Artikel > Technologie-Peripheriegeräte > Kann die KI-Forschung auch vom Impressionismus lernen? Bei diesen lebensechten Menschen handelt es sich tatsächlich um 3D-Modelle
Das 19. Jahrhundert war die Zeit, in der die Kunstbewegung des Impressionismus populär war. Die Bewegung hatte Einfluss auf die Bereiche Malerei, Bildhauerei, Druckgrafik und andere Künste. Der Impressionismus zeichnete sich durch die Verwendung kurzer Staccato-Pinselstriche mit geringem Streben nach formaler Präzision aus und entwickelte sich später zum impressionistischen Kunststil. Kurz gesagt, die Pinselstriche des impressionistischen Künstlers sind unverändert, weisen offensichtliche Merkmale auf, streben nicht nach formaler Präzision und sind sogar etwas vage. Impressionistische Künstler führten die wissenschaftlichen Konzepte von Licht und Farbe in Gemälde ein und revolutionierten traditionelle Farbkonzepte.
In D3GA hat der Autor ein einzigartiges Ziel. Er hofft, durch das Gegenteil einen fotorealistischen Leistungseffekt zu erzielen. Um dieses Ziel zu erreichen, nutzte der Autor auf kreative Weise die Gaußsche Splatter-Technologie in D3GA als modernen „Segmentpinselstrich“, um die Struktur und das Erscheinungsbild virtueller Charaktere aufzubauen und einen stabilen Echtzeiteffekt zu erzielen.
„Sunrise·Impression“ ist das repräsentative Werk des berühmten impressionistischen Malers Monet.
Um realistische menschliche Bilder zu erstellen, die neue Inhalte für Animationen generieren können, erfordert die Konstruktion von Avataren derzeit eine große Menge an Multiview-Daten. Dies liegt daran, dass monokulare Methoden nur eine begrenzte Genauigkeit aufweisen. Darüber hinaus erfordern bestehende Techniken eine komplexe Vorverarbeitung, einschließlich einer genauen 3D-Registrierung. Die Beschaffung dieser Registrierungsdaten erfordert jedoch eine Iteration und lässt sich nur schwer in einen End-to-End-Prozess integrieren. Darüber hinaus gibt es Methoden, die keine genaue Registrierung erfordern und auf neuronalen Strahlungsfeldern (NeRFs) basieren. Allerdings sind diese Methoden beim Echtzeit-Rendering oft langsam oder haben Schwierigkeiten bei der Kleidungsanimation.
Kerbl et al. schlugen eine Rendering-Methode namens 3D Gaussian Splatting (3DGS) vor, die auf der Grundlage der klassischen Surface Splatting-Rendering-Methode verbessert wurde. Im Vergleich zu modernsten Methoden, die auf neuronalen Strahlungsfeldern basieren, ist 3DGS in der Lage, qualitativ hochwertigere Bilder mit schnelleren Bildraten und ohne die Notwendigkeit einer hochpräzisen 3D-Initialisierung zu rendern.
Allerdings wurde 3DGS ursprünglich für statische Szenen entwickelt. Gegenwärtig haben einige Leute die auf Zeitbedingungen basierende Gaußsche Splating-Methode vorgeschlagen, mit der dynamische Szenen gerendert werden können. Diese Methode kann nur das wiedergeben, was zuvor beobachtet wurde, und ist daher nicht geeignet, neue oder bisher ungesehene Bewegungen auszudrücken.
Basierend auf dem angetriebenen neuronalen Strahlungsfeld modelliert der Autor das Aussehen und die Verformung von 3D-Menschen, indem er sie in einen normalisierten Raum platziert, aber 3D-Gaußsche Operatoren anstelle von Strahlungsfeldern verwendet. Neben einer besseren Leistung macht Gaussian Splatting die Verwendung der Kamerastrahl-Sampling-Heuristik überflüssig.
Das verbleibende Problem besteht darin, die Signale zu definieren, die diese Käfigverformungen auslösen. Aktuelle hochmoderne Technologien in fahrerbasierten Avataren erfordern dichte Eingangssignale, wie etwa RGB-D-Bilder oder sogar mehrere Kameras, aber diese Methoden sind möglicherweise nicht für Situationen geeignet, in denen die Übertragungsbandbreite relativ gering ist. In dieser Studie verwenden die Autoren kompaktere Eingaben, die auf menschlichen Posen basieren, einschließlich Skelettgelenkwinkeln und 3D-Gesichtsschlüsselpunkten in Form von Quaternionen.
Durch das Training individueller Modelle an neun hochwertigen Multi-View-Sequenzen, die eine Vielzahl von Körperformen, Bewegungen und Kleidung (nicht nur intime Kleidung) abdecken, können wir später neue Posen für jedes Motiv erstellen.
Derzeit verwendete Methoden Für die dynamische Volumetrisierung virtueller Zeichen werden entweder Punkte vom Deformationsraum in den kanonischen Raum abgebildet oder ausschließlich auf Vorwärtsabbildung zurückgegriffen. Auf Backmapping basierende Methoden neigen dazu, Fehler im kanonischen Raum anzuhäufen, da sie einen fehleranfälligen Backpass erfordern und bei der Modellierung perspektivenabhängiger Effekte problematisch sind.
Daher hat sich der Autor für die reine Vorwärtszuordnungsmethode entschieden. D3GA basiert auf 3DGS und wird durch neuronale Darstellung und Käfig erweitert, um die Farbe und die geometrische Form jedes dynamischen Teils des virtuellen Charakters zu modellieren.
D3GA verwendet die 3D-Pose ϕ, die Gesichtseinbettung κ, den Blickwinkel dk und den kanonischen Käfig v (und automatisch dekodierte Farbmerkmale hi), um das endgültige Render C¯ und das Hilfssegmentierungsrendering P¯ zu generieren. Die Eingabe auf der linken Seite wird über drei Netzwerke (ΨMLP, ΠMLP, ΓMLP) pro virtuellem Zeichenteil verarbeitet, um Käfigverschiebung Δv, Gaußsche Verformungen bi, qi, si und Farbe/Transparenz ci, oi zu erzeugen.
Nachdem die Käfigverformung die kanonische Gaußsche Funktion verformt, werden sie über Gleichung 9 in das endgültige Bild gerastert.
D3GA wird anhand von Metriken wie SSIM, PSNR und der Wahrnehmungsmetrik LPIPS bewertet. Tabelle 1 zeigt, dass D3GA unter den Methoden, die nur LBS verwenden (d. h. es besteht keine Notwendigkeit, 3D-Daten für jeden Frame zu scannen), die beste Leistung bei PSNR und SSIM aufweist und bei diesen Indikatoren alle FFD-Methoden übertrifft, nur an zweiter Stelle nach BD FFD, trotz schlechtem Trainingssignal und fehlender Testbilder (DVA wurde mit allen 200 Kameras getestet).
Der qualitative Vergleich zeigt, dass D3GA Kleidung besser modellieren kann als andere hochmoderne Methoden, insbesondere lockere Kleidung wie Röcke oder Jogginghosen (Abbildung 4). FFD steht für Free Deformation Mesh und enthält umfangreichere Trainingssignale als LBS-Netze (Abbildung 9).
Im Vergleich zur volumenbasierten Methode kann die Methode des Autors die Kleidung des virtuellen Charakters trennen, und die Kleidung ist auch fahrbar. Abbildung 5 zeigt, dass jede einzelne Kleidungsstückschicht allein durch die Winkel der Knochengelenke gesteuert werden kann, ohne dass ein spezielles Kleidungsstückregistrierungsmodul erforderlich ist.
Das obige ist der detaillierte Inhalt vonKann die KI-Forschung auch vom Impressionismus lernen? Bei diesen lebensechten Menschen handelt es sich tatsächlich um 3D-Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!