Heim >Technologie-Peripheriegeräte >KI >Stability AI Open-Source-Neuveröffentlichung: 3D-Generierung führt Videodiffusionsmodell ein, Qualitätskonsistenz erhöht, 4090 spielbar
Stability AI, das Unternehmen hinter Stable Diffusion, hat etwas Neues auf den Markt gebracht.
Diese Zeit bringt neue Fortschritte in der 3D-Grafik:
Stable Video 3D (SV3D) basierend auf Stable Video Diffusion kann mit nur einem Bild hochwertige 3D-Netze erzeugen.
Stable Video Diffusion (SVD) ist ein zuvor von Stability AI veröffentlichtes Modell zur Generierung hochauflösender Videos. Die Einführung von SV3D markiert das erste Mal, dass das Videodiffusionsmodell erfolgreich auf den Bereich der 3D-Generierung angewendet wurde.
Offiziell heißt es, dass SV3D auf dieser Grundlage die Qualität und Ansichtskonsistenz der 3D-Generierung erheblich verbessert hat.
Die Modellgewichte sind weiterhin Open Source, können aber nur für nichtkommerzielle Zwecke genutzt werden. Wenn Sie sie kommerziell nutzen möchten, müssen Sie eine Stability AI-Mitgliedschaft erwerben. ~
Nehmen wir es ohne weiteres Schauen Sie sich die Details des Papiers an.
Bei der Einführung des latenten Videodiffusionsmodells besteht der Hauptzweck von SV3D darin, die zeitliche Konsistenz des Videomodells zu nutzen, um die Konsistenz der 3D-Generierung zu verbessern.
Und auch die Videodaten selbst sind einfacher zu erhalten als 3D-Daten.
Stability AI bietet dieses Mal zwei Versionen von SV3D:
Die Forscher verbesserten auch die 3D-Optimierungstechnologie: Mithilfe einer Grob-zu-Fein-Trainingsstrategie optimierten sie NeRF- und DMTet-Netze, um 3D-Objekte zu generieren.
Sie haben außerdem eine spezielle Verlustfunktion namens Masked Score Distillation Sampling (SDS) entwickelt, um die Qualität und Konsistenz der generierten 3D-Modelle durch Optimierung von Bereichen zu verbessern, die in den Trainingsdaten nicht direkt sichtbar sind.
Gleichzeitig führt SV3D ein Beleuchtungsmodell ein, das auf sphärischem Gauß basiert, um Lichteffekte und Texturen zu trennen und so integrierte Beleuchtungsprobleme effektiv zu reduzieren und gleichzeitig die Klarheit der Texturen beizubehalten.
Insbesondere in Bezug auf die Architektur enthält SV3D die folgenden Schlüsselkomponenten:
Die Bewegungsbahninformationen der Kamera und die Zeitinformationen des Diffusionsrauschens werden zusammen in das Restmodul eingegeben und in eine sinusförmige Positionseinbettung umgewandelt. Anschließend werden diese Einbettungsinformationen integriert und linear transformiert und zur Rauschzeit addiert Stufeneinbettung.
Ein solches Design zielt darauf ab, die Fähigkeit des Modells zur Bildverarbeitung zu verbessern, indem Kamerabahnen und Rauscheinträge genau gesteuert werden.
Darüber hinaus verwendet SV3D während des Generierungsprozesses CFG (klassifikatorfreie Führung), um die Schärfe der Generierung zu steuern, insbesondere bei der Generierung der letzten Frames der Spur wird die Dreieck-CFG-Skalierung verwendet, um eine Überschärfung zu vermeiden .
Die Forscher trainierten SV3D auf dem Objaverse-Datensatz mit einer Bildauflösung von 575×576 und einem Sichtfeld von 33,8 Grad. Aus dem Papier geht hervor, dass alle drei Modelle (SV3D_u, SV3D_c, SV3D_p) etwa 6 Tage lang auf 4 Knoten trainiert wurden, wobei jeder Knoten mit 8 80-GB-A100-GPUs ausgestattet war.
In Bezug auf neue Perspektivensynthese (NVS) und 3D-Rekonstruktion übertrifft SV3D andere bestehende Methoden und erreicht SOTA.
Den Ergebnissen des qualitativen Vergleichs nach zu urteilen, ist die von SV3D generierte Mehrfachansicht detaillierter und näher am ursprünglichen Eingabebild. Mit anderen Worten: SV3D kann Details genauer erfassen und bei Änderungen des Betrachtungswinkels die Konsistenz wahren, um die 3D-Struktur von Objekten zu verstehen und zu rekonstruieren.
Solche Ergebnisse haben die Emotionen vieler Internetnutzer geweckt:
Es ist denkbar, dass in den nächsten 6-12 Monaten die 3D-Generationstechnologie in Spielen und Videoprojekten eingesetzt wird.
Im Kommentarbereich gibt es immer ein paar mutige Ideen...
Und die erste Welle von Freunden hat es bereits gespielt und kann es auf 4090 ausführen.
Referenzlink:
[1]https://twitter.com/StabilityAI/status/1769817136799855098.
[2]https://stability.ai/news/introducing-stable-video-3d.
[3]https://sv3d.github.io/index.html.
Das obige ist der detaillierte Inhalt vonStability AI Open-Source-Neuveröffentlichung: 3D-Generierung führt Videodiffusionsmodell ein, Qualitätskonsistenz erhöht, 4090 spielbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!