Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Stability AI Open-Source-Neuveröffentlichung: 3D-Generierung führt Videodiffusionsmodell ein, Qualitätskonsistenz erhöht, 4090 spielbar

Stability AI Open-Source-Neuveröffentlichung: 3D-Generierung führt Videodiffusionsmodell ein, Qualitätskonsistenz erhöht, 4090 spielbar

WBOY
WBOYnach vorne
2024-03-20 14:25:18957Durchsuche

Stability AI, das Unternehmen hinter Stable Diffusion, hat etwas Neues auf den Markt gebracht.

Diese Zeit bringt neue Fortschritte in der 3D-Grafik:

Stable Video 3D (SV3D) basierend auf Stable Video Diffusion kann mit nur einem Bild hochwertige 3D-Netze erzeugen.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion (SVD) ist ein zuvor von Stability AI veröffentlichtes Modell zur Generierung hochauflösender Videos. Die Einführung von SV3D markiert das erste Mal, dass das Videodiffusionsmodell erfolgreich auf den Bereich der 3D-Generierung angewendet wurde.

Offiziell heißt es, dass SV3D auf dieser Grundlage die Qualität und Ansichtskonsistenz der 3D-Generierung erheblich verbessert hat.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Die Modellgewichte sind weiterhin Open Source, können aber nur für nichtkommerzielle Zwecke genutzt werden. Wenn Sie sie kommerziell nutzen möchten, müssen Sie eine Stability AI-Mitgliedschaft erwerben. ~

Nehmen wir es ohne weiteres Schauen Sie sich die Details des Papiers an.

Verwendung des Videodiffusionsmodells für die 3D-Generierung

Bei der Einführung des latenten Videodiffusionsmodells besteht der Hauptzweck von SV3D darin, die zeitliche Konsistenz des Videomodells zu nutzen, um die Konsistenz der 3D-Generierung zu verbessern.

Und auch die Videodaten selbst sind einfacher zu erhalten als 3D-Daten.

Stability AI bietet dieses Mal zwei Versionen von SV3D:

  • SV3D_u: Orbitalvideo basierend auf einem einzelnen Bild generieren.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

  • SV3D_p: Erweitert die Funktionalität von SV3D_u, um 3D-Modellvideos basierend auf angegebenen Kamerapfaden zu erstellen.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Die Forscher verbesserten auch die 3D-Optimierungstechnologie: Mithilfe einer Grob-zu-Fein-Trainingsstrategie optimierten sie NeRF- und DMTet-Netze, um 3D-Objekte zu generieren.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Sie haben außerdem eine spezielle Verlustfunktion namens Masked Score Distillation Sampling (SDS) entwickelt, um die Qualität und Konsistenz der generierten 3D-Modelle durch Optimierung von Bereichen zu verbessern, die in den Trainingsdaten nicht direkt sichtbar sind.

Gleichzeitig führt SV3D ein Beleuchtungsmodell ein, das auf sphärischem Gauß basiert, um Lichteffekte und Texturen zu trennen und so integrierte Beleuchtungsprobleme effektiv zu reduzieren und gleichzeitig die Klarheit der Texturen beizubehalten.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Insbesondere in Bezug auf die Architektur enthält SV3D die folgenden Schlüsselkomponenten:

  • UNet: SV3D basiert auf SVD und enthält ein mehrschichtiges UNet, wobei jede Schicht eine Reihe von Restblöcken aufweist (einschließlich 3D-Faltungsschicht) und zwei Transformer-Module, die räumliche bzw. zeitliche Informationen verarbeiten.
  • Bedingte Eingabe: Das Eingabebild wird über den VAE-Encoder in den latenten Raum eingebettet und mit dem latenten Rauschzustand zusammengeführt und zusammen in UNet eingegeben. Die CLIP-Einbettungsmatrix des Eingabebildes wird als Schlüssel für jeden Transformator verwendet Wertepaar der Queraufmerksamkeitsebene des Moduls.
  • Kodierung der Kameratrajektorie: SV3D hat zwei Arten von Trajektorien entwickelt, statisch und dynamisch, um die Auswirkungen von Kameralagebedingungen zu untersuchen. In einer statischen Umlaufbahn umgibt die Kamera das Objekt in regelmäßigen Azimutwinkeln. In einer dynamischen Umlaufbahn ermöglicht die Kamera unregelmäßig verteilte Azimutwinkel und unterschiedliche Höhenwinkel.

Die Bewegungsbahninformationen der Kamera und die Zeitinformationen des Diffusionsrauschens werden zusammen in das Restmodul eingegeben und in eine sinusförmige Positionseinbettung umgewandelt. Anschließend werden diese Einbettungsinformationen integriert und linear transformiert und zur Rauschzeit addiert Stufeneinbettung.

Ein solches Design zielt darauf ab, die Fähigkeit des Modells zur Bildverarbeitung zu verbessern, indem Kamerabahnen und Rauscheinträge genau gesteuert werden.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Darüber hinaus verwendet SV3D während des Generierungsprozesses CFG (klassifikatorfreie Führung), um die Schärfe der Generierung zu steuern, insbesondere bei der Generierung der letzten Frames der Spur wird die Dreieck-CFG-Skalierung verwendet, um eine Überschärfung zu vermeiden .

Die Forscher trainierten SV3D auf dem Objaverse-Datensatz mit einer Bildauflösung von 575×576 und einem Sichtfeld von 33,8 Grad. Aus dem Papier geht hervor, dass alle drei Modelle (SV3D_u, SV3D_c, SV3D_p) etwa 6 Tage lang auf 4 Knoten trainiert wurden, wobei jeder Knoten mit 8 80-GB-A100-GPUs ausgestattet war.

Experimentelle Ergebnisse

In Bezug auf neue Perspektivensynthese (NVS) und 3D-Rekonstruktion übertrifft SV3D andere bestehende Methoden und erreicht SOTA.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Den Ergebnissen des qualitativen Vergleichs nach zu urteilen, ist die von SV3D generierte Mehrfachansicht detaillierter und näher am ursprünglichen Eingabebild. Mit anderen Worten: SV3D kann Details genauer erfassen und bei Änderungen des Betrachtungswinkels die Konsistenz wahren, um die 3D-Struktur von Objekten zu verstehen und zu rekonstruieren.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Solche Ergebnisse haben die Emotionen vieler Internetnutzer geweckt:

Es ist denkbar, dass in den nächsten 6-12 Monaten die 3D-Generationstechnologie in Spielen und Videoprojekten eingesetzt wird.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Im Kommentarbereich gibt es immer ein paar mutige Ideen...

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Und die erste Welle von Freunden hat es bereits gespielt und kann es auf 4090 ausführen.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Referenzlink:
[1]https://twitter.com/StabilityAI/status/1769817136799855098.
[2]https://stability.ai/news/introducing-stable-video-3d.
[3]https://sv3d.github.io/index.html.

Das obige ist der detaillierte Inhalt vonStability AI Open-Source-Neuveröffentlichung: 3D-Generierung führt Videodiffusionsmodell ein, Qualitätskonsistenz erhöht, 4090 spielbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen