suchen
HeimTechnologie-PeripheriegeräteKIStable Video 3D feiert ein schockierendes Debüt: Ein einzelnes Bild erzeugt 3D-Videos ohne tote Winkel, und Modellgewichte werden geöffnet

Stability AI hat ein neues Mitglied in seiner großen Modellfamilie.

Gestern, nach der Einführung von Stable Diffusion und Stable Video Diffusion, stellte Stability AI der Community ein großes 3D-Videogenerierungsmodell „Stable Video 3D“ (kurz SV3D) vor.

Dieses Modell basiert auf Stable Video Diffusion. Sein Hauptvorteil besteht darin, dass es die Qualität der 3D-Generierung und die Konsistenz mehrerer Ansichten erheblich verbessert. Im Vergleich zum vorherigen von Stability AI eingeführten Stable Zero123 und dem gemeinsamen Open-Source-Modell Zero123-XL ist die Wirkung dieses Modells noch besser.

Derzeit unterstützt Stable Video 3D sowohl die kommerzielle Nutzung, für die der Beitritt zur Stability AI-Mitgliedschaft (Mitgliedschaft) erforderlich ist, als auch die nichtkommerzielle Nutzung, bei der Benutzer die Modellgewichte auf Hugging Face herunterladen können.

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Stabilitäts-KI bietet zwei Modellvarianten, nämlich SV3D_u und SV3D_p. SV3D_u generiert Orbitalvideos auf der Grundlage einer einzelnen Bildeingabe, ohne dass Kameraeinstellungen erforderlich sind, während SV3D_p die Generierungsfähigkeiten durch die Anpassung eines einzelnen Bildes und einer Orbitalperspektive weiter erweitert, sodass Benutzer 3D-Videos entlang eines bestimmten Kamerapfads erstellen können.

Derzeit wurde das Forschungspapier zu Stable Video 3D mit drei Hauptautoren veröffentlicht.

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放


  • Papieradresse: https://stability.ai/s/SV3D_report.pdf
  • Blogadresse: https://stability.ai/news/introducing-stable-video- 3d
  • Huggingface Adresse: https://huggingface.co/stabilityai/sv3d

Technischer Überblick

Stable Video 3D hat erhebliche Fortschritte im Bereich der 3D-Generierung erzielt, insbesondere bei der Synthese neuartiger Ansichtsgenerierungen , NVS) Aspekte.

Frühere Methoden neigten oft dazu, das Problem begrenzter Betrachtungswinkel und inkonsistenter Eingaben zu lösen, während Stable Video 3D in der Lage ist, aus jedem gegebenen Winkel eine kohärente Ansicht zu liefern und gut zu verallgemeinern. Dadurch verbessert das Modell nicht nur die Posenkontrollierbarkeit, sondern sorgt auch für ein konsistentes Erscheinungsbild des Objekts über mehrere Ansichten hinweg, wodurch wichtige Probleme bei der realistischen und genauen 3D-Generierung weiter verbessert werden.

Wie in der Abbildung unten gezeigt, ist Stable Video 3D im Vergleich zu Stable Zero123 und Zero-XL in der Lage, neuartige Mehrfachansichten mit stärkeren Details, mehr Treue zum Eingabebild und konsistenteren Mehrfachansichten zu generieren.

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Darüber hinaus nutzt Stable Video 3D seine Multi-View-Konsistenz, um 3D Neural Radiance Fields (NeRF) zu optimieren und die Qualität von 3D-Netzen zu verbessern, die direkt aus neuen Ansichten generiert werden.

Zu diesem Zweck hat Stability AI eine Maske für den Stichprobenverlust durch fraktionierte Destillation entwickelt, die die 3D-Qualität unsichtbarer Regionen in der vorhergesagten Ansicht weiter verbessert. Um Probleme mit der Beleuchtung zu vermeiden, verwendet Stable Video 3D ein entkoppeltes Beleuchtungsmodell, das mit 3D-Formen und -Texturen optimiert ist.

Das Bild unten zeigt ein Beispiel für eine verbesserte 3D-Netzgenerierung durch 3D-Optimierung bei Verwendung des Stable Video 3D-Modells und seiner Ausgabe.

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Das Bild unten zeigt den Vergleich der mit Stable Video 3D generierten 3D-Netzergebnisse mit denen von EscherNet und Stable Zero123.

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Architekturdetails

Die Architektur des Stable Video 3D-Modells ist in Abbildung 2 unten dargestellt. Es basiert auf der Stable Video Diffusion-Architektur und enthält ein UNet mit mehreren Ebenen, wobei jede Schicht Es enthält auch eine Folge von Restblöcken mit einer Conv3D-Schicht und zwei Transformatorblöcken mit Aufmerksamkeitsschichten (räumlich und zeitlich).

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Der spezifische Prozess ist wie folgt:

(i) Löschen Sie die Vektorbedingungen „fps id“ und „motion Bucket id“, da sie nichts mit Stable Video 3D zu tun haben

(ii) Die Das bedingte Bild durchläuft den VAE-Encoder von Stable Video Diffusion, der in den latenten Raum eingebettet und dann im Rauschzeitschritt t mit dem Eingang zt für den latenten Rauschen verbunden wird, was zu UNet führt zu jedem Transformatorblock fungieren Queraufmerksamkeitsschichten als Schlüssel und Werte, und Abfragen werden zu Merkmalen der entsprechenden Schicht

(iv) Die Kamerabahn wird entlang des Diffusionsrauschen-Zeitschritts in den Restblock eingespeist. Die Kamerapositionswinkel ei und ai und der Rauschzeitschritt t werden zunächst in die sinusförmige Positionseinbettung eingebettet, dann werden die Kamerapositionseinbettungen zur linearen Transformation miteinander verkettet und zur Rauschzeitschritteinbettung hinzugefügt und schließlich in jeden Restblock eingespeist wird zu den Eingabemerkmalen des Blocks hinzugefügt.

Darüber hinaus hat Stability AI statische Umlaufbahnen und dynamische Umlaufbahnen entworfen, um die Auswirkungen von Kamerapositionsanpassungen zu untersuchen, wie in Abbildung 3 unten dargestellt.

Auf einer statischen Umlaufbahn dreht sich die Kamera im äquidistanten Azimut um das Objekt und verwendet dabei denselben Höhenwinkel wie das Zustandsbild. Der Nachteil dabei ist, dass Sie aufgrund des angepassten Höhenwinkels möglicherweise keine Informationen über die Ober- oder Unterseite des Objekts erhalten. In einer dynamischen Umlaufbahn können die Azimutwinkel ungleich sein und auch die Höhenwinkel jeder Ansicht können unterschiedlich sein. Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Um eine dynamische Umlaufbahn zu erstellen, tastet die Stabilitäts-KI eine statische Umlaufbahn ab, fügt ihrem Azimut ein kleines zufälliges Rauschen und ihrer Höhe eine zufällig gewichtete Kombination von Sinuskurven unterschiedlicher Frequenz hinzu. Dies sorgt für eine zeitliche Glätte und stellt sicher, dass die Kamerabahn entlang derselben Azimut- und Höhenschleife endet wie das Zustandsbild.

Experimentelle Ergebnisse

Stabilitäts-KI wertet Stable Video 3D-Composite-Mehrfachansichtseffekte auf statischen und dynamischen Umlaufbahnen in unsichtbaren GSO- und OmniObject3D-Datensätzen aus. Die in den Tabellen 1 bis 4 unten aufgeführten Ergebnisse zeigen, dass Stable Video 3D bei der neuartigen Multi-View-Synthese eine hochmoderne Leistung erzielt.

Tabelle 1 und Tabelle 3 zeigen die Ergebnisse von Stable Video 3D im Vergleich zu anderen Modellen auf statischen Umlaufbahnen und zeigen, dass sogar das Modell SV3D_u ohne Posenanpassung eine bessere Leistung erbringt als alle vorherigen Methoden.

Die Ergebnisse der Ablationsanalyse zeigen, dass SV3D_c und SV3D_p SV3D_u bei der Generierung statischer Trajektorien übertreffen, obwohl letzteres ausschließlich auf statischen Trajektorien trainiert wird.

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Tabelle 2 und Tabelle 4 unten zeigen die Generierungsergebnisse dynamischer Umlaufbahnen, einschließlich der Posenanpassungsmodelle SV3D_c und SV3D_p, wobei letzteres SOTA bei allen Metriken erreicht. Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Die visuellen Vergleichsergebnisse in Abbildung 6 unten zeigen weiter, dass die von Stable Video 3D generierten Bilder im Vergleich zu früheren Arbeiten detaillierter, dem bedingten Bild treuer und über mehrere Perspektiven hinweg konsistenter sind . Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Weitere technische Details und experimentelle Ergebnisse finden Sie im Originalpapier. Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Das obige ist der detaillierte Inhalt vonStable Video 3D feiert ein schockierendes Debüt: Ein einzelnes Bild erzeugt 3D-Videos ohne tote Winkel, und Modellgewichte werden geöffnet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Gemma Scope: Das Mikroskop von Google, um in den Denkprozess von AI zu blickenGemma Scope: Das Mikroskop von Google, um in den Denkprozess von AI zu blickenApr 17, 2025 am 11:55 AM

Erforschen der inneren Funktionsweise von Sprachmodellen mit Gemma -Umfang Das Verständnis der Komplexität von KI -Sprachmodellen ist eine bedeutende Herausforderung. Die Veröffentlichung von Gemma Scope durch Google, ein umfassendes Toolkit, bietet Forschern eine leistungsstarke Möglichkeit, sich einzuschütteln

Wer ist ein Business Intelligence Analyst und wie kann man einer werden?Wer ist ein Business Intelligence Analyst und wie kann man einer werden?Apr 17, 2025 am 11:44 AM

Erschließung des Geschäftserfolgs: Ein Leitfaden zum Analyst für Business Intelligence -Analyst Stellen Sie sich vor, Rohdaten verwandeln in umsetzbare Erkenntnisse, die das organisatorische Wachstum vorantreiben. Dies ist die Macht eines Business Intelligence -Analysts (BI) - eine entscheidende Rolle in Gu

Wie füge ich eine Spalte in SQL hinzu? - Analytics VidhyaWie füge ich eine Spalte in SQL hinzu? - Analytics VidhyaApr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Business Analyst vs. Data AnalystBusiness Analyst vs. Data AnalystApr 17, 2025 am 11:38 AM

Einführung Stellen Sie sich ein lebhaftes Büro vor, in dem zwei Fachleute an einem kritischen Projekt zusammenarbeiten. Der Business Analyst konzentriert sich auf die Ziele des Unternehmens, die Ermittlung von Verbesserungsbereichen und die strategische Übereinstimmung mit Markttrends. Simu

Was sind Count und Counta in Excel? - Analytics VidhyaWas sind Count und Counta in Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Excel -Datenzählung und -analyse: Detaillierte Erläuterung von Count- und Counta -Funktionen Eine genaue Datenzählung und -analyse sind in Excel kritisch, insbesondere bei der Arbeit mit großen Datensätzen. Excel bietet eine Vielzahl von Funktionen, um dies zu erreichen. Die Funktionen von Count- und Counta sind wichtige Instrumente zum Zählen der Anzahl der Zellen unter verschiedenen Bedingungen. Obwohl beide Funktionen zum Zählen von Zellen verwendet werden, sind ihre Designziele auf verschiedene Datentypen ausgerichtet. Lassen Sie uns mit den spezifischen Details der Count- und Counta -Funktionen ausgrenzen, ihre einzigartigen Merkmale und Unterschiede hervorheben und lernen, wie Sie sie in der Datenanalyse anwenden. Überblick über die wichtigsten Punkte Graf und Cou verstehen

Chrome ist hier mit KI: Tag zu erleben, täglich etwas Neues !!Chrome ist hier mit KI: Tag zu erleben, täglich etwas Neues !!Apr 17, 2025 am 11:29 AM

Die KI -Revolution von Google Chrome: Eine personalisierte und effiziente Browsing -Erfahrung Künstliche Intelligenz (KI) verändert schnell unser tägliches Leben, und Google Chrome leitet die Anklage in der Web -Browsing -Arena. Dieser Artikel untersucht die Exciti

Die menschliche Seite von Ai: Wohlbefinden und VierfacheDie menschliche Seite von Ai: Wohlbefinden und VierfacheApr 17, 2025 am 11:28 AM

Impacting Impact: Das vierfache Endergebnis Zu lange wurde das Gespräch von einer engen Sicht auf die Auswirkungen der KI dominiert, die sich hauptsächlich auf das Gewinn des Gewinns konzentrierte. Ein ganzheitlicherer Ansatz erkennt jedoch die Vernetzung von BU an

5 verwendende Anwendungsfälle für Quantum Computing, über die Sie wissen sollten5 verwendende Anwendungsfälle für Quantum Computing, über die Sie wissen solltenApr 17, 2025 am 11:24 AM

Die Dinge bewegen sich stetig zu diesem Punkt. Die Investition, die in Quantendienstleister und Startups einfließt, zeigt, dass die Industrie ihre Bedeutung versteht. Und eine wachsende Anzahl realer Anwendungsfälle entsteht, um seinen Wert zu demonstrieren

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung