Heim >Technologie-Peripheriegeräte >KI >Chinas neuer AI-Video Star: Stiefvideo-T2V
China tritt in generativen KI rapide vor und baut auf Erfolgen wie Deepseek -Modellen und Kimi K1.5 in Sprachmodellen auf. Jetzt führt es die Vision -Domäne mit Omnihuman und Goku in der 3D -Modellierung und Video -Synthese. Mit Step-Video-T2V stellt China Top-Text-zu-Video-Modelle wie Sora, Veo 2 und Movie Gen., die von Stepfun AI entwickelt wurden, ein 30B-Parametermodell, das von 204-Rahmen-Videos erzeugt, direkt von Top-Text-zu-Video-Modellen wie Sora, Veo 2 und Movie Gen. heraus. Es nutzt eine Video-Vae, zweisprachige Encoder und einen 3D-Angehörigen, um einen neuen Standard für Videogenerierung festzulegen. Befürchtet es die Kernherausforderungen von Text-to-Video? Lassen Sie uns eintauchen.
-Die Generierung von Hochauflagen und Langzeitvideos ist
extrem ressourcenintensivStiefvideo-T2V nimmt diese Herausforderungen mit mehrere Innovationen :
vorDie stufenvideo-T2V-Modellarchitektur ist um eine dreiteilige Pipeline strukturiert, um Texteingabeaufforderungen effektiv zu verarbeiten und hochwertige Videos zu generieren. Das Modell integriert einen zweisprachigen Textcodierer, einen Variations-Autocoder (Video-VAE) und einen Diffusionstransformator (DIT) mit 3D-Aufmerksamkeit, wobei es sich von herkömmlichen Text-zu-Video-Modellen unterscheidet.
In der Eingangsstufe verwendet Stiefvideo-T2V zwei leistungsstarke zweisprachige Textcodierer:
Benutzerumforderung und konvertieren sie in eine aussagekräftige latente Darstellung , um sicherzustellen, dass das Modell den Anweisungen genau befolgt.
2. Variationsautocoder (Video-vae) für die Komprimierung-Tiefenkomprimierungs-Variationsautoencoder (Video-vae) , das die Videodaten effizient reduziert:
Der Kern von Step-Video-T2V ist sein Diffusionstransformator (DIT) mit 3D-Vollaufmerksamkeit , die die Bewegung der Bewegung und die Szenenkohärenz erheblich verbessert.
Der ith Block des DIT besteht aus mehreren Komponenten, die den Videogenerierungsprozess verfeinern:
, das hochwertige bewegungsreiche Videos erzeugt, die auf Textbeschreibungen basieren. Der Arbeitsmechanismus beinhaltet mehrere ausgefeilte KI -Techniken, um eine reibungslose Bewegung, die Einhaltung von Aufforderungen und die realistische Ausgabe zu gewährleisten. Lassen Sie es uns Schritt für Schritt aufschlüsseln: genauer, kohärenter und visuell ansprechender
fein das Modell step-video-t2v wird auf step-video-t2v-eval , A 128-Prompt-Benchmark Abdeckung Sport, Essen, Kulissen, Surrealismus, Menschen und Animation bewertet. Im Vergleich zu führenden Modellen liefert es hochmoderne Leistung in Bewegungsdynamik und Realismus.
step-video-t2v führt neue Bewertungskriterien
In menschlichen Bewertungen übertrifft Stiefvideo-T2V die Wettbewerber in Bewegung Glätte und physische Plausibilität zugreifen
Schritt 1:
Schritt 2:
Hinweis:
Schritt 3:
erstellt wurden
Eingabeaufforderung: “ Auf den Straßen von Paris sitzt Van Gogh vor einem Café und malt eine Nachtszene mit einem Zeichenbrett in der Hand. Die Kamera wird in einem mittleren Schuss gedreht und zeigt seinen fokussierten Ausdruck und seinen sich schnell bewegenden Pinsel. Die Straßenlaternen und Fußgänger im Hintergrund sind leicht verschwommen und verwenden eine flache Feldtiefe, um sein Bild hervorzuheben. Im Laufe der Zeit wechselt der Himmel von der Abenddämmerung bis zu Nacht, und die Sterne erscheinen allmählich. Die Kamera zieht sich langsam zurück, um den Vergleich zwischen seiner fertigen Arbeit und der echten Nachtszene zu sehen. “ Eingabeaufforderung: „ Im riesigen Universum reist der Millennium Falcon in Star Wars über die Sterne. Die Kamera zeigt das Raumschiff, das in ferner Aussicht zwischen den Sternen fliegt. Die Kamera folgt schnell der Flugbahn des Raumfahrzeugs und zeigt ihr Hochgeschwindigkeitshuttle. Die Kamera betritt das Cockpit und konzentriert sich auf die Gesichtsausdrücke von Han Solo und Chewbacca, die die Instrumente nervös bedienen. Die Lichter am Armaturenbrett flackern und der sternenklare Hintergrund geht schnell außerhalb des Bullauge. “ Stiefvideo-T2V ist außerhalb Chinas noch nicht verfügbar. Sobald es öffentlich ist, werde ich meine Bewertung testen und teilen. Dennoch signalisiert es einen großen Fortschritt in der generativen KI Chinas und beweist, dass seine Labors neben Openai und DeepMind die Zukunft der multimodalen KI formen. Der nächste Schritt für die Videogenerierung erfordert eine bessere Anweisung, Physiksimulation und reichhaltigere Datensätze. Step-Video-T2V ebnet den Weg für Open-Source-Videomodelle und stärkt globale Forscher und Schöpfer. Chinas KI-Dynamik deutet auf realistischere und effizientere Text-zu-Video-Innovationen vor. 1. Benutzereingabe (Textcodierung)
Videogenerierung ist rechenintensiv, daher verwendet das Modell einen
variativen AutoCodierer (VAE) spezialisiert für die Videokomprimierung, die
Nachdem die latente Darstellung erhalten wurde, ist der nächste Schritt der , wobei die
-Denoising -Prozess
, der die Videorahmen verfeinert.
3d vollständige Aufmerksamkeit
Das generierte Video erfährt eine Optimierungsphase, wodurch es . Dies beinhaltet:
Benchmarking gegen Wettbewerber
.
Leistungsmetriken ein
Wie kann ich Schritt-Video-T2V?
Beispiel für Vidos, die durch Schritt-Video-T2V van gogh in paris
Millennium Falcon Journey
Schlussfolgerung
Das obige ist der detaillierte Inhalt vonChinas neuer AI-Video Star: Stiefvideo-T2V. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!