Heim >Technologie-Peripheriegeräte >KI >Chinas neuer AI-Video Star: Stiefvideo-T2V

Chinas neuer AI-Video Star: Stiefvideo-T2V

Jennifer Aniston
Jennifer AnistonOriginal
2025-03-04 11:00:12587Durchsuche

China tritt in generativen KI rapide vor und baut auf Erfolgen wie Deepseek -Modellen und Kimi K1.5 in Sprachmodellen auf. Jetzt führt es die Vision -Domäne mit Omnihuman und Goku in der 3D -Modellierung und Video -Synthese. Mit Step-Video-T2V stellt China Top-Text-zu-Video-Modelle wie Sora, Veo 2 und Movie Gen., die von Stepfun AI entwickelt wurden, ein 30B-Parametermodell, das von 204-Rahmen-Videos erzeugt, direkt von Top-Text-zu-Video-Modellen wie Sora, Veo 2 und Movie Gen. heraus. Es nutzt eine Video-Vae, zweisprachige Encoder und einen 3D-Angehörigen, um einen neuen Standard für Videogenerierung festzulegen. Befürchtet es die Kernherausforderungen von Text-to-Video? Lassen Sie uns eintauchen.

Inhaltsverzeichnis

  • Herausforderungen in Text-zu-Video-Modellen
  • Wie stepvideo-t2v diese Probleme löst? Transformator (dit) mit 3D-Aufmerksamkeit
  • Adaptive Layer-Normalisierung (Adaln-Single)
    • Wie funktioniert Stiefvideo-T2V? 3D Vollbeschwerte)
    • Optimierung (Feinabstimmung und Video-DPO-Training)
    • Endausgabe (hochwertiges 204-Rahmen-Video)
  • Benchmarking gegen Konkurrenten
    • Wie man Stiefvideo-T2V? Step-video-t2v
    • van gogh in paris
    • Millennium Falcon Journey
    • Schlussfolgerung
  • Herausforderungen in Text-zu-Video-Modellen
  • Während Text-zu-Video-Modelle einen langen Weg zurückgelegt haben, stehen sie immer noch mit grundlegenden Hürden aus:
    • komplexe Action -Sequenzen
    • - Aktuelle Modelle haben Schwierigkeiten, realistische Videos zu erzeugen, die komplizierte Action -Sequenzen folgen, wie z.
    • Physik und Kausalität
    • -Die meisten diffusionsbasierten Modelle simulieren die reale Welt nicht effektiv. Objektwechselwirkungen, Schwerkraft und physikalische Gesetze werden oft übersehen.
  • Anweisung folgt
  • - Modelle verpassen häufig die wichtigsten Details in Benutzeranforderungen, insbesondere wenn es sich um seltene Konzepte handelt (z. B. ein Pinguin und ein Elefant im selben Video).

Rechenkosten

-Die Generierung von Hochauflagen und Langzeitvideos ist

extrem ressourcenintensiv
    , die die Zugänglichkeit für Forscher und Schöpfer einschränken.
  • Bildunterschrift und Ausrichtung
  • - Videomodelle stützen sich auf massive Datensätze, aber eine schlechte Videounterschrift führt zu einer schwachen Einhaltung der schnellen Einhaltung, was zu
  • halluziniertem Inhalt . führt.
  • wie stufenvideo-t2v diese Probleme lösen?
  • Stiefvideo-T2V nimmt diese Herausforderungen mit mehrere Innovationen :

    vor
    • Video-vae : Erreicht 16 × 16 räumliche und 8-fache temporale Komprimierung
    • , wobei die Rechenanforderungen erheblich reduziert wird und gleichzeitig die hohe Videoqualität aufrechterhält.
    • Zweisprachige Textcodierer : Integriert hunyuan-clip und step-llm , sodass das Modell Eingabeaufforderungen sowohl in chinesisch als auch in englischer
    • effektiv verarbeiten kann.
    • 3D Vollbeziehung dit : Anstelle der traditionellen räumlich-zeitlichen Aufmerksamkeit verbessert dieser Ansatz Bewegungskontinuität und Szenenkonsistenz
    • .
    • Video-DPO (Direktpräferenzoptimierung) : Integriert menschliche Rückkopplungsschleifen
    • , um Artefakte zu reduzieren, den Realismus zu verbessern und generierte Inhalte mit den Benutzererwartungen auszurichten.

    Modellarchitektur

    Die stufenvideo-T2V-Modellarchitektur ist um eine dreiteilige Pipeline strukturiert, um Texteingabeaufforderungen effektiv zu verarbeiten und hochwertige Videos zu generieren. Das Modell integriert einen zweisprachigen Textcodierer, einen Variations-Autocoder (Video-VAE) und einen Diffusionstransformator (DIT) mit 3D-Aufmerksamkeit, wobei es sich von herkömmlichen Text-zu-Video-Modellen unterscheidet.

    Chinas neuer AI-Video Star: Stiefvideo-T2V

    1. Textcodierung mit zweisprachiger Verständnis

    In der Eingangsstufe verwendet Stiefvideo-T2V zwei leistungsstarke zweisprachige Textcodierer:

    • hunyuan-clip : Ein für semantisches Ausrichtung zwischen Text und Bildern optimiertes Sichtsprachmodell.
    • Schritt-LlM : Ein auf Verständnis komplexer Anweisungen zu großer Sprachmodell in Chinesisch und Englisch .
    Diese Encoder verarbeiten die

    Benutzerumforderung und konvertieren sie in eine aussagekräftige latente Darstellung , um sicherzustellen, dass das Modell den Anweisungen genau befolgt.

    2. Variationsautocoder (Video-vae) für die Komprimierung

    langen, hochauflösenden Videos erzeugen, ist rechnerisch teuer. STEP-VIDEO-T2V befasst sich mit einem

    -Tiefenkomprimierungs-Variationsautoencoder (Video-vae) , das die Videodaten effizient reduziert:

    • räumliche Kompression (16 × 16) und Temporale Komprimierung (8x) Die Videogröße reduzieren und Bewegungsdetails erhalten.
    • Dies ermöglicht längere Sequenzen (204 Frames) mit niedrigere Rechenkosten als frühere Modelle.

    3. Diffusionstransformator (DIT) mit 3D -Aufmerksamkeit

    Der Kern von Step-Video-T2V ist sein Diffusionstransformator (DIT) mit 3D-Vollaufmerksamkeit , die die Bewegung der Bewegung und die Szenenkohärenz erheblich verbessert.

    Chinas neuer AI-Video Star: Stiefvideo-T2V

    Der ith Block des DIT besteht aus mehreren Komponenten, die den Videogenerierungsprozess verfeinern:

    Schlüsselkomponenten jedes Transformatorblocks

    • Cross-attierung : Stellen Sie sicher Selbstbekämpfung (mit Seil-3D)
    • : Verwendet
    • Rotationspositionskodierung (Seil-3D) , um räumlich-zeitliches Verständnis zu verbessern, und sicherstellen, dass sich Objekte auf natürliche Weise über Rahmen hinweg bewegen. QK-Norm (Normalisierung der Abfrageschlüssel) : Verbessert die Stabilität von Aufmerksamkeitsmechanismen und reduziert Inkonsistenzen bei der Objektpositionierung.
    • Gate -Mechanismen : Diese
    • adaptiven Gates
    • regulieren den Informationsfluss, verhindern Überanpassung auf bestimmte Muster und Verbesserung der Verallgemeinerung. Skalierungs-/Schaltvorgänge : Normalisieren und feinstimmen Sie Zwischendarstellungen, um reibungslose Übergänge zwischen Videorahmen zu gewährleisten.
    • 4. Normalisierung der adaptiven Schicht (Adaln-Single)
    Das Modell enthält auch

    Normalisierung der adaptiven Schicht (Adaln-Single)

    , das Aktivierungen dynamisch basierend auf dem
      Timestep (t)
    • anpasst Dies sorgt für zeitliche Konsistenz über die Videosequenz.
    • Wie funktioniert Stiefvideo-T2V?
    • Das Modell
    schrittvideo-t2v

    ist ein hochkarätiges

    text-video-AI-System

    , das hochwertige bewegungsreiche Videos erzeugt, die auf Textbeschreibungen basieren. Der Arbeitsmechanismus beinhaltet mehrere ausgefeilte KI -Techniken, um eine reibungslose Bewegung, die Einhaltung von Aufforderungen und die realistische Ausgabe zu gewährleisten. Lassen Sie es uns Schritt für Schritt aufschlüsseln:

    1. Benutzereingabe (Textcodierung)

    • Das Modell startet mit Verarbeitung von Benutzereingaben , eine Textaufforderung, die das gewünschte Video beschreibt.
    • Dies erfolgt mit zweisprachigen Textcodierern (z. B. hunyuan-clip und step-llm ).
    • Die zweisprachige Fähigkeit stellt sicher, dass sowohl englische als auch chinesische genau verstanden werden können. 2. Latente Darstellung (Komprimierung mit Video-vae)

    Videogenerierung ist rechenintensiv, daher verwendet das Modell einen

    variativen AutoCodierer (VAE)
      spezialisiert für die Videokomprimierung, die
    • Video-vae . nennt Funktion von Video-vae:
    • komprimiert Videorahmen in einen niedrigeren dimensionalen latenten Raum
        , wobei die
      • -Recherierungskosten . signifikant reduziert werden Verwaltet die wichtigsten Videoqualitätsaspekte
      • wie
      • Bewegungskontinuität, Texturen und Objektdetails . verwendet eine räumliche und 8 -fache temporale Komprimierung 16 × 16, wodurch das Modell effizient wird und gleichzeitig die Hochtreue beibehalten wird.
      • 3. Denoising -Prozess (Diffusionstransformator mit 3D -Aufmerksamkeit)
    Nachdem die latente Darstellung erhalten wurde, ist der nächste Schritt der

    -Denoising -Prozess

    , der die Videorahmen verfeinert.
    • Dies erfolgt mit einem Diffusionstransformator (DIT) , einem fortschrittlichen Modell zur Erzeugung hochrealistischer Videos.
    • Schlüsselinnovation:
    • Der Diffusionstransformator wendet
        3d vollständige Aufmerksamkeit
      • , einen leistungsstarken Mechanismus, der sich auf räumliche, zeitliche und Bewegungsdynamik . konzentriert Die Verwendung von Flow Matching hilft
      • die Bewegungskonsistenz
      • über Frames hinweg und sorgt für glattere Videoübergänge.
      • 4. Optimierung (Feinabstimmung und Video-DPO-Training)

    Das generierte Video erfährt eine Optimierungsphase, wodurch es

    genauer, kohärenter und visuell ansprechender Chinas neuer AI-Video Star: Stiefvideo-T2V. Dies beinhaltet:

    fein das Modell

    mit hochwertigen Daten, um die Fähigkeit zu verbessern, komplexe Eingabeaufforderungen zu befolgen.
    • Video-DPO (Direktpräferenzoptimierung) Training, das
    • menschliches Feedback
    • enthält: unerwünschte Artefakte reduzieren. Realismus in Bewegung und Texturen verbessern.
      • Die Videogenerierung mit den Benutzererwartungen ausrichten.
      • 5. Finale Ausgabe (hochwertiges 204-Frame-Video)

    • Das endgültige Video ist 204 Frames Long , was bedeutet, dass es eine erhebliche Dauer für das Erzählen von Storytelling bietet
    • Hochauflösende Erzeugung sorgt für ein knackiges Bild und klare Objektrendern.
    • Starker Bewegungsrealismus bedeutet, dass das Video glatte und natürliche Bewegung beibehält und es für komplexe Szenen wie menschliche Gesten, Objektinteraktionen und dynamische Hintergründe geeignet ist.

    Benchmarking gegen Wettbewerber

    step-video-t2v wird auf step-video-t2v-eval , A 128-Prompt-Benchmark Abdeckung Sport, Essen, Kulissen, Surrealismus, Menschen und Animation bewertet. Im Vergleich zu führenden Modellen liefert es hochmoderne Leistung in Bewegungsdynamik und Realismus.

    1. übertrifft Hunyuanvideo in der gesamten Videoqualität und -glättung.
    2. Rivalen Film Gen Video Aber disioniert in der feinkörnigen Ästhetik aufgrund begrenzter hochwertiger Daten.
    3. .
    4. Beats Runway Gen-3 Alpha
    5. In Bewegung Konsistenz, aber leicht zurückbleiben, in der filmischen Anziehungskraft.
    6. Herausforderungen Top chinesische kommerzielle Modelle (T2VTOPA und T2VTOPB)
    7. , fällt jedoch aufgrund der niedrigeren Auflösung (540p gegenüber 1080p) in ästhetischer Qualität ab.
    .

    Leistungsmetriken

    step-video-t2v führt neue Bewertungskriterien

    :
      ein
    • Anweisung folgt
    • - misst, wie gut das generierte Video mit der Eingabeaufforderung ausgerichtet ist.
    • Bewegung Smoothess
    • - bewertet den natürlichen Wirkstrom im Video.
    • Physikalische Plausibilität
    • - Bewertet, ob Bewegungen den Gesetzen der Physik folgen.
    • Ästhetische Anziehungskraft
    • - beurteilt die künstlerische und visuelle Qualität des Videos.

    In menschlichen Bewertungen übertrifft Stiefvideo-T2V die Wettbewerber in Bewegung Glätte und physische Plausibilität

    und macht es zu einem der fortschrittlichsten Open-Source-Modelle.

    Wie kann ich Schritt-Video-T2V?

    zugreifen Schritt 1:

    Besuchen Sie die offizielle Website hier.

    Schritt 2:

    Anmelden Sie sich mit Ihrer Handynummer an.

    Hinweis:

    Derzeit sind Registrierungen nur für eine begrenzte Anzahl von Ländern geöffnet. Leider ist es in Indien nicht verfügbar, daher konnte ich mich nicht anmelden. Sie können es jedoch versuchen, wenn Sie sich in einer unterstützten Region befinden.

    Chinas neuer AI-Video Star: Stiefvideo-T2V

    Schritt 3:

    Fügen Sie Ihre Eingabeaufforderung hinzu und generieren Sie erstaunliche Videos!

    Chinas neuer AI-Video Star: Stiefvideo-T2V

    Beispiel für Vidos, die durch Schritt-Video-T2V

    erstellt wurden

    Hier sind einige Videos, die durch dieses Tool generiert werden. Ich habe diese von ihrer offiziellen Seite genommen.

    van gogh in paris

    Eingabeaufforderung: Auf den Straßen von Paris sitzt Van Gogh vor einem Café und malt eine Nachtszene mit einem Zeichenbrett in der Hand. Die Kamera wird in einem mittleren Schuss gedreht und zeigt seinen fokussierten Ausdruck und seinen sich schnell bewegenden Pinsel. Die Straßenlaternen und Fußgänger im Hintergrund sind leicht verschwommen und verwenden eine flache Feldtiefe, um sein Bild hervorzuheben. Im Laufe der Zeit wechselt der Himmel von der Abenddämmerung bis zu Nacht, und die Sterne erscheinen allmählich. Die Kamera zieht sich langsam zurück, um den Vergleich zwischen seiner fertigen Arbeit und der echten Nachtszene zu sehen. “

    Millennium Falcon Journey

    Eingabeaufforderung: Im riesigen Universum reist der Millennium Falcon in Star Wars über die Sterne. Die Kamera zeigt das Raumschiff, das in ferner Aussicht zwischen den Sternen fliegt. Die Kamera folgt schnell der Flugbahn des Raumfahrzeugs und zeigt ihr Hochgeschwindigkeitshuttle. Die Kamera betritt das Cockpit und konzentriert sich auf die Gesichtsausdrücke von Han Solo und Chewbacca, die die Instrumente nervös bedienen. Die Lichter am Armaturenbrett flackern und der sternenklare Hintergrund geht schnell außerhalb des Bullauge. “

    Schlussfolgerung

    Stiefvideo-T2V ist außerhalb Chinas noch nicht verfügbar. Sobald es öffentlich ist, werde ich meine Bewertung testen und teilen. Dennoch signalisiert es einen großen Fortschritt in der generativen KI Chinas und beweist, dass seine Labors neben Openai und DeepMind die Zukunft der multimodalen KI formen. Der nächste Schritt für die Videogenerierung erfordert eine bessere Anweisung, Physiksimulation und reichhaltigere Datensätze. Step-Video-T2V ebnet den Weg für Open-Source-Videomodelle und stärkt globale Forscher und Schöpfer. Chinas KI-Dynamik deutet auf realistischere und effizientere Text-zu-Video-Innovationen vor.

Das obige ist der detaillierte Inhalt vonChinas neuer AI-Video Star: Stiefvideo-T2V. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn