suchen
HeimTechnologie-PeripheriegeräteKIUmfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora wurde in der Open-Source-Community stillschweigend aktualisiert. Es unterstützt jetzt die Videogenerierung bis zu 16 Sekunden mit Auflösungen bis zu 720p und kann jedes Seitenverhältnis von Text zu Bild, Text zu Video, Bild zu Video verarbeiten , Video-zu-Video und Videogenerierung in unendlicher Länge erforderlich. Probieren wir es aus.

Erstellen Sie eine horizontale Bildschirm-Weihnachtsschneeszene, posten Sie sie auf der B-Site

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

und erstellen Sie dann einen vertikalen Bildschirm, twittern Sie

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

und erstellen Sie auch ein 16 Sekunden langes Video, jetzt alle Kann man spielen, wenn man süchtig nach Drehbuchschreiben ist? Anleitung: GitHub: https://github.com/hpcaitech/Open-Sora und mehr Der Trainingsprozess von Zeit/Auflösung/Seitenverhältnis/Bildrate, der komplette Prozess der Datenerfassung und Vorverarbeitung, alle Trainingsdetails, Demo-Beispiele und

detailliertes Tutorial für den Einstieg

.

Umfassende Interpretation des technischen Berichts von Open-Sora

Übersicht über die neuesten FunktionenDas Autorenteam hat den technischen Bericht von Open-Sora [1] nach dem Verständnis des Autors offiziell veröffentlicht Dieses Update umfasst hauptsächlich die folgenden Hauptfunktionen:

Unterstützt die Generierung langer Videos;

Videogenerierung mit einer Auflösung von bis zu 720p;

Einzelnes Modell unterstützt Text in jedem Seitenverhältnis, verschiedenen Auflösungen und Dauern. Bild-, Text-zu-Video-, Bild-zu-Video-, Video-zu-Video- und Videogenerierungsanforderungen mit unendlicher Länge

  • Schlägt ein stabileres Modellarchitekturdesign vor, das Multizeit-/Auflösungs-/Seitenverhältnis-/Bildratentraining unterstützt;
  • Der neueste automatische Datenverarbeitungsprozess ist Open Source.
  • Raum-Zeit-Diffusionsmodell ST-DiT-2
  • Das Autorenteam gab an, dass es in Open-Sora 1.0 wichtige Verbesserungen an der STDiT-Architektur vorgenommen hat, mit dem Ziel, die Trainingsstabilität und die Gesamtleistung zu verbessern des Modells. Für die aktuelle Sequenzvorhersageaufgabe übernahm das Team die Best Practices großer Sprachmodelle (LLM) und ersetzte die sinusförmige Positionskodierung in der zeitlichen Aufmerksamkeit durch die effizientere Rotationspositionskodierung (RoPE-Einbettung). Um die Stabilität des Trainings zu verbessern, verwiesen sie außerdem auf die SD3-Modellarchitektur und führten außerdem die QK-Normalisierungstechnologie ein, um die Stabilität des Trainings mit halber Präzision zu verbessern. Um die Trainingsanforderungen mehrerer Auflösungen, unterschiedlicher Seitenverhältnisse und Bildraten zu unterstützen, kann die vom Autorenteam vorgeschlagene ST-DiT-2-Architektur die Positionskodierung automatisch skalieren und Eingaben unterschiedlicher Größe verarbeiten.
Mehrstufiges Training

Laut dem technischen Bericht von Open-Sora wendet Open-Sora eine mehrstufige Trainingsmethode an, und jede Stufe setzt das Training basierend auf dem Gewicht der vorherigen Stufe fort. Im Vergleich zum einstufigen Training erreicht dieses mehrstufige Training das Ziel einer qualitativ hochwertigen Videogenerierung effizienter, indem die Daten Schritt für Schritt eingeführt werden.

In der Anfangsphase verwenden die meisten Videos eine Auflösung von 144p und werden für das Training mit Bildern und 240p-, 480p-Videos gemischt. Das Training dauert etwa 1 Woche, mit einer Gesamtschrittgröße von 81k. In der zweiten Stufe wird die Auflösung der meisten Videodaten auf 240p und 480p erhöht, die Trainingszeit beträgt 1 Tag und die Schrittgröße erreicht 22k. Die dritte Stufe wurde weiter auf 480p und 720p verbessert, die Trainingsdauer betrug 1 Tag und das Training der 4k-Schritte wurde abgeschlossen. Der gesamte mehrstufige Trainingsprozess wurde in etwa 9 Tagen abgeschlossen. Im Vergleich zu Open-Sora 1.0 wurde die Qualität der Videogenerierung in mehreren Dimensionen verbessert.

Einheitliches Bild-zu-Video/Video-zu-Video-Framework

Das Autorenteam erklärte, dass die DiT-Architektur basierend auf den Eigenschaften von Transformer leicht erweitert werden kann, um Bild-zu-Bild und zu unterstützen Video-zu-Video-Aufgaben. Sie schlugen eine Maskierungsstrategie vor, um die bedingte Verarbeitung von Bildern und Videos zu unterstützen. Durch das Festlegen verschiedener Masken können verschiedene Generierungsaufgaben unterstützt werden, darunter: Grafikvideo, Loop-Video, Videoerweiterung, autoregressive Videogenerierung, Videoverbindung, Videobearbeitung, Frame-Einfügung usw.

Unterstützt Maskierungsstrategie für die bedingte Bild- und Videoverarbeitung

Das Autorenteam gab an, dass sie, inspiriert von der UL2[2]-Methode, in der Modelltrainingsphase eine zufällige Maskierungsstrategie eingeführt haben. Insbesondere werden die maskierten Frames während des Trainingsprozesses auf zufällige Weise ausgewählt und demaskiert, einschließlich, aber nicht beschränkt auf, Demaskierung des ersten Frames, der ersten k Frames, der nächsten k Frames, aller k Frames usw. Die Autoren haben uns auch gezeigt, dass das Modell basierend auf Experimenten mit Open-Sora 1.0 bei Anwendung der Maskierungsstrategie mit einer Wahrscheinlichkeit von 50 % mit nur wenigen Schritten besser lernen kann, mit der Bildkonditionierung umzugehen. In der neuesten Version von Open-Sora haben sie eine Methode des Vortrainings von Grund auf mithilfe einer Maskierungsstrategie übernommen.

Darüber hinaus stellt das Autorenteam sorgfältig eine detaillierte Anleitung zur Konfiguration der Maskierungsstrategie für die Inferenzphase zur Verfügung. Die Tupelform aus fünf Zahlen bietet große Flexibilität und Kontrolle bei der Definition der Maskierungsstrategie.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Anweisungen zur Konfiguration der Maskenrichtlinie

Unterstützt Multizeit-/Auflösungs-/Seitenverhältnis-/Bildratentraining

Der technische Bericht von OpenAI Sora [3] wies darauf hin, dass die Verwendung des Originalvideos Training mit Auflösung, Seitenverhältnis und Länge können die Sampling-Flexibilität erhöhen und Bildausschnitt und Komposition verbessern. In diesem Zusammenhang schlug das Autorenteam eine Bucketing-Strategie vor.

Wie setzt man es konkret um? Durch eingehende Lektüre des vom Autor veröffentlichten technischen Berichts haben wir erfahren, dass der sogenannte Bucket ein Triplett aus (Auflösung, Anzahl der Bilder, Seitenverhältnis) ist. Das Team hat eine Reihe von Seitenverhältnissen für Videos mit unterschiedlichen Auflösungen vordefiniert, um die gängigsten Arten von Video-Seitenverhältnissen abzudecken. Vor Beginn jeder Trainingszyklus-Epoche mischen sie den Datensatz neu und weisen die Proben basierend auf ihren Eigenschaften den entsprechenden Buckets zu. Konkret legen sie jedes Sample in einen Bucket, dessen Auflösung und Bildlänge kleiner oder gleich dieser Videofunktion sind.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora-Bucketing-Strategie

Das Autorenteam gab außerdem bekannt, dass es zur Reduzierung der Anforderungen an Rechenressourcen zwei Attribute (Auflösung, Anzahl der Frames) für jeweils keep_prob und batch_size zur Reduzierung eingeführt hat Kosten kalkulieren und mehrstufige Schulungen umsetzen. Auf diese Weise können sie die Anzahl der Proben in verschiedenen Buckets steuern und die GPU-Last ausgleichen, indem sie für jeden Bucket nach einer guten Batchgröße suchen. Der Autor erläutert dies im technischen Bericht. Interessierte Freunde können den vom Autor auf GitHub veröffentlichten technischen Bericht lesen, um weitere Informationen zu erhalten: https://github.com/hpcaitech/Open-Sora

Datenerfassung und -vorbereitung -Verarbeitungsprozess

Das Autorenteam bietet sogar detaillierte Anleitungen zur Datenerhebung und -verarbeitung. Laut der Erklärung des Autors im technischen Bericht wurde während des Entwicklungsprozesses von Open-Sora 1.0 erkannt, dass die Quantität und Qualität der Daten für die Entwicklung eines Hochleistungsmodells äußerst wichtig sind, und hat sich daher der Erweiterung und Optimierung des Datensatzes verschrieben . Sie etablierten einen automatisierten Datenverarbeitungsprozess, der dem Singular Value Decomposition (SVD)-Prinzip folgt und Szenensegmentierung, Untertitelverarbeitung, Diversitätsbewertung und -filterung sowie das Verwaltungssystem und die Spezifikation des Datensatzes umfasst. Ebenso selbstlos geben sie Skripte zur Datenverarbeitung an die Open-Source-Community weiter. Interessierte Entwickler können diese Ressourcen nun in Kombination mit technischen Berichten und Code nutzen, um ihre eigenen Datensätze effizient zu verarbeiten und zu optimieren.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora-Datenverarbeitungsprozess

Umfassende Bewertung der Open-Sora-Leistung

Videogenerierungseffektanzeige

Das auffälligste Highlight von Open-Sora ist das Es kann die Szene in Ihrem Kopf erfassen und durch Textbeschreibung in ein bewegendes Video umwandeln. Die Bilder und Vorstellungen, die mir durch den Kopf gingen, können nun dauerhaft aufgezeichnet und mit anderen geteilt werden. Hier hat der Autor als Ausgangspunkt verschiedene Eingabeaufforderungen ausprobiert.

Zum Beispiel hat der Autor versucht, ein Video vom Besuch eines Winterwaldes zu erstellen. Nicht lange nachdem der Schnee gefallen war, waren die Kiefern mit weißem Schnee bedeckt und weiße Schneeflocken waren in klaren Schichten verstreut.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Oder Sie befinden sich in einer ruhigen Nacht in einem dunklen Wald, wie er in unzähligen Märchen beschrieben wird, und der tiefe See funkelt unter den hellen Sternen am ganzen Himmel.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der nächtliche Blick auf die geschäftige Insel aus der Luft ist noch schöner. Die warmen gelben Lichter und das bandartige blaue Wasser entführen die Menschen in die entspannte Zeit des Urlaubs.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der geschäftige Verkehr in der Stadt, die Hochhäuser und Straßenläden, deren Lichter bis spät in die Nacht noch brennen, haben ein anderes Flair.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Neben der Landschaft kann Open-Sora auch verschiedene natürliche Lebewesen wiederherstellen. Ob es eine leuchtend rote Blume ist,

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

oder ein Chamäleon, das langsam den Kopf dreht, Open-Sora kann realistischere Videos erzeugen.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der Autor hat auch verschiedene Schnelltests ausprobiert und viele generierte Videos als Referenz bereitgestellt, darunter unterschiedliche Inhalte, unterschiedliche Auflösungen, unterschiedliche Seitenverhältnisse und unterschiedliche Dauern.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der Autor stellte außerdem fest, dass Open-Sora mit nur einem einfachen Befehl Videoclips mit mehreren Auflösungen generieren kann, wodurch die kreativen Einschränkungen vollständig durchbrochen werden.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 16*240p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 32*240p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 64*360p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 480 *854p

Wir können Open-Sora auch ein statisches Bild füttern, um ein kurzes Video zu erstellen

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora kann auch zwei statische Bilder geschickt verbinden, um das wechselnde Licht und den Schatten vom Nachmittag bis zur Abenddämmerung zu erleben.

Ein weiteres Beispiel: Wenn wir das Originalvideo bearbeiten möchten, führt der ursprünglich helle Wald mit nur einem einfachen Befehl zu starkem Schneefall.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Wir können Open-Sora auch verwenden, um hochauflösende Bilder zu generieren

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Das ist erwähnenswert Open-Sora-Modellgewichte sind bereits vorhanden völlig kostenlos. Es ist öffentlich in der Open-Source-Community, Sie können es also genauso gut herunterladen und ausprobieren. Da sie auch die Video-Splicing-Funktion unterstützen, haben Sie die Möglichkeit, kostenlos eine kurze Kurzgeschichte mit einer Geschichte zu erstellen, um Ihre Kreativität in die Realität umzusetzen.

Gewicht-Download-Adresse: https://github.com/hpcaitech/Open-Sora

Aktuelle Einschränkungen und Zukunftspläne

Obwohl gute Ergebnisse bei der Reproduktion Sora-ähnlicher Vincent-Videomodelle erzielt wurden, hat Fortschritte gemacht wurden erstellt, das Autorenteam weist jedoch auch bescheiden darauf hin, dass die derzeit generierten Videos in vielerlei Hinsicht noch verbessert werden müssen: einschließlich Rauschproblemen während des Generierungsprozesses, mangelnder zeitlicher Konsistenz, schlechter Qualität der Charaktergenerierung und niedrigen ästhetischen Werten. In Bezug auf diese Herausforderungen erklärte das Autorenteam, dass es der Lösung bei der Entwicklung der nächsten Version Priorität einräumen werde, um höhere Standards bei der Videogenerierung zu erreichen. Interessierte Freunde möchten möglicherweise weiterhin aufmerksam sein. Wir freuen uns auf die nächste Überraschung, die uns die Open-Sora-Community bringt.

Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora

Das obige ist der detaillierte Inhalt vonUmfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Die meisten verwendeten 10 Power BI -Diagramme - Analytics VidhyaDie meisten verwendeten 10 Power BI -Diagramme - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Nutzung der Leistung der Datenvisualisierung mit Microsoft Power BI -Diagrammen In der heutigen datengesteuerten Welt ist es entscheidend, komplexe Informationen effektiv mit nicht-technischem Publikum zu kommunizieren. Die Datenvisualisierung schließt diese Lücke und transformiert Rohdaten i

Expertensysteme in KIExpertensysteme in KIApr 16, 2025 pm 12:00 PM

Expertensysteme: Ein tiefes Eintauchen in die Entscheidungsfunktion der KI Stellen Sie sich vor, Zugang zu Expertenberatung zu irgendetwas, von medizinischen Diagnosen bis hin zur Finanzplanung. Das ist die Kraft von Expertensystemen in der künstlichen Intelligenz. Diese Systeme imitieren den Profi

Drei der besten Vibe -Codierer brechen diese KI -Revolution im Code aufDrei der besten Vibe -Codierer brechen diese KI -Revolution im Code aufApr 16, 2025 am 11:58 AM

Zunächst ist es offensichtlich, dass dies schnell passiert. Verschiedene Unternehmen sprechen über die Proportionen ihres Code, die derzeit von KI verfasst wurden, und diese nehmen mit einem schnellen Clip zu. Es gibt bereits viel Arbeitsplatzverschiebung

Runway Ai's Gen-4: Wie kann eine Montage über Absurd hinausgehenRunway Ai's Gen-4: Wie kann eine Montage über Absurd hinausgehenApr 16, 2025 am 11:45 AM

Die Filmindustrie befindet sich neben allen kreativen Sektoren vom digitalen Marketing bis hin zu sozialen Medien an einer technologischen Kreuzung. Als künstliche Intelligenz beginnt, jeden Aspekt des visuellen Geschichtenerzählens umzugestiegen und die Landschaft der Unterhaltung zu verändern

Wie kann man sich 5 Tage lang anmelden. - Analytics VidhyaWie kann man sich 5 Tage lang anmelden. - Analytics VidhyaApr 16, 2025 am 11:43 AM

Der kostenlose KI/ML -Online -Kurs von ISRO: Ein Tor zu Geospatial Technology Innovation Die Indian Space Research Organization (ISRO) bietet durch ihr indisches Institut für Fernerkundung (IIRS) eine fantastische Gelegenheit für Studenten und Fachkräfte

Lokale Suchalgorithmen in KILokale Suchalgorithmen in KIApr 16, 2025 am 11:40 AM

Lokale Suchalgorithmen: Ein umfassender Leitfaden Die Planung eines groß angelegten Ereignisses erfordert eine effiziente Verteilung der Arbeitsbelastung. Wenn herkömmliche Ansätze scheitern, bieten lokale Suchalgorithmen eine leistungsstarke Lösung. In diesem Artikel wird Hill Climbing und Simul untersucht

OpenAI-Verschiebungen Fokus mit GPT-4.1, priorisiert die Codierung und KosteneffizienzOpenAI-Verschiebungen Fokus mit GPT-4.1, priorisiert die Codierung und KosteneffizienzApr 16, 2025 am 11:37 AM

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Die Eingabeaufforderung: Chatgpt generiert gefälschte PässeDie Eingabeaufforderung: Chatgpt generiert gefälschte PässeApr 16, 2025 am 11:35 AM

Der Chip Giant Nvidia sagte am Montag, es werde zum ersten Mal in den USA die Herstellung von KI -Supercomputern - Maschinen mit der Verarbeitung reichlicher Daten herstellen und komplexe Algorithmen ausführen. Die Ankündigung erfolgt nach Präsident Trump SI

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

MantisBT

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

SAP NetWeaver Server-Adapter für Eclipse

SAP NetWeaver Server-Adapter für Eclipse

Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

VSCode Windows 64-Bit-Download

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

SublimeText3 Englische Version

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung