Heim >Technologie-Peripheriegeräte >KI >Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung
Open-Sora wurde in der Open-Source-Community stillschweigend aktualisiert. Es unterstützt jetzt die Videogenerierung bis zu 16 Sekunden mit Auflösungen bis zu 720p und kann jedes Seitenverhältnis von Text zu Bild, Text zu Video, Bild zu Video verarbeiten , Video-zu-Video und Videogenerierung in unendlicher Länge erforderlich. Probieren wir es aus.
Erstellen Sie eine horizontale Bildschirm-Weihnachtsschneeszene, posten Sie sie auf der B-Site
und erstellen Sie dann einen vertikalen Bildschirm, twittern Sie
und erstellen Sie auch ein 16 Sekunden langes Video, jetzt alle Kann man spielen, wenn man süchtig nach Drehbuchschreiben ist? Anleitung: GitHub: https://github.com/hpcaitech/Open-Sora und mehr Der Trainingsprozess von Zeit/Auflösung/Seitenverhältnis/Bildrate, der komplette Prozess der Datenerfassung und Vorverarbeitung, alle Trainingsdetails, Demo-Beispiele und
detailliertes Tutorial für den Einstieg.
Umfassende Interpretation des technischen Berichts von Open-Sora
Übersicht über die neuesten FunktionenDas Autorenteam hat den technischen Bericht von Open-Sora [1] nach dem Verständnis des Autors offiziell veröffentlicht Dieses Update umfasst hauptsächlich die folgenden Hauptfunktionen:
Videogenerierung mit einer Auflösung von bis zu 720p;
Einzelnes Modell unterstützt Text in jedem Seitenverhältnis, verschiedenen Auflösungen und Dauern. Bild-, Text-zu-Video-, Bild-zu-Video-, Video-zu-Video- und Videogenerierungsanforderungen mit unendlicher Länge
Laut dem technischen Bericht von Open-Sora wendet Open-Sora eine mehrstufige Trainingsmethode an, und jede Stufe setzt das Training basierend auf dem Gewicht der vorherigen Stufe fort. Im Vergleich zum einstufigen Training erreicht dieses mehrstufige Training das Ziel einer qualitativ hochwertigen Videogenerierung effizienter, indem die Daten Schritt für Schritt eingeführt werden.
In der Anfangsphase verwenden die meisten Videos eine Auflösung von 144p und werden für das Training mit Bildern und 240p-, 480p-Videos gemischt. Das Training dauert etwa 1 Woche, mit einer Gesamtschrittgröße von 81k. In der zweiten Stufe wird die Auflösung der meisten Videodaten auf 240p und 480p erhöht, die Trainingszeit beträgt 1 Tag und die Schrittgröße erreicht 22k. Die dritte Stufe wurde weiter auf 480p und 720p verbessert, die Trainingsdauer betrug 1 Tag und das Training der 4k-Schritte wurde abgeschlossen. Der gesamte mehrstufige Trainingsprozess wurde in etwa 9 Tagen abgeschlossen. Im Vergleich zu Open-Sora 1.0 wurde die Qualität der Videogenerierung in mehreren Dimensionen verbessert.
Einheitliches Bild-zu-Video/Video-zu-Video-Framework
Das Autorenteam erklärte, dass die DiT-Architektur basierend auf den Eigenschaften von Transformer leicht erweitert werden kann, um Bild-zu-Bild und zu unterstützen Video-zu-Video-Aufgaben. Sie schlugen eine Maskierungsstrategie vor, um die bedingte Verarbeitung von Bildern und Videos zu unterstützen. Durch das Festlegen verschiedener Masken können verschiedene Generierungsaufgaben unterstützt werden, darunter: Grafikvideo, Loop-Video, Videoerweiterung, autoregressive Videogenerierung, Videoverbindung, Videobearbeitung, Frame-Einfügung usw.
Unterstützt Maskierungsstrategie für die bedingte Bild- und Videoverarbeitung Das Autorenteam gab an, dass sie, inspiriert von der UL2[2]-Methode, in der Modelltrainingsphase eine zufällige Maskierungsstrategie eingeführt haben. Insbesondere werden die maskierten Frames während des Trainingsprozesses auf zufällige Weise ausgewählt und demaskiert, einschließlich, aber nicht beschränkt auf, Demaskierung des ersten Frames, der ersten k Frames, der nächsten k Frames, aller k Frames usw. Die Autoren haben uns auch gezeigt, dass das Modell basierend auf Experimenten mit Open-Sora 1.0 bei Anwendung der Maskierungsstrategie mit einer Wahrscheinlichkeit von 50 % mit nur wenigen Schritten besser lernen kann, mit der Bildkonditionierung umzugehen. In der neuesten Version von Open-Sora haben sie eine Methode des Vortrainings von Grund auf mithilfe einer Maskierungsstrategie übernommen. Darüber hinaus stellt das Autorenteam sorgfältig eine detaillierte Anleitung zur Konfiguration der Maskierungsstrategie für die Inferenzphase zur Verfügung. Die Tupelform aus fünf Zahlen bietet große Flexibilität und Kontrolle bei der Definition der Maskierungsstrategie. Anweisungen zur Konfiguration der Maskenrichtlinie Unterstützt Multizeit-/Auflösungs-/Seitenverhältnis-/Bildratentraining Der technische Bericht von OpenAI Sora [3] wies darauf hin, dass die Verwendung des Originalvideos Training mit Auflösung, Seitenverhältnis und Länge können die Sampling-Flexibilität erhöhen und Bildausschnitt und Komposition verbessern. In diesem Zusammenhang schlug das Autorenteam eine Bucketing-Strategie vor. Wie setzt man es konkret um? Durch eingehende Lektüre des vom Autor veröffentlichten technischen Berichts haben wir erfahren, dass der sogenannte Bucket ein Triplett aus (Auflösung, Anzahl der Bilder, Seitenverhältnis) ist. Das Team hat eine Reihe von Seitenverhältnissen für Videos mit unterschiedlichen Auflösungen vordefiniert, um die gängigsten Arten von Video-Seitenverhältnissen abzudecken. Vor Beginn jeder Trainingszyklus-Epoche mischen sie den Datensatz neu und weisen die Proben basierend auf ihren Eigenschaften den entsprechenden Buckets zu. Konkret legen sie jedes Sample in einen Bucket, dessen Auflösung und Bildlänge kleiner oder gleich dieser Videofunktion sind. Open-Sora-Bucketing-Strategie Das Autorenteam gab außerdem bekannt, dass es zur Reduzierung der Anforderungen an Rechenressourcen zwei Attribute (Auflösung, Anzahl der Frames) für jeweils keep_prob und batch_size zur Reduzierung eingeführt hat Kosten kalkulieren und mehrstufige Schulungen umsetzen. Auf diese Weise können sie die Anzahl der Proben in verschiedenen Buckets steuern und die GPU-Last ausgleichen, indem sie für jeden Bucket nach einer guten Batchgröße suchen. Der Autor erläutert dies im technischen Bericht. Interessierte Freunde können den vom Autor auf GitHub veröffentlichten technischen Bericht lesen, um weitere Informationen zu erhalten: https://github.com/hpcaitech/Open-Sora Datenerfassung und -vorbereitung -Verarbeitungsprozess Das Autorenteam bietet sogar detaillierte Anleitungen zur Datenerhebung und -verarbeitung. Laut der Erklärung des Autors im technischen Bericht wurde während des Entwicklungsprozesses von Open-Sora 1.0 erkannt, dass die Quantität und Qualität der Daten für die Entwicklung eines Hochleistungsmodells äußerst wichtig sind, und hat sich daher der Erweiterung und Optimierung des Datensatzes verschrieben . Sie etablierten einen automatisierten Datenverarbeitungsprozess, der dem Singular Value Decomposition (SVD)-Prinzip folgt und Szenensegmentierung, Untertitelverarbeitung, Diversitätsbewertung und -filterung sowie das Verwaltungssystem und die Spezifikation des Datensatzes umfasst. Ebenso selbstlos geben sie Skripte zur Datenverarbeitung an die Open-Source-Community weiter. Interessierte Entwickler können diese Ressourcen nun in Kombination mit technischen Berichten und Code nutzen, um ihre eigenen Datensätze effizient zu verarbeiten und zu optimieren. Open-Sora-Datenverarbeitungsprozess Videogenerierungseffektanzeige Das auffälligste Highlight von Open-Sora ist das Es kann die Szene in Ihrem Kopf erfassen und durch Textbeschreibung in ein bewegendes Video umwandeln. Die Bilder und Vorstellungen, die mir durch den Kopf gingen, können nun dauerhaft aufgezeichnet und mit anderen geteilt werden. Hier hat der Autor als Ausgangspunkt verschiedene Eingabeaufforderungen ausprobiert. Zum Beispiel hat der Autor versucht, ein Video vom Besuch eines Winterwaldes zu erstellen. Nicht lange nachdem der Schnee gefallen war, waren die Kiefern mit weißem Schnee bedeckt und weiße Schneeflocken waren in klaren Schichten verstreut. Oder Sie befinden sich in einer ruhigen Nacht in einem dunklen Wald, wie er in unzähligen Märchen beschrieben wird, und der tiefe See funkelt unter den hellen Sternen am ganzen Himmel. Der nächtliche Blick auf die geschäftige Insel aus der Luft ist noch schöner. Die warmen gelben Lichter und das bandartige blaue Wasser entführen die Menschen in die entspannte Zeit des Urlaubs. Der geschäftige Verkehr in der Stadt, die Hochhäuser und Straßenläden, deren Lichter bis spät in die Nacht noch brennen, haben ein anderes Flair. Neben der Landschaft kann Open-Sora auch verschiedene natürliche Lebewesen wiederherstellen. Ob es eine leuchtend rote Blume ist, oder ein Chamäleon, das langsam den Kopf dreht, Open-Sora kann realistischere Videos erzeugen. Der Autor hat auch verschiedene Schnelltests ausprobiert und viele generierte Videos als Referenz bereitgestellt, darunter unterschiedliche Inhalte, unterschiedliche Auflösungen, unterschiedliche Seitenverhältnisse und unterschiedliche Dauern. Der Autor stellte außerdem fest, dass Open-Sora mit nur einem einfachen Befehl Videoclips mit mehreren Auflösungen generieren kann, wodurch die kreativen Einschränkungen vollständig durchbrochen werden. Auflösung: 16*240p Auflösung: 32*240p Auflösung: 64*360p Auflösung: 480 *854p Wir können Open-Sora auch ein statisches Bild füttern, um ein kurzes Video zu erstellen Open-Sora kann auch zwei statische Bilder geschickt verbinden, um das wechselnde Licht und den Schatten vom Nachmittag bis zur Abenddämmerung zu erleben. Ein weiteres Beispiel: Wenn wir das Originalvideo bearbeiten möchten, führt der ursprünglich helle Wald mit nur einem einfachen Befehl zu starkem Schneefall.
Wir können Open-Sora auch verwenden, um hochauflösende Bilder zu generieren Das ist erwähnenswert Open-Sora-Modellgewichte sind bereits vorhanden völlig kostenlos. Es ist öffentlich in der Open-Source-Community, Sie können es also genauso gut herunterladen und ausprobieren. Da sie auch die Video-Splicing-Funktion unterstützen, haben Sie die Möglichkeit, kostenlos eine kurze Kurzgeschichte mit einer Geschichte zu erstellen, um Ihre Kreativität in die Realität umzusetzen. Gewicht-Download-Adresse: https://github.com/hpcaitech/Open-Sora Obwohl gute Ergebnisse bei der Reproduktion Sora-ähnlicher Vincent-Videomodelle erzielt wurden, hat Fortschritte gemacht wurden erstellt, das Autorenteam weist jedoch auch bescheiden darauf hin, dass die derzeit generierten Videos in vielerlei Hinsicht noch verbessert werden müssen: einschließlich Rauschproblemen während des Generierungsprozesses, mangelnder zeitlicher Konsistenz, schlechter Qualität der Charaktergenerierung und niedrigen ästhetischen Werten. In Bezug auf diese Herausforderungen erklärte das Autorenteam, dass es der Lösung bei der Entwicklung der nächsten Version Priorität einräumen werde, um höhere Standards bei der Videogenerierung zu erreichen. Interessierte Freunde möchten möglicherweise weiterhin aufmerksam sein. Wir freuen uns auf die nächste Überraschung, die uns die Open-Sora-Community bringt. Open-Source-Adresse: https://github.com/hpcaitech/Open-SoraUmfassende Bewertung der Open-Sora-Leistung
Aktuelle Einschränkungen und Zukunftspläne
Das obige ist der detaillierte Inhalt vonUmfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!