Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung-KI-php.cn

Heim

Technologie-Peripheriegeräte

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 25, 2024 pm 02:55 PM

git抖音数据模型视频编辑

Open-Sora wurde in der Open-Source-Community stillschweigend aktualisiert. Es unterstützt jetzt die Videogenerierung bis zu 16 Sekunden mit Auflösungen bis zu 720p und kann jedes Seitenverhältnis von Text zu Bild, Text zu Video, Bild zu Video verarbeiten , Video-zu-Video und Videogenerierung in unendlicher Länge erforderlich. Probieren wir es aus.

Erstellen Sie eine horizontale Bildschirm-Weihnachtsschneeszene, posten Sie sie auf der B-Site

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

und erstellen Sie dann einen vertikalen Bildschirm, twittern Sie

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

und erstellen Sie auch ein 16 Sekunden langes Video, jetzt alle Kann man spielen, wenn man süchtig nach Drehbuchschreiben ist? Anleitung: GitHub: https://github.com/hpcaitech/Open-Sora und mehr Der Trainingsprozess von Zeit/Auflösung/Seitenverhältnis/Bildrate, der komplette Prozess der Datenerfassung und Vorverarbeitung, alle Trainingsdetails, Demo-Beispiele und

detailliertes Tutorial für den Einstieg

Umfassende Interpretation des technischen Berichts von Open-Sora

Übersicht über die neuesten FunktionenDas Autorenteam hat den technischen Bericht von Open-Sora [1] nach dem Verständnis des Autors offiziell veröffentlicht Dieses Update umfasst hauptsächlich die folgenden Hauptfunktionen:

Unterstützt die Generierung langer Videos;

Videogenerierung mit einer Auflösung von bis zu 720p;

Einzelnes Modell unterstützt Text in jedem Seitenverhältnis, verschiedenen Auflösungen und Dauern. Bild-, Text-zu-Video-, Bild-zu-Video-, Video-zu-Video- und Videogenerierungsanforderungen mit unendlicher Länge

Schlägt ein stabileres Modellarchitekturdesign vor, das Multizeit-/Auflösungs-/Seitenverhältnis-/Bildratentraining unterstützt;
Der neueste automatische Datenverarbeitungsprozess ist Open Source.
Raum-Zeit-Diffusionsmodell ST-DiT-2

Mehrstufiges Training

Laut dem technischen Bericht von Open-Sora wendet Open-Sora eine mehrstufige Trainingsmethode an, und jede Stufe setzt das Training basierend auf dem Gewicht der vorherigen Stufe fort. Im Vergleich zum einstufigen Training erreicht dieses mehrstufige Training das Ziel einer qualitativ hochwertigen Videogenerierung effizienter, indem die Daten Schritt für Schritt eingeführt werden.

In der Anfangsphase verwenden die meisten Videos eine Auflösung von 144p und werden für das Training mit Bildern und 240p-, 480p-Videos gemischt. Das Training dauert etwa 1 Woche, mit einer Gesamtschrittgröße von 81k. In der zweiten Stufe wird die Auflösung der meisten Videodaten auf 240p und 480p erhöht, die Trainingszeit beträgt 1 Tag und die Schrittgröße erreicht 22k. Die dritte Stufe wurde weiter auf 480p und 720p verbessert, die Trainingsdauer betrug 1 Tag und das Training der 4k-Schritte wurde abgeschlossen. Der gesamte mehrstufige Trainingsprozess wurde in etwa 9 Tagen abgeschlossen. Im Vergleich zu Open-Sora 1.0 wurde die Qualität der Videogenerierung in mehreren Dimensionen verbessert.

Einheitliches Bild-zu-Video/Video-zu-Video-Framework

Das Autorenteam erklärte, dass die DiT-Architektur basierend auf den Eigenschaften von Transformer leicht erweitert werden kann, um Bild-zu-Bild und zu unterstützen Video-zu-Video-Aufgaben. Sie schlugen eine Maskierungsstrategie vor, um die bedingte Verarbeitung von Bildern und Videos zu unterstützen. Durch das Festlegen verschiedener Masken können verschiedene Generierungsaufgaben unterstützt werden, darunter: Grafikvideo, Loop-Video, Videoerweiterung, autoregressive Videogenerierung, Videoverbindung, Videobearbeitung, Frame-Einfügung usw.

Unterstützt Maskierungsstrategie für die bedingte Bild- und Videoverarbeitung

Das Autorenteam gab an, dass sie, inspiriert von der UL2[2]-Methode, in der Modelltrainingsphase eine zufällige Maskierungsstrategie eingeführt haben. Insbesondere werden die maskierten Frames während des Trainingsprozesses auf zufällige Weise ausgewählt und demaskiert, einschließlich, aber nicht beschränkt auf, Demaskierung des ersten Frames, der ersten k Frames, der nächsten k Frames, aller k Frames usw. Die Autoren haben uns auch gezeigt, dass das Modell basierend auf Experimenten mit Open-Sora 1.0 bei Anwendung der Maskierungsstrategie mit einer Wahrscheinlichkeit von 50 % mit nur wenigen Schritten besser lernen kann, mit der Bildkonditionierung umzugehen. In der neuesten Version von Open-Sora haben sie eine Methode des Vortrainings von Grund auf mithilfe einer Maskierungsstrategie übernommen.

Darüber hinaus stellt das Autorenteam sorgfältig eine detaillierte Anleitung zur Konfiguration der Maskierungsstrategie für die Inferenzphase zur Verfügung. Die Tupelform aus fünf Zahlen bietet große Flexibilität und Kontrolle bei der Definition der Maskierungsstrategie.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Anweisungen zur Konfiguration der Maskenrichtlinie

Unterstützt Multizeit-/Auflösungs-/Seitenverhältnis-/Bildratentraining

Der technische Bericht von OpenAI Sora [3] wies darauf hin, dass die Verwendung des Originalvideos Training mit Auflösung, Seitenverhältnis und Länge können die Sampling-Flexibilität erhöhen und Bildausschnitt und Komposition verbessern. In diesem Zusammenhang schlug das Autorenteam eine Bucketing-Strategie vor.

Wie setzt man es konkret um? Durch eingehende Lektüre des vom Autor veröffentlichten technischen Berichts haben wir erfahren, dass der sogenannte Bucket ein Triplett aus (Auflösung, Anzahl der Bilder, Seitenverhältnis) ist. Das Team hat eine Reihe von Seitenverhältnissen für Videos mit unterschiedlichen Auflösungen vordefiniert, um die gängigsten Arten von Video-Seitenverhältnissen abzudecken. Vor Beginn jeder Trainingszyklus-Epoche mischen sie den Datensatz neu und weisen die Proben basierend auf ihren Eigenschaften den entsprechenden Buckets zu. Konkret legen sie jedes Sample in einen Bucket, dessen Auflösung und Bildlänge kleiner oder gleich dieser Videofunktion sind.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora-Bucketing-Strategie

Das Autorenteam gab außerdem bekannt, dass es zur Reduzierung der Anforderungen an Rechenressourcen zwei Attribute (Auflösung, Anzahl der Frames) für jeweils keep_prob und batch_size zur Reduzierung eingeführt hat Kosten kalkulieren und mehrstufige Schulungen umsetzen. Auf diese Weise können sie die Anzahl der Proben in verschiedenen Buckets steuern und die GPU-Last ausgleichen, indem sie für jeden Bucket nach einer guten Batchgröße suchen. Der Autor erläutert dies im technischen Bericht. Interessierte Freunde können den vom Autor auf GitHub veröffentlichten technischen Bericht lesen, um weitere Informationen zu erhalten: https://github.com/hpcaitech/Open-Sora

Datenerfassung und -vorbereitung -Verarbeitungsprozess

Das Autorenteam bietet sogar detaillierte Anleitungen zur Datenerhebung und -verarbeitung. Laut der Erklärung des Autors im technischen Bericht wurde während des Entwicklungsprozesses von Open-Sora 1.0 erkannt, dass die Quantität und Qualität der Daten für die Entwicklung eines Hochleistungsmodells äußerst wichtig sind, und hat sich daher der Erweiterung und Optimierung des Datensatzes verschrieben . Sie etablierten einen automatisierten Datenverarbeitungsprozess, der dem Singular Value Decomposition (SVD)-Prinzip folgt und Szenensegmentierung, Untertitelverarbeitung, Diversitätsbewertung und -filterung sowie das Verwaltungssystem und die Spezifikation des Datensatzes umfasst. Ebenso selbstlos geben sie Skripte zur Datenverarbeitung an die Open-Source-Community weiter. Interessierte Entwickler können diese Ressourcen nun in Kombination mit technischen Berichten und Code nutzen, um ihre eigenen Datensätze effizient zu verarbeiten und zu optimieren.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora-Datenverarbeitungsprozess

Umfassende Bewertung der Open-Sora-Leistung

Videogenerierungseffektanzeige

Das auffälligste Highlight von Open-Sora ist das Es kann die Szene in Ihrem Kopf erfassen und durch Textbeschreibung in ein bewegendes Video umwandeln. Die Bilder und Vorstellungen, die mir durch den Kopf gingen, können nun dauerhaft aufgezeichnet und mit anderen geteilt werden. Hier hat der Autor als Ausgangspunkt verschiedene Eingabeaufforderungen ausprobiert.

Zum Beispiel hat der Autor versucht, ein Video vom Besuch eines Winterwaldes zu erstellen. Nicht lange nachdem der Schnee gefallen war, waren die Kiefern mit weißem Schnee bedeckt und weiße Schneeflocken waren in klaren Schichten verstreut.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Oder Sie befinden sich in einer ruhigen Nacht in einem dunklen Wald, wie er in unzähligen Märchen beschrieben wird, und der tiefe See funkelt unter den hellen Sternen am ganzen Himmel.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der nächtliche Blick auf die geschäftige Insel aus der Luft ist noch schöner. Die warmen gelben Lichter und das bandartige blaue Wasser entführen die Menschen in die entspannte Zeit des Urlaubs.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der geschäftige Verkehr in der Stadt, die Hochhäuser und Straßenläden, deren Lichter bis spät in die Nacht noch brennen, haben ein anderes Flair.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Neben der Landschaft kann Open-Sora auch verschiedene natürliche Lebewesen wiederherstellen. Ob es eine leuchtend rote Blume ist,

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

oder ein Chamäleon, das langsam den Kopf dreht, Open-Sora kann realistischere Videos erzeugen.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der Autor hat auch verschiedene Schnelltests ausprobiert und viele generierte Videos als Referenz bereitgestellt, darunter unterschiedliche Inhalte, unterschiedliche Auflösungen, unterschiedliche Seitenverhältnisse und unterschiedliche Dauern.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der Autor stellte außerdem fest, dass Open-Sora mit nur einem einfachen Befehl Videoclips mit mehreren Auflösungen generieren kann, wodurch die kreativen Einschränkungen vollständig durchbrochen werden.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 16*240p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 32*240p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 64*360p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 480 *854p

Wir können Open-Sora auch ein statisches Bild füttern, um ein kurzes Video zu erstellen

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora kann auch zwei statische Bilder geschickt verbinden, um das wechselnde Licht und den Schatten vom Nachmittag bis zur Abenddämmerung zu erleben.

Ein weiteres Beispiel: Wenn wir das Originalvideo bearbeiten möchten, führt der ursprünglich helle Wald mit nur einem einfachen Befehl zu starkem Schneefall.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Wir können Open-Sora auch verwenden, um hochauflösende Bilder zu generieren

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Das ist erwähnenswert Open-Sora-Modellgewichte sind bereits vorhanden völlig kostenlos. Es ist öffentlich in der Open-Source-Community, Sie können es also genauso gut herunterladen und ausprobieren. Da sie auch die Video-Splicing-Funktion unterstützen, haben Sie die Möglichkeit, kostenlos eine kurze Kurzgeschichte mit einer Geschichte zu erstellen, um Ihre Kreativität in die Realität umzusetzen.

Gewicht-Download-Adresse: https://github.com/hpcaitech/Open-Sora

Aktuelle Einschränkungen und Zukunftspläne

Obwohl gute Ergebnisse bei der Reproduktion Sora-ähnlicher Vincent-Videomodelle erzielt wurden, hat Fortschritte gemacht wurden erstellt, das Autorenteam weist jedoch auch bescheiden darauf hin, dass die derzeit generierten Videos in vielerlei Hinsicht noch verbessert werden müssen: einschließlich Rauschproblemen während des Generierungsprozesses, mangelnder zeitlicher Konsistenz, schlechter Qualität der Charaktergenerierung und niedrigen ästhetischen Werten. In Bezug auf diese Herausforderungen erklärte das Autorenteam, dass es der Lösung bei der Entwicklung der nächsten Version Priorität einräumen werde, um höhere Standards bei der Videogenerierung zu erreichen. Interessierte Freunde möchten möglicherweise weiterhin aufmerksam sein. Wir freuen uns auf die nächste Überraschung, die uns die Open-Sora-Community bringt.

Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora

Das obige ist der detaillierte Inhalt vonUmfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die KI -Spielentwicklung tritt mit dem Dreamer -Portal von Upheaval in seine agentenische Ära einMay 02, 2025 am 11:17 AM

Umwälzungsspiele: Revolutionierung der Spielentwicklung mit KI -Agenten Upprudaval, ein Studio für Spieleentwicklung, das aus Veteranen von Branchengiganten wie Blizzard und Obsidian besteht

Uber will dein Robotaxi -Shop sein. Werden Anbieter sie lassen?May 02, 2025 am 11:16 AM

Die Robotaxi-Strategie von Uber: Ein Fahrwerk Ökosystem für autonome Fahrzeuge Auf der jüngsten Curbivore-Konferenz stellte Richard Willder von Uber ihre Strategie vor, die Robotaxi-Anbieter zu werden. Nutzung ihrer dominanten Position in

KI -Agenten, die Videospiele spielen, werden zukünftige Roboter verändernMay 02, 2025 am 11:15 AM

Videospiele erweisen sich als unschätzbare Testgründe für die modernste KI-Forschung, insbesondere bei der Entwicklung autonomer Agenten und realer Roboter, die möglicherweise sogar zum Streben nach künstlicher allgemeiner Intelligenz (AGI) beitragen. A

Der Startup Industrial Complex, VC 3.0 und James Curriers ManifestoMay 02, 2025 am 11:14 AM

Die Auswirkungen der sich entwickelnden Risikokapitallandschaft sind in Medien, Finanzberichten und alltäglichen Gesprächen offensichtlich. Die spezifischen Konsequenzen für Anleger, Startups und Mittel werden jedoch häufig übersehen. Risikokapital 3.0: ein Paradigma

Adobe Updates Creative Cloud und Firefly bei Adobe Max London 2025May 02, 2025 am 11:13 AM

Adobe Max London 2025 lieferte erhebliche Aktualisierungen für Creative Cloud und Firefly, was eine strategische Verlagerung in Richtung Zugänglichkeit und generativer KI widerspiegelt. Diese Analyse enthält Erkenntnisse aus Briefings vor der Ereignis mit Adobe Leadership. (Hinweis: Adob

Alles, was Meta in Lamacon angekündigt hatMay 02, 2025 am 11:12 AM

Die Lamacon-Ankündigungen von Meta zeigen eine umfassende KI-Strategie, die direkt mit geschlossenen KI-Systemen wie OpenAIs konkurrieren und gleichzeitig neue Einnahmequellen für seine Open-Source-Modelle erstellt. Dieser vielfältige Ansatz zielt auf BO ab

Die Brau -Kontroverse über den Vorschlag, dass KI nichts anderes ist als nur normale TechnologieMay 02, 2025 am 11:10 AM

Es gibt schwerwiegende Unterschiede im Bereich der künstlichen Intelligenz zu dieser Schlussfolgerung. Einige bestehen darauf, dass es Zeit ist, die "neuen Kleidung des Kaisers" aufzudecken, während andere der Idee, dass künstliche Intelligenz nur gewöhnliche Technologie ist, stark aussieht. Lassen Sie uns darüber diskutieren. Eine Analyse dieses innovativen KI -Durchbruchs ist Teil meiner laufenden Forbes -Spalte, die die neuesten Fortschritte im Bereich der KI abdeckt, einschließlich der Identifizierung und Erklärung einer Vielzahl einflussreicher KI -Komplexitäten (klicken Sie hier, um den Link anzuzeigen). Künstliche Intelligenz als gemeinsame Technologie Erstens sind einige Grundkenntnisse erforderlich, um die Grundlage für diese wichtige Diskussion zu schaffen. Derzeit gibt es eine große Menge an Forschungen, die sich zur Weiterentwicklung künstlicher Intelligenz widmen. Das Gesamtziel ist es, künstliche allgemeine Intelligenz (AGI) und sogar mögliche künstliche Super Intelligence (AS) zu erreichen

Model -Bürger, warum KI -Wert der nächste Business -Maßstab istMay 02, 2025 am 11:09 AM

Die Effektivität des KI -Modells eines Unternehmens ist jetzt ein wichtiger Leistungsindikator. Seit dem KI -Boom wurde generative KI für alles verwendet, vom Komponieren von Geburtstagseinladungen bis zum Schreiben von Softwarecode. Dies hat zu einer Verbreitung von Sprachmod geführt

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

4 Wochen vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Kraftstufen für jeden Feind & Monster in R.E.P.O.

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Blauer Prinz: Wie man zum Keller kommt

3 Wochen vorByDDD

Heiße Werkzeuge

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Dreamweaver CS6

Visuelle Webentwicklungstools

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7921

1652

1411

1303

1248