


Das weltweit erste Open-Source-Videogenerierungsmodell für Sora-ähnliche Architektur ist da!
Der gesamte Trainingsprozess, einschließlich der Datenverarbeitung, aller Trainingsdetails und Modellgewichte, ist offen.
Dies ist das gerade veröffentlichte Open-Sora 1.0.
Der tatsächliche Effekt ist wie folgt: Es kann den geschäftigen Verkehr in der Nachtszene der geschäftigen Stadt erzeugen.
Sie können auch eine Luftbildperspektive verwenden, um die Szene der Klippenküste und des gegen die Felsen plätschernden Meerwassers zu zeigen.
Oder der weite Sternenhimmel unter Zeitrafferfotografie.
Seit seiner Veröffentlichung ist die Enthüllung und Reproduktion von Sora aufgrund seiner atemberaubenden Effekte und des Mangels an technischen Details zu einem der am meisten diskutierten Themen in der Entwickler-Community geworden. Beispielsweise hat das Colossal-AI-Team einen Sora-Trainings- und Inferenzreplikationsprozess gestartet, der die Kosten um 46 % senken kann.
Nach nur zwei Wochen veröffentlichte das Team erneut die neuesten Fortschritte, reproduzierte eine Sora-ähnliche Lösung und stellte die technische Lösung sowie detaillierte praktische Tutorials kostenlos und Open Source auf GitHub zur Verfügung.
Dann stellt sich die Frage: Wie kann man Sora reproduzieren?
Open-Sora Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora
Umfassende Interpretation der Sora-Replikationslösung
Die Sora-Replikationslösung umfasst vier Aspekte:
- Modellarchitekturdesign
- Schulung Replikation Die aktuelle Lösung
- Datenvorverarbeitung
- Effiziente Trainingsoptimierungsstrategie
Modellarchitekturdesign
Das Modell übernimmt die Sora-homologe Architektur Diffusion Transformer (DiT).
Es basiert auf PixArt-α, einem hochwertigen Open-Source-Graphmodell mit DiT-Architektur. Auf dieser Basis wird eine zeitliche Aufmerksamkeitsschicht eingeführt und auf Videodaten erweitert.
Konkret umfasst die gesamte Architektur ein vortrainiertes VAE, einen Text-Encoder und ein STDiT-Modell (Spatial Temporal Diffusion Transformer), das den räumlich-zeitlichen Aufmerksamkeitsmechanismus nutzt.
Unter diesen ist die Struktur jeder Schicht von STDiT in der folgenden Abbildung dargestellt.
Es verwendet eine serielle Methode, um ein eindimensionales zeitliches Aufmerksamkeitsmodul mit einem zweidimensionalen räumlichen Aufmerksamkeitsmodul zu überlagern, um zeitliche Beziehungen zu modellieren. Nach dem zeitlichen Aufmerksamkeitsmodul wird das Kreuzaufmerksamkeitsmodul verwendet, um die Semantik des Textes auszurichten.
Im Vergleich zum Vollaufmerksamkeitsmechanismus reduziert eine solche Struktur den Trainings- und Inferenzaufwand erheblich.
Im Vergleich zum Latte-Modell, das ebenfalls den räumlich-zeitlichen Aufmerksamkeitsmechanismus verwendet, kann STDiT die Gewichte des vorab trainierten Bild-DiT besser nutzen, um das Training an Videodaten fortzusetzen.
△STDiT-Strukturdiagramm
Der Trainings- und Inferenzprozess des gesamten Modells ist wie folgt.
Es versteht sich, dass in der Trainingsphase zunächst der vorab trainierte Variational Autoencoder (VAE)-Encoder zum Komprimieren der Videodaten verwendet wird und dann das STDiT-Diffusionsmodell zusammen mit der Texteinbettung im komprimierten latenten Raum trainiert wird.
In der Inferenzphase wird ein Gaußsches Rauschen zufällig aus dem latenten Raum des VAE abgetastet und zusammen mit der Prompt-Einbettung in STDiT eingegeben, um die entrauschten Merkmale zu erhalten. Schließlich wird es in den VAE-Decoder eingegeben und dekodiert, um ein Video zu erhalten.
△Modelltrainingsprozess
Trainingsreproduktionsplan
Im Trainingsreproduktionsteil bezieht sich Open-Sora auf Stable Video Diffusion (SVD).
Es ist in 3 Phasen unterteilt:
- Großflächiges Bild-Vortraining.
- Groß angelegtes Video-Vortraining.
- Hochwertige Feinabstimmung der Videodaten.
Bei jeder Stufe wird das Training basierend auf den Gewichten der vorherigen Stufe fortgesetzt. Im Vergleich zum einstufigen Training von Grund auf erreicht das mehrstufige Training das Ziel einer qualitativ hochwertigen Videogenerierung effizienter, indem die Daten schrittweise erweitert werden.
△Dreistufiger Trainingsplan
Die erste Stufe ist das groß angelegte Bild-Vortraining.
Das Team nutzte die umfangreichen Bilddaten und die vinzentinische Graphentechnologie im Internet, um zunächst ein hochwertiges vinzentinisches Graphenmodell zu trainieren und dieses Modell als Initialisierungsgewicht für die nächste Stufe des Video-Vortrainings zu verwenden.
Da es derzeit keine qualitativ hochwertige räumlich-zeitliche VAE gibt, verwenden sie gleichzeitig vorab trainierte Bild-VAE mit stabiler Diffusion.
Dies stellt nicht nur die überlegene Leistung des ursprünglichen Modells sicher, sondern reduziert auch die Gesamtkosten für das Video-Vortraining erheblich.
Die zweite Stufe ist ein groß angelegtes Video-Vortraining.
Diese Phase erhöht hauptsächlich die Generalisierungsfähigkeit des Modells und erfasst effektiv die Zeitreihenkorrelation des Videos.
Es muss eine große Menge an Videodaten für das Training verwendet und die Vielfalt der Videomaterialien sichergestellt werden.
Gleichzeitig fügt das Modell der zweiten Stufe ein zeitliches Aufmerksamkeitsmodul hinzu, das auf dem vinzentinischen Graphenmodell der ersten Stufe basiert, um zeitliche Beziehungen in Videos zu lernen. Die verbleibenden Module bleiben mit der ersten Stufe konsistent und laden die Gewichte der ersten Stufe als Initialisierung, während die Ausgabe des zeitlichen Aufmerksamkeitsmoduls auf Null initialisiert wird, um eine effizientere und schnellere Konvergenz zu erreichen.
Das Colossal-AI-Team verwendete die Open-Source-Gewichte von PixArt-alpha als Initialisierung des STDiT-Modells der zweiten Stufe und das T5-Modell als Text-Encoder. Für das Vortraining verwendeten sie eine kleine Auflösung von 256 x 256, was die Konvergenzgeschwindigkeit weiter erhöhte und die Trainingskosten senkte.
△Open-Sora-Generierungseffekt (Stichwort: Aufnahmen der Unterwasserwelt, in der eine Schildkröte gemächlich zwischen Korallenriffen schwimmt)
Die dritte Stufe ist die Feinabstimmung hochwertiger Videodaten.
Berichten zufolge kann diese Phase die Qualität der Modellgenerierung erheblich verbessern. Die verwendete Datengröße ist um eine Größenordnung geringer als in der vorherigen Stufe, aber die Dauer, Auflösung und Qualität der Videos sind höher.
Durch die Feinabstimmung auf diese Weise kann eine effiziente Erweiterung der Videoerzeugung von kurz auf lang, von niedriger Auflösung auf hohe Auflösung und von niedriger Wiedergabetreue auf hohe Wiedergabetreue erreicht werden.
Erwähnenswert ist, dass Colossal-AI auch den Ressourcenverbrauch jeder Stufe detailliert offengelegt hat.
Im Reproduktionsprozess von Open-Sora nutzten sie 64 H800 für das Training. Das Gesamttrainingsvolumen der zweiten Stufe beträgt 2808 GPU-Stunden, was etwa 7.000 US-Dollar entspricht, und das Trainingsvolumen der dritten Stufe beträgt 1920 GPU-Stunden, was etwa 4.500 US-Dollar entspricht. Nach vorläufiger Schätzung kontrollierte der gesamte Trainingsplan den Open-Sora-Reproduktionsprozess erfolgreich auf etwa 10.000 US-Dollar.
Datenvorverarbeitung
Um den Schwellenwert und die Komplexität der Sora-Wiederholung weiter zu reduzieren, stellt das Colossal-AI-Team außerdem ein praktisches Videodaten-Vorverarbeitungsskript im Code-Warehouse bereit, sodass jeder problemlos mit dem Vortraining für Sora-Wiederholungen beginnen kann.
Einschließlich des Herunterladens öffentlicher Videodatensätze, der Segmentierung langer Videos in kurze Videoclips basierend auf der Aufnahmekontinuität und der Verwendung des Open-Source-Großsprachenmodells LLaVA zur Generierung präziser Aufforderungswörter.
Der von ihnen bereitgestellte Batch-Code zur Generierung von Videotiteln kann ein Video mit zwei Karten und 3 Sekunden mit Anmerkungen versehen, und die Qualität liegt nahe an GPT-4V.
Das finale Video/Text-Paar kann direkt zum Training genutzt werden. Mit dem auf GitHub bereitgestellten Open-Source-Code können Sie einfach und schnell die für das Training erforderlichen Video-/Textpaare auf Ihrem eigenen Datensatz generieren und so den technischen Schwellenwert und die vorbereitende Vorbereitung für den Start eines Sora-Replikationsprojekts erheblich reduzieren.
Effiziente Trainingsunterstützung
Darüber hinaus bietet das Colossal-AI-Team auch eine Lösung zur Trainingsbeschleunigung.
Durch effiziente Trainingsstrategien wie Bedieneroptimierung und Hybridparallelität wurde beim Training der Verarbeitung von Videos mit 64 Bildern und einer Auflösung von 512 x 512 ein 1,55-facher Beschleunigungseffekt erzielt.
Gleichzeitig kann dank des heterogenen Speicherverwaltungssystems von Colossal-AI eine 1-minütige 1080p-HD-Video-Trainingsaufgabe ungehindert auf einem einzigen Server (8H800) durchgeführt werden.
Und das Team stellte außerdem fest, dass die STDiT-Modellarchitektur auch während des Trainings eine hervorragende Effizienz zeigte.
Im Vergleich zu DiT, das den Vollaufmerksamkeitsmechanismus nutzt, erreicht STDiT mit zunehmender Anzahl von Bildern eine bis zu fünffache Beschleunigung, was besonders bei realen Aufgaben wie der Verarbeitung langer Videosequenzen von entscheidender Bedeutung ist.
Schließlich veröffentlichte das Team auch weitere Open-Sora-Generationseffekte.
, Dauer 00:25
Das Team und Qubits gaben bekannt, dass sie Open-Sora-bezogene Lösungen und Entwicklungen langfristig aktualisieren und optimieren werden. In Zukunft werden mehr Videotrainingsdaten verwendet, um qualitativ hochwertigere, längere Videoinhalte zu generieren und Funktionen mit mehreren Auflösungen zu unterstützen.
In Bezug auf praktische Anwendungen gab das Team bekannt, dass es die Umsetzung in Filmen, Spielen, Werbung und anderen Bereichen vorantreiben wird.
Interessierte Entwickler können das GitHub-Projekt besuchen, um mehr zu erfahren~
Open-Sora Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora
Referenzlink:
[1]https://arxiv .org/abs/2212.09748 Skalierbare Diffusionsmodelle mit Transformatoren.
[2]https://arxiv.org/abs/2310.00426 PixArt-α: Schnelles Training des Diffusionstransformators für die fotorealistische Text-zu-Bild-Synthese.
[3]https://arxiv.org/abs/2311.15127 Stabile Videodiffusion: Skalierung latenter Videodiffusionsmodelle auf große Datensätze.
[4]https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer für die Videoerzeugung.
[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original.
[6]https://github.com/google-research/text-to-text-transfer-transformer.
[7]https://github.com/haotian-liu/LLaVA.
[8]https://hpc-ai.com/blog/open-sora-v1.0.
Das obige ist der detaillierte Inhalt vonDie weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

In John Rawls 'wegweisendem Buch von 1971 schlug er ein Gedankenexperiment vor, das wir als Kern des heutigen KI-Designs und der Entscheidungsfindung verwenden sollten: den Schleier der Unwissenheit. Diese Philosophie bietet ein einfaches Instrument zum Verständnis von Eigenkapital und bietet auch eine Entwurf für Führungskräfte, um dieses Verständnis zu nutzen, um KI auf gerechte Weise zu entwerfen und umzusetzen. Stellen Sie sich vor, Sie treffen Regeln für eine neue Gesellschaft. Aber es gibt eine Prämisse: Sie wissen nicht im Voraus, welche Rolle Sie in dieser Gesellschaft spielen werden. Möglicherweise sind Sie reich oder arm, gesund oder behindert, gehören einer Mehrheit oder einer marginalen Minderheit. Der Betrieb unter diesem "Schleier der Unwissenheit" verhindert, dass Regelmacher Entscheidungen treffen, die selbst zugute kommen. Im Gegenteil, die Menschen werden motivierter sein, die Öffentlichkeit zu formulieren

Zahlreiche Unternehmen sind auf Roboterprozessautomatisierung (RPA) spezialisiert und bieten Bots, um sich wiederholende Aufgaben zu automatisieren - Uipath, Automatisierung überall, blaues Prisma und andere. In der Zwischenzeit verarbeiten Sie Mining, Orchestrierung und intelligente Dokumentenverarbeitung Speciali

Die Zukunft der KI bewegt sich über die einfache Wortvorhersage und die Konversationsimulation hinaus. KI -Agenten sind aufgetaucht, in der Lage, unabhängige Handlungen und Aufgabenabschluss zu erledigen. Diese Verschiebung zeigt sich bereits in Tools wie dem Claude von Anthropic. KI -Agenten: Forschung a

Schnelle technologische Fortschritte erfordern eine zukunftsweisende Perspektive auf die Zukunft der Arbeit. Was passiert, wenn die KI nur die Produktivitätsverstärkung überschreitet und unsere gesellschaftlichen Strukturen prägt? Topher McDougals bevorstehendes Buch Gaia Wakes:

Die Produktklassifizierung, die häufig komplexe Codes wie "HS 8471.30" aus Systemen wie dem harmonisierten System (HS) umfasst, ist für den internationalen Handel und den Inlandsumsatz von entscheidender Bedeutung. Diese Codes gewährleisten den korrekten Steuerantrag und wirken sich auf jeden Inv aus

Die Zukunft des Energieverbrauchs in Rechenzentren und Klimaschutzinvestitionen In diesem Artikel wird der Anstieg des Energieverbrauchs in Rechenzentren untersucht, die von KI und ihren Auswirkungen auf den Klimawandel angetrieben werden, und analysiert innovative Lösungen und politische Empfehlungen, um diese Herausforderung zu befriedigen. Herausforderungen des Energiebedarfs: Zentren im großen und ultra-großen Maßstab verbrauchen enorme Macht, vergleichbar mit der Summe von Hunderttausenden gewöhnlicher nordamerikanischer Familien und aufstrebende AI-Zentren im Bereich Ultra-Large-Scale-Zentren verbrauchen Dutzende von Zeiten mehr mehr Macht als diese. In den ersten acht Monaten des 2024 haben Microsoft, Meta, Google und Amazon rund 125 Milliarden US -Dollar in den Bau und den Betrieb von AI -Rechenzentren investiert (JP Morgan, 2024) (Tabelle 1). Der wachsende Energiebedarf ist sowohl eine Herausforderung als auch eine Chance. Laut Kanarischen Medien der drohende Elektrizität

Generative AI revolutioniert die Film- und Fernsehproduktion. Das Ray 2-Modell von Luma sowie das Gen-4 von Runway, Openai von Sora, Google's VEO und andere neue Modelle verbessern die Qualität der generierten Videos mit beispielloser Geschwindigkeit. Diese Modelle können problemlos komplexe Spezialeffekte und realistische Szenen erzeugen, selbst kurze Videoclips und Kameraser-Bewegungseffekte wurden erreicht. Während die Manipulation und Konsistenz dieser Tools noch verbessert werden müssen, ist die Geschwindigkeit des Fortschritts erstaunlich. Generatives Video wird zu einem unabhängigen Medium. Einige Modelle sind gut in der Animationsproduktion, andere sind gut in Live-Action-Bildern. Es ist erwähnenswert, dass Adobe's Firefly und Moonvalleys MA

ChatGPT -Benutzererfahrung lehnt ab: Ist es ein Modellverschlechterungs- oder Benutzererwartungen? In jüngster Zeit haben sich eine große Anzahl von ChatGPT bezahlten Nutzern über ihre Leistungsverschlechterung beschwert, die weit verbreitete Aufmerksamkeit erregt hat. Die Benutzer berichteten über langsamere Antworten auf Modelle, kürzere Antworten, mangelnde Hilfe und noch mehr Halluzinationen. Einige Benutzer äußerten Unzufriedenheit in den sozialen Medien und wiesen darauf hin, dass ChatGPT zu „zu schmeichelhaft“ geworden ist, und neigt dazu, Benutzeransichten zu überprüfen, anstatt ein kritisches Feedback zu geben. Dies wirkt sich nicht nur auf die Benutzererfahrung aus, sondern verleiht Unternehmenskunden auch tatsächliche Verluste, wie z. B. reduzierte Produktivität und Rechenressourcenverschwendung. Nachweis der Leistungsverschlechterung Viele Benutzer haben einen signifikanten Verschlechterung der Chatgpt-Leistung gemeldet, insbesondere in älteren Modellen wie GPT-4 (die Ende dieses Monats bald vom Service abgebrochen werden). Das


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

SAP NetWeaver Server-Adapter für Eclipse
Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.
