Maison >Périphériques technologiques >IA >Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises

Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises

王林original: 2024-06-18 20:57:51599parcourir

L'équipe Luchen Open-Sora a réalisé des progrès révolutionnaires dans la qualité vidéo Vincent haute définition 720p et dans le temps de génération, soutenant la production transparente de courts métrages de haute qualité dans tous les styles. un autre choc pour la communauté open source et continuer à tout open source.

Adresse Open source : https://github.com/hpcaitech/Open-Sora

Grâce à leurs poids de modèle, ils peuvent générer une variété de courts métrages sympas, tels que le contact étroit entre les vagues et les conques, et ceux qui sont insondables Le secret de la forêt.

Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises

Le rendu des portraits de personnages est également assez réaliste.

Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises

peut également restituer avec précision le style cyberpunk, rendant le court métrage instantanément plein d'un fort sentiment d'avenir et de technologie. Les images sont compressées.

Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises

peut également générer des plans d'animation intéressants et vifs, apportant une expérience visuelle très expressive. Les images sont compressées.

Même la production d'objectifs au niveau du film peut être facilement gérée.

Par exemple, obtenez des effets de zoom fluides et ajoutez des effets visuels de qualité professionnelle aux vidéos. Les images sont compressées.

Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises Il aide également les cinéastes à créer des plans de film réalistes. Les images sont compressées.

Le modèle Open-Sora de Luchen révèle de larges perspectives dans le domaine de la génération vidéo avec ses excellentes performances, et leurs poids de modèle et leur code de formation sont entièrement open source. Les amis intéressés peuvent visiter leur adresse GitHub : ^{https://github. .com/hpcaitech/Open-Sora}

Les guerriers de l'open source dans l'industrie vidéo vincentienne

Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises LambdaLabs, une licorne de l'industrie technologique américaine, a créé un numéro basé sur le poids du modèle Open-Sora précédemment ouvert- provenant de l'équipe LEGO Universe de Luchen, où les fans de LEGO trouvent l'expérience créative ultime.

L'équipe Luchen est bien consciente de l'accélération de l'open source pour les avancées technologiques de Vincent Video. Elle continue non seulement à open source les poids des modèles, mais publie également le parcours technique sur Github, afin que chaque acteur puisse le devenir. le maître du grand modèle de Vincent Vidéo Ils ne sont plus seulement des spectateurs. Dès la publication du rapport, nous avons rapidement mené des recherches et des analyses approfondies, en essayant de capturer les dernières tendances en matière de technologie vidéo Vincent. (Adresse du rapport : https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md)

Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises Décodage technique en profondeur

Dans ce rapport technique publié par l'équipe Luchen OpenSora, ils ont analysé en profondeur le cœur et les points clés de ce modèle de formation. Sur la base de la version précédente, il a introduit le réseau de compression vidéo, un meilleur algorithme de modèle de diffusion, plus de contrôlabilité et a utilisé plus de données pour former un modèle de génération de diffusion 1.1B.

À l'ère de « la puissance de calcul est reine », nous sommes bien conscients des deux principaux problèmes de la formation de modèles vidéo : l'énorme consommation de ressources informatiques et le niveau élevé de qualité de sortie des modèles. L'équipe Luchen Open-Sora a réussi à trouver un équilibre entre coût et qualité avec une solution minimaliste et efficace.

L'équipe OpenSora a proposé un réseau de compression vidéo (VAE) innovant, qui compresse en deux dimensions : l'espace et le temps. Plus précisément, ils ont d’abord effectué une compression 8x8x dans la dimension spatiale, suivie d’une autre compression 4x dans la dimension temporelle. Grâce à cette stratégie de compression innovante, elle évite non seulement l'inconvénient de sacrifier la fluidité vidéo due à l'extraction d'images, mais réduit également considérablement les coûts de formation, permettant ainsi une double optimisation du coût et de la qualité. ♥ Structure du réseau de compression vidéo Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises

Stable Diffusion 3, le dernier modèle de diffusion, pour améliorer considérablement la qualité de la génération d'images et de vidéos. en utilisant la technologie à flux rectifié pour remplacer le DDPM. Bien que le code de formation en flux rectifié du SD3 n'ait pas encore été rendu public, l'équipe Luchen Open-Sora a fourni une solution de formation complète basée sur les résultats de recherche du SD3, comprenant :

Flux rectifié simple et facile à utiliser formation

Échantillonnage de pas de temps logit-norme pour l'accélération de la formation
Échantillonnage de pas de temps basé sur la résolution et la longueur de la vidéo
En intégrant ces technologies, nous sommes non seulement en mesure d'accélérer la formation du modèle, Cela peut également réduire considérablement le temps d’attente dans la phase d’inférence et garantir une expérience utilisateur fluide. En outre, cette solution de formation prend également en charge la sortie de plusieurs formats vidéo pendant le processus d'inférence, répondant ainsi aux besoins de matériel vidéo dans divers scénarios et fournissant aux créateurs de contenu vidéo des outils de création plus riches.
Ils ont également révélé plus de détails de base sur la formation des modèles dans le rapport, y compris des conseils pratiques pour le nettoyage des données et le réglage du modèle, ainsi que la création d'un système d'évaluation de modèle plus complet pour garantir la robustesse et les capacités de généralisation du modèle. Ils fournissent également une application Gradio qui peut être déployée en un seul clic et prend en charge l'ajustement des paramètres tels que les scores de mouvement de sortie, les scores esthétiques et les méthodes de mouvement de l'objectif. Elle peut même modifier automatiquement les instructions via GPT-4o en un seul clic et prend en charge la saisie en chinois. Si vous ne pouvez pas vous empêcher de vous salir les mains, veuillez cliquer sur https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

Briser la boucle fermée, autonomisation open source

De OpenAI Sora Depuis sa sortie, les attentes de l'industrie concernant l'ouverture de Sora sont montées en flèche, mais la réalité est que cela continue d'être un jeu d'attente. L'open source de Luchen Open-Sora a insufflé une forte vitalité à l'innovation et au développement de Vincent Video. "Apprendre à un homme à pêcher est pire que lui apprendre à pêcher." En visitant leur adresse github, vous pouvez obtenir gratuitement les poids du modèle et un ensemble complet de codes de formation avec un seuil nul, ce qui permet aux utilisateurs de passer du statut de consommateur de contenu passif à celui de consommateur de contenu passif. créateurs de contenu actifs. Cette transformation a permis aux utilisateurs professionnels de développer de nouvelles compétences pour développer de manière indépendante des applications Vincent Video. Qu'il s'agisse de créer des jeux immersifs, de publicités créatives ou de produire des superproductions cinématographiques et télévisuelles, les scénarios d'application de la technologie Vincent Video ont été étendus de façon exponentielle.

Nous espérons que cette étincelle pourra enflammer la passion pour l'innovation dans tout le domaine de la vidéo Vincent et provoquer un feu de prairie d'un point à l'autre.

Enfin ci-joint le lien open source Luchen OpenSora : Une vidéo haute définition 720p de 16 secondes à objectif unique est générée en un seul clic, et la version open source de Sora réserve de nouvelles surprises https://github.com/hpcaitech/Open-Sora

Lien de référence :

^{https://wandb.ai/lambdalabs/lego/ rapports /Text2Bricks-Fine-tuning-Open-Sora-in-1-000-GPU-Hours--Vmlldzo4MDE3MTky}

^{https://hpc-ai.com/blog/open-sora-from-hpc- ai -tech-team-continue-open-source-generate-any-16-second-720p-hd-video-with-one-click-model-weights-ready-to-use}

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

github 算法 stable diffusion https gpt

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：L'efficacité informatique a été multipliée par plus de 100 et a été soumise à l'équipe de Li Jinjin pour développer un grand modèle basé sur Transformer pour les calculs de dynamique moléculaire ab initio.Article suivant：L'efficacité informatique a été multipliée par plus de 100 et a été soumise à l'équipe de Li Jinjin pour développer un grand modèle basé sur Transformer pour les calculs de dynamique moléculaire ab initio.

Articles Liés

Voir plus