Maison  >  Article  >  Périphériques technologiques  >  La version Kuaishou de Sora "Ke Ling" est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

La version Kuaishou de Sora "Ke Ling" est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

WBOY
WBOYoriginal
2024-06-11 09:51:48626parcourir

Quoi ? Zootopie est-elle concrétisée par l’IA domestique ?

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

Exposé avec la vidéo se trouve un nouveau modèle de génération vidéo domestique à grande échelle appelé "Keling".

Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination.

Selon les données, Keling prend en charge la génération de vidéos ultra-longues jusqu'à 2 minutes30fps, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

Un autre point important est que Keling n'est pas une démo ou une démonstration de résultat vidéo publiée par un laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte.

Et il se concentre sur le pragmatisme, sans écrire de chèques en blanc, mis en ligne immédiatement après sa sortie, le grand modèle Keling a officiellement ouvert les tests bêta dans Kuaiying APP.

Sans plus tarder, laissez-moi vous montrer le chef-d'œuvre de Ke Ling~

Il comprend mieux les lois du monde et peut décrire avec précision des mouvements complexes

Je crois qu'à travers la vidéo d'ouverture, tout le monde a déjà ressenti la riche imagination de Ke Ling.

Keling est non seulement imaginatif et sans contrainte, mais se conforme également aux lois réelles du mouvement lorsqu'il représente le mouvement Un mouvement spatio-temporel complexe et à grande échelle peut également être représenté avec précision.

Par exemple, ce tigre courant à grande vitesse sur la route a non seulement une image cohérente, des changements raisonnables d'angle de caméra et des mouvements coordonnés des membres du tigre, mais affiche également de manière vivante les tremblements du tronc pendant la course.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

Il y a aussi une scène d'astronautes courant sur la lune. Les mouvements sont fluides, la démarche et le mouvement de l'ombre sont raisonnables et appropriés, c'est incroyable.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

En plus du mouvement, le grand modèle Keling peut également simuler les caractéristiques du monde physique réel, et les vidéos générées sont plus conformes aux lois de la physique.

Dans cette vidéo de versement du lait, la loi mécanique de la gravité et la montée du niveau du liquide sont toutes conformes à la réalité. Même la caractéristique selon laquelle la mousse est toujours au dessus lors du versement du liquide est également reprise. en considération :

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

Aussi. Les lois de réflexion optiques sont également prises en considération. Faites attention au chat qui joue du piano. Les pattes et les touches du chat dans l'ombre sur la surface lisse changent toutes de manière synchrone. le corps principal.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

De plus, l'interaction entre et le monde physique réel peut également être véritablement reflétée - dans la vidéo générée du petit garçon mangeant un hamburger dans la vidéo ci-dessous, les marques de dents sont toujours là après une mordez et le petit garçon aime manger. Le processus consistant à savourer le hamburger se déroule comme s'il se déroulait sous vos yeux.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

Il faut savoir que se conformer aux lois de la physique est encore assez difficile pour les grands modèles, et même Sora n'y parvient pas pleinement.

Par exemple, dans la même scène de manger un hamburger, la vidéo générée par Sora a non seulement l'inconvénient qu'une main humaine n'a que trois doigts, mais la position de la morsure ne correspond pas aux marques de morsure sur le hamburger...

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

Pas seulement dans le monde réel Les lois de la physique et du mouvement, ainsi que les scènes de imagination, peuvent être facilement comprises par Ke Ling.

Par exemple, ce lapin portant des lunettes boit du café et lit le journal, tranquillement et satisfait.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

En même temps, la représentation des détails par Ke Ling est également très bonne, comme deux fleurs à floraison lente, vous pouvez voir les détails des pétales et des étamines.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

De plus, Keling génère non seulement des vidéos plus réalistes, mais génère également des vidéos avec des résolutions allant jusqu'à 1080p, une durée allant jusqu'à 2 minutes (fréquence d'images 30 ips) et prend en charge le format d'image gratuit.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

Il comprend également des vidéos verticales, qui peuvent être considérées comme tout à fait cohérentes avec l'écosystème vidéo court de Kuaishou.

Sur la photo, un train avance et le paysage à l'extérieur de la fenêtre traverse les quatre saisons du printemps, de l'été, de l'automne et de l'hiver. L'ensemble de l'image de deux minutes est très cohérente.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

À ce stade, je crois que les effets ont été suffisamment démontrés. Si vous n'êtes toujours pas satisfait, vous pouvez vous rendre sur la plateforme du site officiel de Keling (voir la fin de l'article pour le portail) pour regardez plus de vidéos magiques sur l'IA !

(Remarque : les vidéos de cet article sont compressées, et la haute définition et les derniers effets sont soumis au site officiel)

Alors, quelles technologies uniques sont utilisées derrière ces vidéos de Keling ?

Route de la technologie de génération vidéo native

Dans l'ensemble, le grand modèle de Keling adopte la route de la technologie vidéo native Wensheng, remplaçant la combinaison génération d'image + module de synchronisation. C'est aussi la raison pour laquelle le long temps de génération, frame de Keling. Il a une grande efficacité et peut gérer avec précision les secrets fondamentaux des mouvements complexes.

Plus précisément, l'équipe Kuaishou Big Model estime qu'un excellent modèle de génération vidéo doit prendre en compte quatre éléments fondamentaux : Conception du modèle, assurance des données, efficacité informatique et expansion des capacités du modèle.

Architecture du modèle de type Sora, la loi de mise à l'échelle a été vérifiée

Commençons par la conception du modèle. Deux facteurs doivent être pris en compte, l'un est assez fortcapacité d'ajustement, et l'autre est suffisant. capacité des paramètres.

En termes de sélection d'architecture, le cadre global de Keling adopte une

structure DiT de type Sora, utilisant Transformer pour remplacer le U-Net basé sur le réseau convolutif dans le modèle de diffusion traditionnel.

Transformer possède des capacités de traitement et de génération plus puissantes, des capacités d'extension plus fortes et une meilleure efficacité de convergence, ce qui résout les limites d'U-Net avec une redondance excessive et une incompatibilité entre le champ de réception et la précision de positionnement lors du traitement de tâches complexes.

Sur cette base, l'équipe du grand modèle Kuaishou a également mis à niveau le

encodage/décodage de l'espace caché, la modélisation du timing et d'autres modules du modèle.

Actuellement, dans l'encodage/décodage d'espace latent, les modèles de génération vidéo grand public utilisent généralement le VAE 2D de Stable Diffusion pour la compression spatiale, mais cela présente une redondance évidente des informations pour les vidéos.

Par conséquent, l'équipe Kuaishou Large Model a auto-développé le

Réseau VAE 3D pour obtenir une compression synchrone de l'espace et du temps, obtenir une qualité de reconstruction supérieure et obtenir le meilleur équilibre entre les performances et l'effet de l'entraînement.

De plus, en termes de modélisation de l'information temporelle, l'équipe des grands modèles de Kuaishou a conçu un

mécanisme de pleine attention (Attention 3D) efficace sur le plan informatique en tant que module de modélisation spatio-temporelle.

Cette méthode peut modéliser avec plus de précision un mouvement spatio-temporel complexe, tout en prenant en compte le coût de calcul, améliorant ainsi efficacement les capacités de modélisation du modèle.

Bien sûr, en plus des capacités propres du modèle, les invites de texte saisies par l'utilisateur ont également un impact important sur l'effet final généré.

À cette fin, l'équipe a spécialement conçu un

modèle de langage dédié, qui peut effectuer une expansion et une optimisation de haute qualité des mots rapides saisis par les utilisateurs.

Comment les données sont-elles construites ? Solution de filtrage de données auto-construite de haute qualité

Après avoir parlé de la conception du modèle, les données sont également cruciales pour les performances du modèle.

En fait, l'ampleur et la qualité insuffisantes des données de formation sont également des problèmes épineux auxquels sont confrontés de nombreux développeurs de modèles de génération vidéo.

Les vidéos en ligne sont généralement de mauvaise qualité et difficiles à répondre aux besoins de formation. L'équipe du grand modèle Kuaishou a construit un

système de balises relativement complet, qui peut affiner les données d'entraînement ou ajuster la distribution des données d'entraînement.

Ce système caractérise la qualité des données vidéo à partir de plusieurs dimensions telles que la qualité vidéo de base, l'esthétique et le naturel, et conçoit une variété de fonctionnalités d'étiquettes personnalisées pour chaque dimension.

Lors de la formation d'un modèle de génération vidéo, vous devez transmettre simultanément la vidéo et la description textuelle correspondante au modèle. La qualité de la vidéo elle-même est également garantie. Comment obtenir sa description textuelle correspondante ?

L'équipe de développement a spécialement développé le modèle de description vidéo, qui peut générer des descriptions vidéo précises, détaillées et structurées. Améliorez considérablement la réactivité des commandes de texte des modèles de génération vidéo.

Même si le modèle est extrêmement talentueux, il ne peut être séparé du travail acharné et de la pratique

Maintenant que le modèle et les données sont disponibles, l'efficacité informatique doit également suivre le rythme. Ce n'est qu'ainsi que nous pourrons compléter la formation sur les données massives. un temps limité et voir des résultats significatifs.

Afin d'obtenir une efficacité informatique plus élevée, Keling Large Model n'adopte pas la solution DDPM courante dans l'industrie, mais utilise un modèle de flux avec un chemin de transmission plus courtcomme base du modèle de diffusion.

D'un autre point de vue, le manque de puissance de calcul est également un problème auquel sont confrontés de nombreux praticiens de l'IA. Même les grands géants du modèle comme OpenAI disposent de ressources en puissance de calcul qui sont également rares.

Ce problème ne sera peut-être pas complètement résolu en peu de temps, mais ce qui peut être fait, c'est d'améliorer autant que possible l'efficacité de la puissance de calcul dans des conditions de ressources matérielles globales limitées.

L'équipe du grand modèle de Kuaishou a utilisé le cluster de formation distribuée, et grâce à l'optimisation des opérateurs, à l'optimisation de la stratégie de recalcul et d'autres moyens, elle a considérablement amélioré l'utilisation matérielle du grand modèle de Keling.

Pendant le processus de formation, Keling n'a pas choisi de réussir en une seule étape, mais a adopté une formation par étapesstratégie pour améliorer progressivement la résolution :

Au début de la phase basse résolution, l'essentiel est de gagner en quantité. Les données améliorent la compréhension et les capacités de modélisation de la diversité conceptuelle du modèle.

Dans l'étape suivante de haute résolution, la qualité des données commence à devenir une considération plus importante, dans le but d'améliorer encore les performances du modèle ; performances en détails.

L'adoption d'une telle stratégie combine efficacement les avantages de la quantité et de la qualité, garantissant que le modèle peut être optimisé et amélioré à toutes les étapes de la formation.

Les demandes sont en constante évolution et le modèle est adaptable

En plus de la recherche et du développement du modèle de base, l'équipe des grands modèles Kuaishou a également élargi ses capacités à partir de plusieurs dimensions telles que le rapport hauteur/largeur.

En termes de rapport hauteur/largeur, Keling n'utilise pas non plus le modèle grand public pour s'entraîner à une résolution fixe.

Parce que les méthodes traditionnelles introduisent généralement une logique de prétraitement face à des données réelles avec des proportions variables, détruisant la composition des données d'origine, entraînant une mauvaise composition des résultats générés.

En revanche, la solution de l'équipe Kuaishou Large Model permet au modèle de traiter directement des données de différents rapports d'aspect, en préservant la composition des données d'origine.

Afin de faire face à la demande de génération de vidéo de plusieurs minutes voire plus dans le futur, l'équipe a également développé une solution d'extension de timing vidéo basée sur l'autorégression sans dégradation d'effet évidente.

En plus de la saisie de texte, Keling prend également en charge une variété de saisie d'informations de contrôle, telles que le mouvement de la caméra, la fréquence d'images, les bords/points clés/profondeur, etc., offrant aux utilisateurs de riches capacités de contrôle de contenu.

Ne faites pas de grands modèles de « gâteaux peints », l'application est le dernier mot

La grande industrie du modélisme a « roulé » jusqu'à ce jour, nous avons été témoins de trop de moments forts technologiques, mais l'intention initiale des percées technologiques est toujours application.

Le modèle de génération vidéo Kuaishou Keling est né du principal fabricant de vidéos courtes et continue d'être exploré pour ses applications. A noter que le grand modèle de Ke Ling est en ligne dès sa sortie, sans aucun problème ! Ne dessinez pas de gâteau ! Ne dessinez pas de gâteau !

Le modèle vidéo Wensheng de Keling a été officiellement ouvert aux tests bêta dans l'application Kuaiying La version actuellement ouverte prend en charge la génération vidéo 720P et la capacité de génération vidéo verticale sera également bientôt disponible.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

En plus de Wensheng Video, Kuaishou a également lancé d'autres applications basées sur le grand modèle Keling, telles que "AI Dance King"a été lancée dans les applications Kuaishou et Kuaiying.

Qu'il s'agisse du sujet trois ou deux, à condition de télécharger une photo du corps entier, les personnages peuvent danser gracieusement sur la musique en quelques minutes, et même les guerriers et les chevaux en terre cuite peuvent danser dans le style ethnique le plus éblouissant.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

En plus du module de génération vidéo, l'équipe de grands modèles de Kuaishou a également ajouté une technologie de reconstruction de visage 3D auto-développée, ainsi que des modules de stabilisation et de redirection d'arrière-plan pour afficher de manière plus vivante les expressions et les effets de mouvement.

De plus, la nouvelle technologie"AI chantant et dansant" a également fait ses débuts, qui permet aux personnages d'ouvrir la bouche et de chanter en dansant.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

Encore un spoiler d'ailleurs, la fonction Tusheng Video basée sur le modèle Keling sera également disponible pour les utilisateurs dans un avenir proche.

En fait, en tant que fabricant vidéo leader, Kuaishou a également évolué rapidement au milieu du grand engouement pour les modèles. Il a déjà lancé des modèles linguistiques et des modèles graphiques vincentiens.

Sur la base de ces modèles, la rédaction d'IA, les images générées par l'IA, les vidéos générées par l'IA et d'autres fonctions de création d'IA ont été lancées dans les applications Kuaishou et Kuaiying.

La version Kuaishou de Sora Ke Ling est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

En termes de génération vidéo, Kuaishou s'est également associé à de nombreuses universités ou instituts de recherche scientifique pour lancer successivement l'algorithme de génération vidéo à mouvement contrôlable Direct-a-Video, l'algorithme de génération multimodale Video-LaVIT, et le Algorithme vidéo Tusheng Les technologies clés telles que l'adaptateur I2V et le modèle d'évaluation esthétique multimodal UNIAA ont accumulé une profonde accumulation technique pour le modèle Keling.

Maintenant, la fonction vidéo complète Wensheng de Kuaishou a enfin fait ses grands débuts. Nous attendons avec impatience que Kuaishou, en tant que géant des pistes vidéo courtes avec des avantages de scène uniques et de nombreux scénarios d'application, soit le premier à mettre en pratique ses capacités de génération vidéo. courtes scènes vidéo.

Si vous êtes intéressé par la création vidéo IA, vous pouvez aussi bien vous rendre sur l'application Kuaiying pour le découvrir.

Portail : https://www.php.cn/link/1e4dc58a5c8c8908a4d317d6ef44a4d0

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn