Maison >Périphériques technologiques >IA >Générez 25 images d'animation de haute qualité en deux étapes, calculées comme 8 % de SVD. Jouable en ligne

Générez 25 images d'animation de haute qualité en deux étapes, calculées comme 8 % de SVD. Jouable en ligne

PHPzavant: 2024-02-20 15:54:161040parcourir

Les ressources informatiques consommées ne représentent que 2/25 du modèle traditionnel de diffusion vidéo stable(SVD) !

AnimateLCM-SVD-xt est publié, modifiant le modèle de diffusion vidéo pour le débruitage répété, ce qui prend du temps et nécessite beaucoup de calculs.

Regardons d'abord l'effet d'animation généré.

Le style cyberpunk est facile à contrôler, le garçon porte des écouteurs, debout dans la rue néon de la ville :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Photos

Un style réaliste peut également être utilisé, un couple de jeunes mariés se blottit ensemble, tenant un bouquet exquis, dans Soyez témoin de l'amour sous l'ancien mur de pierre :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 image

Style de science-fiction, et ressentez également l'invasion extraterrestre de la terre :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 image

AnimateLCM-SVD-xt de MMLab, The Chinese Université de Hong Kong, proposé conjointement par des chercheurs d'Avolution AI, du Shanghai Artificial Intelligence Laboratory et du SenseTime Research Institute.

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 images

Vous pouvez générer des animations de haute qualité avec 25 images et une résolution de 576x1024 en 2 à 8 étapes, et sans guidage du classificateur

, la vidéo générée en 4 étapes peut atteindre une haute fidélité, ce qui est mieux que le SVD traditionnel Plus rapide et plus efficace :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Photos

Actuellement, le code d'AnimateLCM sera open source et une démo en ligne est disponible pour un essai.

Commencez et essayez la démo

Comme vous pouvez le voir sur l'interface de démonstration, AnimateLCM a actuellement trois versions : AnimateLCM-SVD-xt est destinée à la génération générale d'images en vidéo ; AnimateLCM-t2v a tendance à personnaliser la génération de texte en vidéo ; -i2v est destiné à la génération personnalisée d'images en vidéo.

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Photos

Vous trouverez ci-dessous une zone de configuration dans laquelle vous pouvez choisir le modèle Dreambooth de base ou le modèle LoRA, et ajuster la valeur alpha LoRA via le curseur.

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Images

Ensuite, vous pouvez saisir des invites et des invites négatives pour guider le contenu et la qualité de l'animation générée :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Images

Certains paramètres peuvent également être ajustés :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Images

Commençons Après l'avoir essayé, le mot d'invite est "nuages dans le ciel", les réglages des paramètres sont comme indiqué ci-dessus, et l'étape d'échantillonnage n'est que de 4 étapes, l'effet généré est comme ceci :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 photo

L'étape d'échantillonnage est de 25 étapes. Lorsque le mot "un garçon tenant un lapin" vous est demandé, l'effet est le suivant :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Photos

Jetons à nouveau un coup d'œil aux effets d'affichage officiels. La comparaison des effets de 2 étapes, 4 étapes et 8 étapes est la suivante :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 images

Plus il y a d'étapes, meilleure est la qualité de l'animation Seules 4 étapes AnimateLCM peuvent atteindre une haute fidélité :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 images.

chacun Tous les styles peuvent être réalisés :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 photos

🎜

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Photos

Comment faire ?

Sachez que bien que les modèles de diffusion vidéo reçoivent une attention croissante en raison de leur capacité à générer des vidéos cohérentes et haute fidélité, l'une des difficultés est que le processus de débruitage itératif prend non seulement du temps mais également des ressources informatiques, ce qui le limite. champ d'application.

Dans ce travail AnimateLCM, les chercheurs se sont inspirés du modèle de cohérence (CM), qui simplifie le modèle de diffusion d'images pré-entraîné pour réduire les étapes requises pour l'échantillonnage et met à l'échelle avec succès le modèle de cohérence latente de génération d'images conditionnelles (LCM ) .

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Picture

Plus précisément, les chercheurs ont proposé une stratégie d'Apprentissage de cohérence découplée(Apprentissage de cohérence découplée).

Distillez d'abord le modèle de diffusion stable en un modèle de cohérence d'image sur un ensemble de données image-texte de haute qualité, puis effectuez une distillation de cohérence sur les données vidéo pour obtenir un modèle de cohérence vidéo. Cette stratégie améliore l'efficacité de la formation en formant séparément aux niveaux spatial et temporel.

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Pictures

De plus, afin de mettre en œuvre diverses fonctions d'adaptateurs plug-and-play (par exemple, utiliser ControlNet pour réaliser une génération contrôlable) dans la communauté Stable Diffusion, les chercheurs ont également proposé Teacher- Adaptez gratuitement la stratégie (Adaptation sans enseignant) pour rendre l'adaptateur de contrôle existant plus cohérent avec le modèle de cohérence et obtenir une génération vidéo mieux contrôlable.

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Photos

Des expériences quantitatives et qualitatives prouvent l'efficacité de la méthode.

Dans la tâche de génération de texte en vidéo sans prise de vue sur l'ensemble de données UCF-101, AnimateLCM obtient les meilleures performances sur les métriques FVD et CLIPSIM.

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Picture

Une étude d'ablation vérifie l'efficacité de l'apprentissage par cohérence découplée et des stratégies d'initialisation spécifiques :

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩 Picture

Lien du projet :
[1]https:// animatel cm. github.io/
[2]https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

github 人工智能 stable diffusion https prompt

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.Article suivant：Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Articles Liés

Voir plus