Maison >Périphériques technologiques >IA >L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours
C'est aussi une vidéo Tusheng, mais PaintsUndo a emprunté un chemin différent.
Lvmin Zhang, auteur de ControlNet, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture.
Le nouveau projet PaintsUndo a reçu 1,4k étoiles (toujours en hausse folle) peu de temps après son lancement.
Adresse du projet : https://github.com/lllyasviel/Paints-UNDO
Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, en commençant de la ligne Il y a des traces à suivre depuis l'ébauche jusqu'au produit fini.
Pendant le processus de dessin, les changements de lignes sont incroyables. Le résultat vidéo final est très similaire à l'image originale :
Jetons un coup d'œil à un processus de peinture complet. PaintsUndo utilise d'abord des lignes simples pour décrire le corps principal du personnage, puis dessine l'arrière-plan, applique la couleur et enfin l'affine pour ressembler à l'image originale.
PaintsUndo ne se limite pas à un seul style d'image pour différents types d'images, il générera également des vidéos de processus de peinture correspondantes.
Le corgi portant une capuche regarde doucement au loin :
Les utilisateurs peuvent également saisir une seule image et produire plusieurs vidéos :
Cependant, PaintsUndo présente également des inconvénients, tels que des difficultés. avec des compositions complexes, et l'auteur dit que le projet est encore en train d'être peaufiné.
La raison pour laquelle PaintsUndo est si puissant est qu'il est pris en charge par une série de modèles qui prennent une image en entrée, puis génèrent une séquence de dessin de l'image. Le modèle reproduit une variété de comportements humains, y compris, mais sans s'y limiter, l'esquisse, l'encrage, l'ombrage, l'ombrage, la transformation, le retournement à gauche et à droite, les ajustements de courbe de couleur, la modification de la visibilité d'un calque et même la modification de l'idée globale pendant le processus de dessin. .
Le processus de déploiement local est très simple et peut être complété avec quelques lignes de code :
git clone https://github.com/lllyasviel/Paints-UNDO.gitcd Paints-UNDOconda create -n paints_undo python=3.10conda activate paints_undopip install xformerspip install -r requirements.txtpython gradio_app.py
Introduction au modèle
L'auteur du projet a utilisé 24 Go de VRAM sur Nvidia 4090 et 3090TI pour les tests d'inférence. Les auteurs estiment qu’avec des optimisations extrêmes (y compris le déchargement de poids et le découpage de l’attention), l’exigence minimale théorique de VRAM est d’environ 10 à 12,5 Go. PaintsUndo s'attend à traiter une image en 5 à 10 minutes environ, selon les paramètres, ce qui donne généralement une vidéo de 25 secondes à une résolution de 320 x 512, 512 x 320, 384 x 448 ou 448 x 384.
Actuellement, le projet a publié deux modèles : le modèle à cadre unique paints_undo_single_frame et le modèle multi-cadre paints_undo_multi_frame.
Le modèle à image unique utilise l'architecture modifiée de SD1.5, prenant une image et une étape d'opération comme entrée et sortant une image. En supposant qu'une œuvre d'art nécessite généralement 1 000 opérations manuelles pour être créée (par exemple, un trait équivaut à une opération), la taille du pas d'opération est alors un nombre entier compris entre 0 et 999. Le chiffre 0 est l’œuvre finale terminée et le chiffre 999 est le premier trait peint sur une toile d’un blanc pur.
Le modèle multi-frame est basé sur la série de modèles VideoCrafter, mais n'utilise pas le lvdm original de Crafter, et tout le code de formation/inférence est entièrement implémenté à partir de zéro. Les auteurs du projet ont apporté de nombreuses modifications à la topologie du réseau neuronal et, après une formation approfondie, le réseau neuronal se comporte très différemment du Crafter original.
L'architecture globale du modèle multi-frame est similaire à Crafter, comprenant 5 composants : 3D-UNet, VAE, CLIP, CLIP-Vision et Image Projection.
Le modèle multi-images prend deux images en entrée et génère 16 images intermédiaires entre les deux images d'entrée. Les modèles multi-images ont des résultats plus cohérents que les modèles à image unique, mais sont également beaucoup plus lents, moins « créatifs » et limités à 16 images.
PaintsUndo utilise par défaut des modèles à image unique et multi-images. Tout d'abord, un modèle mono-image sera utilisé pour déduire environ 5 à 7 fois pour obtenir 5 à 7 « images clés », puis un modèle multi-images sera utilisé pour « interpoler » ces images clés, et enfin un modèle relativement long. la vidéo sera générée.
Lien de référence : https://lllyasviel.github.io/pages/paints_undo/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!