Maison  >  Article  >  Périphériques technologiques  >  InstantID, autrefois populaire, a une nouvelle façon de jouer : la génération d'images stylisées, qui est open source.

InstantID, autrefois populaire, a une nouvelle façon de jouer : la génération d'images stylisées, qui est open source.

WBOY
WBOYavant
2024-04-15 15:58:20525parcourir
L'équipe d'origine d'InstantID a lancé une nouvelle méthode de migration de style appelée InstantStyle.

La génération d'images stylisées est souvent appelée transfert de style, et son objectif est de générer des images dont le style est cohérent avec l'image de référence et cohérent avec le contenu de l'image d'origine. Cette technologie est basée sur des méthodes de diffusion (telles que LoRA) pour la formation par lots des mêmes données de style et ne peut pas être migrée vers de nouveaux styles. Ou bien à partir d'opérations d'inversion (telles que StyleAlign), en restituant l'image de style au bruit latent, les K et V obtenus par propagation directe sont utilisés pour remplacer l'image de style en génération. Cette méthode dégrade souvent le style de génération en raison de l'opération d'inversion.

Récemment, l'équipe d'origine d'InstantID a lancé une nouvelle méthode de migration de style appelée InstantStyle. Contrairement à Face ID, il s'agit d'un cadre général d'injection de style d'image qui utilise deux techniques simples mais très efficaces pour obtenir une séparation efficace du style et du contenu des images de référence. Cette méthode fournit une technique simple mais très efficace pour obtenir une séparation efficace du style et du contenu de l'image de référence, réalisant ainsi une fusion efficace du style et du contenu.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

  • Paper : InstantStyle : Déjeuner gratuit vers la préservation du style dans la génération de texte en image

  • Adresse du papier : https://huggingface.co/papers/2404.02733

  • Page d'accueil du projet : https ://instantstyle.github.io/

  • Lien du code : https://github.com/InstantStyle/InstantStyle

  • Adresse de démonstration : https://huggingface.co/spaces/InstantX/InstantStyle

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Pour motiver une introduction automatisée, (1) Tout d'abord, le style n'est pas défini et il n'existe pas de norme claire pour le définir. Il comprend même de nombreux éléments, tels que la couleur, l'atmosphère, le matériau, la mise en page, etc. s'il est évalué manuellement, il est également difficile de parvenir à une conclusion unifiée ; (2) La méthode précédente basée sur l'inversion produira une dégradation évidente du style, ce qui est inacceptable pour certains styles, tels que les textures ; , le problème le plus critique est de savoir comment l'équilibrer entre l'intensité de l'injection de style et la fuite de contenu de l'image de référence.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

À cet égard, l'équipe de l'auteur a mené une série d'analyses expérimentales. Ils ont constaté que les problèmes de l'IP-Adapter étaient manifestement exagérés par de nombreuses autres méthodes. L'auteur a résolu la plupart d'entre eux en ajustant uniquement manuellement le poids de l'image. injection de fonctionnalités. Le problème de fuite de contenu revendiqué dans le document. Néanmoins, dans certains cas, il est encore difficile pour l'adaptateur IP de trouver un seuil approprié à équilibrer. Étant donné que les méthodes actuelles basées sur l'adaptateur utilisent généralement CLIP pour extraire les caractéristiques des images, l'auteur a confirmé à travers l'exemple de récupération d'images que dans l'espace des fonctionnalités CLIP, les caractéristiques des images et du texte peuvent être ajoutées et soustraites. La réponse est évidente, pourquoi pas. afficher les fonctionnalités avant de les injecter dans le réseau ? Comment découpler le contenu et le style des fonctionnalités de l'image en soustrayant les informations de contenu susceptibles d'être divulguées ?

Enfin, inspiré par la méthode B-LoRA, l'auteur a soigneusement analysé l'effet de l'injection d'IP-Adapter à chaque couche et a été surpris de constater qu'il existe deux couches indépendantes qui répondent respectivement aux informations de style et de disposition spatiale. Pour cela, les auteurs présentent la méthode proposée.

Introduction à la méthode

Sur la base des observations et des expériences ci-dessus, l'auteur a proposé la méthode InstantStyle, comme le montre la figure. Le cœur de cette méthode contient deux modules :

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

(1) Soustraction de caractéristiques : utilisation. Fonctionnalités CLIP inactives, effectuez explicitement une soustraction de fonctionnalités, supprimez les informations de contenu dans les fonctionnalités d'image et réduisez l'impact du contenu de l'image de référence sur les images générées. Par rapport à la sous-détermination du style, les informations de contenu sont souvent faciles à décrire simplement à l'aide de texte. L'encodeur de texte de CLIP peut donc être utilisé pour extraire les caractéristiques du contenu à des fins de découplage.

(2) Injection de couche de style uniquement : l'injection de fonctionnalités n'est effectuée que dans une couche de style spécifique, réalisant implicitement un découplage du style et du contenu. Vers le milieu du bloc UNet, l'auteur a découvert deux couches spécifiques qui contrôlent respectivement le style et la disposition spatiale, et a constaté que dans certains styles, la disposition spatiale peut également être un type de style.

Dans l'ensemble, l'idée d'InstantStyle est assez simple et facile à comprendre avec seulement quelques lignes de code, elle atténue le problème de fuite de contenu le plus gênant lors de la migration de style.

Résultats expérimentaux

L'auteur montre les résultats de génération de deux stratégies dans l'article. Ces deux stratégies ne se limitent pas à des modèles spécifiques et peuvent être utilisées séparément et indépendamment, obtenant toutes deux d'excellents résultats.

Le résultat de la soustraction de caractéristiques :

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Injection de couche de style uniquement :

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Comparaison avec les principales méthodes actuelles :

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Stylisation basée sur l'image originale :

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Gameplay communautaire

InstantStyle déjà fourni Les développeurs peuvent trouvez des implémentations de code riches directement via GitHub, notamment Wenshengtu, Tushengtu et Inpainting. Récemment, il a également été utilisé comme outil de stylisation recommandé par le projet de génération vidéo AnyV2V. Pour les utilisateurs de la communauté, InstantStyle prend également en charge nativement ComfyUI (l'auteur de ce nœud est également co-auteur d'InstantStyle), et les utilisateurs peuvent l'essayer rapidement en mettant à jour le nœud IP-Adapter.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

En tant qu'auteur d'InstantID, comment se fait-il que nous ne soyons pas co-marqués avec InstantID ? Par rapport à InstantID qui contrôle uniquement le style généré par le texte, InstantStyle peut sans aucun doute rendre le style plus diversifié. L'équipe d'auteurs prendra officiellement en charge la fonction de stylisation du visage une fois que l'étoile GitHub aura atteint 1 000.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

L'auteur soutient également officiellement Huggingface Demo et peut être essayé en ligne.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer