Maison  >  Article  >  Périphériques technologiques  >  Ce maître de l'IA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Ce maître de l'IA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

WBOY
WBOYavant
2023-04-14 14:58:27989parcourir

Récemment, la grande équipe de recherche sur les modèles de l'Institut de recherche Zhiyuan a mis en open source le dernier modèle AltDiffusion bilingue, apportant au monde chinois une forte puissance de création de textes et de graphiques IA de niveau professionnel :

Prend en charge la création avancée de beaux longs Invites chinoises ; sans traduction culturelle, de la langue chinoise originale s'adresse directement à la peinture chinoise avec à la fois la forme et l'esprit ; et elle a atteint un seuil bas au niveau de la peinture avec des effets visuels choquants originaux de niveau diffusion stable alignés en chinois et en anglais ; On peut dire qu'il est un maître de peinture IA de classe mondiale qui parle chinois.

Le modèle innovant AltCLIP est la pierre angulaire de ce travail, complétant le modèle CLIP original avec trois capacités multilingues plus fortes. Les modèles AltDiffusion et AltCLIP sont des modèles multilingues. Le bilinguisme chinois et anglais constitue la première étape du travail, et le code et les modèles sont open source.

AltDiffusion

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltDiffusion

AltCLIP

https:// github.com/FlagAI-Open/FlagAI/examples/AltCLIP

Adresse de l'essai spatial HuggingFace

https://huggingface.co/spaces/BAAI/bilingual_stable_diffusion

Technique rapport

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source


https://arxiv.org/abs/2211.06679

Professional Chinese AltDiffusion

——Longue peinture fine rapide + style chinois natif, satisfaisant IA Forte demande pour les maîtres créatifs

Grâce aux puissantes capacités d'alignement bilingue chinois et anglais basées sur AltCLIP, AltDiffusion a atteint un niveau d'effets visuels similaire à Stable Diffusion, notamment avec l'avantage unique d'être meilleur dans la compréhension du chinois et d'être meilleur dans la peinture chinoise , ce qui est très digne des attentes des créateurs professionnels de textes et d'images d'IA chinois.

1. Génération d'invite longue, l'effet d'image n'est pas inférieur

La longueur de l'invite est le tournant décisif pour tester la capacité du modèle à générer du texte et des images. Plus l'invite est longue, plus elle teste les trois principales capacités de compréhension du langage. , l'alignement des images et du texte et plusieurs langues.

Sous les mêmes longs ajustements de saisie en chinois et en anglais, AltDiffusion est encore plus expressif dans de nombreux cas de génération d'images : la composition des éléments est riche et passionnante, et les détails sont décrits avec délicatesse et précision.

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open sourceCe maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open sourceCe maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

2. Mieux comprendre le chinois et devenir meilleur en peinture chinoise

En plus de performances d'entrée similaires pour les invites chinoises et anglaises, AltDiffusion peut également compenser les lacunes du style de peinture chinois dans le monde occidental. , en utilisant des images et des textes chinois pour continuer Affiner la génération de caractéristiques chinoises, telles que le modèle de génération de style de peinture chinoise, pour produire un véritable « style chinois ».

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open sourceCe maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open sourceCe maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open sourceCe maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

AltDiffusion comprend mieux le chinois. Il peut décrire le sens dans le contexte culturel chinois et comprendre instantanément l'intention du créateur. Par exemple, la description de « La Grande Scène de la Dynastie Tang » évite de sortir du sujet en raison de malentendus culturels.

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Surtout pour les concepts issus de la culture chinoise, nous les comprenons et les exprimons avec plus de précision, évitant ainsi la confusion ridicule entre « style japonais » et « style chinois ». Par exemple, lors de la saisie d'invites correspondant au style de caractère du costume Tang avec diffusion stable en chinois et en anglais, la différence est claire en un coup d'œil :

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open sourceCe maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Dans la génération d'un style spécifique, le contexte culturel chinois sera être utilisé comme sujet d'identité pour la création de style, tel que Pour l'invite avec « bâtiments anciens » ci-dessous, les bâtiments chinois anciens seront générés par défaut. Le style créatif correspond davantage à l’identité des créateurs chinois.

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

3. Bilingue chinois et anglais, alignement des effets générés

AltDiffusion est basé sur Stable Diffusion, obtenu en remplaçant CLIP dans la diffusion stable d'origine par AltCLIP, et en entraînant davantage le modèle avec des graphiques et du texte en chinois et en anglais. . Grâce aux puissantes capacités d'alignement linguistique d'AltCLIP, l'effet de génération d'AltDiffusion est très proche de la diffusion stable en anglais et reflète également la cohérence des performances bilingues chinois et anglais.

Par exemple, après avoir saisi les invites chinoises et anglaises de "chiot au chapeau" dans AltDiffusion, les effets d'image générés sont fondamentalement alignés, avec une cohérence extrêmement élevée :

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Ajoutez le descripteur au "garçon " image comme Après "Chinese Boy", basé sur l'image originale d'un petit garçon, il a été ajusté avec précision pour devenir un enfant "chinois" typique, montrant une excellente compréhension du langage et des résultats d'expression précis dans la génération du contrôle du langage.

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Ouvrez l'écosystème original de StableDiffusion

——Des outils écologiques riches et des applications PromptsBook, une excellente jouabilité

Il convient particulièrement de mentionner que les capacités d'intégration écologique d'AltDiffusion :

Tous prennent en charge Stable Diffusion des outils tels que Stable Diffusion WebUI, DreamBooth, etc. peuvent être appliqués à notre modèle de diffusion bilingue chinois-anglais, offrant une richesse de choix pour la création d'IA chinoise :

1 Stable Diffusion WebUI

Une excellente génération de texte et d'images, texte Un outil Web pour l'édition d'images ; lorsque nous transformons l'image de la scène nocturne de l'Université de Pékin en Poudlard (invite : Poudlard), le monde magique de rêve peut être présenté en un instant

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open sourceCe maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

2. le modèle à travers un petit nombre d'échantillons Un outil de débogage pour générer un style spécifique ; grâce à cet outil, un style spécifique peut être généré en utilisant un petit nombre d'images chinoises sur AltDiffusion, comme le style "Havoc in Heaven".

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

3. Utilisez pleinement le livre d'invites stables de la communauté

Les invites sont très importantes pour générer des modèles. Les utilisateurs de la communauté ont accumulé de riches cas d'effets de génération grâce à un grand nombre de tentatives d'invites. Ces précieuses expériences d'invite sont presque toutes applicables aux utilisateurs d'AltDiffusion !

De plus, vous pouvez également mélanger le chinois et l'anglais pour faire correspondre certains styles et éléments magiques, ou continuer à explorer les invites chinoises adaptées à AltDiffusion.

4. Pratique pour les créateurs chinois à affiner

L'AltDiffusion open source fournit une base pour les modèles de génération chinois. Sur cette base, vous pouvez utiliser davantage de données chinoises dans des domaines spécifiques pour affiner le modèle afin de faciliter le travail. expression des créateurs chinois.

Basé sur le premier AltCLIP bilingue

- Améliore de manière globale les trois principales capacités multilingues, l'alignement chinois-anglais, un meilleur chinois, un seuil extrêmement bas

Compréhension de la langue, alignement des images et du texte, capacités multilingues , ce sont Trois compétences nécessaires à la recherche interlinguistique.

De nombreuses capacités de niveau professionnel d'AltDiffusion sont dérivées de l'idée innovante de changement de tour d'AltCLIP, qui est entièrement améliorée dans ces trois capacités majeures : les capacités d'alignement des langues chinoise et anglaise avec le CLIP original sont grandement améliorées, et elles peuvent être connecté de manière transparente à Stable Diffusion et à tous les autres modèles et outils écologiques construits sur le CLIP original en même temps, il dispose de solides capacités chinoises pour obtenir de meilleurs résultats en chinois sur plusieurs ensembles de données ; (Veuillez vous référer au rapport technique pour une explication détaillée)

Il convient de mentionner que cette méthode d'alignement réduit considérablement le seuil de formation de modèles de représentation multilingues et multimodaux par rapport à la refonte de la pré-formation du chinois ou. Paires d'images et de textes en anglais, seulement environ 1 % des ressources informatiques et des données image-texte sont nécessaires.

Obtenu le même effet que la version originale anglaise dans le benchmark complet CLIP

Il a surpassé la version originale

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Certains ensembles de données de récupération tels que Flick euh -30K Les performances sont meilleures que le CLIP original

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Le résultat zéro-shot sur ImageNet chinois est le meilleur

Ce maître de lIA qui comprend le chinois, les montagnes et la lune brillante peintes sont tellement incroyables ! Le modèle AltDiffusion bilingue chinois-anglais est open source

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer