Maison  >  Article  >  Périphériques technologiques  >  Tencent ouvre le code de formation source pour le grand modèle de graphique Hunyuan Wensheng et publie les plug-ins LoRA et ControlNet

Tencent ouvre le code de formation source pour le grand modèle de graphique Hunyuan Wensheng et publie les plug-ins LoRA et ControlNet

WBOY
WBOYoriginal
2024-06-21 20:44:101040parcourir

Le 21 juin, Tencent Hunyuan Wenshengtu Large Model (ci-après dénommé le modèle Hunyuan DiT) a annoncé qu'il ouvrirait entièrement le code de formation en open source, et en même temps ouvrirait la solution de formation d'ensembles de données à petite échelle Hunyuan DiT LoRA et le plug-in contrôlable ControlNet.

Cela signifie que les entreprises et les développeurs et créateurs individuels du monde entier peuvent affiner sur la base du code de formation Hunyuan DiT pour créer des modèles exclusifs plus personnalisés et créer avec une plus grande liberté ou sur la base du code de formation Hunyuan DiT, modifier et optimiser Yuan ; Le code de DiT, construit ses propres applications sur cette base et favorise l'itération et l'innovation technologiques rapides.

En tant que modèle natif chinois, les utilisateurs peuvent utiliser directement les données et les étiquettes chinoises lors du réglage fin via le code de formation de Hunyuan DiT, sans avoir à traduire les données en anglais.

Auparavant, le grand modèle Tencent Hunyuanwenshengtu a annoncé une mise à niveau complète et open source. Il a été publié sur la plate-forme Hugging Face et Github, et peut être utilisé par les entreprises et les développeurs individuels pour un usage commercial gratuit. Il s'agit du premier modèle open source vincentien à architecture DiT native chinoise du secteur, prenant en charge la saisie et la compréhension bilingues en chinois et en anglais. Le modèle n'est open source que depuis un mois et le nombre d'étoiles Github a atteint 2,4 000, ce qui en fait l'un des modèles DiT les plus populaires de la communauté open source.

Tencent ouvre le code de formation source pour le grand modèle de graphique Hunyuan Wensheng et publie les plug-ins LoRA et ControlNet Page du projet Github Hunyuan DiT

Bien que le code de formation soit open source, la sortie de la solution de formation d'ensembles de données à petite échelle LoRA et du plug-in contrôlable ControlNet rend également l'écologie open source du modèle Hunyuan DiT plus imaginative .

Le modèle LoRA, nom complet Low-Rank Adaptation of Large Language Models, est une technologie utilisée pour affiner les grands modèles de langage. Dans le modèle graphique vincentien, LoRA est utilisé comme plug-in, permettant aux utilisateurs d'utiliser une petite quantité de données pour entraîner un modèle avec un style de peinture, une adresse IP ou des caractéristiques de caractère spécifiques sans modifier le modèle d'origine ni augmenter la taille du modèle.

La technologie LoRA est très populaire dans le domaine open source de Wenshengtu. Un grand nombre de créateurs utilisent cette technologie pour créer une variété de modèles, comme utiliser plusieurs photos personnelles pour générer un studio photo de haute précision dédié à une certaine personne ; ou créer Nous produisons des modèles de boîtes aveugles, d'argile et d'autres styles.

Tencent ouvre le code de formation source pour le grand modèle de graphique Hunyuan Wensheng et publie les plug-ins LoRA et ControlNet

Modèle LoRA sur la communauté d'images AI LiblibAI

Le plug-in LoRA exclusif publié par Hunyuan DiT permet cette fois aux développeurs de créer des modèles exclusifs avec au moins une image. Par exemple, en important quatre images de porcelaine bleue et blanche et les mots d'invite correspondants, la formation du modèle peut être complétée et un modèle de génération de « porcelaine bleue et blanche » est créé : l'utilisateur saisit des mots d'invite simples pour générer la porcelaine bleue et blanche souhaitée. image.

Partie des données d'entraînement :

Tencent ouvre le code de formation source pour le grand modèle de graphique Hunyuan Wensheng et publie les plug-ins LoRA et ControlNet

Exemple de résultats d'inférence du modèle entraîné :

Tencent ouvre le code de formation source pour le grand modèle de graphique Hunyuan Wensheng et publie les plug-ins LoRA et ControlNet

Utilisation du modèle de génération de porcelaine bleue et blanche entraîné par Hunyuan DiT LoRA

Un autre plug-in ControlNet lancé cette fois, il s'agit d'un algorithme de génération contrôlable utilisé dans le domaine des images vincentiennes, qui permet aux utilisateurs de mieux contrôler la génération d'images en ajoutant des conditions supplémentaires.

Actuellement, Tencent Hunyuan propose trois premiers modèles ControlNet qui peuvent extraire et appliquer des conditions telles que les bords (canny), la profondeur (profondeur) et la posture humaine (pose) des images, permettant aux développeurs de les utiliser directement à des fins d'inférence. Les trois plug-ins ControlNet peuvent réaliser la capacité de générer des images en couleur via des dessins au trait, de générer des images avec la même structure de profondeur et de générer des personnes avec la même posture. Dans le même temps, Hunyuan DiT a également mis en open source la solution de formation ControlNet, afin que les développeurs et les créateurs puissent former des modèles ControlNet personnalisés.

Tencent ouvre le code de formation source pour le grand modèle de graphique Hunyuan Wensheng et publie les plug-ins LoRA et ControlNet

Démonstration des effets de trois plug-ins ControlNet lancés par Tencent Hunyuan DiT

Depuis que le modèle Hunyuan DiT est open source, il a reçu le soutien et les commentaires de nombreux développeurs, et l'équipe de Tencent Hunyuan a également été continuellement améliorer et optimiser le modèle basé sur le modèle Hunyuan DiT. Les composants open source de Yuan DiT travaillent avec l'industrie pour construire un écosystème open source de nouvelle génération visuelle. Au début de ce mois, Hunyuan DiT a publié une bibliothèque d'accélération exclusive qui peut encore améliorer l'efficacité de l'inférence et réduire le temps de génération des graphiques de 75 %. Dans le même temps, la facilité d'utilisation du modèle a été considérablement améliorée. Les utilisateurs peuvent utiliser Hunyuan DiT sur la base de l'interface graphique de ComfyUI, ou utiliser la bibliothèque de modèles généraux Hugging Face Diffusers pour appeler le modèle Hunyuan DiT avec seulement trois lignes de. code, sans télécharger la bibliothèque de codes originale.

Il est entendu que les capacités Hunyuanwenshengtu de Tencent ont été largement utilisées dans de nombreuses entreprises et scénarios tels que la création de matériaux, la synthèse de produits et les graphismes de jeux. Au début de cette année, Tencent Advertising a lancé Tencent Advertising Miaosi, une plateforme de création publicitaire unique basée sur l'IA basée sur le modèle Hunyuan de Tencent. Plus de 20 médias tels que « CCTV News » et « Xinhua Daily » ont également utilisé Tencent Hunyuan Wenshengtu pour la production de contenu d'information.

Tencent Hunyuan Open Source Wensheng Diagramme Grand Modèle

Site officiel : https://dit.hunyuan.tencent.com/

Code : https://github.com/Tencent/HunyuanDiT

Modèle : https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Article : https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

Processus de production de données : https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn