Maison >Périphériques technologiques >IA >Le modèle le plus rapide à une résolution de 1024, le modèle ouvert SDXL-Lightning graphique ByteDance Vincent est sorti

Le modèle le plus rapide à une résolution de 1024, le modèle ouvert SDXL-Lightning graphique ByteDance Vincent est sorti

PHPzavant: 2024-02-24 12:37:261779parcourir

Modèle｜https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

Papier｜https://www.php.cn/link/ca0525bfe5cab4c577 d1 69d3343a5452

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

1. Génération d'images ultra-rapide

L'IA générative attire l'attention mondiale pour sa capacité à créer des images époustouflantes et même des vidéos basées sur des invites textuelles. Les modèles génératifs de pointe actuels reposent sur la diffusion, un processus itératif qui transforme progressivement le bruit en échantillons d'images. Ce processus nécessite d'énormes ressources informatiques et est lent. Lors du processus de génération d'échantillons d'images de haute qualité, le temps de traitement d'une seule image est d'environ 5 secondes, ce qui nécessite généralement plusieurs appels (20 à 40 fois) à l'immense réseau neuronal. Réseau . Cette vitesse limite les scénarios d’application qui nécessitent une génération rapide en temps réel. Comment améliorer la qualité de la génération tout en accélérant est un domaine brûlant de la recherche actuelle et l'objectif principal de notre travail.

SDXL-Lightning franchit cette barrière grâce à une technologie innovante -

Distillation contradictoire progressive - pour atteindre des vitesses de génération sans précédent. Le modèle est capable de générer des images d’une qualité et d’une résolution extrêmement élevées en seulement 2 ou 4 étapes, réduisant ainsi le coût et le temps de calcul d’un facteur dix. Notre méthode peut même générer des images en une seule étape pour les applications sensibles au délai d'attente, bien qu'avec un léger sacrifice en qualité.

SDXL-Lightning a non seulement un avantage en termes de vitesse, mais excelle également en qualité d'image, surpassant les technologies d'accélération précédentes dans les évaluations. Il permet une résolution plus élevée et des détails plus riches tout en conservant une bonne diversité et une bonne correspondance image-texte.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Comparaison de vitesse

Modèle original (20 étapes), modèle SDXL-Lightning (2 étapes)

2. Effet modèle

SDXL-Lightning Le modèle peut passer. 1 étape, 2 étapes, 4 étapes et 8 étapes pour générer des images. Plus il y a d’étapes d’inférence, meilleure est la qualité de l’image.

Ce qui suit est le résultat de 4 étapes -

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Une fille souriante

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Une camionnette montant une montagne en lacets

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Un poisson sur un vélo, art coloré

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Un gros plan d'une dame asiatique avec des lunettes de soleil

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Une belle tasse

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Mona Lisa, croquis

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Un panda nageant

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Une camionnette montant un lacets de montagne

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Maison dans le désert, paysages surréalistes

Ce qui suit est le résultat de 2 étapes -

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Conception de meubles pour un salon

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Une photo cinématographique d'un bébé raton laveur portant une robe de prêtre italienne complexe

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Un chien à la fourrure douce et aux yeux brillants sautant après un jouet, dans un salon confortable

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Une tasse de thé contenant des nuages

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Une famille, plan moyen

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布 🎙 Par rapport aux méthodes précédentes (Turbo et LCM), les images générées par notre méthode sont considérablement améliorées en détail et plus fidèles au style et à la disposition du modèle génératif original.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

3. Redonnez à la communauté, modèle ouvert

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布 La vague de l'open source et de l'open source est devenue une force clé dans la promotion du développement rapide de l'intelligence artificielle, et Bytedance est fier de faire partie de cette vague. Notre modèle est basé sur SDXL, actuellement le modèle ouvert le plus populaire pour la génération d'images de texte, qui dispose déjà d'un écosystème florissant. Nous avons désormais décidé d'ouvrir SDXL-Lightning aux développeurs, chercheurs et créateurs du monde entier afin qu'ils puissent accéder à ce modèle et l'appliquer afin de stimuler davantage l'innovation et la collaboration dans l'ensemble du secteur.

Lors de la conception de SDXL-Lightning, nous avons pris en compte la

compatibilité avec la communauté des modèles ouverts

. De nombreux artistes et développeurs de la communauté ont créé une variété de modèles de génération d'images stylisées, tels que les styles de dessins animés et d'anime. Afin de prendre en charge ces modèles, nous fournissons SDXL-Lightning en tant que plug-in d'accélération, qui peut être intégré de manière transparente dans ces différents styles de modèles SDXL afin d'accélérer la génération d'images pour différents modèles. 1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning

Le modèle peut également être combiné avec le plug-in de contrôle actuellement très populaire ControlNet pour obtenir une génération d'images extrêmement rapide et contrôlable. 1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning

Le modèle prend également en charge ComfyUI, le logiciel de génération le plus populaire dans la communauté open source. Le modèle peut être chargé directement pour être utilisé :

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

4. À propos des détails techniques

Théoriquement, la génération d'images est un processus de transformation progressive du bruit vers des images claires. Au cours de ce processus, le réseau neuronal apprend les gradients à différentes positions du flux de transformation.

Les étapes spécifiques pour générer une image sont les suivantes :

Tout d'abord, nous échantillonnons au hasard un échantillon de bruit au point de départ du flux, puis utilisons un réseau de neurones pour calculer le gradient. En fonction du gradient à la position actuelle, nous apportons de petits ajustements à l'échantillon, puis répétons le processus. À chaque itération, les échantillons se rapprochent de la distribution finale de l’image jusqu’à obtenir une image claire.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Photo : Processus de flux de génération (photo de : https://www.php.cn/link/5c9b5c47258cf1499c2dc64b7072e735

En raison de complexité et non-linéarité du flux de génération Ligne droite, le processus de génération doit être une seule fois. Ne faites qu'un petit pas pour réduire l'accumulation d'erreurs de gradient, des calculs fréquents du réseau neuronal sont donc nécessaires, c'est pourquoi la quantité de calcul est importante

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Image : Processus de courbe (Photo de : https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137

Afin de réduire le nombre d'étapes nécessaires pour générer des images, de nombreuses études ont été consacrées à la recherche de solutions. Certaines études ont proposé des méthodes d'échantillonnage qui peuvent réduire l'erreur, tandis que d'autres ont essayé de rendre la génération plus linéaire. Bien que ces méthodes aient progressé, elles nécessitent encore plus de 10 étapes d'inférence pour générer des images.

Une autre méthode est la distillation du modèle. qui est capable de générer des images de haute qualité en moins de 10 étapes d'inférence. Différente du calcul du gradient sous la position d'écoulement actuelle, la distillation du modèle modifie l'objectif de la prédiction du modèle pour prédire directement la position d'écoulement la plus éloignée. réseau d'étudiants pour prédire directement le réseau d'enseignants après avoir obtenu des résultats d'inférence en plusieurs étapes. Une telle stratégie peut réduire considérablement le nombre d'étapes d'inférence requises. En appliquant ce processus à plusieurs reprises, nous pouvons réduire davantage le nombre d'étapes d'inférence. distillation progressive.

Figure : Distillation progressive, le réseau d'étudiants prédit les résultats du réseau d'enseignants après plusieurs étapes

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

En fonctionnement réel, il est souvent difficile pour le réseau d'étudiants de prédire avec précision la position future du flux, ce qui provoque la erreur à amplifier avec l'accumulation de chaque étape. Avec moins de 8 étapes d'inférence, les images produites par le modèle commencent à devenir floues

Pour résoudre ce problème, notre stratégie n'est pas de forcer le réseau étudiant à correspondre avec précision aux prédictions. du réseau d'enseignants, mais pour laisser le réseau d'étudiants correspondre aux prédictions du réseau d'enseignants de manière probabiliste, cohérente avec le réseau d'enseignants. En d'autres termes, le réseau d'étudiants est formé pour prédire une position probable, et nous ne le pénalisons même pas. si cette position n'est pas tout à fait exacte. Cet objectif est atteint grâce à une formation contradictoire. Un réseau discriminant supplémentaire est introduit pour aider à réaliser une correspondance de distribution des résultats du réseau d'étudiants et d'enseignants.

Ceci est un bref aperçu de nos méthodes de recherche (

https:/ /www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452), nous fournissons une analyse théorique plus approfondie, des stratégies de formation et des détails de formulation spécifiques du modèle

5 Au-delà de SDXL-Lightning

Bien que cette étude soit principalement. explore comment utiliser la technologie SDXL-Lightning pour la génération d'images. Mais le potentiel d'application de notre méthode de distillation contradictoire progressive proposée ne se limite pas aux images statiques. Cette technologie innovante peut également être appliquée à la génération rapide et de haute qualité de données vidéo, audio et. d'autres contenus multimodaux. Nous vous invitons sincèrement à découvrir SDXL-Lightning sur la plateforme HuggingFace et attendons avec impatience vos précieux commentaires et retours. Modèle :

https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

Papier : https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

for 人工智能 https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：L'Université Tsinghua et Ideal ont proposé DriveVLM, un grand modèle de langage visuel pour améliorer les capacités de conduite autonomeArticle suivant：L'Université Tsinghua et Ideal ont proposé DriveVLM, un grand modèle de langage visuel pour améliorer les capacités de conduite autonome

Articles Liés

Voir plus