recherche
MaisonPériphériques technologiquesIALa vitesse de génération est deux fois plus rapide que SDXL, et il peut également fonctionner sur un GPU de 9 Go. Stable Cascade est là pour améliorer le rapport prix/performance.

Les exigences matérielles sont de plus en plus faibles et la vitesse de génération devient de plus en plus rapide.

Stability AI, en tant que pionnier de la conversion texte-image, non seulement mène la tendance, mais continue également de faire de nouvelles avancées en matière de qualité des modèles. Cette fois, il a réalisé une percée en termes de rapport coût/performance.

Il y a quelques jours à peine, Stability AI a pris une autre décision : la version préliminaire de recherche de Stable Cascade a été lancée. Ce modèle de conversion texte-image innove en introduisant une approche en trois étapes qui établit de nouvelles références en matière de qualité, de flexibilité, de réglage fin et d'efficacité, en mettant l'accent sur la suppression des barrières matérielles. De plus, Stability AI publie du code de formation et d'inférence, permettant une personnalisation plus poussée du modèle et de sa sortie. Le modèle est disponible pour inférence dans la bibliothèque des diffuseurs. Ce modèle est publié sous une licence non commerciale, autorisant uniquement une utilisation non commerciale.

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

  • Lien original : https://stability.ai/news/introducing-stable-cascade

  • Adresse du code : https://github.com/Stability-AI/StableCascade

  • Experience Adresse : https://huggingface.co/spaces/multimodalart/stable-cascade

Comme toujours, vous pouvez générer l'image cible avec une opération simple : entrez simplement une description textuelle de l'image.

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                                    Source : https://twitter.com/multimodalart/status/1757391981074903446

Une cascade stable est générée extrêmement rapide. L'utilisateur de la plate-forme X @GozukaraFurkan a déclaré qu'il ne nécessite qu'environ 9 Go de mémoire GPU et que la vitesse peut toujours être bien maintenue.

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                                                                      . la précision de la génération de mots/phrases plus courts est relativement élevée, des phrases longues peuvent également être complétées avec une certaine probabilité (en anglais uniquement), et l'intégration du texte et des images est également très bonne. #                                                  

                                                                       

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了L'utilisateur @AIWarper a essayé différents tests de style d'artiste.

invite : Cauchemar sur Elm Street. Les références de style d'artiste sont les suivantes : Makoto Shinkai en haut à gauche, Tomer Hanuka en bas à gauche, Raphael Kirchner en haut à droite, Takato Yamamoto en bas à droite.

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Cependant, lors de la génération du visage du personnage, vous pouvez constater que les détails de la peau du personnage ne sont pas très bons, et cela ressemble à un « meulage de peau de dixième niveau ».

                                                                                                                                                                                              Source de l'image : https://twitter.com/vitor_dlucca/status/ 1757511080287355093

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Détails techniques Stable Cascade est différent de la série de modèles Stable Diffusion. Il est construit sur trois modèles différents. modèles Sur le pipeline composé de : étapes A, B et C. Cette architecture peut effectuer une compression hiérarchique des images et utiliser un espace latent hautement compressé pour obtenir un résultat supérieur. Comment ces pièces s’emboîtent-elles ?

L'étape de génération d'images latentes (étape C) convertit l'entrée de l'utilisateur en une représentation latente compacte 24x24, qui est ensuite transmise à l'étape de décodage latente (étapes A et B) pour compresser l'image, ce qui est similaire au travail de VAE dans Diffusion Stable, mais peut atteindre une compression plus élevée.

En dissociant la génération de conditions de texte (étape C) du décodage à l'espace de pixels haute résolution (étapes A et B), nous pouvons effectuer une formation supplémentaire ou affiner l'étape C, y compris ControlNets et LoRA, similaire à la formation par rapport à la Modèle à diffusion stable de même taille, le coût peut être réduit au seizième. Les étapes A et B peuvent éventuellement être affinées pour un contrôle supplémentaire, mais cela sera similaire au réglage fin de la VAE dans le modèle de diffusion stable. Dans la plupart des cas, les avantages d’une telle démarche sont minimes. Par conséquent, dans la plupart des cas, Stability AI recommande officiellement de former uniquement la phase C et d'utiliser l'état d'origine des phases A et B.

Les phases C et B lanceront deux modèles différents : les modèles de paramètres 1B et 3,6B pour la phase C, et les modèles de paramètres 700M et 1,5B pour la phase B. Un modèle avec des paramètres 3,6B est recommandé pour l'étape C car ce modèle offre la plus haute qualité de sortie. Cependant, pour ceux qui souhaitent disposer de la configuration matérielle minimale requise, une version de paramètres 1B est disponible. Pour l'étape B, les deux versions obtiennent de bons résultats, mais la version avec paramètres 1,5B est plus performante en termes de détails de reconstruction. Grâce à l'approche modulaire de Stable Cascade, les besoins en VRAM attendus pour l'inférence peuvent être limités à environ 20 Go. Ceci peut être encore réduit en utilisant des variantes plus petites, avec l'avertissement que cela peut également réduire la qualité du résultat final.

Comparaison

Lors de l'évaluation, Stable Cascade a obtenu les meilleurs résultats en termes d'alignement rapide et de qualité esthétique par rapport à presque tous les modèles comparés. La figure ci-dessous montre les résultats de l'évaluation humaine utilisant un mélange d'invites partielles et d'invites esthétiques :

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Stable Cascade (30 étapes d'inférence) vs. Playground v2 (50 étapes d'inférence), SDXL (50 étapes d'inférence) , SDXL Turbo (1 étape de raisonnement) et Würstchen V2 (30 étapes de raisonnement) sont comparés

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Stable Cascade, SDXL, Playground V2 et SDXL Turbo L'accent mis par Stable Cascade sur l'efficacité est démontré à travers son architecture et. potentiel de compression plus élevé. Même si le plus grand modèle comporte 1,4 milliard de paramètres de plus que Stable Diffusion XL, il offre toujours des temps d'inférence plus rapides.

Fonctionnalités ajoutées

En plus de la génération texte-image standard, Stable Cascade peut également générer des variations d'image et une génération image-image.

La variante d'image extrait les intégrations d'images d'une image donnée à l'aide de CLIP, puis les renvoie au modèle. L'image ci-dessous est un exemple de sortie. L'image de gauche montre l'image originale, tandis que les quatre à droite sont les variantes générées.

Image à image en ajoutant simplement du bruit à une image donnée, puis en générant une image à partir de celle-ci comme point de départ. Vous trouverez ci-dessous un exemple d'ajout de bruit à l'image de gauche, puis de génération à partir de là. 生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了Code pour la formation, le réglage fin, ControlNet et LoRA

Avec la sortie de Stable Cascade, Stability AI publiera tout le code pour la formation, le réglage fin, ControlNet et LoRA afin de réduire les exigences d'expérimentation ultérieure avec cette architecture. Voici quelques ControlNets qui seront publiés avec le modèle :

Patch/Enlarge : saisissez une image et ajoutez un masque pour correspondre à l'invite de texte. Le modèle remplira ensuite la partie masquée de l'image en fonction des indications textuelles fournies.

Canny Edge : génère de nouvelles images basées sur les bords des images existantes introduites dans le modèle. Selon les tests Stability AI, il peut également mettre à l’échelle des croquis.型 Le haut est l'esquisse du modèle d'entrée et le bas est le résultat de sortie 生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Super-résolution 2x : l'augmentation de la résolution d'une image à 2x sa longueur de côté, par exemple en convertissant une image 1024 x 1024 en une sortie 2048 x 2048, peut également être utilisée pour la représentation latente générée par l'étape C.

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Vous aimez ce rapport qualité/prix ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Lire l'index de l'IA 2025: L'AI est-elle votre ami, ennemi ou copilote?Lire l'index de l'IA 2025: L'AI est-elle votre ami, ennemi ou copilote?Apr 11, 2025 pm 12:13 PM

Le rapport de l'indice de l'intelligence artificielle de 2025 publié par le Stanford University Institute for Human-oriented Artificial Intelligence offre un bon aperçu de la révolution de l'intelligence artificielle en cours. Interprétons-le dans quatre concepts simples: cognition (comprendre ce qui se passe), l'appréciation (voir les avantages), l'acceptation (défis face à face) et la responsabilité (trouver nos responsabilités). Cognition: l'intelligence artificielle est partout et se développe rapidement Nous devons être très conscients de la rapidité avec laquelle l'intelligence artificielle se développe et se propage. Les systèmes d'intelligence artificielle s'améliorent constamment, obtenant d'excellents résultats en mathématiques et des tests de réflexion complexes, et il y a tout juste un an, ils ont échoué lamentablement dans ces tests. Imaginez des problèmes de codage complexes de résolution de l'IA ou des problèmes scientifiques au niveau des diplômés - depuis 2023

Début avec Meta Llama 3.2 - Analytics VidhyaDébut avec Meta Llama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

AV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plusAV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plusApr 11, 2025 pm 12:01 PM

Le paysage de l'IA de cette semaine: un tourbillon de progrès, de considérations éthiques et de débats réglementaires. Les principaux acteurs comme Openai, Google, Meta et Microsoft ont déclenché un torrent de mises à jour, des nouveaux modèles révolutionnaires aux changements cruciaux de LE

Le coût humain de parler aux machines: un chatbot peut-il vraiment s'en soucier?Le coût humain de parler aux machines: un chatbot peut-il vraiment s'en soucier?Apr 11, 2025 pm 12:00 PM

L'illusion réconfortante de la connexion: sommes-nous vraiment florissants dans nos relations avec l'IA? Cette question a contesté le ton optimiste du symposium "Advancing Humans with IA (Ai) du MIT Media Lab. Tandis que l'événement a présenté des Edg de pointe

Comprendre la bibliothèque Scipy à PythonComprendre la bibliothèque Scipy à PythonApr 11, 2025 am 11:57 AM

Introduction Imaginez que vous êtes un scientifique ou un ingénieur à résoudre des problèmes complexes - équations différentielles, défis d'optimisation ou analyse de Fourier. La facilité d'utilisation et les capacités graphiques de Python sont attrayantes, mais ces tâches exigent des outils puissants

3 Méthodes pour exécuter Llama 3.2 - Analytics Vidhya3 Méthodes pour exécuter Llama 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2: une centrale d'IA multimodale Le dernier modèle multimodal de META, LLAMA 3.2, représente une progression importante de l'IA, avec une compréhension du langage améliorée, une précision améliorée et des capacités de génération de texte supérieures. Sa capacité t

Automatiser les vérifications de la qualité des données avec DagsterAutomatiser les vérifications de la qualité des données avec DagsterApr 11, 2025 am 11:44 AM

Assurance de la qualité des données: automatiser les chèques avec Dagster et grandes attentes Le maintien d'une qualité de données élevée est essentiel pour les entreprises axées sur les données. À mesure que les volumes de données et les sources augmentent, le contrôle de la qualité manuel devient inefficace et sujette aux erreurs.

Les mainframes ont-ils un rôle dans l'ère AI?Les mainframes ont-ils un rôle dans l'ère AI?Apr 11, 2025 am 11:42 AM

Mainframes: les héros méconnus de la révolution de l'IA Alors que les serveurs excellent dans les applications à usage général et la gestion de plusieurs clients, les mainframes sont conçus pour des tâches critiques à volume élevé. Ces systèmes puissants se trouvent fréquemment dans lavil

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP