Stabilité AI a annoncé un aperçu précoce de la diffusion stable 3 en février 2024. Le modèle d'IA est toujours en avant-première, mais en avril 2024, l'équipe a annoncé qu'ils feraient une diffusion 3 stable et une API de plateforme de développement AI la plus rapide et la plus rapide de la plate-forme API la plus rapide et la plus fiable du marché.
Notez que la diffusion stable 3 est simplement une série de modèles d'IA génératifs du texte à l'image. Selon l'équipe de Stabilité AI, le modèle est"égal à ou surpasse" d'autres générateurs de texte à image, tels que Dall-E 3 et MidJourney V6 d'Openai, dans "Typographie et adhérence rapide".
Dans ce tutoriel, vous apprendrez des étapes pratiques pour commencer avec l'API afin que vous puissiez commencer à générer vos propres images.Pourquoi la diffusion stable 3?
La diffusion stable 3 introduit plusieurs progrès et fonctionnalités qui le distinguent de ses prédécesseurs et le rendent très compétitif dans l'espace de génération de texte à l'image - en particulier en termes de génération de texte améliorée et de capacités de suivi rapide.
Explorons ces progrès:
Invite améliorée suivant
- Compréhension contextuelle: La diffusion stable 3 intègre des techniques de traitement du langage naturel (NLP) de pointe, ce qui lui permet de mieux comprendre et d'interpréter les invites utilisateur. Cela permet des réponses plus précises et contextuellement pertinentes aux entrées des utilisateurs.
- Continuité rapide: Contrairement aux versions précédentes, la diffusion stable 3 maintient une meilleure continuité dans les invites suivantes, en veillant à ce que le texte généré reste cohérent et aligné sur la contribution de l'utilisateur tout au long de la conversation.
Amélioration de la génération de texte
- Modèles de langage affinés: La diffusion stable 3 utilise des modèles de langage affinés qui ont suivi une formation approfondie sur de grands ensembles de données, entraînant des capacités de génération de texte améliorées. Ces modèles comprennent mieux la grammaire, la syntaxe et la sémantique, conduisant à des réponses plus cohérentes et à consonance naturelle.
- Variabilité réduite de la réponse: Grâce à des méthodologies de formation et à des architectures de modèle améliorées, la diffusion stable 3 réduit la variabilité de la réponse, générant des sorties plus cohérentes et de haute qualité sur différentes invites et contextes.
Extension invite avancée
- Support de dialogue multi-virnes: La diffusion stable 3 peut gérer plus efficacement les dialogues multi-tours, en maintenant la cohérence et le contexte entre plusieurs échanges entre l'utilisateur et le modèle AI.
- Techniques d'expansion invite: Le modèle utilise des techniques d'extension invite avancées pour générer des réponses plus informatives et contextuellement pertinentes, enrichissant le dialogue et en fournissant aux utilisateurs des réponses complètes à leurs requêtes.
Mécanismes de contrôle affinés
- Taping des paramètres: DIFUSION STABLE 3 Fonctionne des mécanismes de contrôle affinés qui permettent aux utilisateurs d'ajuster les paramètres tels que la longueur de la réponse, le niveau de créativité et la pertinence du sujet, permettant une expérience d'interaction plus personnalisée.
- Mitigation des biais: Le modèle intègre des mesures pour atténuer les biais dans la génération de texte, favorisant l'équité et l'inclusivité dans ses réponses aux invites utilisateur.
APPRENDRE AVEC API STABLE DIFUSION 3
Cette section passera par les étapes pour commencer avec l'API de stabilité.
Étape 1: Créez votre compte. Vous devrez créer un compte avant de pouvoir utiliser l'API de stabilité AI. Vous pouvez vous inscrire à l'aide d'un nom d'utilisateur et d'un mot de passe, mais les nouveaux utilisateurs obtiennent 25 crédits gratuits pour s'inscrire à l'aide de leur compte Google.
Étape 2: Réclamez votre clé API. Une fois que vous avez créé votre compte, vous aurez besoin d'une API. Cela se trouve sur la page des clés API. Dans la documentation, la stabilité AI indique que «Toutes les API documentées sur ce site utilisent le même mécanisme d'authentification: passer la clé API dans l'en-tête d'autorisation.»
Étape 3: Crédits de dépression. Vous devez avoir des crédits pour demander l'API. Les crédits sont l'unité de devise consommée lors de l'appel de l'API - le montant consommé varie à l'autre et les modalités. Après avoir utilisé tous vos crédits, vous pouvez acheter plus via votre tableau de bord de facturation à 1 $ pour 100 crédits.
Dans ce didacticiel, nous utiliserons Google Colab et Comfyui pour montrer comment générer des images à l'aide de l'API stable Diffusion 3. Dans la section suivante, nous couvrirons les étapes pour commencer à utiliser chaque outil.
en utilisant l'API stable Diffusion 3 avec Google Colab
Pour commencer avec Google Colab, vous devez créer un compte Google - cliquez sur le lien et suivez les instructions.
Si vous avez déjà un compte Google, ouvrez un nouveau ordinateur portable et suivez les étapes ci-dessous.
Remarque: Le code utilisé dans cet exemple est tiré du tutoriel SD3_API par stabilité ai.
Étape 1: Installez les exigences.
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Étape 2: Connectez-vous à l'API de stabilité.
import getpass # To get your API key, visit https://platform.stability.ai/account/keys STABILITY_KEY = getpass.getpass('Enter your API Key')
Étape 3. Définissez les fonctions
def send_generation_request( host, params, ): headers = { "Accept": "image/*", "Authorization": f"Bearer {STABILITY_KEY}" } # Encode parameters files = {} image = params.pop("image", None) mask = params.pop("mask", None) if image is not None and image != '': files["image"] = open(image, 'rb') if mask is not None and mask != '': files["mask"] = open(mask, 'rb') if len(files)==0: files["none"] = '' # Send request print(f"Sending REST request to {host}...") response = requests.post( host, headers=headers, files=files, data=params ) if not response.ok: raise Exception(f"HTTP {response.status_code}: {response.text}") return response
Étape 4. Générez des images.
Selon la documentation, les services d'image stables incluent une seule offre qui est actuellement en production:
- sd3: utilise 6.5 crédits
- SD3 Turbo: utilise 4 crédits
Testons-les.
Dans cet exemple, nous créerons une image d'un oiseau Toucan dans une zone tropique de plaine.
# SD3 prompt = "This dreamlike digital art captures a vibrant, Toucan bird in a lowland tropic area" #@param {type:"string"} negative_prompt = "" #@param {type:"string"} aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"] seed = 0 #@param {type:"integer"} output_format = "jpeg" #@param ["jpeg", "png"] host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3" params = { "prompt" : prompt, "negative_prompt" : negative_prompt, "aspect_ratio" : aspect_ratio, "seed" : seed, "output_format" : output_format, "model" : "sd3", "mode" : "text-to-image" } response = send_generation_request( host, params ) # Decode response output_image = response.content finish_reason = response.headers.get("finish-reason") seed = response.headers.get("seed") # Check for NSFW classification if finish_reason == 'CONTENT_FILTERED': raise Warning("Generation failed NSFW classifier") # Save and display result generated = f"generated_{seed}.{output_format}" with open(generated, "wb") as f: f.write(output_image) print(f"Saved image {generated}") output.no_vertical_scroll() print("Result image:") IPython.display.display(Image.open(generated))
Voici ce qu'il a créé:
Image créée par auteur utilisant une diffusion stable 3
Maintenant, créons une image d'une voiture faite de fruits à l'aide de SD3 Turbo:
#SD3 Turbo prompt = "A car made out of fruits." #@param {type:"string"} aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"] seed = 0 #@param {type:"integer"} output_format = "jpeg" #@param ["jpeg", "png"] host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3" params = { "prompt" : prompt, "aspect_ratio" : aspect_ratio, "seed" : seed, "output_format" : output_format, "model" : "sd3-turbo" } response = send_generation_request( host, params ) # Decode response output_image = response.content finish_reason = response.headers.get("finish-reason") seed = response.headers.get("seed") # Check for NSFW classification if finish_reason == 'CONTENT_FILTERED': raise Warning("Generation failed NSFW classifier") # Save and display result generated = f"generated_{seed}.{output_format}" with open(generated, "wb") as f: f.write(output_image) print(f"Saved image {generated}") output.no_vertical_scroll() print("Result image:") IPython.display.display(Image.open(generated))
L'exécution de ce code a produit l'image suivante:
Image créée par auteur utilisant une diffusion stable 3 turbo
en utilisant l'API avec comfyui
Comfyui est une interface utilisateur graphique robuste et flexible (GUI) pour une diffusion stable. Il dispose d'une interface basée sur des graphiques et utilise une conception de style organigramme pour permettre aux utilisateurs de créer et d'exécuter des flux de travail de diffusion stables sophistiqués.
Exigences du système:
- Unité de traitement graphique (GPU): Un GPU NVIDIA adéquat avec un minimum de 8 Go de VRAM, comme le RTX 3060 Ti ou mieux.
- Unité de traitement centrale (CPU): Un processeur contemporain, y compris Intel Xeon E5, I5, Ryzen 5, ou plus.
- Mémoire d'accès aléatoire (RAM): 16 Go ou plus.
- Système d'exploitation: Windows 10/11 ou Linux.
- Espace de stockage adéquat sur votre ordinateur pour les modèles et les images générées.
Étape 1: Installez Comfyui
La méthode la plus simple pour l'installation de Comfyui sur Windows consiste à utiliser le programme d'installation autonome trouvé sur la page des versions. Ce programme d'installation comprend des dépendances essentielles telles que Pytorch et étreindre les transformateurs de face, éliminant le besoin d'installations séparées.
Il fournit un package complet, permettant une configuration rapide de comfyui sur Windows sans nécessiter de configurations complexes.
Télécharger, extraire, ajouter des modèles et lancer!
Étape 1.1: Téléchargez la version autonome de Comfyui à partir de ce référentiel GitHub - cliquer sur le lien initiera le téléchargement.
Étape 1.2: Une fois que vous avez téléchargé le fichier comfyui-windows.zip le plus récent, extraire à l'aide d'un utilitaire tel que 7-Zip ou Winrar.
Étape 1.3: Un modèle de point de contrôle est nécessaire pour commencer à utiliser comfyui. Vous pouvez télécharger un modèle de point de contrôle à partir d'une diffusion stable ou d'un visage étreint. Mettez le modèle dans le dossier:
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Étape 1.4: Maintenant, exécutez simplement le run_nvidia_gpu.bat (recommandé) ou run_cpu.bat. Cela devrait démarrer automatiquement Comfyui sur votre navigateur.
La ligne de commande exécutera et générera une URL http://127.0.0.1:8188/ que vous pouvez maintenant ouvrir dans votre navigateur.
Étape 2: Installez Comfyui Manager
Dans l'application File Explorer, localisez le répertoire que vous venez d'installer. Étant donné que vous utilisez Windows, il doit être nommé "Comfyui_windows_portable". À partir de là, accédez à Comfyui, puis CUSTOM_NODES. À partir de cet emplacement, tapez CMD dans la barre d'adresse et appuyez sur Entrée.
Cela devrait ouvrir un terminal d'invite de commande, où vous devez insérer la commande suivante:
import getpass # To get your API key, visit https://platform.stability.ai/account/keys STABILITY_KEY = getpass.getpass('Enter your API Key')
Une fois qu'il est terminé, redémarrez Comfyui. Le nouveau bouton « Manager » doit apparaître sur le panneau flottant.
Étape 3: Installez le nœud API AI de stabilité
Sélectionnez le bouton Gérer et accédez à " Installez les nœuds personnalisés. " À partir d'ici, recherchez " API de stabilité. "
Localisez le nœud "API de stabilité pour le nœud comfyui", puis cliquez sur le bouton d'installation situé sur le côté droit pour initier le processus d'installation. Après cela, un bouton « redémarrer » deviendra visible. Cliquez sur « redémarrer » pour redémarrer Comfyui.
Étape 4: Définissez la clé d'API à l'échelle du système
Cette étape est facultative, mais elle est recommandée. À savoir, vous pouvez définir une clé API AI de stabilité pour chaque nœud dans le nœud personnalisé de stabilité AI. Cela empêche la nécessité de saisir la clé API à plusieurs reprises dans chaque flux de travail et réduit le risque de partager par inadvertance votre clé d'API lors du partage de votre fichier JSON de workflow.
Pour ce faire, accédez au répertoire de nœud personnalisé:
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Créez un nouveau fichier nommé SAI_PLATFORM_KEY.txt. Collez votre clé API dans le fichier, enregistrez le document, puis redémarrez Comfyui.
Étape 5: Chargez et exécutez le workflow
Installez le workflow de texte stable Diffusion 3 et déposons-le dans Comfyui.
Vous êtes maintenant prêt à partir!
Dépannage et conseils
Comme pour n'importe quel outil, il y a toujours une chance que vous rencontrerez quelques problèmes en cours de route. Voici les défis les plus courants et les étapes de dépannage pour les utilisateurs confrontés à des problèmes avec l'API ou le processus de configuration.
Clé API et problèmes d'authentification
Challenge: Les utilisateurs peuvent faire face à des erreurs d'authentification lors de l'accès à l'API en raison d'une clé API incorrecte ou de mauvaises informations d'authentification.
Dépannage: Vérifiez la touche API et assurez-vous qu'il est copié et collé correctement. Vérifiez qu'il n'y a pas d'espaces ou de caractères supplémentaires dans la clé. Assurez-vous que la touche API est correctement authentifiée par le serveur stable Diffusion 3.
Problèmes de gestion du crédit
Challenge: Les utilisateurs peuvent rencontrer des problèmes liés à la gestion du crédit, tels que des crédits insuffisants ou des erreurs de facturation.
Dépannage: Vérifiez votre solde de crédit dans le tableau de bord stable de diffusion 3 pour vous assurer que vous avez suffisamment de crédits. Vérifiez vos informations de facturation et abordez toutes les erreurs de facturation ou divergences avec l'équipe d'assistance.
Problèmes de connectivité et de réseau
Challenge: Les utilisateurs peuvent rencontrer des problèmes de connectivité ou des interruptions de réseau qui les empêchent d'accéder à l'API.
Dépannage: Assurez-vous d'avoir une connexion Internet stable et qu'il n'y a pas de perturbations du réseau. Pour isoler le problème, essayez d'accéder à l'API à partir d'un autre réseau ou appareil. Contactez votre fournisseur de services Internet si vous continuez à rencontrer des problèmes de connectivité.
Erreurs de compatibilité et de dépendance
Challenge: Les utilisateurs peuvent rencontrer des problèmes de compatibilité ou des erreurs de dépendance lors de l'installation ou de l'utilisation des outils et bibliothèques requis.
Dépannage: Vérifiez les exigences de compatibilité de l'API stable Diffusion 3 et assurez-vous que vous utilisez des versions compatibles des outils et des bibliothèques. Mettre à jour ou réinstaller toutes les dépendances qui causent des erreurs. Reportez-vous à la documentation et aux forums communautaires pour le dépannage des conseils.
Performance et temps de réponse
Challenge: Les utilisateurs peuvent ressentir des temps de réponse ou des problèmes de performance lents lors de l'interaction avec l'API, en particulier pendant les temps d'utilisation de pointe.
Dépannage: Surveiller les performances de l'API et suivre les temps de réponse pour identifier les modèles ou les tendances. Envisagez de passer à un plan d'abonnement à niveau supérieur pour de meilleures performances et un accès prioritaire. Contactez l'équipe d'assistance si vous ressentez régulièrement des temps de réponse lents.
Documentation et support
Challenge: Les utilisateurs peuvent rencontrer des difficultés à comprendre la documentation de l'API ou nécessiter une aide dépannageant des problèmes spécifiques.
Dépannage: Pour que les conseils sur l'utilisation de l'API, le dépannage et les meilleures pratiques, reportez-vous à la documentation stable de diffusion 3. Si vous avez des problèmes ou des questions non résolus, contactez l'équipe de soutien ou les forums communautaires.
Conclusion
La diffusion stable 3 est une série de modèles d'IA génératifs de texte à l'image. Cet article a couvert des étapes pratiques pour commencer à utiliser l'API avec Google Colab et Comfyui. Maintenant, vous avez les compétences nécessaires pour créer vos propres images; Assurez-vous d'appliquer ce que vous avez appris dès que possible afin que vous n'oubliez pas.
Merci d'avoir lu!
apprentissage plus approfondi
- Ui Web de diffusion stable: un guide complet de l'utilisateur pour les débutants
- affusion stable à réglage stable xl avec dreambooth et lora
- comment exécuter une diffusion stable
- Génération d'images photoréalistes utilisant l'IA avec des diffuseurs dans Python
FAQs
Quelles sont les meilleures pratiques pour utiliser efficacement l'API de diffusion 3 stable?
Les meilleures pratiques pour l'utilisation de l'API stable Diffusion 3 incluent la fourniture d'invites claires et spécifiques, l'expérimentation de différents paramètres pour obtenir les résultats souhaités, surveillant l'utilisation du crédit pour éviter la déplétion et rester mis à jour avec les dernières documents et fonctionnalités.
Qu'est-ce que la diffusion stable 3?
La diffusion stable comprend une collection de modèles d'IA axés sur la génération d'images à partir d'invites textuelles. Les utilisateurs fournissent des descriptions des images souhaitées et le modèle génère des représentations visuelles correspondantes en fonction de ces invites.
Comment fonctionne la diffusion stable?
La diffusion stable 3 utilise une architecture de transformateur de diffusion semblable à Sora, divergeant à partir de versions antérieures qui ont utilisé un modèle de diffusion semblable à la plupart des IA de génération d'images existants. Cette innovation fusionne l'architecture transformateur couramment utilisée dans des modèles de grande langue tels que le GPT avec des modèles de diffusion, offrant le potentiel de tirer parti des forces des deux architectures.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

L'IA rationalise la récupération des incendies de forêt Le logiciel AI de la société de technologie australienne Archistar, utilisant l'apprentissage automatique et la vision par ordinateur, automatise l'évaluation des plans de construction de conformité aux réglementations locales. Cette signification de pré-validation

Le gouvernement numérique de l'Estonie: un modèle pour les États-Unis? Les États-Unis luttent contre les inefficacités bureaucratiques, mais l'Estonie offre une alternative convaincante. Cette petite nation possède un gouvernement de près de 100% numérisé et centré sur les citoyens alimentés par l'IA. Ce n'est pas

Planifier un mariage est une tâche monumentale, souvent écrasante même les couples les plus organisés. Cet article, qui fait partie d'une série Forbes en cours sur l'impact de l'IA (voir le lien ici), explore comment l'IA génératrice peut révolutionner la planification de mariage. Le mariage PL

Les entreprises exploitent de plus en plus les agents de l'IA pour les ventes, tandis que les gouvernements les utilisent pour diverses tâches établies. Cependant, les défenseurs des consommateurs mettent en évidence la nécessité pour les individus de posséder leurs propres agents d'IA comme une défense contre les

Google mène ce changement. Sa fonction "AI AperSews" sert déjà plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que quiconque clique sur un lien. [^ 2] D'autres joueurs gagnent également du terrain rapidement. Chatgpt, Microsoft Copilot et PE

En 2022, il a fondé la startup de défense de l'ingénierie sociale Doppel pour faire exactement cela. Et alors que les cybercriminels exploitent des modèles d'IA de plus en plus avancés pour turbuler leurs attaques, les systèmes d'IA de Doppel ont aidé les entreprises à les combattre à grande échelle - plus rapidement et

Le tour est joué, via l'interaction avec les modèles mondiaux appropriés, l'IA et les LLM génératives peuvent être considérablement stimulées. Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur la dernière IA, y compris

La fête du Travail 2050. Les parcs à travers le pays se remplissent de familles bénéficiant de barbecues traditionnelles tandis que les défilés nostalgiques vont dans les rues de la ville. Pourtant, la célébration porte désormais une qualité de musée - une reconstitution historique plutôt que la commémoration de C


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.
