Maison >Périphériques technologiques >IA >Imagen 3: un guide avec des exemples dans l'API Gemini
Imagen 3: Un tutoriel Python pour la génération de texte à l'image
Imagen 3 est un puissant modèle de texte à image capable de générer des images très détaillées et stylistiquement diverses, même en incorporant du texte. Ce didacticiel montre comment tirer parti des capacités d'imagen 3 par programme en utilisant l'API AI et Python génératifs de Google. Nous couvrirons la configuration de l'environnement, la mise en œuvre du code et explorerons diverses options de génération d'images.
Accéder à Imagen 3 via l'API Generative AI Google
Pour commencer, vous aurez besoin d'un projet Google Cloud et d'une clé API.
Configuration de votre environnement Google Cloud:
Génération de clés de l'API:
.env
dans votre répertoire de projet avec le contenu suivant: <code>GEMINI_API_KEY=<your_api_key></your_api_key></code>
Configuration du compte de facturation:
Imagen 3 est un service payant. Associez un compte de facturation à votre projet Google Cloud pour éviter les erreurs d'utilisation de l'API. Suivez les invites dans Google AI Studio pour lier ou créer un compte de facturation. Le coût actuel par génération d'images est de 0,03 $ (vérifiez la page de tarification officielle des derniers tarifs).
Configuration de l'environnement Python (Anaconda recommandé):
conda create -n imagen python=3.9
conda activate imagen
pip install -q -U google-genai pillow python-dotenv
Génération d'images avec Python:
Créez un script Python (par exemple, gen_image.py
) dans le même répertoire que votre fichier .env
.
<code class="language-python"># Import necessary libraries from google import genai from google.genai import types from PIL import Image from io import BytesIO import os from dotenv import load_dotenv # Load API key from .env load_dotenv() api_key = os.getenv("GEMINI_API_KEY") # Initialize the client client = genai.Client(api_key=api_key) # Generate an image prompt = """A dog surfing at the beach""" response = client.models.generate_images( model="imagen-3.0-generate-002", prompt=prompt, config=types.GenerateImagesConfig(number_of_images=1) ) # Display the image for generated_image in response.generated_images: image = Image.open(BytesIO(generated_image.image.image_bytes)) image.show()</code>
Options de génération d'images avancées:
L'objet types.GenerateImagesConfig
permet la personnalisation:
number_of_images
: générer plusieurs images (par défaut: 4). aspect_ratio
: Contrôler le rapport d'aspect (par exemple, "9:16" pour les images verticales). safety_filter_level
: actuellement ne prend en charge que BLOCK_LOW_AND_ABOVE
. person_generation
: Contrôlez si les gens sont autorisés à l'image (ALLOW_ADULT
ou DONT_ALLOW
). Ingénierie rapide efficace:
Création des invites efficaces est cruciale. Utilisez un langage descriptif, spécifiez les styles et envisagez d'ajouter des détails sur l'éclairage, les paramètres de la caméra et les techniques artistiques pour de meilleurs résultats. Reportez-vous à la documentation officielle de l'imagen 3 pour des directives rapides détaillées.
Édition et personnalisation d'image (Accès actuellement limité):
Imagen 3 propose des fonctionnalités d'édition et de personnalisation d'image, mais l'accès est actuellement restreint.
Conclusion:
Ce didacticiel fournit une base pour l'utilisation d'Imagen 3 via l'API et Python Génératifs Google. Expérimentez avec différentes invites et options de configuration pour déverrouiller le plein potentiel de ce puissant modèle de texte à image. N'oubliez pas de toujours vérifier la documentation officielle pour les informations et les prix les plus à jour.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!