Heim >Technologie-Peripheriegeräte >KI >Feinabstimmung stabile Diffusion XL mit Dreambooth und Lora
Dieses Tutorial untersucht die stabile Diffusion XL (SDXL) und DreamBooth, in denen gezeigt wird, wie die diffusers
Bibliothek für die Bildung von Bildgenerierung und die Feinabstimmung von Modellen nutzt. Wir werden SDXL mit persönlichen Fotos gut abteilen und die Ergebnisse bewerten. KI -Neuankömmlinge werden ermutigt, mit einem KI -Grundlagenkurs zu beginnen.
Stabile Diffusion xl
verstehen SDXL 1.0 vonStabilität AI stellt einen erheblichen Sprung in der Erzeugung von AI-Text-zu-Image dar. Aufbauend auf dem Nur-Forschungs-SDXL 0.9 ist es das leistungsstärkste öffentlich verfügbare Bildungsmodell. Umfangreiche Tests bestätigen seine überlegene Bildqualität im Vergleich zu anderen Open-Source-Alternativen.
Bild von arxiv.org
Diese verbesserte Qualität stammt aus einem Ensemble von zwei Modellen: einem Parameter-Basisgenerator von 3,5 Milliarden und einem Parameterraffiner von 6,6 Milliarden. Dieser doppelte Ansatz optimiert die Bildqualität und die Effizienz für GPUs der Verbraucher. SDXL 1.0 vereinfacht die Bilderzeugung und erzeugt komplizierte Ergebnisse aus präzisen Eingabeaufforderungen. Benutzerdefinierte Datensatz-Feinabstimmung ist ebenfalls optimiert und bietet eine granulare Kontrolle über Bildstruktur, Stil und Komposition.
Dreambooth: Personalisierte Bildgenerierung
Google's Dreambooth (2022) ist ein Durchbruch in der generativen KI, insbesondere für Text-zu-Image-Modelle wie eine stabile Diffusion. Wie die Google -Forscher es beschreiben: "Es ist wie eine Fotokabine, erfasst das Thema jedoch auf eine Weise, die es ermöglicht, überall dort synthetisiert zu werden."
Bild von Dreambooth
Dreambooth injiziert benutzerdefinierte Themen in das Modell und erstellen einen speziellen Generator für bestimmte Personen, Objekte oder Szenen. Das Training erfordert nur wenige (3-5) Bilder. Das ausgebildete Modell stellt das Thema dann in verschiedene Umgebungen und Posen, nur durch Vorstellungskraft begrenzt.
Dreambooth -Anwendungen
Dreambooths anpassbare Bildgenerierung kommt von verschiedenen Feldern zugute:
Zugriff auf stabile Diffusion xl
sdxl kann über die Demo der umarmenden Gesichtsräume (erzeugen vier Bilder aus der Eingabeaufforderung) oder die diffusers
Python -Bibliothek für benutzerdefinierte Eingabeaufforderungbildgenerierung zugegriffen werden.
Setup und Bildgenerierung mit diffusers
Stellen Sie sicher, dass eine CUDA-fähige GPU verfügbar ist:
!nvidia-smi
installieren diffusers
:
%pip install --upgrade diffusers[torch] -q
Laden Sie das Modell (mit FP16 für die Effizienz des GPU -Speichers):
from diffusers import DiffusionPipeline, AutoencoderKL import torch vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16) pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", vae=vae, torch_dtype=torch.float16, variant="fp16", use_safetensors=True) pipe.to("cuda");
Bilder generieren:
prompt = "A man in a spacesuit is running a marathon in the jungle." image = pipe(prompt=prompt, num_inference_steps=25, num_images_per_prompt=4)
Bilder mithilfe einer Helferfunktion (im Original bereitgestellt):
# ... (image_grid function from original code) ... image_grid(image.images, 2, 2)
Verbesserung der Ergebnisse mit dem Raffiner
Verwenden Sie für verbesserte Qualität den SDXL -Raffiner:
# ... (refiner loading and processing code from original) ...
feinstimmend SDXL mit Autotrain Advanced
Autotrain Advanced vereinfacht die Feinabstimmung von SDXL. Installieren Sie es mit:
%pip install -U autotrain-advanced
(Hinweis: Das ursprüngliche Tutorial verwendet ein jetzt veraltetes Colab -Notizbuch für eine alternative Methode; dies wird für die Kürze weggelassen.)
Dreambooth Fine-Tuning (gekürzt)
Das Tutorial fährt dann mit einem detaillierten Beispiel für das Dreambooth-Skript von Autotrain Advanced auf einem persönlichen Datensatz mit dem Bild mit dem Dreambooth-Skript von Autotrain fort. In diesem Abschnitt werden Variablen eingerichtet, ein Kaggle -Datensatz erstellt und das Autotrain -Skript ausgeführt. Die Ausgabe zeigt den Trainingsprozess und die daraus resultierenden Lora -Gewichte, die auf umarmtes Gesicht hochgeladen wurden. Die Inferenz mit dem fein abgestimmten Modell wird dann demonstriert, wobei erzeugte Bilder des angegebenen Motivs in verschiedenen Szenarien zeigen. Schließlich wird die Verwendung des Raffinerierers mit dem fein abgestimmten Modell untersucht. Aufgrund von Längenbeschränkungen ist dieser detaillierte Abschnitt hier erheblich verdichtet. Weitere Informationen finden Sie im Original für den vollständigen Code und die Erläuterung.
Schlussfolgerung
Dieses Tutorial bietet einen umfassenden Überblick über SDXL und Dreambooth, wodurch ihre Funktionen und die Benutzerfreundlichkeit mit der diffusers
-Bibliothek und Autotrain Fortgeschrittene vorgestellt werden. Der Feinabstimmungsprozess zeigt die Kraft der personalisierten Bildgenerierung und zeigt sowohl Erfolge als auch Bereiche für die weitere Erkundung (wie die Interaktion des Raffinerierers mit fein abgestimmten Modellen). Das Tutorial endet mit Empfehlungen für das weitere Lernen im Bereich Ai.
Das obige ist der detaillierte Inhalt vonFeinabstimmung stabile Diffusion XL mit Dreambooth und Lora. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!