Eine vollständige Reihe von Tutorials zur Anpassung des Diffusers-Frameworks finden Sie hier! Vom T2I-Adapter zum beliebten ControlNet-KI-php.cn

Eine vollständige Reihe von Tutorials zur Anpassung des Diffusers-Frameworks finden Sie hier! Vom T2I-Adapter zum beliebten ControlNet

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 06:16 PM

开发代码

Kurz nachdem ChatGPT den Kreis verlassen hatte, gewann das Aufkommen von ControlNet schnell viele Entwickler und normale Benutzer im englischen und chinesischen Internet. Einige Benutzer befürworteten sogar, dass das Aufkommen von ControlNet die KI-Erstellung in den aufrechten Gang brachte . Ära. Es ist keine Übertreibung zu sagen, dass die kontrollierbare Generation als letzte Hochmauer der KI-Erstellung, einschließlich ControlNet, der T2I-Adapter-, Composer- und LoRA-Trainingstechniken aus derselben Zeit, in absehbarer Zeit höchstwahrscheinlich weitere Durchbrüche erzielen wird Dadurch werden die Erstellungskosten des Benutzers erheblich reduziert und die Spielbarkeit der Erstellung verbessert. In nur zwei Wochen seit der Veröffentlichung von ControlNet hat die offizielle Star-Zahl die 10.000-Marke überschritten. Diese Popularität ist zweifellos beispiellos.

Gleichzeitig hat die Open-Source-Community auch die Schwelle für Benutzer erheblich gesenkt. Beispielsweise bietet die Hugging Face-Plattform grundlegende Modellgewichte und allgemeine Modelltrainings-Frameworks Diffusoren, stabil -diffusion-webui hat eine komplette Demo-Plattform entwickelt und Civitai hat eine große Anzahl stilisierter LoRA-Gewichte beigesteuert.

Eine vollständige Reihe von Tutorials zur Anpassung des Diffusers-Frameworks finden Sie hier! Vom T2I-Adapter zum beliebten ControlNet

# 🎜 🎜#

Obwohl WebUI derzeit das beliebteste Visualisierungstool ist, hat es schnell verschiedene kürzlich eingeführte Generationsmodelle unterstützt und unterstützt viele Optionen, die Benutzer festlegen können. Da der Schwerpunkt auf der Benutzerfreundlichkeit der Front-End-Schnittstelle liegt, ist die Codestruktur dahinter tatsächlich sehr komplex und für Entwickler nicht benutzerfreundlich genug. Obwohl Webui beispielsweise mehrere Arten des Ladens und der Inferenz unterstützt, kann es weder die Konvertierung unter verschiedenen Frameworks noch das flexible Training von Modellen unterstützen. In Community-Diskussionen haben wir viele Schwachstellen entdeckt, die durch den vorhandenen Open-Source-Code noch nicht gelöst wurden.

Erstens ist das Code-Framework nicht kompatibel mit , derzeit gängigen Modellen, wie z ControlNet, T2I-Adapter, ist nicht mit den gängigen Diffusoren der Stable Diffusion-Trainingsbibliothek kompatibel, und das vorab trainierte ControlNet-Modell kann nicht direkt im Diffusor-Framework verwendet werden.

Zweitens ist das Laden von Modellen begrenzt Derzeit wird das Modell in verschiedenen Formaten gespeichert, z B. .bin, .ckpt, .pth, .satetensors usw. Zusätzlich zu webui bietet das Diffusor-Framework derzeit nur begrenzte Unterstützung für diese Modellformate. Da die meisten LoRA-Modelle hauptsächlich in Safetensors gespeichert werden, ist es für Benutzer schwierig, sie direkt zu verwenden Laden Sie LoRA-Modelle in ein vorhandenes Modell, das auf der Grundlage des Diffusor-Frameworks trainiert wurde.

Drittens Das Basismodell ist limitiert Derzeit basieren ControlNet und T2I-Adapter Für das Training wird Stable-Diffusion-1.5 verwendet, und nur die Modellgewichte unter SD1.5 sind Open-Source-Modelle, auch wenn kontrollierbare Informationen eingeführt werden. Die endgültigen generierten Ergebnisse sind immer noch durch die Fähigkeiten von UNet in SD1.5 begrenzt.

Schließlich ist die Modellausbildung begrenzt Übertragung und Wartung Eine der effektivsten Methoden für bestimmte Bild-IP, aber das Diffusor-Framework unterstützt derzeit nur die LoRA-Einbettung von UNet und kann die Text-Encoder-Einbettung nicht unterstützen, was das LoRA-Training einschränkt. Nach Gesprächen mit der Open-Source-Community erfuhren wir, dass es sich beim Diffusor-Framework um eine allgemeine Codebasis handelt und eine gleichzeitige Anpassung an die kürzlich eingeführten Generationsmodelle geplant ist ; Da viele zugrunde liegende Schnittstellen neu geschrieben werden, dauert die Aktualisierung noch einige Zeit. Zu diesem Zweck sind wir von den oben genannten tatsächlichen Problemen ausgegangen und haben die Führung übernommen, indem wir selbst entwickelte Lösungen für jedes Problem vorgeschlagen haben, um Entwicklern schnell zu helfen, einfacher zu entwickeln.

Komplette Adaptionslösung von LoRA, ControlNet, T2I-Adapter an Diffusoren

LoRA für Diffusoren

# 🎜 🎜#Diese Lösung besteht darin, LoRA-Gewichte in verschiedenen Formaten flexibel in das Diffusor-Framework einzubetten, d. h. das Modell, das basierend auf dem Diffusor-Training gespeichert wurde. Da das Training von LoRA normalerweise das Basismodell einfriert, kann es problemlos als steckbare Module als Stil- oder IP-bedingte Einschränkungen in bestehende Modelle eingebettet werden. LoRA selbst ist eine allgemeine Trainingstechnik. Ihr Grundprinzip besteht darin, dass die Anzahl der Parameter des Moduls erheblich reduziert werden kann. Derzeit wird es bei der Bilderzeugung im Allgemeinen zum Trainieren von steckbaren Modulen verwendet Der eigentliche Zweck besteht darin, es mit der Ausgabe des Basismodells in Form von Residuen zusammenzuführen.

Das erste ist die Einbettung von LoRA-Gewichten. Derzeit werden die auf der Civitai-Plattform bereitgestellten Gewichte hauptsächlich im ckpt- oder Safetensors-Format gespeichert, unterteilt in die folgenden zwei Situationen.

(1) Vollständiges Modell (Basismodell + LoRA-Modul)

Wenn das vollständige Modell vorhanden ist Safetensors-Format, kann über das folgende Diffusor-Skript konvertiert werden 🎜🎜#

python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.safetensors--dump_path save_dir --from_safetensors

Nach Abschluss der Konvertierung können Sie direkt die API von Diffusoren verwenden, um das Modell zu laden

python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.ckpt--dump_path save_dir

(2) Nur LoRA (enthält nur das LoRA-Modul)

# 🎜🎜#Derzeit unterstützen Diffusoren offiziell nicht das Laden nur von LoRA-Gewichten, und LoRA-Gewichte werden auf Open-Source-Plattformen grundsätzlich in dieser Form gespeichert. Im Wesentlichen wird die Neuzuordnung des Schlüsselwerts in LoRA-Gewichten abgeschlossen und an das Diffusormodell angepasst. Aus diesem Grund unterstützen wir diese Funktion selbst und stellen Konvertierungsskripte zur Verfügung.

from diffusers import StableDiffusionPipeline
pipeline = StableDiffusionPipeline.from_pretrained (save_dir,torch_dtype=torch.float32)

Es müssen nur das Modell im Diffusor-Format und die LoRA-Gewichte im Safetensor-Format angegeben werden. Wir stellen eine Beispielkonvertierung zur Verfügung.

pipeline = StableDiffusionPipeline.from_pretrained (model_id,torch_dtype=torch.float32)
model_path = "onePieceWanoSagaStyle_v2Offset.safetensors"
state_dict = load_file (model_path)

Darüber hinaus kann LoRA selbst aufgrund seines geringen Gewichts das Training mit kleinen Datenmengen schnell abschließen und in andere Netzwerke eingebettet werden. Um nicht auf die vorhandenen LoRA-Gewichte beschränkt zu sein, unterstützen wir das LoRA-Training mit mehreren Modulen (UNet+Text-Encoder) im Diffusor-Framework und haben eine PR in der offiziellen Codebasis eingereicht (https://github.com/ Huggingface/Diffusers/Pull /2479) und unterstützt das Training von LoRA in ColossalAI.

Der Code ist Open Source unter: https://github.com/haofanwang/Lora-for-Diffusers

#🎜🎜 ######## 🎜🎜#ControlNet für Diffusoren#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜 ## 🎜 🎜##🎜 🎜#Diese Lösung soll die Verwendung von ControlNet im Diffusor-Framework unterstützen. Basierend auf einigen Versuchen der Open-Source-Community stellen wir einen vollständigen Anwendungsfall von ControlNet+Anything-V3 bereit und unterstützen den Ersatz des Basismodells vom ursprünglichen SD1.5 durch das Anything-v3-Modell, sodass ControlNet über eine bessere Animationsgenerierung verfügt Fähigkeiten.

Darüber hinaus unterstützen wir auch ControlNet+Inpainting und stellen eine an Diffusoren angepasste Pipeline zur Verfügung,

# 🎜🎜#

Eine vollständige Reihe von Tutorials zur Anpassung des Diffusers-Frameworks finden Sie hier! Vom T2I-Adapter zum beliebten ControlNet und Multi-ControlNet für die Steuerung mehrerer Bedingungen.

Der Code ist Open Source unter: https:/ /github.com/haofanwang/ControlNet-for-Diffusers

Eine vollständige Reihe von Tutorials zur Anpassung des Diffusers-Frameworks finden Sie hier! Vom T2I-Adapter zum beliebten ControlNet

T2I-Adapter für Diffusoren

# 🎜🎜# Eine vollständige Reihe von Tutorials zur Anpassung des Diffusers-Frameworks finden Sie hier! Vom T2I-Adapter zum beliebten ControlNet

Ähnlich wie ControlNet unterstützen wir auch die Adaption des Open Source T2I-Adapters an Diffusoren bei zur gleichen Zeit.

Eine vollständige Reihe von Tutorials zur Anpassung des Diffusers-Frameworks finden Sie hier! Vom T2I-Adapter zum beliebten ControlNet

Der Code ist Open Source unter: https://github.com/haofanwang/T2I-Adapter-for-Diffusers

#🎜 🎜## 🎜🎜#

Derzeit stehen die oben genannten drei Anpassungslösungen der Community als Open Source zur Verfügung und wurden in ControlNet bzw. T2I-Adapter offiziell anerkannt. Sie haben auch Dank vom Autor von Stable-Diffusion-Webui-Colab erhalten. Wir führen Gespräche mit Verantwortlichen der Diffusoren und werden die Integration der oben genannten Lösung in die offizielle Codebasis in naher Zukunft abschließen. Sie können unsere Arbeit auch gerne vorab ausprobieren. Wenn Sie Fragen haben, können Sie uns direkt kontaktieren und wir werden so schnell wie möglich antworten.

Das obige ist der detaillierte Inhalt vonEine vollständige Reihe von Tutorials zur Anpassung des Diffusers-Frameworks finden Sie hier! Vom T2I-Adapter zum beliebten ControlNet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Gemma Scope: Das Mikroskop von Google, um in den Denkprozess von AI zu blickenApr 17, 2025 am 11:55 AM

Erforschen der inneren Funktionsweise von Sprachmodellen mit Gemma -Umfang Das Verständnis der Komplexität von KI -Sprachmodellen ist eine bedeutende Herausforderung. Die Veröffentlichung von Gemma Scope durch Google, ein umfassendes Toolkit, bietet Forschern eine leistungsstarke Möglichkeit, sich einzuschütteln

Wer ist ein Business Intelligence Analyst und wie kann man einer werden?Apr 17, 2025 am 11:44 AM

Erschließung des Geschäftserfolgs: Ein Leitfaden zum Analyst für Business Intelligence -Analyst Stellen Sie sich vor, Rohdaten verwandeln in umsetzbare Erkenntnisse, die das organisatorische Wachstum vorantreiben. Dies ist die Macht eines Business Intelligence -Analysts (BI) - eine entscheidende Rolle in Gu

Wie füge ich eine Spalte in SQL hinzu? - Analytics VidhyaApr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Business Analyst vs. Data AnalystApr 17, 2025 am 11:38 AM

Einführung Stellen Sie sich ein lebhaftes Büro vor, in dem zwei Fachleute an einem kritischen Projekt zusammenarbeiten. Der Business Analyst konzentriert sich auf die Ziele des Unternehmens, die Ermittlung von Verbesserungsbereichen und die strategische Übereinstimmung mit Markttrends. Simu

Was sind Count und Counta in Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Excel -Datenzählung und -analyse: Detaillierte Erläuterung von Count- und Counta -Funktionen Eine genaue Datenzählung und -analyse sind in Excel kritisch, insbesondere bei der Arbeit mit großen Datensätzen. Excel bietet eine Vielzahl von Funktionen, um dies zu erreichen. Die Funktionen von Count- und Counta sind wichtige Instrumente zum Zählen der Anzahl der Zellen unter verschiedenen Bedingungen. Obwohl beide Funktionen zum Zählen von Zellen verwendet werden, sind ihre Designziele auf verschiedene Datentypen ausgerichtet. Lassen Sie uns mit den spezifischen Details der Count- und Counta -Funktionen ausgrenzen, ihre einzigartigen Merkmale und Unterschiede hervorheben und lernen, wie Sie sie in der Datenanalyse anwenden. Überblick über die wichtigsten Punkte Graf und Cou verstehen

Chrome ist hier mit KI: Tag zu erleben, täglich etwas Neues !!Apr 17, 2025 am 11:29 AM

Die KI -Revolution von Google Chrome: Eine personalisierte und effiziente Browsing -Erfahrung Künstliche Intelligenz (KI) verändert schnell unser tägliches Leben, und Google Chrome leitet die Anklage in der Web -Browsing -Arena. Dieser Artikel untersucht die Exciti

Die menschliche Seite von Ai: Wohlbefinden und VierfacheApr 17, 2025 am 11:28 AM

Impacting Impact: Das vierfache Endergebnis Zu lange wurde das Gespräch von einer engen Sicht auf die Auswirkungen der KI dominiert, die sich hauptsächlich auf das Gewinn des Gewinns konzentrierte. Ein ganzheitlicherer Ansatz erkennt jedoch die Vernetzung von BU an

5 verwendende Anwendungsfälle für Quantum Computing, über die Sie wissen solltenApr 17, 2025 am 11:24 AM

Die Dinge bewegen sich stetig zu diesem Punkt. Die Investition, die in Quantendienstleister und Startups einfließt, zeigt, dass die Industrie ihre Bedeutung versteht. Und eine wachsende Anzahl realer Anwendungsfälle entsteht, um seinen Wert zu demonstrieren

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7542

CakePHP-Tutorial

1381

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten