Heim >Technologie-Peripheriegeräte >KI >LCM: Neue Möglichkeit, qualitativ hochwertige Bilder deutlich schneller zu erzeugen

LCM: Neue Möglichkeit, qualitativ hochwertige Bilder deutlich schneller zu erzeugen

WBOY
WBOYnach vorne
2023-11-30 14:31:11915Durchsuche

Autor丨Mike Young

Übersetzung: Die Sprache, um den Inhalt neu zu erstellen, ohne die ursprüngliche Bedeutung zu ändern, ist Chinesisch, der Originalsatz muss nicht erscheinen

Überprüfen Sie den Inhalt, es besteht keine Notwendigkeit, die ursprüngliche Bedeutung zu ändern Die Sprache muss ins Chinesische umgeschrieben werden, der Originalsatz muss nicht erscheinen.

Empfohlener 51CTO Technology Stack (WeChat-ID: blog51cto) Latent Consistency Model (LCM), KI wird die Umwandlung von Text in einen großen Durchbruch in der Grafik einleiten. Herkömmliche Methoden wie Latent Diffusion Models (LDM) eignen sich gut zur Generierung detaillierter, kreativer Bilder mithilfe von Texthinweisen, ihr fataler Nachteil ist jedoch ihre langsame Geschwindigkeit. Das Generieren eines einzelnen Bildes mit LDM kann Hunderte von Schritten erfordern, was für viele praktische Anwendungen zu langsam ist

Auf Chinesisch umgeschrieben: LCM verändert das Spiel, indem es die Anzahl der Schritte reduziert, die zum Generieren eines Bildes erforderlich sind. Im Vergleich zu LDM, das Hunderte von Schritten zur mühsamen Generierung von Bildern erfordert, kann LCM in nur 1 bis 4 Schritten Ergebnisse ähnlicher Qualität erzielen. Um diese Effizienz zu erreichen, verfeinert LCM das vorab trainierte LDM in eine prägnantere Form und reduziert dadurch die erforderlichen Rechenressourcen und Zeit erheblich. Wir werden ein aktuelles Papier zur Funktionsweise des LDM-Modells analysieren. Das Papier stellt auch eine Innovation namens LCM-LoRA vor, ein universelles Beschleunigungsmodul für stabile Diffusion. Dieses Modul kann ohne zusätzliche Schulung in verschiedene Stable--Diffusion-feinabgestimmte Modelle eingesteckt werden. Es handelt sich um ein universell einsetzbares Tool, das eine Vielzahl von Bilderzeugungsaufgaben beschleunigen kann, was es zu einem potenziellen Werkzeug für die Nutzung von KI zur Erstellung von Bildern macht. Wir werden auch diesen Teil des Papiers analysieren. LCM: Neue Möglichkeit, qualitativ hochwertige Bilder deutlich schneller zu erzeugen1. Effizientes Training von LCM

Im Bereich der neuronalen Netze gibt es eine große Herausforderung, die enorme Rechenleistung erfordert, insbesondere beim Training neuronaler Netze mit komplexen Gleichungen. Das Team hinter diesem Artikel hat dieses Problem jedoch erfolgreich gelöst, indem es eine geniale Methode namens Verfeinerung verwendet hat. LDM). Sobald das LDM betriebsbereit ist, nutzen sie es als Mentor und generieren neue Trainingsdaten. Anschließend nutzten sie diese neuen Daten, um ein latentes Konsistenzmodell (LCM) zu trainieren. Das Attraktivste ist, dass LCM von den Fähigkeiten von LDM lernen kann, ohne mit riesigen Datensätzen von Grund auf trainieren zu müssen

Was wirklich zählt, ist die Effizienz dieses Prozesses. Die Forscher absolvierten das Training eines hochwertigen LCM in etwa 32 Stunden mit nur einer einzigen GPU. Dies ist wichtig, da es viel schneller und praktischer ist als bisherige Methoden. Das bedeutet, dass jetzt mehr Menschen und Projekte solch fortschrittliche Modelle erstellen können, als nur diejenigen, die Zugang zu Supercomputing-Ressourcen haben.

Abbildung 1, LCM-LoRA-Übersicht

Durch die Einführung von LoRA in den LCM-Extraktionsprozess reduzieren wir den Speicheraufwand der Extraktion erheblich, wodurch wir größere Datensätze mit begrenzten Ressourcen trainieren können, z SDXL und SSD-1B. Noch wichtiger ist, dass die durch das LCM-LoRA-Training erhaltenen LoRA-Parameter („Beschleunigungsvektoren“) direkt mit anderen LoRA-Parametern („Stilvektoren“) kombiniert werden können, die durch Feinabstimmung eines Datensatzes für einen bestimmten Stil erhalten werden. Ohne jegliches Training erhält das durch die lineare Kombination des Beschleunigungsvektors und des Stilvektors erhaltene Modell die Fähigkeit, mit einem Minimum an Abtastschritten Bilder eines bestimmten Malstils zu erzeugen.

2. Ergebnisse

Diese Studie zeigt erhebliche Fortschritte bei der Verwendung von KI zur Generierung von Bildern auf der Grundlage des latenten Konsistenzmodells (LCM). LCM zeichnet sich durch die Erstellung hochwertiger 512x512-Bilder in nur vier Schritten aus, eine deutliche Verbesserung gegenüber den Hunderten von Schritten, die bei herkömmlichen Modellen wie Latent Diffusion Models (LDM) erforderlich sind. Die Bilder zeichnen sich durch gestochen scharfe Details und realistische Texturen aus, was in den folgenden Beispielen besonders deutlich wird.

BilderLCM: Neue Möglichkeit, qualitativ hochwertige Bilder deutlich schneller zu erzeugenAbbildung 2. In der Arbeit heißt es: „Bilder, die mit latenten Kohärenzmodellen erstellt wurden, die aus verschiedenen vorab trainierten Diffusionsmodellen extrahiert wurden. Wir verwenden LCM-LoRA-SD-V1.5, um eine Auflösung von 512× 512 zu erzeugen.“ Bilder, verwenden Sie LCM-LoRA-SDXL und LCM-LoRA-SSD-1B, um Bilder mit einer Auflösung von 1024 x 1024 zu erzeugen. Sie zeigen die Fähigkeit, auf viel größere neuronale Netzwerkmodelle als bisher möglich zu skalieren, was ihre Anpassungsfähigkeit unter Beweis stellt. In den Beispielen im Papier (wie den Beispielen der Versionen LCM-LoRA-SD-V1.5 und LCM-LoRA-SSD-1B) wird die breite Anwendbarkeit des Modells in verschiedenen Datensätzen und praktischen Szenarien verdeutlicht

3 , Einschränkungen

Die aktuelle Version von LCM weist mehrere Einschränkungen auf. Das Wichtigste ist der zweistufige Trainingsprozess: Trainieren Sie zuerst das LDM und trainieren Sie dann damit das LCM. In zukünftigen Forschungen könnte eine direktere Methode des LDM-Trainings untersucht werden, bei der LDM möglicherweise nicht erforderlich ist. Der Artikel befasst sich hauptsächlich mit der bedingungslosen Bildgenerierung. Aufgaben zur bedingten Generierung (z. B. Text-zu-Bild-Synthese) erfordern möglicherweise mehr Arbeit.

4. Wichtigste Erkenntnisse

Das Latent Consistency Model (LCM) hat einen wichtigen Schritt bei der schnellen Generierung qualitativ hochwertiger Bilder gemacht. Diese Modelle können in nur 1 bis 4 Schritten mit langsameren LDMs vergleichbare Ergebnisse liefern und möglicherweise die praktische Anwendung von Text-zu-Bild-Modellen revolutionieren. Obwohl es derzeit einige Einschränkungen gibt, insbesondere im Hinblick auf den Trainingsprozess und den Umfang der Generierungsaufgabe, stellt LCM einen erheblichen Fortschritt in der praktischen Bildgenerierung auf Basis neuronaler Netze dar. Die bereitgestellten Beispiele verdeutlichen das Potenzial dieser Modelle

5. LCM-LoRA als allgemeines Beschleunigungsmodul

Wie in der Einleitung erwähnt, ist das Papier in zwei Teile gegliedert. Im zweiten Teil geht es um die LCM-LoRA-Technologie, die in der Lage ist, vorab trainierte Modelle mit weniger Speicher zu verfeinern und dadurch die Effizienz zu verbessern Vorteile beider Hybridmodelle. Diese Integration ist besonders nützlich, um Bilder eines bestimmten Stils zu erstellen oder auf eine bestimmte Aufgabe zu reagieren. Wenn verschiedene Sätze von LoRA-Parametern ausgewählt und kombiniert werden, die jeweils auf einen einzigartigen Stil abgestimmt sind, erstellen die Forscher ein vielseitiges Modell, das Bilder mit einem Minimum an Schritten und ohne zusätzliches Training erzeugen kann.

Dies haben sie in ihrer Forschung am Beispiel der Kombination von LoRA-Parametern, die auf bestimmte Malstile abgestimmt sind, mit LCM-LoRA-Parametern demonstriert. Diese Kombination ermöglicht die Erstellung von Bildern mit einer Auflösung von 1024 × 1024 und unterschiedlichen Stilen in unterschiedlichen Abtastschritten (z. B. 2-Schritte, 4-Schritte, 8-Schritte, 16-Schritte und 32-Schritte). Die Ergebnisse zeigen, dass diese kombinierten Parameter ohne weiteres Training qualitativ hochwertige Bilder erzeugen können, was die Effizienz und Vielseitigkeit des Modells unterstreicht

Bemerkenswert ist hier die Verwendung sogenannter „Speed-Up-Vektoren“ (τLCM). und „Stilvektor“ (τ), die beiden werden mithilfe spezifischer mathematischer Formeln kombiniert (λ1 und λ2 sind einstellbare Faktoren in diesen Formeln). Diese Kombination führt zu einem Modell, das schnell benutzerdefinierte Bilder generieren kann.

Abbildung 3 im Papier (siehe unten) demonstriert die Wirksamkeit dieses Ansatzes, indem sie die Ergebnisse eines bestimmten Stils von LoRA-Parametern in Kombination mit LCM-LoRA-Parametern zeigt. Dies zeigt die Fähigkeit des Modells, schnell und effizient Bilder mit unterschiedlichen Stilen zu generieren. Abbildung 3 Abbildung 3: mit nur wenigen Rechenressourcen. Die Technologie hat ein breites Anwendungsspektrum und wird voraussichtlich die Art und Weise, wie Bilder in Bereichen von digitaler Kunst bis hin zur automatisierten Inhaltserstellung generiert werden, revolutionieren

6. Fazit

Wir haben einen neuen Ansatz untersucht, das Latent Consistency Model (LCM). ), wird verwendet, um den Prozess der Generierung von Bildern aus Text zu beschleunigen. Im Gegensatz zu herkömmlichen latenten Diffusionsmodellen (LDM) kann LCM Bilder ähnlicher Qualität in nur 1 bis 4 Schritten anstelle von Hunderten von Schritten erzeugen. Diese deutliche Effizienzsteigerung wird durch die Verfeinerungsmethode erreicht, bei der vorab trainiertes LDM zum Trainieren des LCM verwendet wird, wodurch ein großer Rechenaufwand vermieden wird

LCM: Neue Möglichkeit, qualitativ hochwertige Bilder deutlich schneller zu erzeugenDarüber hinaus haben wir auch LCM-LoRA untersucht, eine Methode mit geringem Verbrauch -rank Adaptive (LoRA) Augmentationstechnik, die vorab trainierte Modelle verfeinert, um den Speicherbedarf zu reduzieren. Mit diesem Ensemble-Ansatz können spezifische Bildstile mit minimalen Rechenschritten erstellt werden, ohne dass zusätzliches Training erforderlich ist


Zu den wichtigsten hervorgehobenen Ergebnissen gehört die Fähigkeit von LCM, in nur wenigen Schritten hochwertige 512x512- und 1024x1024-Bilder zu erstellen, während LDM Hunderte von Schritten erfordert. Die aktuelle Einschränkung besteht jedoch darin, dass LDM auf einem zweistufigen Schulungsprozess basiert, Sie benötigen also immer noch LDM, um loszulegen! Zukünftige Forschungen könnten diesen Prozess vereinfachen.

LCM ist eine sehr clevere Innovation, insbesondere in Kombination mit LoRA im vorgeschlagenen LCM-LoRA-Modell. Sie bieten den Vorteil, qualitativ hochwertige Bilder schneller und effizienter zu erstellen, und ich denke, dass sie breite Anwendungsaussichten bei der Erstellung digitaler Inhalte haben.

Referenzlink: https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generating-high-quality-images-much-faster/

Das obige ist der detaillierte Inhalt vonLCM: Neue Möglichkeit, qualitativ hochwertige Bilder deutlich schneller zu erzeugen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen