Heim >Technologie-Peripheriegeräte >KI >Das schnellste Modell mit einer Auflösung von 1024, das offene ByteDance Vincent Graph-Modell SDXL-Lightning, wurde veröffentlicht

Das schnellste Modell mit einer Auflösung von 1024, das offene ByteDance Vincent Graph-Modell SDXL-Lightning, wurde veröffentlicht

PHPznach vorne: 2024-02-24 12:37:261780Durchsuche

Modell｜https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

Papier｜https://www.php.cn/link/ca0525bfe5cab4c577 d169d3343a5452

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

1. Blitzschnelle Bildgenerierung

Generative KI gewinnt weltweite Aufmerksamkeit für ihre Fähigkeit, atemberaubende Bilder und sogar Videos basierend auf Textaufforderungen zu erstellen. Aktuelle generative Modelle auf dem neuesten Stand der Technik basieren auf Diffusion, einem iterativen Prozess, der Rauschen schrittweise in Bildbeispiele umwandelt. Dieser Prozess erfordert enorme Rechenressourcen und ist langsam. Bei der Generierung hochwertiger Bildbeispiele beträgt die Verarbeitungszeit eines einzelnen Bildes etwa 5 Sekunden, was normalerweise mehrere Aufrufe (20 bis 40 Mal) an das riesige neuronale Netzwerk erfordert. Netzwerk . Diese Geschwindigkeit schränkt Anwendungsszenarien ein, die eine schnelle Generierung in Echtzeit erfordern. Wie man die Erzeugungsqualität verbessern und gleichzeitig beschleunigen kann ist ein aktuelles Forschungsgebiet und das Kernziel unserer Arbeit.

SDXL-Lightning durchbricht diese Barriere durch eine innovative Technologie –

Progressive Adversarial Distillation – um beispiellose Erzeugungsgeschwindigkeiten zu erreichen. Das Modell ist in der Lage, Bilder von extrem hoher Qualität und Auflösung in nur 2 oder 4 Schritten zu erzeugen, wodurch der Rechenaufwand und die Rechenzeit um den Faktor zehn reduziert werden. Unsere Methode kann für zeitüberschreitungsempfindliche Anwendungen sogar Bilder in einem Schritt generieren, wenn auch mit geringfügigen Qualitätseinbußen.

SDXL-Lightning hat nicht nur einen Geschwindigkeitsvorteil, sondern zeichnet sich auch durch die Bildqualität aus und übertrifft bisherige Beschleunigungstechnologien in Bewertungen. Es ermöglicht eine höhere Auflösung und reichere Details bei gleichzeitig guter Diversität und Bild-Text-Übereinstimmung.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Geschwindigkeitsvergleich

Originalmodell (20 Schritte), SDXL-Lightning-Modell (2 Schritte)

2. Modelleffekt

SDXL-Lightning Das Modell kann bestehen 1 Schritt, 2 Schritte, 4 Schritte und 8 Schritte zum Generieren von Bildern. Je mehr Inferenzschritte vorhanden sind, desto besser ist die Bildqualität.

Das Folgende ist das Ergebnis von 4 Schritten –

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Ein lächelndes Mädchen

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Ein Pickup, der eine Bergkehre hinauffährt

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Ein Fisch auf einem Fahrrad, farbenfrohe Kunst. Eine Nahaufnahme einer asiatischen Dame mit Sonnenbrille. Eine wunderschöne Tasse. Mona Lisa, Skizze

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Ein Pickup, der eine Bergkehre hinauffährt

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Haus in der Wüste, surreale Landschaften

Das Folgende ist das Ergebnis von 2 Schritten –

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Möbeldesign für ein Wohnzimmer

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Eine filmische Aufnahme eines Babys. Waschbär tragen ein aufwendiges italienisches Priestergewand

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Ein Hund mit weichem Fell und leuchtenden Augen, der einem Spielzeug hinterherspringt, in einem gemütlichen Wohnzimmer

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Eine Teetasse mit Wolken

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Eine Familie, mittelgroße Aufnahme

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布 🎙 Im Vergleich zu den vorherigen Methoden (Turbo und LCM) sind die mit unserer Methode generierten Bilder deutlich detaillierter und entsprechen besser dem Stil und Layout des ursprünglichen generativen Modells.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

3. Geben Sie der Community etwas zurück, offenes Modell

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布 Die Welle von Open Source und Open Source ist zu einer Schlüsselkraft bei der Förderung der schnellen Entwicklung künstlicher Intelligenz geworden, und Bytedance ist stolz darauf, ein Teil davon zu sein diese Welle. Unser Modell basiert auf SDXL, dem derzeit beliebtesten offenen Modell für die Textgenerierung von Bildern, das bereits über ein florierendes Ökosystem verfügt. Jetzt haben wir beschlossen, SDXL-Lightning für Entwickler, Forscher und kreative Praktiker auf der ganzen Welt zu öffnen, damit sie auf dieses Modell zugreifen und es anwenden können, um Innovation und Zusammenarbeit in der gesamten Branche weiter voranzutreiben.

Beim Design von SDXL-Lightning haben wir die

Kompatibilität mit der Open-Model-Community

berücksichtigt. Viele Künstler und Entwickler in der Community haben eine Vielzahl stilisierter Bildgenerierungsmodelle erstellt, beispielsweise Cartoon- und Anime-Stile. Um diese Modelle zu unterstützen, bieten wir SDXL-Lightning als Beschleunigungs-Plug-in an, das nahtlos in diese verschiedenen Arten von SDXL-Modellen integriert werden kann, um die Bildgenerierung für verschiedene Modelle zu beschleunigen. 1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning

Das Modell kann auch mit dem aktuell sehr beliebten Steuerungs-Plug-in ControlNet kombiniert werden, um eine extrem schnelle und kontrollierbare Bilderzeugung zu erreichen. 1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning

Das Modell unterstützt auch ComfyUI, die beliebteste Generationssoftware in der Open-Source-Community. Das Modell kann direkt zur Verwendung geladen werden:

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

4. Zu technischen Details

Theoretisch ist die Bilderzeugung ein schrittweiser Transformationsprozess von Rauschen zu klaren Bildern. Dabei lernt das neuronale Netz die Gradienten an verschiedenen Positionen im Transformationsfluss.

Die spezifischen Schritte zum Generieren eines Bildes sind wie folgt:

Zuerst tasten wir zufällig eine Rauschprobe am Startpunkt des Streams ab und verwenden dann ein neuronales Netzwerk, um den Gradienten zu berechnen. Basierend auf dem Gradienten an der aktuellen Position nehmen wir kleine Anpassungen an der Probe vor und wiederholen dann den Vorgang. Mit jeder Iteration nähern sich die Proben der endgültigen Bildverteilung an, bis ein klares Bild entsteht.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Bild: Generationsfluss Prozess (Bild von: https://www.php.cn/link/5c9b5c47258cf1499c2dc64b7072e735

Due zur Komplexität und Nichtlinearität des Generierungsflusses Gerade Linie, der Generierungsprozess muss einmalig sein. Machen Sie nur einen kleinen Schritt, um die Anhäufung von Gradientenfehlern zu reduzieren, sodass häufige Berechnungen des neuronalen Netzwerks erforderlich sind, weshalb der Berechnungsaufwand groß ist

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Bild: Kurvenprozess (Bild von: https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137

Um die Anzahl der Schritte zur Generierung von Bildern zu reduzieren, wurden viele Studien der Lösungsfindung gewidmet. Einige Studien haben Stichprobenmethoden vorgeschlagen, die den Fehler reduzieren können, während andere versucht haben, den Generierungsfluss linearer zu gestalten, sie erfordern jedoch immer noch mehr als 10 Inferenzschritte, um Bilder zu erzeugen. Dies ist in der Lage, qualitativ hochwertige Bilder in weniger als 10 Inferenzschritten zu erzeugen. Anders als bei der Berechnung des Gradienten unter der aktuellen Strömungsposition ändert die Modelldestillation das Ziel der Modellvorhersage, um die nächstweitere Strömungsposition direkt vorherzusagen Eine solche Strategie kann die Anzahl der erforderlichen Inferenzschritte erheblich reduzieren, indem wir die Anzahl der Inferenzschritte weiter reduzieren progressive Destillation.

Abbildung: Progressive Destillation, das Schülernetzwerk prognostiziert die Ergebnisse des Lehrernetzwerks nach mehreren Schritten

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Im tatsächlichen Betrieb ist es für das Schülernetzwerk oft schwierig, die zukünftige Strömungsposition genau vorherzusagen, was dazu führt, dass Mit der Akkumulation jedes Schritts verstärken sich die vom Modell erzeugten Bilder. Um dieses Problem zu lösen, besteht unsere Strategie nicht darin, das Schülernetzwerk dazu zu zwingen, die Vorhersagen genau abzugleichen des Lehrernetzwerks, sondern damit das Schülernetzwerk die Vorhersagen des Lehrernetzwerks wahrscheinlichkeitskonsistent mit dem Lehrernetzwerk abgleicht. Mit anderen Worten, das Schülernetzwerk wird darauf trainiert, eine wahrscheinlichkeitstheoretisch mögliche Position vorherzusagen, und wir bestrafen es nicht einmal Wenn diese Position nicht ganz korrekt ist, wird dieses Ziel durch kontradiktorisches Training erreicht. Ein zusätzliches diskriminierendes Netzwerk wird eingeführt, um eine Verteilungsanpassung der Ergebnisse des Schüler- und Lehrernetzwerks zu erreichen.

Dies ist ein kurzer Überblick über unsere Forschungsmethoden (

https:/ /www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452). untersucht, wie die SDXL-Lightning-Technologie zur Bilderzeugung verwendet werden kann. Das Anwendungspotenzial unserer vorgeschlagenen progressiven kontradiktorischen Destillationsmethode ist jedoch nicht auf statische Bilder beschränkt. Diese innovative Technologie kann auch auf die schnelle und qualitativ hochwertige Erzeugung von Video-, Audio- und Videodaten angewendet werden andere multimodale Inhalte. Wir laden Sie herzlich ein, SDXL-Lightning auf der HuggingFace-Plattform zu erleben und freuen uns auf Ihre wertvollen Kommentare und Rückmeldungen.

Modell:

https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

Papier: https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

Das obige ist der detaillierte Inhalt vonDas schnellste Modell mit einer Auflösung von 1024, das offene ByteDance Vincent Graph-Modell SDXL-Lightning, wurde veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

for 人工智能 https

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Die Tsinghua University und Ideal schlugen DriveVLM vor, ein visuelles großes Sprachmodell zur Verbesserung der autonomen FahrfähigkeitenNächster Artikel：Die Tsinghua University und Ideal schlugen DriveVLM vor, ein visuelles großes Sprachmodell zur Verbesserung der autonomen Fahrfähigkeiten

In Verbindung stehende Artikel

Mehr sehen