suchen
HeimTechnologie-PeripheriegeräteKIVon U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

In den letzten Jahren erlebt maschinelles Lernen, angetrieben durch Transformer, eine Renaissance. In den letzten fünf Jahren wurden neuronale Architekturen für die Verarbeitung natürlicher Sprache, Computer Vision und andere Bereiche weitgehend von Transformatoren dominiert.

Es gibt jedoch viele generative Modelle auf Bildebene, die von diesem Trend noch nicht betroffen sind. Beispielsweise haben Diffusionsmodelle im vergangenen Jahr erstaunliche Ergebnisse bei der Bildgenerierung erzielt, und fast alle dieser Modelle verwenden Faltungs-U-. Netz als Rückgrat. Das ist etwas überraschend! Die große Geschichte im Deep Learning der letzten Jahre war die Dominanz von Transformer in allen Bereichen. Gibt es etwas Besonderes an U-Net oder Faltungen, das sie in Diffusionsmodellen so gut funktionieren lässt?

Die Forschung, die das U-Net-Backbone-Netzwerk erstmals in das Diffusionsmodell einführte, geht auf Ho et al. zurück. Dieses Entwurfsmuster erbt das autoregressive generative Modell PixelCNN++ mit nur geringfügigen Änderungen. PixelCNN++ besteht aus Faltungsschichten, die viele ResNet-Blöcke enthalten. Im Vergleich zum Standard-U-Net wird der zusätzliche räumliche Selbstaufmerksamkeitsblock von PixelCNN++ zu einer Grundkomponente im Transformator. Im Gegensatz zu den Studien anderer eliminieren Dhariwal und Nichol et al. mehrere Architekturoptionen von U-Net, beispielsweise die Verwendung adaptiver Normalisierungsschichten, um Zustandsinformationen und Kanalzahlen in die Faltungsschichten einzufügen.

In diesem Artikel haben William Peebles von der UC Berkeley und Xie Senin von der New York University „Skalierbare Diffusionsmodelle mit Transformatoren“ geschrieben. Ziel ist es, die Bedeutung architektonischer Entscheidungen in Diffusionsmodellen aufzudecken und eine empirische Grundlage für zukünftige generative Modelle bereitzustellen Modellforschung. Diese Studie zeigt, dass die induktive Vorspannung von U-Net für die Leistung von Diffusionsmodellen nicht entscheidend ist und leicht durch Standarddesigns wie Transformatoren ersetzt werden kann.

Diese Erkenntnis zeigt, dass Diffusionsmodelle von Trends zur Architekturvereinheitlichung profitieren können. Beispielsweise können Diffusionsmodelle Best Practices und Trainingsmethoden aus anderen Bereichen übernehmen und dabei die Skalierbarkeit, Robustheit und Effizienz dieser Modelle beibehalten. Eine standardisierte Architektur wird auch neue Möglichkeiten für die domänenübergreifende Forschung eröffnen.

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

  • Papieradresse: https://arxiv.org/pdf/2212.09748.pdf
  • Projektadresse: https://github.com/facebookresearch/DiT
  • Paper-Homepage: https://www.wpeebles.com/DiT

Diese Forschung konzentriert sich auf eine neue Art transformatorbasierter Diffusionsmodelle: Diffusion Transformers (kurz: DiTs). DiTs folgen den Best Practices von Vision Transformers (ViTs), mit einigen kleinen, aber wichtigen Anpassungen. Es hat sich gezeigt, dass DiT effizienter skaliert als herkömmliche Faltungsnetzwerke wie ResNet.

In diesem Artikel wird insbesondere das Skalierungsverhalten von Transformer im Hinblick auf Netzwerkkomplexität und Probenqualität untersucht. Die Studie zeigt, dass es durch die Konstruktion und das Benchmarking des DiT-Designraums im Rahmen des Latent Diffusion Model (LDM)-Frameworks, bei dem das Diffusionsmodell innerhalb des Latentraums von VAE trainiert wird, möglich ist, das U-Net-Backbone erfolgreich durch einen Transformator zu ersetzen. Dieses Papier zeigt außerdem, dass DiT eine skalierbare Architektur für Diffusionsmodelle ist: Es besteht eine starke Korrelation zwischen der Netzwerkkomplexität (gemessen durch Gflops) und der Probenqualität (gemessen durch FID). Durch einfaches Erweitern von DiT und Trainieren eines LDM mit einem Backbone mit hoher Kapazität (118,6 Gflops) werden hochmoderne Ergebnisse von 2,27 FID auf dem klassenbedingten 256 × 256 ImageNet-Generierungsbenchmark erzielt.

Diffusion Transformers

DiTs ist eine neue Architektur für Diffusionsmodelle, die darauf abzielt, der Standardtransformatorarchitektur so treu wie möglich zu bleiben, um deren Skalierbarkeit beizubehalten. DiT behält viele der Best Practices von ViT bei und Abbildung 3 zeigt die vollständige DiT-Architektur. Die Eingabe für

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

DiT ist die räumliche Darstellung z (für ein 256 × 256 × 3-Bild beträgt die Form von z 32 × 32 × 4). Die erste Ebene von DiT ist Patchify, das die räumliche Eingabe in eine Folge von T-Tokens umwandelt, indem jedes Patch linear in die Eingabe eingebettet wird. Nach dem Patchify wenden wir standardmäßige frequenzbasierte Positionseinbettungen von ViT auf alle Eingabe-Tokens an.

Die Anzahl der von Patchify erstellten Token T wird durch den Patch-Size-Hyperparameter p bestimmt. Wie in Abbildung 4 dargestellt, vervierfacht die Halbierung von p T und vervierfacht daher mindestens die Gflops des Transformators. Dieser Artikel fügt p = 2,4,8 zum DiT-Designraum hinzu.

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

DiT-Blockdesign: Nach dem Patchify wird das Eingabetoken von einer Reihe von Transformatorblöcken verarbeitet. Zusätzlich zur verrauschten Bildeingabe verarbeiten Diffusionsmodelle manchmal zusätzliche bedingte Informationen, wie z. B. Rauschzeitschritt t, Klassenbezeichnung c, natürliche Sprache usw. In diesem Artikel werden vier Transformatorblockvarianten untersucht, die bedingte Eingaben auf unterschiedliche Weise verarbeiten. Diese Designs weisen geringfügige, aber wesentliche Änderungen am Standard-ViT-Blockdesign auf. Der Aufbau aller Module ist in Abbildung 3 dargestellt.

In diesem Artikel wurden vier Konfigurationen ausprobiert, die je nach Modelltiefe und -breite variieren: DiT-S, DiT-B, DiT-L und DiT-XL. Diese Modellkonfigurationen reichen von 33M bis 675M Parametern und Gflops von 0,4 bis 119.

Experiment

Die Forscher trainierten vier DiT-XL/2-Modelle mit den höchsten Gflops, wobei jedes ein anderes Blockdesign verwendete – In-Context (119,4 Gflops), Cross-Attention (137,6 Gflops), adaptive Layer-Norm (adaLN). , 118,6Gflops) oder adaLN-null (118,6Gflops). Anschließend wurde der FID während des Trainings gemessen und Abbildung 5 zeigt die Ergebnisse.

Erweiterte Modellgröße und Patchgröße. Abbildung 2 (links) gibt einen Überblick über die Gflops für jedes Modell und ihren FID bei 400.000 Trainingsiterationen. Es ist ersichtlich, dass eine Vergrößerung der Modellgröße und eine Verringerung der Patchgröße erhebliche Verbesserungen im Diffusionsmodell bewirken.

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

Abbildung 6 (oben) zeigt, wie sich FID ändert, wenn die Modellgröße zunimmt und die Patchgröße konstant gehalten wird. Über alle vier Einstellungen hinweg werden in allen Trainingsphasen erhebliche Verbesserungen der FID erzielt, indem der Transformer tiefer und breiter gemacht wird. In ähnlicher Weise zeigt Abbildung 6 (unten) den FID, wenn die Patchgröße reduziert wird und die Modellgröße konstant bleibt. Die Forscher stellten erneut fest, dass sich FID erheblich verbesserte, indem einfach die Anzahl der von DiT verarbeiteten Token erhöht und die Parameter während des gesamten Trainingsprozesses grob beibehalten wurden.

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

Abbildung 8 zeigt den Vergleich von FID-50K mit Modell-Gflops bei 400.000 Trainingsschritten:

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

SOTA-Diffusionsmodell 256×256 ImageNet. Nach der erweiterten Analyse trainierten die Forscher weiterhin das Modell mit dem höchsten Gflop, DiT-XL/2, mit einer Schrittzahl von 7 Millionen. Abbildung 1 zeigt ein Beispiel dieses Modells und vergleicht es mit dem SOTA-Modell zur kategoriebedingten Generierung. Die Ergebnisse sind in Tabelle 2 aufgeführt.

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

Bei Verwendung einer klassifikatorfreien Führung übertrifft DiT-XL/2 alle vorherigen Diffusionsmodelle und reduziert den bisher besten FID-50K von 3,60, der von LDM erreicht wurde, auf 2,27. Wie in Abbildung 2 (rechts) dargestellt, ist DiT-XL/2 (118,6 Gflops) im Vergleich zu U-Net-Modellen mit latentem Raum wie LDM-4 (118,6 Gflops) viel recheneffizienter als ADM (1120 Gflops). ADM-U (742 Gflops), Pixelraum-U-Net-Modelle sind viel effizienter.

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

Tabelle 3 zeigt den Vergleich mit SOTA-Methoden. XL/2 übertrifft bei dieser Auflösung erneut alle bisherigen Diffusionsmodelle und verbessert den bisher besten FID von ADM von 3,85 auf 3,04.

Von U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell

Weitere Forschungsdetails finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonVon U-Net zu DiT: Anwendung der Transformatortechnologie im Dominanzdiffusionsmodell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaErste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrAV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Apr 11, 2025 pm 12:00 PM

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Verständnis der Scipy Library in PythonVerständnis der Scipy Library in PythonApr 11, 2025 am 11:57 AM

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics Vidhya3 Methoden zum Ausführen von LLAMA 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Automatisierung von Datenqualitätsprüfungen mit DagsterAutomatisierung von Datenqualitätsprüfungen mit DagsterApr 11, 2025 am 11:44 AM

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Haben Mainframes eine Rolle in der KI -Ära?Haben Mainframes eine Rolle in der KI -Ära?Apr 11, 2025 am 11:42 AM

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

mPDF

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)