Um das Problem des VAE-Repräsentationslernens zu lösen, schlug die Universität Hokkaido ein neues generatives Modell GWAE vor-KI-php.cn

Um das Problem des VAE-Repräsentationslernens zu lösen, schlug die Universität Hokkaido ein neues generatives Modell GWAE vor

王林

Apr 07, 2023 pm 05:47 PM

框架数据

Das Erlernen niedrigdimensionaler Darstellungen hochdimensionaler Daten ist eine grundlegende Aufgabe beim unbeaufsichtigten Lernen, da solche Darstellungen das Wesentliche der Daten prägnant erfassen und es ermöglichen, nachgelagerte Aufgaben auf der Grundlage niedrigdimensionaler Eingaben auszuführen. Der Variational Autoencoder (VAE) ist eine wichtige Methode zum Repräsentationslernen, aufgrund seiner objektiven Steuerung ist das Repräsentationslernen jedoch immer noch eine anspruchsvolle Aufgabe. Obwohl das Evidence Lower Bound (ELBO)-Ziel von VAE generativ modelliert ist, ist das Lernen von Repräsentationen nicht direkt auf dieses Ziel ausgerichtet, was spezifische Modifikationen der Repräsentationslernaufgabe erfordert, wie z. B. Entflechtung. Diese Modifikationen führen manchmal zu impliziten und unerwünschten Änderungen im Modell, was das Lernen kontrollierter Darstellungen zu einer herausfordernden Aufgabe macht.

Um das Problem des Repräsentationslernens in Variations-Autoencodern zu lösen, schlägt dieser Artikel ein neues generatives Modell namens Gromov-Wasserstein Autoencoders (GWAE) vor. GWAE bietet ein neues Framework für das Repräsentationslernen basierend auf der Modellarchitektur des Variational Autoencoder (VAE). Im Gegensatz zu herkömmlichen VAE-basierten Darstellungslernmethoden zur generativen Modellierung von Datenvariablen erhält GWAE vorteilhafte Darstellungen durch optimale Übertragung zwischen Daten und latenten Variablen. Die Gromov-Wasserstein (GW)-Metrik ermöglicht einen solchen optimalen Transfer zwischen unvergleichbaren Variablen (z. B. Variablen mit unterschiedlichen Dimensionen), der sich auf die Distanzstruktur der betrachteten Variablen konzentriert. Durch Ersetzen des ELBO-Ziels durch die GW-Metrik führt GWAE einen Vergleich zwischen den Daten und dem latenten Raum durch und zielt direkt auf das Repräsentationslernen in Variations-Autoencodern ab (Abbildung 1). Diese Formulierung des Repräsentationslernens ermöglicht es den erlernten Darstellungen, spezifische Eigenschaften zu haben, die als vorteilhaft angesehen werden (z. B. Zerlegbarkeit), die als Meta-Priors bezeichnet werden.

Um das Problem des VAE-Repräsentationslernens zu lösen, schlug die Universität Hokkaido ein neues generatives Modell GWAE vor

Abbildung 1 Der Unterschied zwischen VAE und GWAE

Diese Forschung wurde vom ICLR 2023 akzeptiert.

Papier-Link: https://arxiv.org/abs/2209.07007
Code-Link: https://github.com/ganmodokix/gwae

Methodeneinführung

Das GW-Ziel zwischen der Datenverteilung und der potenziellen vorherigen Verteilung ist wie folgt definiert:

Um das Problem des VAE-Repräsentationslernens zu lösen, schlug die Universität Hokkaido ein neues generatives Modell GWAE vor

Diese Formel der optimalen Übertragungskosten kann die Inkonsistenz von Verteilungen in unvergleichlichen Räumen messen, jedoch aufgrund der Alle Kopplungen unterliegen einer unteren Grenze und es ist unpraktisch, genaue GW-Werte zu berechnen. Um dieses Problem zu lösen, löst GWAE ein entspanntes Optimierungsproblem, um den GW-Schätzer zu schätzen und zu minimieren, dessen Gradient durch automatische Differenzierung berechnet werden kann. Das Entspannungsziel ist die Summe der geschätzten GW-Metrik und drei Regularisierungsverluste, die alle in einem differenzierbaren Programmierframework wie PyTorch implementiert werden können. Dieses Entspannungsziel besteht aus einem Hauptverlust und drei Regularisierungsverlusten, nämlich dem geschätzten Haupt-GW-Verlust, dem WAE-basierten Rekonstruktionsverlust, dem Verlust der zusammengeführten ausreichenden Bedingung und dem Entropie-Regularisierungsverlust.

Dieses Schema kann auch die vorherige Verteilung flexibel anpassen, um vorteilhafte Funktionen in die niedrigdimensionale Darstellung einzuführen. In diesem Artikel werden insbesondere drei Prior-Populationen vorgestellt, nämlich:

Neural Prior (NP) In GWAEs mit NP wird ein vollständig verbundenes neuronales Netzwerk verwendet, um ein Prior-Sampling-Gerät zu konstruieren. Diese Familie früherer Verteilungen macht weniger Annahmen über die zugrunde liegenden Variablen und ist für allgemeine Situationen geeignet.

Faktorisierter neuronaler Prior (FNP) In GWAEs mit FNP wird ein Sampler mithilfe eines lokal verbundenen neuronalen Netzwerks erstellt, in dem Einträge für jede latente Variable unabhängig generiert werden. Dieser Sampler erzeugt eine faktorisierte Prior- und eine termisch unabhängige Darstellung, was eine wichtige Methode zur repräsentativen Meta-Prior-Entflechtung darstellt.

Gaussian Mixture Prior (GMP) In GMP ist es als eine Mischung aus mehreren Gaußschen Verteilungen definiert, und sein Sampler kann mithilfe starker Parametrisierungstechniken und Gumbel-Max-Techniken implementiert werden. GMP ermöglicht die Hypothese von Clustern in der Darstellung, wobei erwartet wird, dass jede Gaußsche Komponente des Priors einen Cluster erfasst.

Experimente und Ergebnisse

Diese Studie bewertet GWAE empirisch mit zwei Hauptmetaprioren: Entflechtung und Clusterbildung.

Entflechtung Die Studie nutzte den 3D-Shapes-Datensatz und die DCI-Metrik, um die Entwirrungsfähigkeit von GWAE zu messen. Die Ergebnisse zeigen, dass GWAE mithilfe von FNP in der Lage ist, Objektfarbtonfaktoren auf einer einzelnen Achse zu lernen, was die Entwirrungsfähigkeit von GWAE demonstriert. Auch die quantitative Auswertung belegt die Entflechtungsleistung von GWAE.

Um das Problem des VAE-Repräsentationslernens zu lösen, schlug die Universität Hokkaido ein neues generatives Modell GWAE vor

Clustering Um die auf der Metaprioris-Clusterung basierenden Darstellungen zu bewerten, führte diese Studie eine Out-of-Distribution (OoD)-Erkennung durch. Der MNIST-Datensatz wird als In-Distribution-Daten (ID) und der Omniglot-Datensatz als OoD-Daten verwendet. Während MNIST handgeschriebene Zahlen enthält, enthält Omniglot handgeschriebene Buchstaben mit unterschiedlichen Buchstaben. In diesem Experiment teilen sich die ID- und OoD-Datensätze die Domäne handschriftlicher Bilder, enthalten jedoch unterschiedliche Zeichen. Modelle werden auf ID-Daten trainiert und verwenden dann ihre erlernten Darstellungen, um ID- oder OoD-Daten zu erkennen. Bei VAE und DAGMM ist die für die OoD-Erkennung verwendete Variable die Prior-Log-Likelihood, während es bei GWAE das Kantorovich-Potenzial ist. Der Prior für GWAE wurde mit GMP erstellt, um die Cluster von MNIST zu erfassen. Die ROC-Kurve zeigt die OoD-Erkennungsleistung der Modelle, wobei alle drei Modelle eine nahezu perfekte Leistung erzielen, das mit GMP erstellte GWAE schnitt jedoch in Bezug auf die Fläche unter der Kurve (AUC) am besten ab.

Um das Problem des VAE-Repräsentationslernens zu lösen, schlug die Universität Hokkaido ein neues generatives Modell GWAE vor

Darüber hinaus wurde in dieser Studie die generative Fähigkeit von GWAE bewertet.

Leistung als Autoencoder-basiertes generatives Modell Um die Fähigkeit von GWAE zu bewerten, den allgemeinen Fall ohne spezifische Metaprioren zu verarbeiten, wurde die generative Leistung mithilfe des CelebA-Datensatzes bewertet. Das Experiment verwendet FID, um die generative Leistung des Modells zu bewerten, und PSNR, um die Leistung der automatischen Kodierung zu bewerten. GWAE erreichte mit NP die zweitbeste generative Leistung und die beste Autoenkodierungsleistung und demonstrierte damit seine Fähigkeit, die Datenverteilung in seinem Modell und die Dateninformationen in seiner Darstellung zu erfassen.

Um das Problem des VAE-Repräsentationslernens zu lösen, schlug die Universität Hokkaido ein neues generatives Modell GWAE vor

Zusammenfassung

GWAE ist ein generatives Variations-Autoencoder-Modell, das auf der Gromov-Wasserstein-Metrik basiert und für die direkte Durchführung des Repräsentationslernens konzipiert ist.
Da der Prior nur differenzierbare Stichproben erfordert, können verschiedene Prior-Verteilungseinstellungen erstellt werden, um Meta-Priors (ideale Eigenschaften der Darstellung) anzunehmen.
Experimente zu primären Metaprioren und zur Leistungsbewertung als Variations-Autoencoder zeigen die Flexibilität der GWAE-Formulierung und die Repräsentationslernfähigkeiten von GWAE.
Persönliche Homepage des Erstautors Nao Nakagawa: https://ganmodokix.com/note/cv
Homepage des Hokkaido University Multimedia Laboratory: https://www-lmd.ist.hokudai /

Das obige ist der detaillierte Inhalt vonUm das Problem des VAE-Repräsentationslernens zu lösen, schlug die Universität Hokkaido ein neues generatives Modell GWAE vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Microsoft Work Trend Index 2025 zeigt die Kapazitätsdehnung am ArbeitsplatzApr 24, 2025 am 11:19 AM

Die aufkeimende Kapazitätskrise am Arbeitsplatz, die durch die schnelle Integration von KI verschärft wird, erfordert eine strategische Verschiebung über inkrementelle Anpassungen hinaus. Dies wird durch die Ergebnisse der WTI unterstrichen: 68% der Mitarbeiter kämpfen mit der Arbeitsbelastung, was zu Bur führt

Kann Ai verstehen? Das chinesische Zimmerargument sagt nein, aber ist es richtig?Apr 24, 2025 am 11:18 AM

John Searles chinesisches Zimmerargument: Eine Herausforderung für das KI -Verständnis Searles Gedankenexperiment stellt sich direkt in Frage, ob künstliche Intelligenz Sprache wirklich verstehen oder wahres Bewusstsein besitzen kann. Stellen Sie sich eine Person vor

Chinas „intelligente' AI -Assistenten spiegeln Microsoft Recalls Datenschutzfehler widerApr 24, 2025 am 11:17 AM

Chinas Tech -Giganten sehen sich einen anderen Kurs in der KI -Entwicklung im Vergleich zu ihren westlichen Kollegen auf. Anstatt sich ausschließlich auf technische Benchmarks und API-Integrationen zu konzentrieren, priorisieren sie "Screen-Asse" -Ai-Assistenten-AI T.

Docker bringt einen bekannten Container -Workflow zu KI -Modellen und MCP -Tools mitApr 24, 2025 am 11:16 AM

MCP: KI -Systeme befähigen, auf externe Tools zuzugreifen Das Modellkontextprotokoll (MCP) ermöglicht AI -Anwendungen, mit externen Tools und Datenquellen über standardisierte Schnittstellen zu interagieren. MCP entwickelt von Anthropic und unterstützt von großen KI -Anbietern, ermöglicht es Sprachmodellen und Agenten, verfügbare Tools zu entdecken und sie mit geeigneten Parametern aufzurufen. Es gibt jedoch einige Herausforderungen bei der Implementierung von MCP-Servern, einschließlich Umweltkonflikten, Sicherheitslücken und inkonsistentem plattformübergreifendem Verhalten. Der Forbes -Artikel "Anthropics Modellkontextprotokoll ist ein großer Schritt in der Entwicklung von AI -Agenten" Autor: Janakiram MSvdocker löst diese Probleme durch Containerisierung. Dokument, das auf Docker Hub -Infrastruktur basiert

Mit 6 AI Street-Smart-Strategien zum Aufbau eines Milliarden-Dollar-StartupsApr 24, 2025 am 11:15 AM

Sechs Strategien, die von visionären Unternehmern angewendet werden, die hochmoderne Technologie und kluge Geschäftssinn nutzten, um hochprofitable, skalierbare Unternehmen zu schaffen und gleichzeitig die Kontrolle zu erhalten. Dieser Leitfaden richtet sich an aufstrebende Unternehmer, die darauf abzielen, a zu bauen

Googlefotos Update entsperren atemberaubende Ultra HDR für alle Ihre BilderApr 24, 2025 am 11:14 AM

Das neue Ultra HDR -Tool von Google Photos: Ein Game Changer für die Bildverbesserung Google Photos hat ein leistungsstarkes Ultra HDR-Conversion-Tool eingeführt, in dem Standardfotos in lebendige Bilder mit hohem Dynamikstand umgewandelt werden. Diese Verbesserung kommt den Fotografen zugute a zugute

Descope erstellt das Authentifizierungsrahmen für die Integration von AI -AgentenApr 24, 2025 am 11:13 AM

Die technische Architektur löst aufkommende Authentifizierungsprobleme Die Agentic Identity Hub befasst sich mit einem Problem, das viele Organisationen erst nach Beginn der KI-Agenten-Implementierung entdecken, dass herkömmliche Authentifizierungsmethoden nicht für die Maschine ausgelegt sind.

Google Cloud nächsten 2025 und die verbundene Zukunft der modernen ArbeitApr 24, 2025 am 11:12 AM

(Hinweis: Google ist ein beratender Kunde meiner Firma Moor Insights & Strategy.) KI: Vom Experiment zur Enterprise Foundation Google Cloud Nächste 2025 präsentierte die Entwicklung von AI von der experimentellen Funktion zu einer Kernkomponente der Enterprise -Technologie, Stream

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vorByDDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

4 Wochen vorByDDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vorByDDD

Heiße Werkzeuge

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7681

CakePHP-Tutorial

1393

C#-Tutorial

1209

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft