Heim >Technologie-Peripheriegeräte >KI >ICLR 2024 Oral |. Um mit sich im Laufe der Zeit ändernden Verteilungsverschiebungen umzugehen, haben die University of Western Ontario und andere eine Lernmethode für Zeitreihenverläufe vorgeschlagen
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail zur Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Der Autor Zeng Qiulin absolvierte das Harbin Institute of Technology und erhielt einen Master-Abschluss von der National University of Singapore. Unter der Leitung von Professor Wang Bo und Akademiker Ling Xiaofeng führte er während seiner Doktorzeit hauptsächlich theoretische Demonstrations-, Methoden- und Anwendungsforschung zur Verteilung zufälliger Zeitänderungen durch. Derzeit hat er viele wissenschaftliche Arbeiten in ICLR/AAAI/IEEE TNNLS veröffentlicht.
Persönliche Homepage: https://hardworkingpearl.github.io/
In realen Anwendungen des maschinellen Lernens sind Verteilungsverschiebungen im Laufe der Zeit ein häufiges Problem. Diese Situation wird als zeitvariierende Domänengeneralisierung (Time-Varying Domain Generalization, EDG) bezeichnet, wobei das Ziel darin besteht, dem Modell eine gute Generalisierung auf unsichtbare Zieldomänen in zeitvariablen Systemen zu ermöglichen, indem die zugrunde liegenden, sich entwickelnden Muster über Domänen hinweg gelernt und diese Muster ausgenutzt werden. Aufgrund der begrenzten Anzahl von Zeitstempeln im EDG-Datensatz stoßen bestehende Methoden jedoch auf Herausforderungen bei der Erfassung der sich entwickelnden Dynamik und der Vermeidung einer Überanpassung an spärliche Zeitstempel, was ihre Verallgemeinerung und Anpassungsfähigkeit an neue Aufgaben einschränkt.
Um dieses Problem zu lösen, schlagen wir eine neue Methode SDE-EDG vor, die die Infinite Subdivision Grid Evolution Trajectory (IFGET) der Datenverteilung durch kontinuierliche Interpolation von Stichproben erfasst, um das Problem der Überanpassung zu überwinden. Darüber hinaus schlagen wir vor, durch Ausnutzung der inhärenten Fähigkeit stochastischer Differentialgleichungen (SDEs), kontinuierliche Trajektorien zu erfassen, die von SDEs modellierten Trajektorien mit denen von IFGET durch Maximum-Likelihood-Schätzung abzugleichen und so die Erfassung von Verteilungsentwicklungstrends zu erreichen.
Papiertitel: Latent Trajectory Learning for Limited Timestamps under Distribution Shift over Time
Papierlink: https://openreview.net/pdf?id=bTMMNT7IdW
Projektlink: https: //github.com/HardworkingPearl/SDE-EDG-iclr2024 (IFGET) erstellt aufeinanderfolgende interpolierte Abtastwerte im latenten Darstellungsraum, um die Lücke zwischen Zeitstempeln zu schließen. Darüber hinaus nutzt SDE-EDG die inhärente Fähigkeit von Stochastischen Differentialgleichungen (SDEs), kontinuierliche Trajektoriendynamiken zu erfassen, und richtet die SDE-modellierten Trajektorien über den Pfadausrichtungs-Regularisierer an IFGET aus, wodurch eine domänenübergreifende Erfassung sich entwickelnder Verteilungstrends erreicht wird.
1. Erstellen von IFGET:
Zunächst stellt SDE-EDG eine Probe-zu-Probe-Korrespondenz für jede Probe im latenten Darstellungsraum her und erfasst die Entwicklungsbahn jeder einzelnen Probe. Für jede Stichprobe jeder Kategorie k zum Zeitpunkt suchen wir im Merkmalsraum nach der Stichprobe
, die ihr zum Zeitpunktam nächsten kommt, und nach der entsprechenden Stichprobe in
:Hier ist die Berechnung des Abstands zwischen zwei Vektoren, ist der Satz von Stichproben, die aus dem nächsten Feld entnommen wurden.
Diese Korrespondenz wird dann ausgenutzt, um aufeinanderfolgende interpolierte Stichproben zu generieren, mit dem Ziel, die Zeitlücken zwischen Zeitstempelintervallen zu verbinden und eine Überanpassung an spärliche Zeitstempel zu vermeiden,
hierStichproben aus der Beta-Verteilung. Durch das Sammeln der Zeitspuren der auf die oben beschriebene Weise generierten Samples erhalten wir IFGET.
2. Modellieren Sie Trajektorien mit SDE:
SDE-EDG nutzt neuronale SDE, um die kontinuierliche zeitliche Trajektorie von Daten im latenten Raum zu modellieren. Im Gegensatz zu herkömmlichen diskreten zeitstempelbasierten Modellen eignet sich SDE natürlich für die Simulation kontinuierlicher Zeitverläufe. SDE-EDG modelliert Zeitreihentrajektorien und kann Stichproben zu jedem zukünftigen Zeitpunkt anhand von Stichproben zu einem bestimmten Zeitpunkt vorhersagen:
Hier wird die Merkmalsraumvariable aus Stichproben zu einem bestimmten Zeitpunkt vorhergesagt, ist die Driftfunktion und ist Diffusionsfunktion.
3. Pfadausrichtung und Maximum-Likelihood-Schätzung:
SDE-EDG trainiert das Modell durch Maximierung der Likelihood-Schätzung von IFGET,
Die endgültige Trainingsfunktion ist , und der erste Term ist der Fehlerverlust der Vorhersageklassifizierungsaufgabe Funktion.
4. Experimentieren
Die folgende Tabelle zeigt den Vergleich der Klassifizierungsgenauigkeit zwischen SDE-EDG und anderen Basismethoden für mehrere Datensätze. Zu diesen Datensätzen gehören Rotated Gaussian (RG), Circle (Cir), Rotated MNIST (RM), Portraits (Por), Caltran (Cal), PowerSupply (PS) und Ocular Disease (OD). Die Ergebnisse zeigen, dass SDE-EDG bei allen Datensätzen im Durchschnitt andere Methoden übertrifft.
Die folgende Abbildung bietet einen intuitiven Vergleich und zeigt den Unterschied in der Merkmalsdarstellung zwischen dem SDE-EDG-Algorithmus (links) und der traditionellen DG-Methode IRM (rechts). Durch die Visualisierung des Datenmerkmalsraums können wir beobachten, dass die von SDE-EDG erlernte Merkmalsdarstellung offensichtliche Entscheidungsgrenzen aufweist, in denen Datenpunkte verschiedener Kategorien klar unterschieden und durch unterschiedliche Formen dargestellt werden und Daten in verschiedenen Domänen durch dargestellt werden Regenbogenbalken. Dies zeigt, dass SDE-EDG in der Lage ist, die Dynamik der Datenentwicklung im Laufe der Zeit erfolgreich zu erfassen und die Trennbarkeit von Klassen im Merkmalsraum aufrechtzuerhalten. Im Gegensatz dazu neigt die Merkmalsdarstellung von IRM dazu, Datenpunkte in eine einzige Richtung zu reduzieren, was zu unklaren Entscheidungsgrenzen führt, was die Unzulänglichkeit von IRM bei der Erfassung zeitlich variierender Verteilungstrends widerspiegelt.
Die folgende Abbildung veranschaulicht ausführlich anhand einer Reihe von Unterfiguren die Vorteile des SDE-EDG-Algorithmus in seiner Fähigkeit, die Entwicklung von Daten im Laufe der Zeit zu erfassen. Teilfigur (a) stellt die tatsächliche Beschriftungsverteilung des Sinus-Datensatzes dar, wobei positive und negative Beispiele durch Punkte unterschiedlicher Farbe dargestellt werden und eine Grundlage für nachfolgende Vergleiche bilden. Als nächstes zeigen die Teilbilder (b) und (c) die Vorhersageergebnisse der traditionellen Methode basierend auf ERM bzw. dem SDE-EDG-Algorithmus für denselben Datensatz. Durch den Vergleich können wir die offensichtlichen Vorteile von SDE-EDG bei der Erfassung erkennen Datenentwicklungsmuster. Die Unterfiguren (d) und (e) zeigen den von SDE-EDG erlernten Evolutionspfad weiter, wobei (d) den Pfad nach Anwendung des Pfadausrichtungsverlusts (Maximum-Likelihood-Verlustfunktion) zeigt, während (e) den Pfad ohne den Pfad zeigt, wenn diesen Verlust anwenden. Aus diesem Vergleich kann man intuitiv erkennen, wie wichtig der Verlust der Pfadausrichtung ist, um sicherzustellen, dass das Modell Datenänderungen im Laufe der Zeit korrekt erfassen und charakterisieren kann.
Das folgende Unterdiagramm (a) zeigt die Genauigkeitskonvergenzkurve bei Verwendung verschiedener Algorithmen für das Training am Portraits-Datensatz. Diese Teilfigur bietet eine intuitive Perspektive, um zu vergleichen, wie sich die Leistung des SDE-EDG-Algorithmus mit anderen Basismethoden (wie ERM, MLDG, GI) während des Trainings ändert. Indem wir den Wachstumstrend der Trainingsgenauigkeit im Laufe der Zeit beobachten, können wir die Lernfähigkeit und Konvergenzgeschwindigkeit verschiedener Algorithmen bewerten. Der Konvergenzverlauf des SDE-EDG-Algorithmus ist von besonderem Interesse, da er die Effizienz und Stabilität des Algorithmus bei der Anpassung an sich entwickelnde Datenverteilungen offenbart.
Die folgenden Unterabbildungen (b) und (c) zeigen die RMNIST- bzw. Circle-Datensätze. Die Leistung des SDE-EDG-Algorithmus bei diesen Datensätzen zeigt seine Überlegenheit bei der Verarbeitung zeitlich variierender Verteilungen, selbst bei hohem Flächenanteil A Die Genauigkeit kann auch für Zieldomänen mit einer größeren Zeitspanne aufrechterhalten werden, was die leistungsstarke Fähigkeit des SDE-EDG-Algorithmus bei der Erfassung und Anpassung an Datenentwicklungsmuster zeigt.
Die folgenden Unterabbildungen (d) und (e) untersuchen die Auswirkungen des Maximum Likelihood Loss auf die Leistung von SDE-EDG auf die RMNIST- und PowerSupply-Datensätze. Durch Ändern des Werts des Regularisierungsgewichts α zeigen diese beiden Teildiagramme die spezifischen Auswirkungen verschiedener α-Einstellungen auf die Modellleistung. Experimentelle Ergebnisse zeigen, dass geeignete α-Werte die Leistung von SDE-EDG bei bestimmten Datensätzen erheblich verbessern können, was die Bedeutung der Anpassung von Hyperparametern entsprechend den Merkmalen des Datensatzes und den Aufgabenanforderungen in praktischen Anwendungen unterstreicht.
Fazit
Der Autor des Papiers schlug eine neue SDE-EDG-Methode zur Modellierung zeitvariabler Domänengeneralisierungsprobleme (EDG) vor. Die Methode umfasst den Aufbau eines IFGET durch die Identifizierung von Sample-zu-Sample-Korrespondenzen und die Generierung aufeinanderfolgender interpolierter Samples. Anschließend verwendeten die Autoren stochastische Differentialgleichungen (SDE) und richteten sie für das Training mit IFGET ab. Der Beitrag des Artikels besteht darin, die Bedeutung der Erfassung evolutionärer Muster durch die Erfassung der Zeitverläufe von Individuen und die Interpolation zwischen Zeitintervallen aufzuzeigen, um das Problem einer begrenzten Anzahl von Quellzeitstempeln zu lindern, was effektiv verhindert, dass SDE-EDG über begrenzte Zeitstempel verfügt. der Überanpassung.
Das obige ist der detaillierte Inhalt vonICLR 2024 Oral |. Um mit sich im Laufe der Zeit ändernden Verteilungsverschiebungen umzugehen, haben die University of Western Ontario und andere eine Lernmethode für Zeitreihenverläufe vorgeschlagen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!