Heim > Artikel > Technologie-Peripheriegeräte > Die von Hong Kong et al. vorgeschlagene Lernmethode für kausale Repräsentation zielt auf das externe Generalisierungsproblem der komplexen Orthographendatenverteilung ab.
Mit der Anwendung und Förderung von Deep-Learning-Modellen haben die Menschen nach und nach entdeckt, dass Modelle häufig falsche Korrelationen (Spurious Correlation) in den Daten verwenden, um eine höhere Trainingsleistung zu erzielen. Da solche Korrelationen jedoch häufig nicht auf Testdaten zutreffen, ist die Testleistung solcher Modelle oft unbefriedigend [1]. Der Kern besteht darin, dass das traditionelle Ziel des maschinellen Lernens (Empirical Risk Minimization, ERM) die unabhängigen und identischen Verteilungsmerkmale des Trainings- und Testsatzes annimmt, in der Realität jedoch die Szenarien, in denen die unabhängige und identische Verteilungsannahme zutrifft, oft begrenzt sind. In vielen realen Szenarien weisen die Verteilung von Trainingsdaten und die Verteilung von Testdaten normalerweise Inkonsistenzen auf, d. Problem der Verteilungsverallgemeinerung (Out-of-Distribution-Generalisierung). Eine Klasse von Methoden wie ERM, die sich auf das Erlernen von Korrelationen und nicht auf Kausalität in Daten konzentrieren, haben oft mit Verteilungsverschiebungen zu kämpfen. Obwohl in den letzten Jahren viele Methoden aufgetaucht sind und durch die Verwendung des Invarianzprinzips in der kausalen Inferenz gewisse Fortschritte beim Problem der Out-of-Distribution erzielt haben, ist die Forschung zu Diagrammdaten noch begrenzt. Dies liegt daran, dass die Verallgemeinerung von Diagrammdaten außerhalb der Verteilung schwieriger ist als bei herkömmlichen europäischen Daten, was das maschinelle Lernen von Diagrammen vor größere Herausforderungen stellt. In diesem Artikel wird die Diagrammklassifizierungsaufgabe als Beispiel verwendet, um die externe Verallgemeinerung der Diagrammverteilung basierend auf dem Prinzip der kausalen Invarianz zu untersuchen.
In den letzten Jahren haben Menschen mit Hilfe des Prinzips der kausalen Invarianz große Ergebnisse bei dem Problem erzielt der Out-of-Distribution-Verallgemeinerung europäischer Daten Einige Erfolge, aber die Forschung zu Diagrammdaten ist noch begrenzt. Im Gegensatz zu euklidischen Daten stellt die Komplexität von Diagrammen besondere Herausforderungen für die Anwendung der Prinzipien der kausalen Invarianz und die Überwindung von Schwierigkeiten bei der Verallgemeinerung außerhalb der Verteilung dar.
Um dieser Herausforderung zu begegnen, integrieren wir in dieser Arbeit kausale Invarianz in das maschinelle Lernen von Graphen und schlagen ein kausal inspiriertes invariantes Graphenlern-Framework vor. Es bietet neue Theorien und Methoden Lösen Sie das Problem der Verallgemeinerung von Diagrammdaten außerhalb der Verteilung.
Das Papier wurde auf der NeurIPS 2022 veröffentlicht. Diese Arbeit wurde in Zusammenarbeit mit der Chinese University of Hong Kong, der Hong Kong Baptist University, dem Tencent AI Lab und der Universität fertiggestellt von Sydney.
Was ist die Schwierigkeit bei der Verallgemeinerung von Diagrammdaten außerhalb der Verteilung?
In den letzten Jahren haben graphische neuronale Netze große Erfolge bei Anwendungen des maschinellen Lernens mit Graphstrukturen erzielt, wie z. B. Empfehlungssystemen, KI-gestützten Arzneimitteln und anderen Felder. Da jedoch die meisten vorhandenen Algorithmen für maschinelles Lernen mit Graphen auf der Annahme einer unabhängigen und identischen Datenverteilung basieren, wird die Leistung des Algorithmus erheblich verringert, wenn die Testdaten und Trainingsdaten Verschiebungen (Verteilungsverschiebungen) aufweisen. Gleichzeitig ist die Verallgemeinerung von Diagrammdaten außerhalb der Verteilung aufgrund der Komplexität der Diagrammdatenstruktur häufiger und schwieriger als bei europäischen Daten.
Abbildung 1. Beispiel einer Verteilungsverschiebung im Diagramm.
Erstens kann die Verteilungsverschiebung von Diagrammdaten in der Knotenmerkmalsverteilung des Diagramms auftreten (Verschiebungen auf Attributebene). Beispielsweise können in einem Empfehlungssystem die in den Trainingsdaten enthaltenen Produkte aus einigen beliebten Kategorien stammen, und die beteiligten Benutzer können auch aus bestimmten spezifischen Regionen stammen. Während der Testphase muss das System jedoch Benutzer aus allen Bereichen ordnungsgemäß verarbeiten Kategorien und Regionen und Waren [2,3,4]. Darüber hinaus können Verteilungsverschiebungen von Diagrammdaten auch in der Strukturverteilung des Diagramms auftreten (Verschiebungen auf Strukturebene). Bereits 2019 wurde festgestellt, dass neuronale Graphennetze, die auf kleineren Diagrammen trainiert werden, schwierig sind, effektive Aufmerksamkeitsgewichte zu erlernen, um sie auf größere Diagramme zu verallgemeinern [5], was auch eine Reihe verwandter Arbeiten fördert [6,7]. In realen Szenarien können diese beiden Arten von Verteilungsverschiebungen häufig gleichzeitig auftreten, und diese Verteilungsverschiebungen auf unterschiedlichen Ebenen können auch unterschiedliche falsche Korrelationsmuster mit den vorherzusagenden Bezeichnungen aufweisen. Beispielsweise weisen Produkte aus bestimmten Kategorien und Benutzer aus bestimmten Regionen in Empfehlungssystemen häufig einzigartige topologische Strukturen im Produkt-Benutzer-Interaktionsdiagramm auf [4]. Bei der Vorhersage der Eigenschaften von Arzneimittelmolekülen sind die am Training beteiligten Arzneimittelmoleküle möglicherweise zu klein, und die Vorhersageergebnisse werden auch durch die experimentelle Messumgebung beeinflusst [8].
Darüber hinaus wird bei der Verallgemeinerung außerhalb der Verteilung im euklidischen Raum häufig davon ausgegangen, dass Daten aus mehreren Umgebungen (Umgebungen) oder Domänen (Domänen) stammen, und es wird außerdem davon ausgegangen, dass das Modell während des Trainings die Umgebung ermitteln kann, in die jede Stichprobe einbezogen wird in die Trainingsdaten gehören, um Invarianz zwischen Umgebungen zu entdecken. Allerdings erfordert die Beschaffung von Umweltkennzeichnungen für Daten häufig ein gewisses Expertenwissen in Bezug auf die Daten, und aufgrund der abstrakten Natur von Diagrammdaten ist die Beschaffung von Umweltkennzeichnungen für Diagrammdaten teurer. Daher enthalten die meisten vorhandenen Diagrammdatensätze wie OGB keine solchen Umweltkennzeichnungsinformationen. Auch wenn einige wie DrugOOD-Datensätze Umweltkennzeichnungen aufweisen, gibt es unterschiedliche Grade von Rauschen.
Können vorhandene Methoden das Problem der Verallgemeinerung außerhalb der Verteilung in Diagrammen lösen?
Um ein intuitives Verständnis der Herausforderungen der Out-of-Distribution-Generalisierung von Diagrammdaten zu erhalten, erstellen wir neue Daten basierend auf dem Datensatz Spurious-Motif [9], um die oben genannten Herausforderungen weiter zu instanziieren, und versuchen es Verwenden Sie vorhandene Methoden wie das Trainingsziel IRM [10] für die Verallgemeinerung außerhalb der Verteilung europäischer Daten oder GNN [11] mit stärkeren Ausdrucksfähigkeiten und analysieren Sie, ob vorhandene Methoden das Problem der Verallgemeinerung außerhalb der Verteilung lösen können Diagrammdaten.
Abbildung 2. Beispiel eines Spurious Motif-Datensatzes. Die
Spurious Motif-Aufgabe ist in Abbildung 2 dargestellt. Sie beurteilt die Diagrammbeschriftung hauptsächlich danach, ob das Eingabediagramm ein Unterdiagramm mit einer bestimmten Struktur (z. B. Haus oder Zyklus) enthält, wobei die Knotenfarbe das darstellt Attribut des Knotens. Mithilfe dieses Datensatzes können die Auswirkungen von Verteilungsverschiebungen auf verschiedenen Ebenen auf die Leistung graphischer neuronaler Netze eindeutig getestet werden. Für ein gewöhnliches GNN-Modell, das mit ERM trainiert wurde:
Darüber hinaus kann das Modell während des Trainings keine Informationen zu Umweltkennzeichnungen erhalten. Die experimentellen Ergebnisse sind in Abbildung 3 dargestellt (weitere Ergebnisse finden Sie in Anhang D des Dokuments).
Abbildung 3. Leistung vorhandener Methoden bei unterschiedlichen Diagrammverteilungsverschiebungen.
Wie in Abbildung 3 gezeigt, kann normales GCN, unabhängig davon, ob es mit ERM oder IRM trainiert wurde, den Strukturversatz (Struc) des Diagramms nicht bewältigen, während der Versatz des Diagrammknotenattributs (Gemischt) und das Diagramm nach der Größenverteilung hinzugefügt werden Wenn es verschoben wird (in Abbildung 3), wird die Modellleistung weiter verringert. Darüber hinaus ist es selbst bei Verwendung von kGNN mit stärkerer Ausdruckskraft schwierig, ernsthafte Leistungseinbußen zu vermeiden (reduzierte durchschnittliche Leistung oder größere Varianz).
Daaus führen wir natürlich zu der zu untersuchenden Frage: Wie erhält man ein GNN-Modell, das mit verschiedenen Verschiebungen der Graphverteilung umgehen kann?
Um die oben genannten Probleme zu lösen, müssen wir das Lernziel definieren, dh das invariante grafische neuronale Netzwerk (Invariantes GNN), das heißt, es kann weiterhin funktionieren unter der schlechtesten Umgebung Gutes Modell (genaue Definition finden Sie im Papier):
Definition 1 (Invariantes graphisches neuronales Netzwerk) Gegeben ist eine Reihe von Diagrammklassifizierungsdatensätzen , die aus verschiedenen kausal zusammenhängenden Umgebungen gesammelt wurden , wobei unabhängige und identisch verteilte Stichproben enthält, von denen angenommen wird, dass sie aus der Umgebung stammen Eingabe, f ist genau dann ein invariantes graphisches neuronales Netzwerk, wenn , d. h. das schlimmste empirische Risiko in allen Umgebungen minimiert wird, wobei der empirische Verlust des Modells in der Umgebung ist. Das Modell kann nur einen Teil der Daten in der Trainingsumgebung während des Trainings erhalten. Wenn keine Annahmen über den Datenprozess getroffen werden, ist es schwierig, die für die Definition des invarianten grafischen neuronalen Netzwerks erforderliche Minmax-Optimalität zu erreichen erreichen. Daher verwenden wir ein strukturelles Kausalmodell, um den Graphgenerierungsprozess aus der Perspektive der kausalen Inferenz zu modellieren und die Korrelation zwischen Umgebungen zu charakterisieren, um zu versuchen, kausale Invarianz auf Graphdaten zu definieren.
Abbildung 4. Kausalmodell des Diagrammdatengenerierungsprozesses.
Ohne Verlust der Allgemeingültigkeit integrieren wir alle latenten Variablen, die die Graphgenerierung beeinflussen, in den latenten Raum und modellieren den Graphgenerierungsprozess als
. Darüber hinaus teilen wir die latente Variable je nachdem, ob sie von der Umgebung E beeinflusst wird, in eine invariante latente Variable (invariante latente Variable) und eine falsche latente Variable (unecht latente Variable)
ein . Dementsprechend wirken sich die latenten Variablen C und S jeweils auf die Erzeugung eines bestimmten Teilgraphen von G aus, die als invarianter Teilgraph bzw. falscher Teilgraph aufgezeichnet werden, wie in Abbildung 4 (a) und C dargestellt steuert hauptsächlich die Beschriftung Y des Diagramms. Dies kann auch weiter abgeleitet werden , das heißt, C und Y haben eine höhere gegenseitige Information als S. Dieser Erzeugungsprozess entspricht vielen praktischen Beispielen. Beispielsweise werden die medizinischen Eigenschaften eines Moleküls normalerweise durch eine bestimmte Schlüsselgruppe (molekularer Teilgraph) bestimmt (z. B. die Wasserlöslichkeit von Hydroxyl-HO im Molekül).
Darüber hinaus hat C viele Arten von Wechselwirkungen mit Y, S und E im latenten Raum. Daraus ergibt sich hauptsächlich, ob die falsche latente Variable S und die Bezeichnung Y neben der konstanten latenten Variablen C weitere Assoziationen haben, nämlich Es kann in zwei Typen zusammengefasst werden: FIIF (vollständig informatives invariantes Merkmal), wie in Abbildung 4 (b) dargestellt, und PIIF (teilweise informatives invariantes Merkmal), wie in Abbildung 4 (c) dargestellt. Unter diesen bedeutet FIIF, dass die Bezeichnung unabhängig vom falschen Korrelationsbetrag ist, wenn die invarianten Informationen gegeben sind. PIIF ist das Gegenteil. Es ist zu beachten, dass unser Kausalmodell darauf abzielt, verschiedene Diagrammgenerierungsmodelle breit zu modellieren, um möglichst viele Verschiebungen der Diagrammverteilung abzudecken. Mit mehr Wissen über den Graphenerstellungsprozess kann das in Abbildung 4 gezeigte Kausalmodell weiter auf spezifischere Beispiele verallgemeinert werden. Wie in Anhang C.1 zeigen wir, wie Kausalgraphen auf frühere Arbeiten von Bevilacqua et al. [7] zur Analyse von Verschiebungen der Graphgrößenverteilung verallgemeinert werden können, indem die Annahme einer zusätzlichen Graphgrenze (Grapon) hinzugefügt wird.
Basierend auf der obigen Kausalanalyse können wir wissen, dass, wenn das Modell nur invariante Untergraphen zur Vorhersage verwendet, d Auswirkungen auf Umgebung E; Wenn sich die Vorhersage des Modells hingegen auf Informationen im Zusammenhang mit S oder stützt, werden seine Vorhersageergebnisse aufgrund der Änderung von E stark verändert, was zu einem Leistungsverlust führt. Daher kann unser Ziel vom Erlernen eines invarianten graphischen neuronalen Netzwerks weiter verfeinert werden, um: a) potenzielle invariante Untergraphen zu identifizieren; b) Y anhand der identifizierten Untergraphen vorherzusagen. Um dem Algorithmusprozess der Datengenerierung weiter zu entsprechen, teilen wir das graphische neuronale Netzwerk weiter in ein Subgraph-Erkennungsnetzwerk (Featurizer GNN) und ein Klassifizierungsnetzwerk (Classifier GNN) auf, und , wo ist der Untergraphraum von . Dann kann das Lernziel des Modells wie in Formel (1) ausgedrückt werden:
Dazu gehört zur Vorhersage des invarianten Teilgraphen durch das Teilgrapherkennungsnetzwerk; ist die gegenseitige Information zwischen und Y. Normalerweise kann die Maximierung von durch Minimierung mit vorhergesagt werden Der Erfahrungsverlust von Y wird realisiert. Aufgrund des Fehlens von E ist es für uns jedoch schwierig, E direkt zu verwenden, um die Unabhängigkeit von zu überprüfen. Zu diesem Zweck müssen wir nach anderen äquivalenten Bedingungen suchen, um den erforderlichen invarianten Teilgraphen zu identifizieren.
Um das Problem der fehlenden invarianten Teilgraphenidentifikation auf der Grundlage des Rahmens von Formel (1) zu lösen, hoffen wir, eine einfach zu implementierende äquivalente Bedingung der Formel ( 1). Insbesondere betrachten wir zunächst einen einfacheren Fall, bei dem die zugrunde liegende invariante Teilgraphengröße fest und bekannt ist, . Erwägen Sie unter solchen Bedingungen die Maximierung von . Obwohl und die gleiche Größe haben, da auch mit Y zusammenhängt, kann die Maximierung von ohne weitere Einschränkungen dazu führen, dass der geschätzte invariante Teilgraph zunimmt enthalten einige falsche Teilgraphen, die gegenseitige Informationen mit Y haben.
Um die möglichen falschen Untergraphen in „herauszuquetschen“, werden wir weiterhin nach weiteren Eigenschaften suchen, die nur für aus dem Kausalmodell gelten. Beachten Sie, dass wir unabhängig vom falschen Korrelationstyp PIIF oder FIIF für den Untergraphen, der die gegenseitige Information mit der Bezeichnung Y maximiert, Folgendes haben:
Die invarianten Untergraphen mit der gleichen invarianten latenten Variablen C inDurch die Kombination der beiden oben genannten Eigenschaften können wir
Da es für uns schwierig ist, es in der Praxis direkt zu beobachten, können wir es als Proxy in Formel (2) verwenden.
Gleichzeitig wird automatisch minimiert, wenn und gleichzeitig maximiert werden, da sonst die Vorhersagen des Modells zu einer trivialen Lösung zusammenbrechen. Daraus haben wir in einem einfachen Fall die invariante Untergraphenäquivalenzbedingung erhalten. In Kombination mit Formel (1) haben wir die erste Version des durch Kausalität inspirierten Invariantengraphen-Lernens (CIGAv1) erhalten.
Unter ihnen stammen und , das heißt, und G aus derselben Kategorie Y. In unserer Arbeit zeigen wir weiter, dass CIGAv1 potenziell invariante Untergraphen im Kausalmodell entsprechend Abbildung 4 erfolgreich identifizieren kann, wenn die Diagrammgröße bekannt ist. Da die vorherigen Annahmen jedoch zu ideal sind, kann sich in der Praxis die Größe des invarianten Teilgraphen ändern und die entsprechende Größe ist häufig unbekannt. Unter der Annahme, dass es keine Untergraphengröße gibt, können die CIGAv1-Anforderungen erfüllt werden, indem einfach der gesamte Graph als invarianter Untergraph identifiziert wird. Daher erwägen wir die weitere Suche nach Eigenschaften invarianter Teilgraphen, um diese Annahme zu beseitigen.
ist aufgefallen, dass beim Maximieren von möglicherweise #🎜🎜 ##🎜 erscheint 🎜# wird entfernt. Invariante Teilgraphteile teilen die gleiche und verwandte gegenseitige Information. Können wir also das Gegenteil tun und maximieren, um mögliche falsche Nebenhandlungen aus zu entfernen? Die Antwort lautet: Ja, wir können die Korrelation zwischen und Y nutzen, um sie mit der Schätzung von konkurrieren zu lassen. Es ist zu beachten, dass Sie bei der Maximierung von sicherstellen müssen, dass #🎜 nicht überschreitet 🎜# , andernfalls wird vorhersagen und in eine triviale Lösung fallen. In Kombination mit dieser zusätzlichen Bedingung können wir die Annahme über die konstante Untergraphengröße aus Formel (3) entfernen und das folgende CIGAv2 erhalten: #🎜🎜 #
Implementierung von CIGA: In der Praxis ist es oft schwierig, die gegenseitige Information zweier Teilgraphen und überwachtes kontrastives Lernen abzuschätzen [ 11 ] bietet eine praktikable Lösung:
wobei der positiven Probe in Formel (4) entspricht und die grafische Darstellung ist, die entspricht. Wenn , liefert Formel (5) einen nichtparametrischen Resubstitutionsentropieschätzer (nichtparameterischer Resubstitutionsentropieschätzer) basierend auf der von Mises-Fisher-Kerneldichte für [13,14]. Die endgültige Implementierung des Kernteils von CIGA ist in Abbildung 5 dargestellt. Dabei wird die Diagrammdarstellung derselben Kategorie invarianter Untergraphen im latenten Darstellungsraum näher gebracht und gleichzeitig die Diagrammdarstellung verschiedener Kategorien maximiert invariante Teilgraphen zur Maximierung . Darüber hinaus können wir eine weitere Einschränkung in Formel (4) durch die Idee des Scharnierverlusts implementieren, d. Experimente und Diskussionen Leistung der Strukturverteilungsverschiebung und der gemischten Verteilungsverschiebung im synthetischen Datensatz Wir haben zunächst SPMotif-Struc- und SPMotif-Mixed-Datensätze basierend auf dem SPMotif-Datensatz [9] erstellt, wobei SPMotif-Struc Enthält falsche Korrelationen zwischen bestimmten Untergraphen und anderen Untergraphenstrukturen im Diagramm sowie Offsets der Diagrammgrößenverteilung, während SPMotif-Mixed einen Verteilungsoffset auf der Ebene der Diagrammknotenattribute basierend auf SPMotif-Struc hinzufügt. Die erste Spalte in der Tabelle ist die Basislinie von ERM und interpretierbarem GNN, und die zweite Spalte ist der fortschrittlichste Out-of-Distribution-Generalisierungsalgorithmus im euklidischen Raum. Aus den Ergebnissen geht hervor, dass sowohl das bessere GNN-Framework als auch der Out-of-Distribution-Generalisierungsalgorithmus im euklidischen Raum einer Verteilungsverschiebung im Diagramm unterliegen und dass bei mehr Verteilungsverschiebungen ein Leistungsverlust (geringere durchschnittliche Klassifizierungsleistung) auftritt oder größere Varianz) wird weiter verbessert. Im Gegensatz dazu behält CIGA bei Verteilungsverschiebungen unterschiedlicher Stärke eine gute Leistung bei und übertrifft die beste Basisleistung bei weitem.
Leistung verschiedener Diagrammverteilungsverschiebungen bei realen Datensätzen Wir haben dann die Leistung von CIGA weiter an realen Datensätzen und Diagrammverteilungsverschiebungen getestet, die in verschiedenen realen Daten vorhanden sind Sätze aus drei verschiedenen Umgebungsbereichen (Experimentalumgebungs-Assay, Molekülgerüst und Molekülgrößengröße) in DrugOOD für die KI-gestützte Vorhersage von Arzneimittelmolekülattributen in KI-gestützten Arzneimitteln, einschließlich Diagrammverteilungsverschiebungen in verschiedenen realen Anwendungsszenarien. Das CMNIST-SP Die Konvertierung basiert auf dem klassischen Bilddatensatz ColoredMNIST [10] im euklidischen Raum und umfasst hauptsächlich den PIIF-Typverteilungsversatz von Diagrammknotenattributen. Die Konvertierung erfolgt basierend auf dem Emotionsklassifizierungsdatensatz SST5 und Twitter in natürlicher Sprache. und zusätzlich eine Verteilungsverschiebung des Diagrammgrades hinzugefügt. Darüber hinaus haben wir auch 4 zuvor untersuchte Datensätze zur Größenverteilungsverschiebung molekularer Graphen verwendet [7], Die Testergebnisse sind in der obigen Tabelle aufgeführt. Aufgrund der Erhöhung der Aufgabenschwierigkeit kann festgestellt werden, dass die Modellleistung durch die Verwendung eines GNN mit besserer Architektur oder außerhalb erreicht wird Das Zieltraining zur Optimierung der Verteilungsverallgemeinerung im euklidischen Raum ist sogar schwächer als das mit ERM trainierte normale GNN-Modell. Dieses Phänomen ähnelt auch dem Phänomen, das bei Experimenten zur Verallgemeinerung außerhalb der Verteilung unter schwierigeren Aufgaben im euklidischen Raum beobachtet wird [16], was die Schwierigkeit der Verallgemeinerung außerhalb der Verteilung auf reale Daten und die Mängel bestehender Methoden widerspiegelt. Im Gegensatz dazu kann CIGA alle realen Daten- und Diagrammverteilungsverschiebungen verbessern und in einigen Datensätzen wie Twitter und PROTEINS sogar das empirisch optimale Oracle-Niveau erreichen. Vorläufige Tests des neuesten Testbenchmarks für den Graph-Out-of-Distribution-Generalisierungstest GOOD für den Graph-Klassifizierungsdatensatz zeigen auch, dass CIGA derzeit der beste Graph-Out-of-Distribution-Generalisierungsalgorithmus ist, der mit verschiedenen Verschiebungen der Graphverteilung umgehen kann. Aufgrund der Verwendung von interpretierbarem GNN als Prototyp-Implementierungsarchitektur von CIGA haben wir auch das durch das Modell identifizierte DrugOOD visualisiert und festgestellt, dass CIGA einige relativ konsistente Molekülgruppen für die Vorhersage molekularer Attribute gefunden hat. Dies kann eine bessere Grundlage für spätere KI-gestützte Medikamente bieten. Abbildung 6. Teilweise invarianter Teilgraph, identifiziert durch CIGA in DrugOOD. Aus der Perspektive der kausalen Inferenz führt dieser Artikel zum ersten Mal die kausale Invarianz für das Problem der Graphverteilung außerhalb der Generalisierung unter verschiedenen Verschiebungen der Graphverteilung ein und schlägt eine neue theoretisch garantierte Lösung vor das Framework CIGA. Eine große Anzahl von Experimenten hat auch die hervorragende Out-of-Distribution-Generalisierungsleistung von CIGA vollständig bestätigt. Mit Blick auf die Zukunft können wir basierend auf CIGA weitere bessere Implementierungsrahmen erforschen [17] oder bessere theoretisch garantierte Datenverbesserungsmethoden für CIGA einführen [3,18] und die Assoziation im Diagramm theoretisch modellieren ) [19], um die Fähigkeit von CIGA, invariante Teilgraphen zu identifizieren, weiter zu verbessern und die tatsächliche Implementierung graphischer neuronaler Netze in realen Anwendungsszenarien wie KI-gestützten Arzneimitteln zu fördern. In den Experimenten verwendeten wir 16 synthetische oder reale Datensätze, um CIGA unter verschiedenen Verschiebungen der Diagrammverteilung vollständig zu validieren. Im Experiment haben wir den Prototyp von CIGA mithilfe des interpretierbaren GNN-Frameworks implementiert [9], aber tatsächlich verfügt CIGA über mehr Möglichkeiten, ihn zu implementieren. Spezifische Datensätze und experimentelle Details finden Sie im experimentellen Abschnitt des Artikels.
Zusammenfassung und Ausblick
Das obige ist der detaillierte Inhalt vonDie von Hong Kong et al. vorgeschlagene Lernmethode für kausale Repräsentation zielt auf das externe Generalisierungsproblem der komplexen Orthographendatenverteilung ab.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!