Maison >Périphériques technologiques >IA >Esthétique topologique dans l'apprentissage profond : fondement et application du GNN
Introduction : Dans le monde réel, de nombreuses données apparaissent souvent sous forme de graphiques, comme les réseaux sociaux, les achats en ligne, les relations d'interaction entre protéines, etc. Au cours des dernières années, l'analyse des données graphiques et les méthodes d'extraction basées sur les réseaux de neurones ont été ses excellentes performances ont attiré une large attention, et il est non seulement devenu un point chaud de la recherche universitaire, mais brille également dans une variété d'applications. Cet article combine principalement la littérature pertinente, le partage d'experts dans le domaine et l'expérience superficielle de l'auteur pour faire un résumé approximatif et une introduction. Bien qu'il s'agisse d'un transfert de connaissances, il est également mêlé à un jugement subjectif personnel et les omissions sont inévitables, veuillez donc vous y référer avec prudence. Cela coïncide avec la veille de Noël pour réparer et arrêter d'écrire. J'en profite également pour souhaiter à tous que tout ce qu'ils souhaitent pour la nouvelle année se réalise et qu'ils soient en sécurité et heureux.
Ces dernières années, les recherches sur l'utilisation de la modélisation pour analyser les structures de graphes ont attiré de plus en plus d'attention. Parmi elles, le Graph Neural Network (GNN) basé sur des méthodes de modélisation de graphes d'apprentissage profond, en raison de ses excellentes performances. devenir l’un des hauts lieux de la recherche universitaire. Par exemple, comme le montre la figure ci-dessous, le nombre d'articles sur les réseaux de neurones graphiques lors des principales conférences liées à l'apprentissage automatique continue d'augmenter. L'utilisation de graphiques comme titres ou mots-clés est l'un des mots les plus populaires de l'ICLR, la principale conférence sur le sujet. apprentissage de la représentation au cours des deux dernières années. En outre, les réseaux de neurones graphiques sont apparus dans les prix des meilleurs articles lors de nombreuses conférences cette année. Par exemple, la première et la deuxième place pour la meilleure thèse de doctorat de KDD, la principale conférence sur l'exploration de données, ont été attribuées à deux jeunes chercheurs liés aux graphiques. apprentissage automatique. Les meilleurs articles de recherche et articles d'application portent également respectivement sur l'apprentissage causal sur les hypergraphes et l'apprentissage de graphes fédérés. D'autre part, les réseaux de neurones graphiques ont également de nombreuses applications pratiques dans la recherche de commerce électronique, la recommandation, la publicité en ligne, le contrôle des risques financiers, la prévision du trafic et d'autres domaines. Les grandes entreprises travaillent également dur pour créer des plates-formes ou des capacités liées à l'apprentissage des graphiques.
Bien que les réseaux de neurones graphes ne soient devenus un point chaud de la recherche qu'au cours des cinq dernières années, la définition pertinente a été proposée en 2005 par les universitaires italiens Marco Gori et Franco Scarselli. Un diagramme typique de l'article de Scarselli est présenté ci-dessous. La première étape de GNN utilise principalement RNN comme cadre principal, saisit les informations sur les voisins des nœuds pour mettre à jour l'état du nœud et définit la fonction de transfert locale comme une fonction récursive circulaire. Chaque nœud utilise les nœuds voisins environnants et les bords connectés comme informations sources pour mettre à jour ses informations sources. propre Express.
Bruna, étudiante à LeCun, et d'autres ont proposé d'appliquer CNN aux graphiques en 2014. Grâce à une conversion intelligente des opérateurs de convolution, ils ont proposé deux méthodes d'agrégation d'informations basées sur des réseaux de convolution de graphiques basés sur le domaine fréquentiel et le domaine spatial. Les méthodes basées sur le spectre introduisent des filtres du point de vue du traitement du signal graphique pour définir la convolution graphique, où l'opération de convolution graphique est interprétée comme la suppression du bruit du signal graphique. Les méthodes spatiales sont plus conformes au paradigme CNN et représentent la convolution graphique comme l'agrégation des informations sur les caractéristiques des quartiers. Au cours des années suivantes, même si de nouveaux modèles ont été proposés sporadiquement, il s’agissait encore de domaines de recherche relativement spécialisés. Ce n'est qu'en 2017 qu'une série de travaux de recherche représentés par les trois mousquetaires des modèles de graphes, GCN, GAT et GraphSage, ont été proposés, qui ont ouvert les barrières informatiques entre les données graphiques et les réseaux de neurones convolutifs, faisant progressivement des réseaux de neurones graphes un point chaud de la recherche et a jeté les bases du paradigme de base actuel du modèle de réseau neuronal graphique basé sur un mécanisme de transmission de messages (MPNN).
Une architecture MPNN typique se compose de plusieurs couches de propagation, mettant à jour chaque nœud en fonction d'une fonction d'agrégation des caractéristiques des voisins. Selon différentes fonctions d'agrégation, MPNN peut être divisé en : agrégation d'informations (combinaison linéaire de caractéristiques voisines, le poids dépend uniquement de la structure du graphe, comme GCN), attention (combinaison linéaire, le poids dépend de la structure du graphe et fonctionnalités, telles que GAT) et transmission de messages (fonctions non linéaires généralisées, telles que GraphSAGE), illustrées de gauche à droite dans la figure ci-dessous.
Du point de vue du raisonnement, il peut également être divisé en transductif (comme GCN) et inductif (comme GraphSage). La méthode push direct apprendra une représentation unique pour chaque nœud, mais les limites de ce modèle sont très évidentes dans la plupart des scénarios commerciaux de l'industrie, la structure et les nœuds du graphique ne peuvent pas être modifiés. les utilisateurs continueront d'apparaître dans la collection d'utilisateurs, la collection de relations d'attention de l'utilisateur continuera également de croître et un grand nombre de nouveaux articles seront ajoutés chaque jour sur la plate-forme de contenu. Dans un tel scénario, l’apprentissage direct nécessite un recyclage constant pour apprendre les représentations des nouveaux nœuds. La méthode inductive consiste à apprendre la « fonction d'agrégation » des caractéristiques des nœuds voisins, qui peut être appliquée à des scénarios plus flexibles, tels que la représentation de nouveaux nœuds ou des changements dans la structure du graphe, etc., elle sera donc applicable à divers graphiques dans des scénarios réels changeant dynamiquement.
Dans le processus de développement des réseaux de neurones graphiques, afin de résoudre le problème de la précision et de l'évolutivité du calcul des réseaux graphiques, de nouveaux modèles sont constamment proposés de génération en génération. Bien que la capacité des réseaux de neurones graphiques à représenter des données graphiques soit incontestable, la conception des nouveaux modèles repose principalement sur l'intuition empirique, les méthodes heuristiques et les méthodes expérimentales d'essais et d'erreurs. Le travail connexe du groupe de Jure Leskovec en 2019, GIN (Graph Isomorphism Networks), a établi une connexion entre GNN et l'algorithme heuristique classique Weisfeiler Lehman (WL) pour la détection de l'isomorphisme des graphes, et a théoriquement prouvé que la limite supérieure de la capacité d'expression de GNN est 1-WL (Jure est actuellement professeur agrégé à la School of Computer Science de l'Université de Stanford. Le laboratoire SNAP qu'il dirige est actuellement l'un des laboratoires les plus connus dans le domaine des réseaux de graphes. Le CS224W "Graph Machine Learning" qu'il enseigne est un apprentissage hautement recommandé. matériel). Cependant, l'algorithme WL a des capacités d'expression très limitées pour de nombreux scénarios de données, comme les deux exemples de la figure ci-dessous. Pour les graphiques Circular Skip Link (CSL) de (a), 1-WL marquera chaque nœud des deux graphiques avec la même couleur. En d'autres termes, ce sont évidemment deux graphiques avec des structures complètement différentes. Utilisez 1-WL pour tester. Nous aurons la même étiquette. Le deuxième exemple est la molécule Decalin présentée en (b). 1-WL colorera a et b de la même couleur, et c et d de la même couleur, de sorte que dans la tâche de prédiction de lien, (a, d) et (b). , d) sont indiscernables.
Le test WL fonctionne de manière insatisfaisante dans de nombreuses données présentant des structures triangulaires ou cycliques. Cependant, dans des domaines tels que la biochimie, les structures cycliques sont très courantes et très importantes. Elles déterminent également les propriétés correspondantes des molécules, ce qui rend le graphe neuronal. Le réseau dans les scénarios pertinents est considérablement limité. Micheal Bostein et d'autres ont proposé que la façon de penser actuelle « centrée sur les nœuds et les bords » dans les méthodes d'apprentissage profond des graphes présente de grandes limites. Sur cette base, ils ont proposé de repenser le développement de l'apprentissage des graphes et de nouvelles approches possibles du point de vue géométrique. Deep Learning. Paradigm (Micheal est actuellement professeur DeepMind d'intelligence artificielle à l'Université d'Oxford et scientifique en chef du Twitter Graph Learning Research Group et l'un des promoteurs de l'apprentissage profond géométrique). De nombreux chercheurs ont également commencé la recherche sur une série de nouveaux outils dans les domaines de la géométrie différentielle, de la topologie algébrique et des équations différentielles, et ont proposé une série de travaux tels que le réseau neuronal de graphes équivariants, le réseau neuronal de graphes topologiques, le réseau neuronal de sous-graphes, etc. , et j'ai résolu de nombreux problèmes. Combiné avec le contexte de développement des réseaux de neurones graphiques, nous pouvons faire un résumé simple comme indiqué ci-dessous.
Dans la section précédente, nous avons donné un aperçu du processus de développement des réseaux de neurones graphiques correspondants mentionnés sont essentiellement définis sur des scénarios non orientés et homogènes. Cependant, les graphiques dans le monde réel sont souvent complexes. Les chercheurs ont proposé des modèles de réseaux neuronaux pour les graphiques orientés, les graphiques hétérogènes, les graphiques dynamiques, les hypergraphes, les graphiques signés et d'autres scénarios. Ensuite, nous analyserons respectivement ces scénarios. Formulaires de données graphiques et modèles associés :
1. Graphique hétérogène : Un graphique hétérogène signifie que les nœuds et les arêtes ont plusieurs catégories et qu'il existe plusieurs modèles de scène d'état. Par exemple, dans un scénario de commerce électronique, les nœuds peuvent être des produits, des magasins, des utilisateurs, etc., et les types de bords peuvent être des clics, des collections, des transactions, etc. Plus précisément, dans les graphes hétérogènes, chaque nœud transporte des informations de type, et chaque arête transporte également des informations de type. Le modèle GNN commun ne peut pas modéliser les informations hétérogènes correspondantes. D’une part, les dimensions d’Embedding des différents types de nœuds ne peuvent pas être alignées ; d’autre part, les Embeddings des différents types de nœuds sont situés dans des espaces sémantiques différents ; La méthode d’apprentissage la plus largement utilisée pour les graphes hétérogènes est la méthode basée sur les méta-chemins. Le métapath spécifie le type de nœud à chaque emplacement du chemin. Pendant la formation, les méta-chemins sont instanciés sous forme de séquences de nœuds, et nous capturons la similitude de deux nœuds qui peuvent ne pas être directement connectés en reliant les nœuds aux deux extrémités d'une instance de méta-chemin. De cette manière, un graphe hétérogène peut être réduit à plusieurs graphes isomorphes, et on peut appliquer des algorithmes d’apprentissage de graphes sur ces graphes isomorphes. De plus, certains travaux ont proposé des méthodes basées sur les arêtes pour traiter des graphes hétérogènes, qui utilisent différentes fonctions d'échantillonnage et fonctions d'agrégation pour différents nœuds et arêtes voisins. Les travaux représentatifs incluent HetGNN, HGT, etc. Nous devons parfois également traiter des graphes de relations. Les arêtes de ces graphiques peuvent contenir des informations autres que des catégories, ou le nombre de catégories d'arêtes est très important, ce qui rend difficile l'utilisation de méthodes basées sur des méta-chemins ou des méta-relations. Les amis intéressés par les graphiques hétérogènes peuvent suivre la série de travaux des professeurs Ishikawa et Wang Xiao de l'Université de Pékin.
2. Graphique dynamique : Le graphique dynamique fait référence à des données graphiques dans lesquelles les nœuds et les structures topologiques évoluent au fil du temps, et est également largement utilisé dans des scénarios réels. Par exemple, le réseau de citations universitaires continuera de s'étendre au fil du temps, le graphique d'interaction entre les utilisateurs et les produits changera en fonction des intérêts des utilisateurs, et le réseau de transport et le flux de trafic continueront de changer au fil du temps. Les modèles GNN sur graphes dynamiques visent à générer des représentations de nœuds à un instant donné. Selon l'épaisseur de la granularité temporelle, les graphiques dynamiques peuvent être divisés en graphiques dynamiques à temps discret (également appelés basés sur des instantanés) et en graphiques dynamiques à temps continu (basés sur des événements), le temps est divisé en plusieurs temps ; tranches (par exemple divisées en jours/heures), chaque tranche de temps correspond à une image statique. Le modèle GNN de graphiques dynamiques à temps discret applique généralement le modèle GNN séparément sur chaque tranche de temps, puis utilise RNN pour agréger la représentation des nœuds à différents moments. Les travaux représentatifs incluent DCRNN, STGCN, DGNN, EvolveGCN, etc. Dans un graphique dynamique en temps continu, chaque arête est associée à un horodatage, indiquant le moment où un événement d'interaction se produit. Par rapport aux graphiques statiques, la fonction de message dans les graphiques dynamiques en temps continu dépend également de l'horodatage d'un échantillon donné et de l'horodatage du front. De plus, les nœuds voisins doivent être liés au temps, par exemple, les nœuds qui apparaissent après un certain temps ne peuvent pas apparaître dans les nœuds voisins. Du point de vue du modèle, les processus ponctuels sont souvent utilisés pour modéliser des graphiques dynamiques continus. En optimisant la fonction d'intensité conditionnelle de la séquence générée par le voisinage, cette méthode peut également prédire davantage le moment spécifique où un événement se produit. (comme un réseau l'heure de mort d'un certain lien). Les travaux représentatifs sur la modélisation sur des graphes dynamiques continus incluent JODIE, HTNE, MMDNE et Dyrep.
Source : Dyrep
3 Hypergraphe : Un hypergraphe est un graphe au sens large, et l'un de ses bords peut relier n'importe quel point culminant de. quantité. Au début de la recherche sur les hypergraphes, ils étaient principalement liés aux applications dans les scénarios de vision par ordinateur. Récemment, ils ont également attiré l'attention dans le domaine des réseaux neuronaux graphiques. Les principaux domaines d'application et scénarios sont par exemple les systèmes de recommandation. des nœuds du graphique peuvent être transmis à travers différents types de plusieurs arêtes associées. En utilisant différents types d’arêtes, nous pouvons organiser le graphique en plusieurs couches, chaque couche représentant un type de relation. Les travaux représentatifs incluent HGNN, AllSet, etc.
Source : AllSet
4. Graphique orienté : Le graphe orienté signifie que la relation de connexion des nœuds est directionnelle et que les bords dirigés sont souvent plus petits que les bords non orientés contiennent plus d'informations. Par exemple, dans un graphe de connaissances, si l’entité principale est la classe parente de l’entité queue, la direction du bord fournira des informations sur cette relation d’ordre partiel. Pour les scénarios de graphes orientés, en plus d'utiliser simplement une matrice de contiguïté asymétrique dans l'opération de convolution, vous pouvez également modéliser les deux directions du bord séparément pour obtenir une meilleure représentation. Les travaux représentatifs incluent DGP, etc.
Source : DGP
5. Graphique signé : Le graphique signé fait référence à la relation entre les nœuds du graphique, y compris les relations directes et inverses, telles que les réseaux sociaux, les relations interactives. incluent des relations positives, telles que l'amitié, l'accord et le soutien, ainsi que des relations négatives, telles que des ennemis, des désaccords, une résistance, etc. Par rapport aux graphiques ordinaires, les graphiques symboliques contiennent des relations interactives de nœuds plus riches. Le principal problème à résoudre lors de la modélisation de graphiques symboliques est de savoir comment modéliser les arêtes négatives et comment agréger les informations des deux types d'arêtes. SGCN est basé sur les hypothèses de la théorie de l'équilibre (les amis des amis sont des amis et les amis des ennemis le sont). ennemis). Le chemin d’équilibre correspondant est défini pour effectuer la modélisation correspondante. En outre, les travaux représentatifs incluent le modèle d'intégration de polarisation POLE avec réseau symbolique, le modèle de réseau neuronal à graphe symbolique bipartite SBGNN et le réseau neuronal à graphe symbolique GS-GNN basé sur la théorie des k-groupes.
Source : SGCN
6. Graphique de disparité : La définition est légèrement différente des autres types de graphiques ci-dessus. appelé graphe d'hétérophilie fait référence à un type de données dans lequel la similarité des nœuds voisins sur le graphe est relativement faible. La contrepartie de l'hétérogamie est l'homogamie, ce qui signifie que les nœuds liés appartiennent généralement à la même catégorie ou ont des caractéristiques similaires (« qui se ressemblent s'assemblent »). Par exemple, les amis d'une personne peuvent avoir des convictions politiques ou un âge similaire, et un article peut avoir tendance à citer des articles dans le même domaine de recherche. Cependant, les réseaux du monde réel ne respectent pas entièrement l’hypothèse d’une homoplasie élevée. Par exemple, dans les molécules protéiques, différents types d’acides aminés sont liés entre eux. Le mécanisme d'agrégation des réseaux neuronaux graphiques et de propagation des caractéristiques via des relations de liens est basé sur l'hypothèse de données homogènes, ce qui fait que GNN obtient souvent de mauvais résultats sur des données présentant une forte hétérogénéité. À l'heure actuelle, de nombreux travaux tentent de généraliser les réseaux de neurones graphes à des scénarios de graphes hétérogènes, tels que Geom-GCN, un modèle qui utilise des informations structurelles pour sélectionner les voisins des nœuds, H2GNN, qui améliore la capacité d'expression des réseaux de neurones graphes en améliorant le mécanisme de transmission de messages, en construisant un réseau de pointeurs GPNN pour l'agrégation d'informations basé sur la réorganisation de la corrélation des nœuds centraux (comme le montre la figure ci-dessous, différentes couleurs représentent différents types de nœuds), FAGCN en combinant simultanément le traitement du signal haute fréquence et du signal basse fréquence , etc.
Source : GPNN
Parce que le réseau neuronal graphique peut mieux apprendre les caractéristiques des données structurées sous forme de graphique, il a de nombreuses applications dans de nombreux domaines liés aux graphiques. application et exploration. Dans cette section, nous classons et résumons en conséquence du point de vue des tâches et applications en aval.
Classification du nœud :Selon l'attribut du nœud (peut être de type catégorie ou type numérique), Informations de bord, attributs de bord (le cas échéant), étiquettes de prédiction de nœud connues et prédiction de catégorie pour les nœuds avec des étiquettes inconnues. Par exemple, l'ensemble de données ogbn-products d'OGB est un réseau d'achat de produits non dirigé. Les nœuds représentent les produits vendus dans le commerce électronique. Le bord entre deux produits indique que ces produits ont été achetés ensemble. Les attributs des nœuds sont déterminés par les produits. Les caractéristiques d'un sac de mots sont extraites de la description, puis une analyse en composantes principales est effectuée pour générer une réduction de dimensionnalité. La tâche correspondante consiste à prédire les informations de catégorie manquantes du produit.
Prédiction de lien :La prédiction de lien dans le réseau fait référence à la manière de prédire le lien entre deux nœuds du réseau qui ne se sont pas encore connectés grâce à des informations telles que les nœuds de réseau connus et la structure du réseau. Cette prédiction inclut à la fois la prédiction des liens inconnus et la prédiction des liens futurs. La prédiction de lien est largement utilisée dans les systèmes de recommandation, les expériences biochimiques et d'autres scénarios. Par exemple, dans la recommandation de produits, dans le graphique bipartite des utilisateurs et des produits, si un utilisateur achète un produit, il existe un lien entre l'utilisateur et le produit. des utilisateurs similaires peuvent avoir le même Il y aura une demande pour le produit. Par conséquent, prédire si des liens tels que « achat » et « clic » sont susceptibles de se produire entre l'utilisateur et le produit, afin de recommander des produits aux utilisateurs de manière ciblée. , peut augmenter le taux d’achat du produit. De plus, la réalisation de graphes de connaissances dans le traitement du langage naturel et la prévision du trafic dans les transports intelligents peuvent être modélisées sous forme de problèmes de prédiction de liens. Classification des graphiques : La classification des graphiques est en fait similaire à la classification des nœuds. L'essence est de prédire l'étiquette du graphique. Sur la base des caractéristiques du graphique (telles que la densité du graphique, les informations sur la topologie du graphique, etc.) et de l'étiquette du graphique connu, des prédictions de catégorie pour les graphiques avec des étiquettes inconnues peuvent être trouvées en bioinformatique et en informatique chimique, comme la formation neuronale des graphiques. réseaux pour prédire la nature des structures protéiques. Génération de graphiques : Le but de la génération de graphiques est de générer de nouveaux graphiques à partir d'un ensemble de graphiques observés, comme dans les informations biologiques basées sur la génération de nouvelles structures moléculaires ou dans le traitement du langage naturel. Générer un graphe sémantique ou graphe de connaissances basé sur une phrase donnée. 2. Domaines d'application Nous présenterons différents scénarios d'application en conséquence. Système de recommandation : Le développement de l'Internet mobile a grandement favorisé le développement rapide de la recherche d'informations. Les systèmes de recommandation, en tant que direction la plus importante, ont reçu une large attention. L'objectif principal du système de recommandation est d'apprendre des représentations efficaces d'utilisateurs et d'articles à partir d'interactions historiques et d'informations secondaires, afin de recommander des articles (biens, musique) que l'utilisateur est plus susceptible de préférer, des vidéos, des films, etc.). Par conséquent, il est naturel d'envisager de construire un graphe biparti avec des éléments et des utilisateurs comme nœuds, afin que le réseau neuronal du graphe puisse être appliqué au système de recommandation pour améliorer l'effet de recommandation. Sur la base de GraphSAGE, Pinterest a proposé PinSage, le premier système de recommandation de niveau industriel basé sur GCN, qui prend en charge des scénarios de recommandation d'images à grande échelle avec 3 milliards de nœuds et 18 milliards d'arêtes. En fait, après la mise en ligne, les vues des produits Shop and Look de Pinterest ont augmenté. de 25 %. De plus, Alibaba, Amazon et de nombreuses autres plateformes de commerce électronique utilisent GNN pour créer des algorithmes de recommandation correspondants. En plus du graphe bipartite composé d'interaction utilisateur-élément, les relations sociales dans le système de recommandation et le graphe de transfert d'éléments dans la séquence du graphe de connaissances existent tous sous forme de données graphiques sur le. D'un autre côté, l'hétérogénéité Les données structurelles sont également largement utilisées dans les scénarios de commerce électronique dans les systèmes de recommandation. Les nœuds peuvent être une requête, un article, une boutique, un utilisateur, etc., et les types de bords peuvent être des clics, des collections, des transactions, etc. En utilisant les informations sur les relations et le contenu entre les projets, les utilisateurs et les utilisateurs, les utilisateurs et les projets, et sur la base de modèles de graphiques hétérogènes et multimodaux multi-sources, des effets de recommandation de meilleure qualité sont également explorés en permanence. En outre, les recommandations sérialisées basées sur les changements de comportement des utilisateurs au fil du temps dans l'entreprise réelle et l'apprentissage incrémentiel provoqué par l'ajout de nouveaux utilisateurs et de nouveaux produits ont également apporté de nouveaux défis et opportunités au développement de modèles GNN. Traitement du langage naturel : De nombreux problèmes et scénarios de traitement du langage naturel décrivent des relations d'association, afin qu'ils puissent être naturellement modélisés dans des structures de données graphiques. Le premier scénario d'application directe est l'achèvement et le raisonnement d'un graphe de connaissances (KG). Par exemple, les chercheurs de Mila ont proposé de modéliser le problème de raisonnement à saut unique en un problème d'apprentissage de représentation de chemin basé sur NBFNet, réalisant ainsi le raisonnement inductif. . Les réseaux neuronaux graphiques utilisent des réseaux neuronaux profonds pour intégrer des informations de structure topologique et des informations de caractéristiques d'attribut dans des données graphiques, fournissant ainsi des représentations de caractéristiques plus raffinées de nœuds ou de sous-structures, et peuvent facilement communiquer avec l'aval de manière découplée ou de bout en bout. répond aux exigences des graphes de connaissances dans différents scénarios d'application pour l'apprentissage des caractéristiques d'attributs et des caractéristiques structurelles des entités et des relations. De plus, les réseaux de neurones graphiques ont des applications correspondantes dans de nombreux problèmes de traitement du langage naturel, tels que la classification de texte, l'analyse sémantique, la traduction automatique, la complétion de graphes de connaissances, la reconnaissance d'entités nommées et la classification automatique. vous faites référence aux tutoriels et critiques liés à Graph4NLP du Dr Wu Lingfei. Source : (https://github.com/graph4ai/graph4nlp) Vision par ordinateur : La vision par ordinateur est l'un des plus grands scénarios d'application dans le domaine de l'apprentissage automatique et l'apprentissage profond , comparés au domaine des systèmes de recommandation et du traitement du langage naturel, les réseaux de neurones graphiques ne sont pas courants dans la vision par ordinateur. La raison en est que l'avantage de GNN réside dans la modélisation et l'apprentissage des relations, et que la plupart des formats de données en vision par ordinateur sont des données d'image ordinaires. Lors de l'utilisation de GNN dans des scénarios CV, la clé réside dans la façon dont le graphe est construit : quels sont les sommets et les caractéristiques des sommets ? Comment définir la relation de connexion des sommets ? Le travail initial est principalement utilisé pour certaines scènes intuitives et faciles à abstraitr la structure graphique. Par exemple, dans la méthode de reconnaissance d'action ST-GCN utilisée pour les squelettes dynamiques, le squelette naturel du corps humain peut naturellement être considéré comme une structure graphique permettant de construire un graphe spatial. Dans la génération de graphiques de scène, les relations sémantiques entre les objets aident à comprendre la signification sémantique de la scène visuelle. Étant donné une image, les modèles de génération de graphiques de scène détectent et reconnaissent les objets et prédisent les relations sémantiques entre des paires d'objets. Dans la classification et la segmentation des nuages de points, les nuages de points sont convertis en graphiques des k voisins les plus proches ou en graphiques superposés pour utiliser des réseaux de graphiques pour apprendre les tâches associées. Récemment, la direction des applications des réseaux de neurones graphiques dans la vision par ordinateur s'est également accrue. Certains chercheurs ont effectué des explorations et des tentatives connexes dans des tâches générales de vision par ordinateur telles que la détection d'objets. Par exemple, Huawei a proposé une nouvelle architecture visuelle générale basée sur la représentation graphique. Dans ViG, les chercheurs ont divisé l'image d'entrée en plusieurs petits blocs et construit des graphiques de nœuds correspondants. Les résultats expérimentaux montrent que, par rapport aux matrices ou aux grilles, les structures graphiques peuvent représenter davantage les composants des objets. avec souplesse. relation entre eux pour obtenir des résultats plus idéaux. Source : Vision GNN@NeurIPS 2022 Transport intelligent : La gestion intelligente des transports est un sujet brûlant dans les villes modernes. Une prévision précise de la vitesse du trafic, du volume du trafic ou de la densité routière dans un réseau de transport est cruciale pour la planification des itinéraires et le contrôle des flux. En raison de la nature hautement non linéaire et complexe du flux de trafic, il est difficile pour les méthodes traditionnelles d’apprentissage automatique d’apprendre simultanément les dépendances spatiales et temporelles. Le développement fulgurant des plateformes de voyage en ligne et des services logistiques a fourni de riches scénarios de données pour le transport intelligent. Comment utiliser les réseaux neuronaux pour apprendre automatiquement la corrélation spatio-temporelle des données de trafic afin d'obtenir une meilleure analyse et gestion des flux de trafic est devenu un point chaud de la recherche. Étant donné que le trafic urbain (comme le montre la figure ci-dessous) existe naturellement sous la forme de grilles irrégulières, il est tout à fait naturel d'utiliser des réseaux neuronaux graphiques pour une gestion intelligente du trafic. Source : Traffic4Cast@NeurIPS 2022 Par exemple, le réseau spatio-temporel classique STGCN utilise GCN pour capturer les caractéristiques spatiales de chaque carte de flux de trafic à chaque instant, pour chaque nœud, il capture les caractéristiques temporelles par convolution dans la dimension temporelle. parallélisé pour réaliser un apprentissage de bout en bout des fonctionnalités dans les deux dimensions spatio-temporelles. Il existe également des travaux correspondants qui utilisent des informations multi-sources pour construire des graphiques d'association de nœuds sous différentes perspectives afin de regrouper les informations afin d'obtenir des effets de prédiction plus précis. En plus de la prévision du trafic, les réseaux de neurones graphiques sont également utilisés dans de nombreux aspects tels que la gestion des feux de signalisation, la détection des événements de circulation, la prédiction de la trajectoire des véhicules et la prévision des embouteillages routiers. Ces dernières années, des concours pertinents lors de conférences de premier plan telles que KDD et NeurIPS ont également posé des questions de prévision du trafic correspondantes, et les solutions gagnantes incluent essentiellement des réseaux neuronaux graphiques. En raison de l’existence simultanée de dynamiques spatio-temporelles, il n’est pas exagéré de dire que les demandes d’applications pertinentes dans le domaine des transports intelligents constituent le moteur le plus important du développement des réseaux neuronaux à graphes spatio-temporels. Contrôle des risques financiers : Avec le développement de l'économie de marché et le processus de numérisation de l'industrie, alors qu'un grand nombre d'entreprises traditionnelles ont migré en ligne, divers nouveaux produits et services en ligne se multiplient également de jour en jour. au quotidien, avec un nombre massif de données et des relations complexes posent de grands défis aux transactions financières et aux audits associés. La gestion du crédit bancaire et la gestion des risques des sociétés cotées jouent un rôle important dans le maintien de l'ordre du marché financier. Avec la promotion des nouveaux systèmes mondiaux de gestion des paiements tels qu'Alipay et Paypal, le système de contrôle des risques de paiement qui les protège joue un rôle essentiel dans la protection de la sécurité des fonds des utilisateurs, dans la prévention du vol de cartes et de comptes et dans la réduction des pertes de la plateforme. Cependant, les algorithmes traditionnels ne suffisent pas à résoudre l'analyse des données du réseau graphique avec les informations associées. Grâce à la capacité du réseau neuronal graphique à traiter les données graphiques, une série de pratiques dans divers scénarios de contrôle des risques financiers ont émergé. Par exemple, évaluation des risques avant et après le prêt dans le processus de transaction, détection de compte virtuel/arnaque/fraude, etc. Bien que l'application de la technologie d'apprentissage profond des graphes se soit avérée efficace et nécessaire dans le domaine du contrôle des risques, le temps de développement est court et le processus global en est encore aux premiers stades de développement. En raison de la confidentialité des données industrielles, la principale. l'innovation technologique repose toujours sur les entreprises correspondantes, parmi lesquelles Ant Financial et Amazon sont les plus importantes. Par exemple, l'algorithme GeniePath proposé par Ant Financial est défini comme un problème de classification à deux classes pour un compte. L'algorithme GEM proposé par Ant Financial, le premier à utiliser la convolution graphique pour identifier les comptes malveillants, est principalement utilisé dans la connexion/enregistrement du compte. scénarios. La confidentialité des données et la diversité des scénarios entraînent également l’absence de normes unifiées dans l’industrie pour comparer et vérifier les modèles. Récemment, Xinye Technology et l'Université du Zhejiang ont publié conjointement un ensemble de données graphiques dynamiques à grande échelle, DGraph, qui fournit des données à grande échelle d'une scène réelle pour la vérification de la fraude et d'autres scénarios de détection d'anomalies. Les nœuds représentent les utilisateurs de prêts financiers servis par Xinye. Technologie, et sont dirigés vers Le bord représente la relation de contact d'urgence, et chaque nœud contient des caractéristiques d'attribut désensibilisées et une étiquette indiquant s'il s'agit d'un utilisateur de fraude financière. Bien qu'il existe des problèmes tels que les barrières de données, le déséquilibre des données répandu dans les scénarios de contrôle des risques financiers, la difficulté d'obtenir des étiquettes et la demande d'interprétabilité des modèles ont également apporté de nouvelles réflexions et opportunités au développement de réseaux de neurones graphiques. Découverte de médicaments : Le développement de médicaments est un projet de grande envergure avec un cycle long, un coût élevé et un risque élevé, depuis la conception initiale du médicament et le criblage moléculaire jusqu'aux tests de sécurité ultérieurs, aux essais cliniques, à la recherche de nouveaux médicaments et développement Le cycle prend environ 10 à 15 ans et le coût moyen de recherche et développement de chaque médicament est de près de 3 milliards de dollars américains. Au cours de ce processus, 1/3 du temps et des coûts sont consacrés à la phase de découverte de médicaments. Face notamment à l’apparition d’épidémies telles que la COVID-19, la manière d’utiliser efficacement les modèles d’apprentissage profond pour découvrir rapidement des molécules candidates possibles et diverses et accélérer le processus de développement de nouveaux médicaments a suscité la réflexion et la participation de nombreux chercheurs. Les composés moléculaires, les protéines et autres substances impliquées dans la recherche et le développement de médicaments existent naturellement dans les structures graphiques. En prenant les molécules comme exemple, les bords du graphique pourraient être des liaisons entre atomes d’une molécule ou des interactions entre des résidus d’acides aminés dans une protéine. Et à plus grande échelle, les graphiques peuvent représenter les interactions entre des structures plus complexes telles que des protéines, des ARNm ou des métabolites. Dans un réseau cellulaire, les nœuds peuvent représenter des cellules, des tumeurs et des lymphocytes, et les bords représentent la proximité spatiale entre eux. Par conséquent, les réseaux de neurones graphiques ont de larges perspectives d’application dans la prédiction des propriétés moléculaires, le criblage à haut débit, la conception de nouveaux médicaments, l’ingénierie des protéines et la réutilisation des médicaments. Par exemple, des chercheurs du MIT CSIAL et leurs collaborateurs ont publié des travaux dans Cell (2020) utilisant des réseaux neuronaux graphiques pour prédire si les molécules ont des propriétés antibiotiques. Cette année, les membres du même groupe ont proposé une série de travaux tels que la construction d'un modèle de génération conditionnelle basé sur des antigènes basé sur des méthodes de génération de graphiques pour concevoir des anticorps qui correspondent parfaitement à des antigènes spécifiques. Mila Labs est également un pionnier dans l'application de l'apprentissage graphique à la découverte de médicaments et a récemment ouvert la plateforme d'apprentissage automatique de découverte de médicaments basée sur PyTorch, TorchDrug, basée sur l'exploration correspondante. En outre, de grandes entreprises technologiques ont également élaboré des plans et mené des explorations dans le domaine des produits pharmaceutiques liés à l'IA ces dernières années et ont obtenu des résultats exceptionnels correspondants. La plate-forme « Yunshen » de Tencent AI Lab a publié le premier cadre de recherche hors distribution à grande échelle du secteur pour l'IA pharmaceutique, DrugOOD. , pour promouvoir la recherche sur le problème du changement de distribution dans les scénarios de produits chimiques pharmaceutiques afin d'aider au développement de l'industrie de la recherche et du développement de médicaments. Baidu Biotechnology, fondée par le fondateur de Baidu, Robin Li, s'engage à combiner la technologie avancée de l'IA avec la biotechnologie de pointe pour créer une découverte de cibles et une conception de médicaments uniques. Conception de la puce : La puce est l'âme de l'ère numérique et l'un des trois éléments de l'industrie de l'information. Les données structurées sous forme de graphiques traversent plusieurs étapes de la conception de la puce. Par exemple, dans l'étape de synthèse logique, les circuits numériques sont représentés par des graphiques NAND. Dans l'étape de conception physique, la corrélation est générée sur la base de la liste de circuits générée par la synthèse logique. compléter la disposition et le routage de la puce selon certaines exigences de densité et de limite de congestion. Avec la croissance continue de la taille et de la complexité des circuits, l'efficacité et la précision de la conception des outils d'automatisation de la conception électronique (EDA) sont devenues une question vitale, qui attire les chercheurs qui utilisent l'apprentissage profond technologie pour aider au processus de conception de circuits. Si la qualité et la convivialité des circuits peuvent être prédites dès les premières étapes de la conception des puces, l’efficacité des itérations des puces peut être améliorée et les coûts de conception peuvent être réduits. Par exemple, prédire l'encombrement d'un circuit lors de la phase de conception physique peut aider à détecter ses défauts et à éviter de produire des puces défectueuses. Si de telles prédictions peuvent être faites lors de la phase de synthèse logique, le cycle de conception et de production de la puce peut être encore plus économisé. Les équipes de Google et de l'Université de Stanford ont utilisé avec succès GNN dans la conception matérielle, combiné à un apprentissage par renforcement, comme l'optimisation de la consommation électrique, de la surface et des performances des blocs de puces Google TPU. Compte tenu des diverses informations hétérogènes contenues dans la représentation de la liste des puces, le circuit GNN proposé par Huawei et l'Université de Pékin peut composer la carte en intégrant des informations topologiques et géométriques pour améliorer les performances de diverses tâches EDA pour la prédiction des attributs des cellules et des réseaux. En plus de plusieurs domaines, les réseaux de neurones graphiques ont également été explorés et appliqués à de nombreux autres problèmes, tels que la vérification de programmes, la prédiction d'impact social, les réseaux cérébraux, la détection d'événements, la simulation de modèles, et optimisation combinatoire Résolution de problèmes. On peut constater que dans de nombreux domaines de la science et de la vie, les données peuvent être représentées sous forme de structure graphique. En capturant efficacement les informations structurelles et les informations sur les attributs des graphiques, les réseaux de neurones graphiques ont atteint une grande précision dans diverses tâches graphiques et sont devenus un moyen efficace de résoudre les problèmes liés aux graphiques. Nous pensons que cela peut être vu dans de nombreux domaines et scénarios à l'avenir. du réseau neuronal graphique. Dans le contenu précédent, nous avons présenté quelques paradigmes de base des modèles graphiques et les scénarios d'application correspondants. Nous pouvons voir que le réseau neuronal graphique, en tant que nouvelle architecture d'apprentissage en profondeur, a une grande application dans les réseaux sociaux. , les systèmes de recommandation, la découverte biomédicale et d’autres domaines brillent de mille feux. Cependant, dans les applications réelles, l’évolutivité et la convivialité des modèles graphiques restent confrontées à de nombreux défis théoriques et techniques. Le premier concerne les limitations de mémoire. Lorsque GCN a été conçu à l'origine, son opération de convolution était effectuée sur l'ensemble du graphe, c'est-à-dire que l'opération de convolution de chaque couche traversait l'intégralité du graphe. Dans les applications pratiques, la surcharge de mémoire et de temps requise est inacceptable. De plus, dans le cadre d'apprentissage automatique traditionnel, la fonction de perte du modèle peut être décomposée en la somme des pertes d'échantillons individuels, de sorte que l'optimisation par mini-lots et stochastique peut être utilisée pour traiter des ensembles d'entraînement beaucoup plus volumineux que la mémoire GPU. Cependant, lors de la formation de GNN, contrairement aux ensembles de données standard pour l'apprentissage automatique où les échantillons sont indépendants, la structure relationnelle des données du réseau produira des dépendances statistiques entre les échantillons. Effectuer directement une formation par mini-lots par échantillonnage aléatoire entraînera souvent un effet de modèle considérablement réduit. Cependant, il n’est pas simple de garantir que le sous-graphe conserve la sémantique du graphe complet et fournit des gradients fiables pour la formation du GNN. La seconde concerne les limitations matérielles. Comparés aux données d'image et aux données textuelles, les graphiques constituent essentiellement une structure clairsemée, leur rareté doit donc être exploitée pour des calculs efficaces et évolutifs. Cependant, la conception actuelle des processeurs d'apprentissage profond correspondants et du matériel associé est destinée au traitement des opérations intensives. Dans cette section, nous résumons principalement l'évolutivité du modèle graphique. En se référant au résumé de Chaitanya K. Joshi, doctorante à l'Université de Cambridge, les travaux connexes peuvent être résumés en quatre aspects : le prétraitement des données, l'architecture de modèle efficace, les nouveaux paradigmes d'apprentissage et l'accélération matérielle (comme le montre la figure ci-dessous). . Le prétraitement des données met généralement en œuvre le calcul de données graphiques à grande échelle en échantillonnant ou en simplifiant les données d'origine (nous développerons cela ci-dessous). La nouvelle architecture propose de nouvelles architectures plus efficaces et concises du point de vue de certaines tâches ou données spécifiques. Par exemple, LightGCN élimine la partie interne du produit entre les nœuds adjacents pour accélérer la vitesse d'exécution. Certains travaux ont également montré que l'utilisation de méthodes de propagation d'étiquettes après l'exécution de MLP sur les fonctionnalités des nœuds peut également obtenir de bons résultats. En outre, nous pouvons également améliorer les performances de GNN et réduire la latence grâce à certains paradigmes d'apprentissage légers tels que la distillation des connaissances ou la formation prenant en compte la quantification. Le point à mentionner est que les méthodes mentionnées ci-dessus pour accélérer la formation des réseaux de neurones graphiques sont découplées les unes des autres, ce qui signifie que dans des scénarios réels, plusieurs méthodes peuvent être utilisées simultanément. Source : G-CRD@TNNLS Par rapport à l'optimisation des modèles et aux nouveaux paradigmes d'apprentissage, le prétraitement des données est une méthode plus générale et plus applicable, qui est également relativement parlant à l'heure actuelle, nous développerons ici légèrement l’analyse et l’introduction. De manière générale, les méthodes de prétraitement des données réduisent la taille de l'image originale grâce à un échantillonnage ou une simplification graphique pour répondre aux contraintes de mémoire. Les méthodes basées sur l'échantillonnage peuvent être divisées en trois sous-catégories, l'échantillonnage par nœud, l'échantillonnage par couche et l'échantillonnage par graphique. Node-Wise Sampling : a été proposé pour la première fois par GraphSage. Il s'agit d'une méthode relativement courante, efficace et la plus largement utilisée. Une couche de GraphSAGE regroupe les informations des voisins à 1 saut. La superposition de k couches de GraphSAGE peut augmenter le champ de réception en un sous-graphe induit par les voisins à k sauts. En même temps, les voisins sont échantillonnés de manière uniforme, ce qui peut contrôler la vitesse du. opération d'agrégation et réduire le nombre de voisins, ce qui signifie moins de calculs. Cependant, il convient de noter qu'à mesure que le nombre de couches augmente, le nombre de voisins échantillonnés augmentera également de façon exponentielle. En fin de compte, cela équivaut toujours à l'agrégation de messages sur le sous-graphe induite par les voisins à k-hop, et la complexité temporelle est. pas d'amélioration substantielle. Échantillonnage Lay-Wise : a été proposé pour la première fois par Fast GCN. Contrairement à GraphSAGE, il limite directement la plage d'échantillonnage des nœuds voisins grâce à l'échantillonnage d'importance. De cette manière, le voisin. L'ensemble de chaque nœud échantillon de GraphSAGE est indépendant de tous les nœuds d'un petit lot, tandis que tous les nœuds échantillons de Fast GCN partagent le même ensemble de voisins, de sorte que la complexité de calcul peut être directement contrôlée à un niveau linéaire, mais il convient de noter que. Lorsque le graphique que nous traitons est grand et clairsemé, les échantillons des couches adjacentes échantillonnées par cette méthode peuvent ne pas être du tout liés, ce qui entraîne une incapacité à apprendre. Échantillonnage par graphique : Différent de la méthode d'échantillonnage voisin, la technique d'échantillonnage graphique consiste à échantillonner des sous-graphes de l'image originale. Par exemple, Cluster GCN utilise l'idée de clustering pour diviser. le graphique en petits blocs. Entraînez-vous à mettre en œuvre l’échantillonnage graphique. Les algorithmes de clustering de graphiques (tels que METIS) regroupent les nœuds similaires, ce qui fait que la distribution des nœuds au sein d'une classe s'écarte de la distribution des nœuds du graphe d'origine. Afin de résoudre les problèmes causés par l'échantillonnage graphique, Cluster GCN extrait simultanément plusieurs catégories par lots pour participer à la formation visant à équilibrer la distribution des nœuds. Cependant, la perte d'informations de la méthode d'échantillonnage basée sur la structure est importante et la plupart des résultats de données sont plus grands que le GNN en lot complet. Chaque époque doit être échantillonnée, et la surcharge de temps n'est pas faible. En plus de l'échantillonnage, certaines méthodes de réduction graphique (Réduction graphique) peuvent être utilisées pour réduire la taille de l'image originale tout en conservant les attributs clés pour les applications ultérieures. traitement et analyse possibles. La simplification du graphe comprend principalement la sparsification du graphe : réduction du nombre d'arêtes dans le graphe et le grossissement du graphe : réduction du nombre de sommets dans le graphe. Parmi eux, le grossissement des graphiques est un cadre approprié pour agréger certains sous-graphes en un super-nœud via des "points de pincement" afin de simplifier l'échelle graphique d'origine. L'algorithme d'utilisation du grossissement des graphiques pour la formation accélérée GNN a été proposé pour la première fois dans les travaux du KDD 2021. Le processus est le suivant : Utilisez d'abord un algorithme de grossissement des graphiques (tel que le grossissement du regroupement spectral). L'image originale est grossie et le modèle est entraîné sur le graphe grossi G', réduisant ainsi les paramètres requis pour l'entraînement du réseau neuronal du graphe, ainsi que le temps d'entraînement et la surcharge de mémoire d'exécution. La méthode est universellement simple et comporte un temps et un espace de formation linéaires. L'analyse théorique de l'auteur montre également que l'entraînement APPNP sur un graphe grossi par regroupement spectral est équivalent à l'entraînement APPNP restreint sur le graphe original. Cependant, comme la méthode d'échantillonnage de graphes, la méthode basée sur le grossissement de graphes nécessite également un prétraitement des données, et le temps nécessaire est lié aux résultats expérimentaux et au choix de l'algorithme de grossissement. De même, les différentes méthodes d'extension de modèle de graphique basées sur l'échantillonnage ou la simplification introduites ci-dessus sont également découplées les unes des autres, ce qui signifie que plusieurs méthodes peuvent être utilisées ensemble en même temps, comme Cluster GCN + GraphSAGE. Essentiellement, l'agrégation de messages sur un sous-graphe induite par les voisins de k-hop est une opération exponentielle. Il est difficile de contrôler la complexité temporelle de l'algorithme basé sur l'échantillonnage de nœuds au niveau linéaire sans perdre d'informations lors du pré-traitement du sous-échantillonnage de l'image originale ; est une bonne solution, car si l'image entière peut être mise en mémoire pour le calcul, la complexité temporelle du GCN sera linéaire, mais le coût du prétraitement ne peut être ignoré. Il n'y a pas de repas gratuit dans le monde. L'accélération de la formation du réseau neuronal graphique nécessite toujours un compromis entre la perte d'informations et la surcharge de prétraitement. Différentes méthodes doivent être utilisées pour l'analyse en fonction de la situation réelle. De plus, le graphique est essentiellement un objet clairsemé, donc lorsqu'il s'agit d'efficacité de conception et d'évolutivité, nous devrions penser davantage du point de vue de la rareté des données. Mais c’est plus facile à dire qu’à faire, car les GPU modernes sont conçus pour gérer des opérations intensives sur les matrices. Bien que les accélérateurs matériels personnalisés pour les matrices clairsemées puissent améliorer considérablement la rapidité et l’évolutivité des GNN, les travaux connexes en sont encore aux premiers stades de développement. En outre, la conception de stratégies de communication pour le calcul graphique est également une direction qui a récemment attiré beaucoup d’attention. Par exemple, les prix du meilleur article de recherche et du meilleur article étudiant de VLDB2022 et Webconf 2022 ont été décernés à des systèmes ou des algorithmes qui accélèrent le traitement des modèles graphiques. Parmi eux, SANCUS@VLDB2022 a proposé un ensemble de cadres de formation distribués (SANCUS), dans le but de réduire le volume de communication et d'utiliser un mécanisme décentralisé pour accélérer la formation distribuée des réseaux de neurones graphiques. L'article prouve non seulement théoriquement que la vitesse de convergence de SANCUS est proche de celle de la formation de graphes complets, mais vérifie également l'efficacité et la précision de la formation de SANCUS à travers des expériences sur un grand nombre de graphiques de scènes réels. Le travail de PASCA@Webconf2022 tente de séparer l'opération d'agrégation de messages et l'opération de mise à jour dans le cadre de transmission de messages, et définit un nouveau paradigme de pré-traitement-formation-post-traitement pour obtenir une surcharge de communication dans des scénarios distribués. Source : PASCA@Webconf2022
Étant donné une certaine tâche et un certain ensemble de données, nous pouvons d'abord passer : (1) Conception en couche : la conception d'une seule couche GNN. (2) Conception inter-couches : Comment connecter les couches GNN. (3) Configuration de l'apprentissage : Comment définir les paramètres de l'apprentissage automatique. Construisez l'espace de conception GNN correspondant dans trois directions. Ensuite, en classant les modèles pour quantifier leurs différences de performances sur des tâches spécifiques, vous pouvez comprendre la conception optimale du modèle pour des données données. De plus, pour les nouvelles tâches et données, nous pouvons également identifier rapidement les tâches les plus similaires et migrer leurs meilleurs modèles vers les nouvelles données en calculant simplement la similarité entre le nouvel ensemble de données et la collection existante dans l'espace des tâches. . De cette manière, un meilleur modèle peut être obtenu rapidement sur des ensembles de données qui n’ont jamais été utilisés auparavant. Bien entendu, l'apprentissage automatique des graphiques et la transférabilité des modèles de graphiques sont des questions très importantes dans la recherche universitaire et les applications industrielles. Au cours des deux dernières années, de nombreuses explorations et réflexions ont été menées ici. Pour plus de détails sur l'apprentissage automatique automatique sur les graphiques, je vous suggère de prêter attention à la revue pertinente du groupe académique de Zhu Wenwu, professeur à l'Université Tsinghua, et à leur boîte à outils d'apprentissage automatique open source AutoGL et aux travaux connexes sur le quatrième paradigme dans l'industrie. Source : AutoGL L'espace de conception de modèle mentionné ci-dessus se concentre principalement sur le niveau de la structure du modèle, mais il existe une autre dimension très importante qui est l'espace de représentation ou d'apprentissage du modèle, ce qui est également très utile. Des suppléments sont nécessaires. L'apprentissage automatique des graphiques est un moyen d'apprentissage des représentations sur des données graphiques. L'objectif n'est pas de prédire un résultat d'observation en apprenant les données d'origine, mais d'apprendre la structure sous-jacente des données, afin que l'apprentissage des caractéristiques correspondantes des données d'origine puisse être effectué. mieux exécutés et exprimés pour obtenir de meilleurs résultats sur les tâches en aval. La plupart des apprentissages actuels des représentations se font dans l'espace euclidien, car l'espace euclidien est une généralisation naturelle de notre espace visuel intuitif tout en étant convivial et offrant des avantages informatiques. Mais comme nous le savons tous, les graphes ont des structures non euclidiennes. Par exemple, les recherches dans le domaine des réseaux complexes montrent qu'il existe un grand nombre de propriétés sans échelle dans les données de réseaux réels (réseaux sociaux, réseaux de marchandises, réseaux de télécommunications, maladies). réseaux, réseaux sémantiques, etc.) (sans échelle), ce qui signifie que les structures arborescentes/hiérarchiques sont omniprésentes dans la réalité. L'utilisation de l'espace euclidien comme espace préalable pour l'apprentissage de la représentation afin d'effectuer la modélisation correspondante entraînera inévitablement des erreurs correspondantes (distorsion). Par conséquent, l’apprentissage des représentations basé sur différents espaces de courbure a récemment attiré l’attention de tous. La courbure est une mesure de la courbure de l'espace. Plus la courbure est proche de zéro, plus l'espace est plat. Dans le roman de science-fiction « Le problème des trois corps », les humains utilisent les changements de courbure de l'espace pour construire un vaisseau spatial à courbure. Comme le montre la figure ci-dessous, l'espace euclidien est uniforme et plat partout, isotrope et invariant par translation, il convient donc à la modélisation de données de grille. La mesure de distance spatiale sphérique avec une courbure positive est équivalente à la mesure d'angle et présente une invariance de rotation, elle convient donc à la modélisation de données en anneau ou de structures de données graphiques denses et uniformes. La métrique de distance spatiale hyperbolique avec courbure négative est équivalente à une distribution de loi de puissance et convient à la modélisation de réseaux ou de structures arborescentes sans échelle. En raison de la nature sans échelle (sans échelle) qui existe dans une grande quantité de données réseau réelles, cela signifie que les structures arborescentes/hiérarchiques sont omniprésentes dans la réalité. . Parmi eux, l'espace hyperbolique est considéré comme une expression continue de la structure arborescente/hiérarchique dans le domaine de la science des réseaux traditionnelle. Par conséquent, il est plus approprié pour modéliser des données réelles. Récemment, de nombreux excellents travaux ont vu le jour. De plus, par rapport à l’espace euclidien, le volume de l’espace hyperbolique augmente de façon exponentielle avec le rayon, de sorte qu’il possède un espace intégré plus grand. Différent de l'espace euclidien, l'espace hyperbolique a plusieurs modèles qui peuvent être décrits. Présentons-le brièvement en utilisant Poincaré Ball comme exemple. Le disque de Poincaré est un modèle hyperbolique en limitant l'espace d'intégration à une sphère unitaire. Dans le modèle hyperbolique de la sphère de Poincaré, tous les triangles clairs et sombres ci-dessus ont la même taille, mais de notre perspective euclidienne, les triangles proches du bord sont relativement petits. Pour le dire autrement, si nous le regardons d'un point de vue européen et prenons le centre du cercle ci-dessus comme origine, à mesure que le rayon augmente, le nombre de triangles deviendra de plus en plus Nous pouvons imaginer cela, modéliser avec des espaces hyperboliques, c'est comme "gonfler un ballon". Supposons qu’un ballon sec ait un milliard de nœuds à sa surface. Ce serait un état très dense. Au fur et à mesure que le ballon se gonfle et devient plus grand, la surface du ballon devient de plus en plus « courbée » et les nœuds s'écartent davantage. L'équipe technique d'Alimama a appliqué l'espace de courbure (Curvlearn) aux scénarios de publicité de recherche basés sur Taobao. Après le lancement complet du système, la consommation de stockage a été réduite de 80 % et la précision de la correspondance des requêtes côté utilisateur a augmenté de 15 %. En plus des systèmes de recommandation, le modèle de graphe hyperbolique a montré d'excellents résultats dans une variété de scénarios différents. Les étudiants intéressés par du contenu connexe peuvent également se référer à nos tutoriels connexes sur l'apprentissage de la représentation de graphe hyperbolique sur ECML-PKDD cette année (page d'accueil du portail : https://hyperbolicgraphlearning.github.io/ ) ou des didacticiels liés aux réseaux neuronaux hyperboliques lors de la WebConf par des chercheurs tels que Virginia Tech et Amazon. L'algorithme de réseau neuronal graphique combine les opérations des réseaux neuronaux profonds (tels que la convolution, le calcul de gradient) avec la propagation itérative de graphe : chaque sommet Les caractéristiques sont calculées à partir des caractéristiques de ses sommets voisins combinées à un ensemble de réseaux de neurones profonds. Cependant, les cadres d'apprentissage profond existants ne peuvent pas étendre et exécuter des modèles de propagation de graphes et n'ont donc pas la capacité de former efficacement des réseaux neuronaux de graphes. De plus, l'échelle des données graphiques dans le monde réel est énorme et il existe des dépendances complexes entre les sommets. Par exemple, le graphe du réseau social de Facebook contient plus de 2 milliards de sommets et 1 000 milliards d'arêtes. Un graphe de cette taille peut générer 100 To. de données. Différent des algorithmes de graphes traditionnels, le partitionnement de graphes équilibré dépend non seulement du nombre de sommets dans la partition, mais dépend également du nombre de voisins de sommets dans la partition. Le nombre de voisins multi-ordres de différents sommets dans un multi. Le modèle de réseau neuronal graphique à couches peut Les différences sont énormes et un échange de données fréquent est nécessaire entre ces partitions. Comment partitionner raisonnablement les données graphiques pour garantir les performances de la formation distribuée est un défi majeur pour les systèmes distribués. De plus, les données graphiques sont très rares, ce qui entraînera des accès fréquents entre nœuds dans le traitement distribué, ce qui entraînera une grande quantité de surcharge de transmission de messages. Par conséquent, comment réduire la surcharge du système en fonction des propriétés spéciales des graphiques constitue un défi majeur pour améliorer les performances du système. Si un ouvrier veut bien faire son travail, il doit d’abord affûter ses outils. Afin de prendre en charge l'application des réseaux de neurones graphes sur des graphes à grande échelle et l'exploration de structures de réseaux de neurones graphes plus complexes, il est nécessaire de développer un système de formation pour les réseaux de neurones graphes. La première chose à mentionner concerne les deux frameworks open source les plus connus, PyG (PyTorch Geographic) et DGL (Deep Graph Library). Le premier est une bibliothèque de réseaux neuronaux graphiques basée sur PyTorch développée conjointement par l'Université de Stanford et l'Université TU de Dortmund. contient de nombreuses implémentations de méthodes et des ensembles de données couramment utilisés dans les articles connexes, ainsi que des interfaces simples et faciles à utiliser. Ce dernier est un cadre d'apprentissage graphique développé conjointement par l'Université de New York et l'Amazon Research Institute. cadre open source dans les cercles universitaires et industriels, tous deux bénéficient du soutien actif de la communauté. De plus, de nombreuses entreprises ont également construit leurs propres cadres et bases de données de réseaux neuronaux graphiques basés sur leurs propres caractéristiques commerciales, telles que : NeuGraph, EnGN, PSGraph, AliGraph, Roc, AGL, PGL, Galileo. , TuGraph, graphique d'angle, etc. Parmi eux, AliGraph est une plate-forme de réseau neuronal graphique intégrant la modélisation d'échantillonnage et la formation développée par Alibaba Computing Platform et DAMO Academy Intelligent Computing Laboratory. PGL (paddle graph learning) est un cadre d'apprentissage de graphes correspondant basé sur PaddlePaddle développé par Baidu. Angle Graph est une plate-forme de calcul graphique hautes performances à grande échelle lancée par la plate-forme de données Tencent TEG. Parlons encore de la plateforme de référence. Dans les principaux domaines de recherche ou d'application de l'apprentissage automatique profond, les ensembles de données de référence ainsi que les plates-formes aident à identifier et à quantifier quels types d'architectures, de principes ou de mécanismes sont universels et peuvent être généralisés à des tâches réelles et à de grands ensembles de données. Par exemple, la dernière révolution dans les modèles de réseaux neuronaux a été déclenchée par l’ensemble de données d’images de référence à grande échelle ImageNet. Par rapport aux données de grille ou de séquence, le développement de modèles de données graphiques est encore dans une phase de croissance relativement libre. Premièrement, les ensembles de données sont souvent trop petits pour correspondre aux scénarios du monde réel, ce qui signifie qu’il est difficile d’évaluer les algorithmes de manière fiable et rigoureuse. Deuxièmement, les schémas d’évaluation des algorithmes ne sont pas uniformes. Fondamentalement, chaque document de recherche utilise sa propre méthode de partitionnement des données « ensemble d'entraînement/ensemble de test » et ses propres indicateurs d'évaluation des performances. Cela signifie qu'il est difficile d'effectuer des comparaisons de performances entre les documents et les architectures. De plus, différents chercheurs utilisent souvent des méthodes traditionnelles de partitionnement aléatoire lors du partitionnement d’ensembles de données. Afin de résoudre le problème des méthodes de division des données et des données de tâches incohérentes et des schémas d'évaluation dans la communauté d'apprentissage des graphes, l'équipe Jure Leskovec de l'Université de Stanford a lancé l'Open Graph Benchmark (OGB), un travail fondamental pour la plateforme de référence des réseaux neuronaux graphiques, en 2020. . OGB contient des ensembles de données prêts à l'emploi pour les tâches clés sur les graphiques (classification de nœuds, prédiction de liens, classification de graphiques, etc.), ainsi qu'une bibliothèque de codes commune et une évaluation des performances. Le code de mise en œuvre de l’indicateur permet une évaluation et une comparaison rapides des modèles. En outre, OGB dispose également d'un modèle de classement des performances (leaderboard), qui peut permettre à chacun de suivre rapidement les progrès de la recherche correspondants. De plus, en 2021, OGB a organisé conjointement le premier concours OGB-LSC (OGB Large-Scale Challenge) avec KDD CUP, fournissant des données graphiques à très grande échelle du monde réel pour compléter la classification des nœuds, la prédiction des bords et l'apprentissage des graphiques dans le domaine de l'apprentissage des graphes. Revenant aux trois tâches principales, il a attiré la participation de nombreuses universités et entreprises technologiques de premier plan, notamment Microsoft, Deepmind, Facebook, Alibaba, Baidu, ByteDance, Stanford, MIT, l'Université de Pékin, etc. Cette année, dans le cadre du concours NeurIPS2022, sur la base de l'expérience de la KDD Cup, les ensembles de données correspondants ont été mis à jour et le deuxième concours OGB-LSC a été organisé. Le plan gagnant a maintenant été rendu public (a. un bon moyen de se familiariser rapidement avec un domaine C'est la thèse de doctorat d'un étudiant qui vient d'obtenir son diplôme du laboratoire de lecture. Rex YING et You Jiaxuan du laboratoire SNAP doivent avoir des noms. Ils ont commencé à mener des recherches liées à l'apprentissage des graphes. sous la direction de Jure Leskovec en 2016 et 2017 respectivement. De nombreuses réalisations sont devenues des jalons dans le développement de l'apprentissage des graphes et ont été présentées dans leurs thèses de doctorat respectives « Vers un apprentissage par représentation profonde expressif et évolutif pour les graphiques » et « Renforcer l'apprentissage profond avec les graphiques ». ") Après plus de dix ans de développement et d'applications industrielles récentes dans diverses industries et une itération continue de la théorie en laboratoire, les réseaux de neurones graphes se sont avérés être le meilleur choix pour les données structurées en graphiques en théorie et en pratique. Une méthode et un cadre efficaces pour le traitement. En tant que structure de données universelle, concise et puissante, les graphiques peuvent non seulement être utilisés comme entrée et sortie de modèles de graphiques pour extraire et apprendre des données structurées non euclidiennes, mais peuvent également être utilisés comme structure a priori pour modéliser des données européennes (texte et photos). En application. À long terme, nous pensons que les données graphiques + les réseaux neuronaux passeront d'un domaine de recherche émergent à un paradigme standard de données + modèles pour la recherche et les applications en apprentissage automatique, permettant ainsi davantage d'industries et de scénarios. (ne peut éviter de faire une perspective) Bien que GNN ait obtenu un grand succès dans de nombreux domaines ces dernières années, avec l'expansion des scénarios d'application et les changements dynamiques réels et les environnements ouverts inconnus, dans En plus des nombreux problèmes et défis mentionnés dans l'article précédent, il existe encore de nombreuses directions qui méritent d'être explorées plus en profondeur : Nouveaux scénarios et nouveaux paradigmes des réseaux de neurones graphiques : Dans le monde réel, de la gravité des planètes aux interactions moléculaires, presque tout peut être vu comme connecté dans une certaine relation, et alors tout peut être considéré comme un graphe. De l'analyse des réseaux sociaux aux systèmes de recommandation et aux sciences naturelles, nous avons vu des applications connexes explorer les réseaux de neurones graphiques dans divers domaines et le développement de modèles découlant de problèmes d'application, tels que l'interaction spatio-temporelle dans les transports intelligents, différentes catégories de scénarios de contrôle des risques financiers. Problèmes d'équilibre, de discrimination de structure analytique dans le domaine de la biochimie, etc. Par conséquent, la manière d'apprendre de manière adaptative les caractéristiques liées à la scène dans différentes scènes reste une direction importante. De plus, d'une part, le GNN actuel est principalement basé sur le paradigme de transmission de messages, utilisant les trois étapes du transfert d'informations, de l'agrégation et de la mise à jour des informations. Comment rendre le transfert, l'agrégation et la mise à jour des informations plus raisonnables et efficaces. actuellement plus important pour le travail du GNN ; d'un autre côté, le problème de lissage excessif des informations et le goulot d'étranglement des informations provoqués par le cadre de transmission des messages et l'hypothèse d'assortiment limiteront également son effet dans des données et des scénarios plus complexes. Dans l'ensemble, la plupart des GNN empruntent toujours certaines idées à la vision par ordinateur et au traitement du langage naturel, mais comment enfreindre les règles d'emprunt, concevoir un modèle plus puissant basé sur les préférences inductives des données graphiques et injecter des fonctionnalités uniques dans le réseau neuronal graphique ? L'âme sera également la direction dans laquelle les chercheurs dans ce domaine continueront de réfléchir et de travailler dur. Apprentissage de la structure du graphique : La principale différence entre les réseaux de neurones graphiques et les réseaux de neurones traditionnels est qu'ils utilisent la structure du graphe comme guide et apprennent les représentations de nœuds en agrégeant les informations des voisins. L'application repose en fait sur une hypothèse sous-jacente : la structure du graphique est correcte, c'est-à-dire que les connexions sur le graphique sont réelles et dignes de confiance. Par exemple, les bords d’un graphe social impliquent de véritables amitiés. Cependant, en réalité, la structure du graphique n’est pas aussi fiable et les connexions bruyantes et accidentelles sont courantes. Une mauvaise structure graphique et le processus de diffusion de GNN réduiront considérablement la représentation des nœuds et les performances des tâches en aval (garbage in, garbage out). Par conséquent, comment mieux apprendre les structures graphiques et comment construire des structures graphiques plus crédibles dans différents scénarios de données est une direction importante. Réseau neuronal graphique de confiance : En raison du mécanisme de transfert d'informations et des caractéristiques non IID des données graphiques, les GNN sont très vulnérables aux attaques contradictoires et sont facilement affectés par des perturbations contradictoires dans les caractéristiques des nœuds et la structure du graphique. . Par exemple, les fraudeurs peuvent échapper à la détection des fraudes basée sur les GNN en créant des transactions avec des utilisateurs spécifiques bénéficiant d'un crédit élevé. Par conséquent, il est indispensable de développer des réseaux de neurones graphiques robustes pour certaines zones présentant des risques de sécurité élevés. D’un autre côté, alors que la société dans son ensemble accorde une attention croissante à la protection de la vie privée, l’équité des réseaux neuronaux graphiques et la protection de la confidentialité des données sont également des sujets brûlants dans les recherches récentes. Par exemple, FederatedScope-GNN, la plateforme open source d'apprentissage fédéré de l'Alibaba DAMO Academy pour les données graphiques en 2022, a également remporté le meilleur article d'application au KDD 2022 cette année. De plus, comment faire en sorte que le modèle de graphique entraîné oublie les effets d'entraînement de données spécifiques/paramètres spécifiques pour atteindre l'objectif de protection des données cachées dans le modèle est également une direction qui mérite d'être discutée. Interprétabilité : Bien que les modèles d'apprentissage profond aient atteint des performances que les méthodes traditionnelles ne peuvent pas égaler sur de nombreuses tâches, la complexité du modèle fait que son interprétabilité est souvent limitée. Cependant, dans de nombreux domaines très sensibles tels que la bioinformatique, la santé et le contrôle des risques financiers, l’interprétabilité est importante pour évaluer les modèles informatiques et mieux comprendre les mécanismes sous-jacents. Par conséquent, la conception de modèles/architectures interprétables ou capables de mieux visualiser des relations complexes a récemment attiré davantage d’attention. Les travaux existants font principalement référence aux méthodes de traitement de l’interprétabilité des textes et des images. Par exemple, des méthodes basées sur des changements de gradient ou des perturbations d'entrée (par exemple GNNExplainer). Récemment, certains chercheurs ont tenté d'explorer le cadre de mesure de l'explicabilité à l'aide de méthodes de dépistage causal pour mieux déduire l'explicabilité intrinsèque des réseaux neuronaux graphiques sur la base de l'apprentissage invariant, et également fournir un aperçu de l'explicabilité des modèles graphiques. Généralisation hors distribution : Les problèmes généraux d'apprentissage consistent à terminer la formation du modèle sur un ensemble de formation, puis le modèle doit donner des résultats sur un nouvel ensemble de test lorsque la distribution des données de test est significativement différente de la formation. distribution , l'erreur de généralisation du modèle est difficile à contrôler. La plupart des méthodes actuelles de réseau neuronal graphique (GNN) ne prennent pas en compte l'écart inconnaissable entre les graphiques d'entraînement et les graphiques de test, ce qui entraîne de mauvaises performances de généralisation du GNN sur les graphiques hors distribution (OOD). Cependant, de nombreux scénarios nécessitent en réalité que le modèle interagisse avec un environnement ouvert et dynamique. Au cours de la phase de formation, le modèle doit prendre en compte de nouvelles entités ou échantillons provenant de distributions inconnues dans le futur, tels que de nouveaux utilisateurs/éléments dans les systèmes de recommandation, de nouveaux. produits dans les systèmes de publicité en ligne, etc. Portraits d'utilisateurs/caractéristiques comportementales de la plateforme, nouveaux nœuds ou relations de périphérie dans le réseau dynamique, etc. Par conséquent, comment utiliser des données d’observation limitées pour apprendre un modèle GNN stable pouvant se généraliser à de nouveaux environnements avec des données inconnues ou limitées constitue également une direction de recherche importante. Pré-formation sur les données graphiques et modèle général : Le paradigme de pré-formation a connu un succès révolutionnaire dans les domaines de la vision par ordinateur et du traitement du langage naturel, prouvant ses puissantes capacités dans de nombreuses tâches. Bien que GNN dispose déjà de modèles relativement matures et d'applications réussies, il reste limité à l'apprentissage profond qui utilise une grande quantité de données étiquetées pour entraîner des modèles pour des tâches spécifiques. Lorsque la tâche change ou que les étiquettes sont insuffisantes, les résultats sont souvent insatisfaisants. Par conséquent, cela déclenche naturellement l'exploration et la réflexion de chacun sur des modèles généraux dans des scénarios de données graphiques. La clé de la pré-formation réside dans des données de formation abondantes, des connaissances transférables, des modèles de base puissants et des méthodes de formation efficaces. Par rapport aux informations sémantiques claires de la vision par ordinateur et du traitement du langage naturel, étant donné que les différentes structures de données graphiques varient considérablement, quelles connaissances dans les graphiques sont transférables reste une question relativement ouverte. De plus, bien que des modèles GNN approfondis et généraux aient été étudiés, ils n’ont pas encore apporté d’améliorations révolutionnaires. Heureusement, la communauté d'apprentissage automatique des graphes a accumulé des données graphiques à grande échelle et a développé des méthodes de formation auto-supervisées telles que la reconstruction graphique. Avec l'exploration plus approfondie des recherches ultérieures sur les GNN profonds, les GNN dotés de capacités plus expressives et de nouveaux paradigmes d'auto-supervision des graphes, on pense qu'un modèle universel doté d'une forte polyvalence finira par être réalisé. Collaboration logicielle et matérielle : À mesure que le développement des applications et de la recherche sur l'apprentissage des graphes progresse, GNN sera certainement plus profondément intégré dans les frameworks et plates-formes standards tels que PyTorch, TensorFlow, Mindpsore, etc. Pour améliorer encore l'évolutivité des modèles graphiques, des cadres d'algorithmes plus respectueux du matériel et des solutions d'accélération matérielle coordonnées par logiciel sont la tendance générale. Bien que les structures d'accélération dédiées aux applications de réseaux neuronaux graphiques émergent lentement, la personnalisation des unités matérielles informatiques et des hiérarchies de stockage sur puce pour les réseaux neuronaux graphiques, ainsi que les puces dédiées qui optimisent les comportements de calcul et d'accès à la mémoire ont connu un certain succès, ces technologies en sont encore à leurs débuts. Faire face à d’énormes défis et offrir en conséquence de nombreuses opportunités. 4. Évolutivité du réseau neuronal graphique
1. Traitement des données basé sur l'échantillonnage
2. Basée sur la simplification graphique
5. oural réseaux Grâce à sa capacité de représentation, l'apprentissage profond est devenu un outil important pour l'exploration des connaissances. Les graphiques constituent une structure de données polyvalente et puissante qui représente les entités et leurs relations sous une forme concise et sont omniprésents dans les applications des sciences naturelles et sociales. Cependant, les données graphiques dans le monde réel varient considérablement en termes de structure, de contenu et de tâches. La conception de réseau et d'architecture GNN la plus performante pour une tâche peut ne pas convenir à une autre tâche. Pour un ensemble de données et une tâche de prédiction donnés, la manière d'obtenir rapidement un modèle avec de bons résultats est très significative pour les chercheurs ou les ingénieurs en algorithmes d'application. Pour un ensemble de données et une tâche de prédiction donnés, quelle architecture de réseau neuronal est efficace ? Pouvons-nous construire un système qui prédit automatiquement les bonnes conceptions GNN ? Avec ces réflexions, le groupe de Jure Leskovec a défini l'espace de conception de GNN à partir de trois niveaux dans son travail publié sur l'espace de conception de réseaux neuronaux graphiques en 2020. Ce travail fournit également une base pour la migration ultérieure des machines automatiques graphiques et des modèles d'apprentissage graphique. la fondation.
6. Système de formation de réseau neuronal graphique, framework, plateforme de référence
. 7. Résumé et perspectives
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!