Maison > Article > Périphériques technologiques > Jia Qianghuai : Construction et application d'un graphe de connaissances à grande échelle sur les fourmis
Présentez d'abord quelques concepts de base du graphe de connaissances.
Le graphe de connaissances vise à utiliser des structures graphiques pour modéliser, identifier et déduire des relations complexes entre les choses et précipiter la connaissance du domaine. a Il est largement utilisé dans les moteurs de recherche, la réponse intelligente aux questions, la compréhension sémantique du langage, l'analyse des décisions Big Data et bien d'autres domaines.
Le graphe de connaissances modélise à la fois la relation sémantique et la relation structurelle entre les données. Combiné à la technologie d'apprentissage en profondeur, les deux relations peuvent être mieux intégrées et représentées.
Nous souhaitons construire un graphe de connaissances principalement à partir des deux points suivants : d'une part, les caractéristiques de l'arrière-plan de la source de données des fourmis elles-mêmes, d'autre part. d’autre part, ce que le knowledge graph peut apporter.
[1] Les sources de données elles-mêmes sont diverses et hétérogènes, manquant d'un système unifié de compréhension des connaissances.
[2] Les graphes de connaissances peuvent apporter de multiples avantages, notamment :
Dans le processus de création de divers graphes de connaissances commerciales, nous avons précipité un ensemble de paradigmes de construction généraux pour les graphes de connaissances des fourmis, qui sont principalement divisés en Cinq parties suivantes :
Après avoir un paradigme de construction commun, il est nécessaire de réaliser une construction systématique. Examinez la construction systématique du Ant Knowledge Graph sous deux angles. Premièrement, d’un point de vue algorithmique, il existe diverses capacités algorithmiques, telles que le raisonnement par connaissances, l’appariement des connaissances, etc. Du point de vue de la mise en œuvre, de bas en haut, les dépendances de base les plus basses incluent le moteur de calcul graphique et le calcul de base cognitive au-dessus se trouvent la base de graphiques, y compris la plate-forme PNL et multimodale et la plate-forme graphique au-dessus se trouvent diverses technologies de construction de graphiques ; Sur cette base, nous pouvons construire le graphe de connaissances des fourmis ; sur la base du graphe de connaissances, nous pouvons faire un raisonnement graphique plus haut, nous fournissons certaines capacités générales d'algorithme ;
Ensuite, nous partagerons certaines des capacités de base d'Ant Group dans la création de graphes de connaissances, notamment la construction de graphes, la fusion de graphes et la cognition de graphes.
Le processus de construction de cartes comprend principalement six étapes :
Dans la construction d'un graphe de connaissances, il est nécessaire de classer les entités d'entrée, ce qui constitue un problème à grande échelle chez la fourmi Scénario Tâche de classification des étiquettes. Afin d'intégrer les connaissances d'experts pour la classification des entités, les trois points d'optimisation principaux suivants sont réalisés :
Sur la base de la reconnaissance d'entités, à partir de la structure graphique des bords de mots, le modèle apprend une pondération raisonnable des bords et des connexions de mots bruyantes. Réduisez le poids du bord. . Deux modules, apprentissage contrastif aux frontières et apprentissage contrastif sémantique, sont proposés :
Dans les problèmes de domaine, nous avons très peu d'échantillons étiquetés et serons confrontés à des scénarios avec peu de tirs ou zéro tir. Dans ce cas, nous effectuons une extraction de relations. L'idée principale est d'introduire une base de connaissances externe. Afin de résoudre le problème de dégradation des performances causé par différents espaces sémantiques, un module de raisonnement basé sur des règles logiques est conçu afin de résoudre le problème d'apprentissage par cœur causé par la correspondance de types d'entités ; Un module de perception des différences subtiles est conçu.
La fusion de graphiques fait référence à la fusion d'informations entre des graphiques dans différents domaines commerciaux.
Avantages de la fusion de graphes :
Un point technique essentiel dans le processus de fusion de graphes de connaissances est l'alignement des entités. Ici, nous utilisons l'algorithme SOTA BERT-INT, qui comprend principalement deux modules, l'un est le module de présentation et l'autre est le module d'interaction.
Le processus de mise en œuvre de l'algorithme comprend principalement le rappel et le tri :
Rappel : Dans le module de représentation, le rappel de similarité vectorielle BERT du texte du titre est utilisé.
Modèle de classement basé sur titre + attribut + voisin : ü Utilisez le module de représentation pour compléter la représentation vectorielle du titre, de l'attribut et du voisin :
Cette partie présente principalement le cadre d'apprentissage de la représentation interne des connaissances d'Ant.
Ant a proposé un apprentissage de représentation des connaissances basé sur le framework Encoder-Decoder. Parmi eux, Encoder est une méthode d'apprentissage neuronal graphique, et Decoder est un apprentissage de représentation de connaissances, tel que la prédiction de lien. Ce cadre d'apprentissage de représentation peut auto-superviser la production d'intégrations universelles d'entités/relations, ce qui présente plusieurs avantages : 1) la taille de l'intégration est beaucoup plus petite que l'espace des fonctionnalités d'origine, réduisant les coûts de stockage 2) les vecteurs de faible dimension sont plus denses, atténuant ainsi efficacement ; le problème de la rareté des données. 3) L'apprentissage dans le même espace vectoriel rend la fusion de données hétérogènes provenant de plusieurs sources plus naturelle. 4) L'intégration a une certaine universalité et est pratique pour une utilisation commerciale en aval.
Ensuite, je partagerai quelques cas d'application typiques du graphe de connaissances dans Ant Group.
Avant d'introduire des cas spécifiques, introduisons d'abord plusieurs modes d'application de scénarios de l'Ant Knowledge Graph, qui incluent principalement l'acquisition de connaissances, la gestion et le raisonnement des connaissances, ainsi que les services de connaissances. Comme indiqué ci-dessous.
Le scénario commercial est le contenu du mini programme dans la recherche principale d'Alipay et l'affaire à résoudre. Les points faibles sont :
La solution est de construire un graphe de connaissances marchand. En combinaison avec la relation produit de la carte marchande, une compréhension structurée du niveau produit de la requête utilisateur est obtenue.
Ce cas concerne la prédiction en temps réel de l'intention de l'utilisateur pour la recommandation de la page d'accueil, et AlipayKG est construit. figure ci-dessus. Des travaux connexes ont également été publiés lors de la conférence majeure www 2023. Vous pouvez vous référer à l'article pour une meilleure compréhension.
Ce scénario est un scénario de recommandation de coupon consommateur. Les problèmes rencontrés par l'entreprise sont :
.Afin de résoudre les problèmes ci-dessus, nous avons conçu un algorithme de rappel vectoriel profond qui fusionne la représentation graphique dynamique. Parce que nous avons constaté que le comportement des coupons de consommation des utilisateurs est cyclique, une arête unique statique ne peut pas modéliser ce comportement cyclique. À cette fin, nous avons d'abord construit un graphe dynamique, puis avons utilisé l'algorithme de graphe dynamique auto-développé par l'équipe pour apprendre la représentation d'intégration. Après avoir obtenu la représentation, nous l'avons placée dans le modèle à tour jumelle pour le rappel vectoriel.
Le dernier cas concerne le raisonnement de règles graphiques. En prenant comme exemple la carte de santé de l'assurance maladie, elle comprend des connaissances médicales, des règles de réclamation et des informations sur la santé des « personnes », qui sont liées à des entités et associées à des règles logiques comme base de prise de décision. Grâce à la carte, l'efficacité du règlement des réclamations d'experts a été améliorée.
Enfin, discutons brièvement des opportunités des graphes de connaissances dans le contexte du développement rapide actuel des grands modèles.
Les graphes de connaissances et les grands modèles ont chacun leurs propres avantages et inconvénients. Les principaux avantages des grands modèles sont la modélisation des connaissances générales et l'universalité, tandis que les inconvénients des grands modèles. les modèles sont parfaits. Cela peut être compensé par les avantages du knowledge graph. Les avantages de la carte incluent une grande précision et une forte interprétabilité. Les grands modèles et les graphiques de connaissances peuvent s'influencer mutuellement.
Il existe généralement trois voies pour l'intégration de graphiques et de grands modèles : la première consiste à utiliser des graphiques de connaissances pour améliorer les grands modèles ; la seconde consiste à utiliser de grands modèles pour améliorer les graphiques de connaissances ; et les graphes de connaissances. , avantages complémentaires, le grand modèle peut être considéré comme une base de connaissances paramétrée, et le graphe de connaissances peut être considéré comme une base de connaissances affichée.
Dans le processus de construction de graphes de connaissances, les grands modèles peuvent être utilisés pour l'extraction d'informations, la modélisation des connaissances et Raisonnement relationnel.
Ce travail de la DAMO Academy décompose le problème d'extraction d'informations en deux étapes :
L'application des graphiques de connaissances aux grands modèles comprend principalement trois aspects :
L'intégration des graphiques de connaissances dans les entrées de grands modèles. Le graphe de connaissances peut être utilisé pour le nettoyage des données, ou le graphe de connaissances peut être utilisé pour effectuer directement un épissage formel.
Intégrez un graphique de connaissances dans la formation de grands modèles. Par exemple, deux tâches sont entraînées en même temps.Le graphe de connaissances peut être utilisé pour les tâches de représentation des connaissances, et le grand modèle peut être utilisé pour la pré-formation du MLM, et les deux sont modélisés conjointement.
Injectez un graphique de connaissances dans le raisonnement sur un grand modèle. Premièrement, deux problèmes liés aux grands modèles peuvent être résolus.Le premier est d'utiliser le graphe de connaissances comme contraintes a priori pour éviter le « non-sens » des grands modèles ; D’un autre côté, sur la base de graphes de connaissances, des solutions interprétables peuvent être fournies pour la génération de modèles à grande échelle.
comprend principalement deux catégories. L'une est le système de questions-réponses amélioré par un graphe de connaissances, qui utilise un grand modèle pour optimiser le modèle KBQA, l'autre est l'amélioration de la recherche d'informations, similaire à LangChain, GopherCite ; , et New Bing. Utilisez de grands modèles pour formuler des questions et des réponses dans la base de connaissances.
Le système de questions et réponses de recherche générative amélioré par les connaissances présente les avantages suivants :
Comment les graphes de connaissances et les grands modèles peuvent mieux interagir et travailler ensemble, y compris les trois directions suivantes :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!