Maison  >  Article  >  Périphériques technologiques  >  Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive

WBOY
WBOYavant
2023-04-11 14:37:031736parcourir

Invité | Wang Lin

Organisé | Zhang Feng

Planification | Il existe deux intelligences artificielles. Les plus grandes factions : le rationalisme et l'empirisme. . Mais dans les vrais produits de qualité industrielle, ces deux factions se complètent. Comment introduire plus de contrôlabilité et plus de connaissances dans la boîte noire de ce modèle nécessite l’application de graphes de connaissances, qui véhiculent des connaissances symboliques.

Il y a quelques jours, lors de la

WOT Global Technology Innovation Conference

organisée par 51CTO, le Dr Wang Lin, CTO de Taifan Technology, a présenté l'évolution du sujet "Base de données graphique : à travers" A New Approach to Cognitive Intelligence", qui se concentre sur l'histoire et l'évolution du modèle de base de données graphique ; les moyens importants permettant aux bases de données graphiques d'atteindre l'intelligence cognitive, ainsi que la conception et l'expérience pratique des bases de données graphiques sur OpenGauss. Le contenu du discours est désormais organisé comme suit, en espérant vous inspirer :

D'une certaine dimension, l'intelligence artificielle peut être divisée en deux catégories, l'une est le

connexionnisme
, et l'autre C'est le

connectionisme

C'est l'apprentissage profond que nous connaissons, qui simule la structure du cerveau humain pour faire des choses telles que la perception, la reconnaissance et le jugement. L'autre type est le

Symbolisme

, qui simule généralement l'esprit humain. Les processus cognitifs sont des opérations sur des représentations symboliques. Par conséquent, il est souvent utilisé pour réfléchir et raisonner. Une technologie représentative typique est le graphe de connaissances.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive

4 façons d'améliorer l'IA avec des graphiques

1 Prise de décision situationnelle

Le graphe de connaissances est essentiellement un réseau sémantique basé sur des graphiques, qui représente les entités et les relations entre les entités. À un niveau élevé, un graphe de connaissances est également un ensemble de connaissances interdépendantes, décrivant le monde réel et les relations entre les entités et les choses sous une forme que les humains peuvent comprendre.

Le graphe de connaissances peut nous apporter plus de connaissances sur le domaine et des informations contextuelles pour nous aider à prendre des décisions. Du point de vue de l'application, les graphes de connaissances peuvent être divisés en trois types :

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


Le premier est

les graphes de connaissances liés au domaine.

Les connaissances extraites de données structurées et semi-structurées sont transformées en un graphe de connaissances pertinent dans le domaine. L'application la plus typique est le moteur de recherche de Google. Le deuxième est le

graphique des connaissances de perception externe

. Regroupez les sources de données externes et mappez-les aux entités internes d’intérêt. Une application typique est l'analyse des risques de la chaîne d'approvisionnement. À travers la chaîne d'approvisionnement, vous pouvez voir des informations sur les fournisseurs, en amont et en aval, les usines et autres lignes d'approvisionnement, afin que vous puissiez analyser où les problèmes existent et s'il existe un risque d'interruption. Le troisième est le

Graphique de connaissances sur le traitement du langage naturel

. Le traitement du langage naturel comprend un grand nombre de termes techniques et même des mots-clés dans le domaine, qui peuvent nous aider à effectuer des requêtes en langage naturel. 2. Améliorer l'efficacité opérationnelle

Les méthodes d'apprentissage automatique reposent souvent sur des données stockées dans des tables, et la plupart de ces données sont en fait des opérations gourmandes en ressources. Les graphiques de connaissances peuvent fournir un contenu pertinent dans des domaines à haute efficacité. Les données sont connectées. pour atteindre plusieurs degrés de séparation dans les relations, ce qui est propice à une analyse rapide et à grande échelle. De ce point de vue, le graphique lui-même accélère l’effet de l’apprentissage automatique.

De plus, les algorithmes d'apprentissage automatique doivent souvent être calculés sur toutes les données. Grâce à une simple requête graphique, vous pouvez renvoyer le sous-graphique des données requises, accélérant ainsi l'efficacité opérationnelle.

3. Améliorer la précision des prédictions

La relation est souvent le prédicteur de comportement le plus puissant, et les caractéristiques de la relation peuvent être facilement obtenues à partir du graphique.

En associant des données et des diagrammes de relations, les caractéristiques des relations peuvent être extraites plus directement. Mais dans les méthodes traditionnelles d’apprentissage automatique, de nombreuses informations importantes sont parfois perdues lors de l’abstraction et de la simplification des données. Les propriétés relationnelles nous permettent donc d’analyser sans perdre ces informations. De plus, les algorithmes graphiques simplifient le processus de découverte d’anomalies telles que des communautés restreintes. Nous pouvons marquer des nœuds au sein de communautés restreintes et extraire ces informations pour les utiliser dans la formation de modèles d'apprentissage automatique. Enfin, la sélection des fonctionnalités est effectuée à l'aide d'algorithmes graphiques pour réduire le nombre de fonctionnalités utilisées dans le modèle au sous-ensemble le plus pertinent.

4. Explicabilité

Ces dernières années, nous avons souvent entendu parler d'« explicabilité ». C'est aussi un défi particulièrement important dans l'application de l'intelligence artificielle. Nous devons comprendre comment l'intelligence artificielle arrive à ce résultat. présente également de nombreux attraits en termes d'interprétabilité, notamment dans certains domaines d'application spécifiques, tels que le médical, le financier et le judiciaire.

L'interprétabilité comprend trois aspects :

(1) Données interprétables. Nous devons savoir pourquoi les données ont été sélectionnées, quelle est la source des données ? Les données doivent être interprétables.

(2) Prédiction interprétable. Les prédictions interprétables signifient que nous devons savoir quelles caractéristiques sont utilisées et quels poids sont utilisés pour une prédiction spécifique.

(3) Algorithme interprétable. Les perspectives actuelles des algorithmes explicables sont très attrayantes, mais il reste encore un long chemin à parcourir dans le domaine de la recherche. Les réseaux tenseurs sont actuellement proposés, et de telles méthodes peuvent être utilisées pour donner aux algorithmes une certaine interprétabilité.


Modèle de données graphiques grand public

Étant donné que les graphiques sont si importants pour l'application et le développement de l'intelligence artificielle, comment pouvons-nous en faire bon usage ? La première chose à laquelle vous devez prêter attention est la gestion du stockage du graphique, qui est le modèle de données du graphique.

Il existe actuellement deux modèles de données graphiques les plus courants : les graphiques RDF et les graphiques d'attributs.

1. Diagramme RDF

RDF signifie Resource Description Framework. Il s'agit d'un modèle de données standard formulé par le W3C pour représenter l'échange d'informations compréhensibles par machine sur le World Wide Web sémantique. Dans un graphe RDF, chaque ressource possède une URL HTTP comme l'un de ses identifiants uniques. La définition RDF se présente sous la forme d'un triplet, représentant un énoncé de fait, où S représente le sujet, P est le prédicat et O est l'objet. Sur la photo, Bob s'intéresse à The MonoLisa, affirmant qu'il s'agit d'un diagramme RDF.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


correspond au modèle de données du graphe RDF et possède son propre langage de requête - SPARQL. SPARQL est le langage de requête standard pour les graphes de connaissances RDF développé par le W3C. SPARQL tire les leçons de SQL dans sa syntaxe et est un langage de requête déclaratif. L'unité de base de la requête est également un modèle de triplet.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive

2. Graphique d'attributs

Chaque sommet et chaque arête du modèle de graphe d'attributs ont un identifiant unique, et les sommets et les arêtes ont également une étiquette, qui est équivalente au type de ressource dans le graphe RDF. De plus, les sommets et les arêtes possèdent également un ensemble d'attributs, composé de noms d'attribut et de valeurs d'attribut, formant ainsi un modèle de graphe d'attributs.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


De même, le modèle de graphique d'attributs dispose également d'un langage de requête - Cypher. Cypher est également un langage de requête déclaratif. Les utilisateurs doivent uniquement déclarer ce qu'ils souhaitent rechercher et n'ont pas besoin d'indiquer comment rechercher. Une caractéristique majeure de Cypher est l'utilisation de la syntaxe artistique ASCII pour exprimer la correspondance de modèles graphiques.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


Avec le développement de l'intelligence artificielle, le développement de l'intelligence cognitive et l'application des graphes de connaissances se multiplient. Par conséquent, les bases de données graphiques ont reçu de plus en plus d'attention sur le marché ces dernières années, mais un problème important actuellement rencontré dans les graphiques est l'incohérence entre les modèles de données et les langages de requête, qui est un problème urgent qui doit être résolu.


La motivation pour étudier la base de données de graphes OpenGauss

Le point de départ de l'étude de la base de données de graphes OpenGauss a principalement deux aspects.

D'une part, je souhaite profiter des caractéristiques du graphe de connaissances lui-même. Par exemple, en termes de hautes performances, de haute disponibilité, de haute sécurité et de facilité d'exploitation et de maintenance, il est très important que la base de données puisse intégrer ces fonctionnalités dans la base de données graphique.

D'autre part, nous partons de la considération du modèle de données graphiques. Il existe actuellement deux modèles de données et deux langages de requête. Si vous alignez les opérateurs sémantiques derrière ces deux langages de requête différents, tels que la projection, la sélection, la jointure, etc. dans les bases de données relationnelles, si vous alignez la sémantique derrière les langages SPARQL et Cypher, Fournit. deux vues syntaxiques différentes, réalisant ainsi naturellement l'interopérabilité. C'est-à-dire que la sémantique interne peut être cohérente, de sorte que vous pouvez utiliser Cypher pour vérifier les graphiques RDF, et vous pouvez également utiliser SPARQL pour vérifier les graphiques d'attributs, ce qui constitue une très bonne fonctionnalité.


OpenGauss—Architecture graphique

La couche sous-jacente utilise OpenGauss et utilise le modèle relationnel comme graphe pour stocker le modèle physique. L'idée est de résoudre les incohérences entre le graphe RDF et le graphe d'attributs, et stockez-les physiquement sur la couche sous-jacente en trouvant le plus grand dénominateur commun. Faites-en une unité.

Basé sur cette idée, la couche inférieure de l'architecture d'OpenGauss-Graph est l'infrastructure, suivie des méthodes d'accès, des graphes d'attributs unifiés et des méthodes de traitement et de gestion des graphes RDF. Next est un moteur d'exécution de traitement de requêtes unifié pour prendre en charge des opérateurs sémantiques unifiés, notamment des opérateurs de correspondance de sous-graphes, des opérateurs de navigation de chemin, des opérateurs d'analyse de graphiques et des opérateurs de requête par mot-clé. Plus haut se trouve l'interface API unifiée, qui fournit l'interface SPARQL et l'interface Cypher. De plus, il existe des normes linguistiques pour un langage de requête unifié et une interface visuelle pour les requêtes interactives.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


Conception d'une solution de stockage

Les deux points suivants sont principalement pris en compte lors de la conception d'une solution de stockage :

(1) Elle ne doit pas être trop complexe, car l'efficacité d'une solution de stockage ce qui est trop complexe ne sera pas trop élevé.

(2) Il doit être capable d'adapter intelligemment les types de données de deux graphes de connaissances différents.

Il existe donc une solution de rangement pour la table à points et la table à bords. Il existe une table de points commune appelée propriétés. Pour différents points, il y aura un héritage ; la table de bords aura également un héritage de différentes tables de bords. Différents types de tables de points et de tables d'arêtes auront une copie, conservant ainsi une solution de stockage pour une collection de tables de points et d'arêtes.

S'il s'agit d'un graphique d'attributs, les points avec des étiquettes différentes trouveront différentes tables de points. Par exemple, le professeur trouvera la table de points du professeur. Les attributs des points sont mappés aux colonnes d'attributs dans la table de points ; il en va de même pour la table des bords, les auteurs sont mappés à la table des bords des auteurs et les bords sont mappés à une ligne de la table des bords avec les ID de le nœud de début et le nœud de fin.

Grâce à une méthode aussi simple en apparence mais en réalité très polyvalente, le graphe RDF et le graphe d'attributs peuvent être unifiés à partir de la couche physique. Mais dans les applications réelles, il existe un grand nombre d'entités non typées. À l'heure actuelle, nous adoptons la méthode de classification de la sémantique dans la table typée la plus proche.


Pratique de traitement des requêtes

En plus du stockage, la chose la plus importante est la requête. Au niveau sémantique, nous avons aligné les opérations et atteint l'interopérabilité entre deux langages de requête, SPARQL et Cypher.

Dans ce cas, deux niveaux sont impliqués : grammaire et lexique, et leur analyse ne doit pas entrer en conflit entre eux. Un mot-clé est cité ici. Par exemple, si vous cochez SPARQL, vous activerez la syntaxe de SPARQL. Si vous cochez Cypher, vous activerez la syntaxe de Cypher pour éviter les conflits.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


Nous avons également implémenté de nombreux opérateurs de requêtes.

(1) Requête de correspondance de sous-graphe, interrogeant tous les compositeurs, leurs compositions et l'anniversaire du compositeur est un problème typique de correspondance de sous-graphe. Il peut être divisé en graphe d'attributs et en graphe RDF, et leur flux de traitement général est également le même. Par exemple, le point correspondant est ajouté à la liste chaînée de jointure, puis une opération de sélection est ajoutée sur la colonne des propriétés, puis des contraintes sont imposées sur la connexion entre les tables de points correspondant aux modèles de points de tête et de queue. Le graphe RDF effectue des opérations importantes sur les points de début et de fin de la table de bords. En fin de compte, les contraintes de projection sont ajoutées aux variables et le résultat final est généré. Les processus sont similaires.

Les requêtes de correspondance de sous-graphes prennent également en charge certaines fonctions intégrées, telles que la fonction FILTER, qui prend en charge les restrictions de forme variable, les opérateurs logiques, l'agrégation et les opérateurs arithmétiques. Bien entendu, cette partie peut également être étendue en continu.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


(2) Requête de navigation, qui n'est pas disponible dans les bases de données relationnelles traditionnelles. Le côté gauche de la figure ci-dessous est un petit graphique de réseau social. Vous pouvez voir que la connaissance est à sens unique. Tom connaît Pat, mais Pat ne connaît pas Tom. Dans la requête de navigation, si vous effectuez une requête à deux sauts, voyez qui connaît Tom. Si c'est 0 saut, Tom se connaît. Le premier saut est que Tom connaît Pat et Tom connaît Summer. Le deuxième saut est celui où Tom fait la connaissance de Pat, puis de Nikki, puis de nouveau de Tom.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


(3) Requête par mot-clé, voici deux exemples, tsvector et tsquery. L'une consiste à convertir le document en une liste de termes ; l'autre consiste à demander si le mot ou l'expression spécifié existe dans le vecteur. Lorsque le texte du knowledge graph est relativement long et possède des attributs relativement longs, cette fonction peut être utilisée pour lui fournir une fonction de recherche par mot clé, ce qui est également très utile.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


(4) Requête analytique , il existe des requêtes uniques pour les bases de données graphiques, telles que le chemin le plus court , Pagerank, etc. sont tous des opérateurs de requête basés sur des graphiques, qui peuvent être utilisé dans Implémenté dans la base de données graphique. Par exemple, pour vérifier quel est le chemin le plus court de Tom à Nikki, l'opérateur de chemin le plus court est implémenté via Cypher, et le chemin le plus court peut être généré et le résultat est trouvé.

Wang Lin de Taifan Technology : Base de données graphique - une nouvelle voie vers l'intelligence cognitive


En plus des fonctions mentionnées ci-dessus, nous avons également implémenté un studio visuel interactif, dans lequel vous pouvez saisir le langage de requête de Cypher et SPARQL pour obtenir un diagramme visuel intuitif, qui peut être consulté ci-dessus Pour la maintenance, la gestion et l'application des graphiques, de nombreuses interactions peuvent être effectuées sur les graphiques. À l'avenir, nous ajouterons plus d'opérateurs, de requêtes de graphiques et de recherches de graphiques pour réaliser davantage de directions et de scénarios d'application.

Enfin, tout le monde est invité à visiter la communauté OpenGauss Graph, et les amis intéressés par OpenGauss Graph sont également invités à rejoindre la communauté, en tant que nouveaux contributeurs, et à construire ensemble la communauté OpenGauss Graph.


Introduction de l'invité

Wang Lin, Ph.D. en ingénierie, responsable de la communauté de bases de données OpenGauss Graph, CTO de Taifan Technology, ingénieur principal, vice-président de la China Computer Association YOCSEF Tianjin 21-22, Membre du comité exécutif du comité spécial du système d'information du CCF, sélectionné dans le projet Tianjin 131 Talent.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer