Maison >Java >javaDidacticiel >IntaLink : une nouvelle technologie NLL distincte des grands modèles

IntaLink : une nouvelle technologie NLL distincte des grands modèles

Susan Sarandon
Susan Sarandonoriginal
2024-10-31 21:05:02707parcourir

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink : une nouvelle technologie NL2SQL distincte des grands modèles

Joyau caché


Scénarios d'application étendus d'IntaLink

Examen de fond : Dans des articles précédents, il a été mentionné que "l'objectif d'IntaLink est de réaliser une liaison automatisée de données dans le domaine de l'intégration de données". D'après la discussion, il ressort clairement qu'IntaLink aborde la question de la liaison automatique de « données relationnelles et de tables multiples ».

Maintenant, discutons si cette question a de larges scénarios d'application ou s'il s'agit simplement d'une pseudo-proposition sans exigence pratique.


01 Les données relationnelles restent l'un des actifs de données les plus importants

Bien que les grands modèles, les plateformes Big Data et d'autres technologies puissent utiliser divers types d'informations, notamment des documents, des images, de l'audio et de la vidéo, comme l'IA générative multimodale capable de produire des vidéos et de faciliter les interactions vocales, les résultats sont souvent ouverts. -terminé et subjectif, conduisant parfois à des « hallucinations ». Ainsi, même si leur utilisation à titre de référence ou d'assistance est acceptable, dans certains environnements de travail rigoureux, nous ne pouvons pas nous fier à ces informations ou à ces grands modèles pour accomplir des tâches. Dans des secteurs comme la banque, la finance, les transports, le commerce, la comptabilité, la production et l'énergie, les données métiers de base doivent être gérées à l'aide de données relationnelles structurées.

02 La construction de données est inévitable et distribuée

  • (1) Le paradigme de conception des bases de données relationnelles exige que les données soient raisonnablement divisées pour éviter une redondance importante. Si les données générées pendant la phase de construction contiennent beaucoup de redondance, non seulement la charge de travail de collecte de données est dupliquée, mais la cohérence des données est également difficile à assurer. D'un autre point de vue, si toutes les données associées sont stockées dans une seule table, mais que les éléments de données proviennent de différentes sources commerciales, avec des collecteurs de données et des temps de génération différents, la conservation de ces enregistrements de données devient impossible. Ainsi, la construction des données organisera intrinsèquement les données en fonction de l'orientation objet et des activités commerciales, conduisant à leur répartition sur différentes tables.

  • (2) Les données doivent provenir de plusieurs systèmes. Puisque la construction des technologies de l’information ne s’effectue pas d’un seul coup, il y aura inévitablement une séquence de développements. Même au sein d’un même système, les délais de mise en œuvre peuvent varier. De plus, différents scénarios d'application nécessitent des choix technologiques différents ; par exemple, les données commerciales, les données en temps réel et les informations de journal peuvent être obtenues grâce à diverses technologies, ce qui rend les données intrinsèquement multi-sources.

03 L'intégration est le moyen le plus efficace de libérer de la valeur des données

Les données doivent être intégrées pour l'application. La demande d’applications d’intégration de données présente diverses possibilités. Par exemple, l'intégration des données de production et des données de planification peut évaluer l'état d'avancement du plan ; l'intégration des données de production et des données de vente peut identifier les retards de produits ou l'exécution des livraisons de commandes ; et l'intégration des données de production avec les données financières peut évaluer les coûts de production et la rentabilité. Par conséquent, l'intégration des données est le moyen le plus efficace de maximiser la valeur des données et de renforcer les processus métier.

En résumé, l'application d'intégration de données relationnelles restera pendant longtemps l'un des scénarios d'application de données les plus importants. Tant que ce scénario existera, IntaLink aura une large adaptabilité.


Comparaison des méthodes d'intégration de données IntaLink et Large Model

T2SQL (Text to SQL) et NL2SQL (Natural Language to SQL) génèrent automatiquement les requêtes de données requises via la saisie de texte ou de langage naturel. Les termes T2SQL et NL2SQL décrivent essentiellement le même concept : utiliser la technologie de l'IA pour transformer la compréhension sémantique en méthodes d'exploitation des données, ce qui est la même idée mais avec des terminologies différentes. Il s’agit d’une direction de recherche dans les applications des données. Ces dernières années, avec l’émergence des technologies de grands modèles, ce domaine a connu des progrès significatifs. J'ai recherché des rapports techniques d'Alibaba et de Tencent et essayé des projets open source comme DB-GPT. Ces technologies sont largement similaires, du moins dans leur logique technique sous-jacente, tandis que l'approche d'IntaLink est totalement différente.

Laissons de côté pour l’instant la logique technique sous-jacente et procédons à une analyse comparative basée sur les méthodes de mise en œuvre :

1. L'utilisation de la technologie des grands modèles pour les requêtes de données automatiques nécessite une formation sur les données

Supposons que nous ayons un ensemble de tables nommées T1, T2, ..., Tn, chacune contenant plusieurs éléments de données étiquetés C1, C2, ..., Cn, avec un nombre variable d'éléments par table. Considérons un ensemble de données simulé pour le tableau T1 comme suit :

C1 C2 C3 C4 C5 C6
Orange 5 3 3 2 1

De ce seul contenu, nous ne pouvons tirer aucune information utile. Nous ne savons pas exactement la signification des données ci-dessus. Simulons deux significations pour les données :

Fruit Type Warehouse No. Shelf No. Stock Shelf Life Warehouse Manager ID
Orange 5 3 3 2 1
Hotel Name Warehouse Hotness Ranking Star Rating Years in Business Remaining Rooms Discount Available
Orange 5 3 3 2 1

Nous ne nous attarderons pas sur la validité de ces jeux de données ni sur l'existence de tels tableaux. Cependant, il est évident que sans comprendre la signification des tableaux et des éléments de données, les données ne peuvent pas être appliquées. On ne peut pas lier les besoins des applications de données aux données elles-mêmes, et encore moins discuter d'opérations de données plus complexes.


À l'aide d'un ensemble de données pour tester NL2SQL, illustrons le modèle d'application de la technologie des grands modèles dans ce domaine.

L'ensemble de données Spider est un ensemble de données T2S pour les requêtes multi-bases de données, multi-tables et à un seul tour et est reconnu comme le classement d'évaluation inter-domaines à grande échelle le plus difficile. Il a été proposé par l'Université de Yale en 2018, annoté par onze étudiants de Yale. L'ensemble de données contient dix mille cent quatre-vingt-une questions en langage naturel et cinq mille six cent quatre-vingt-treize instructions SQL, couvrant plus de deux cents bases de données dans cent trente-huit domaines différents. Sept mille questions sont utilisées pour la formation, mille trente-quatre pour le développement et deux mille cent quarante-sept pour les tests. En d’autres termes, en fournissant des questions accompagnées de leurs réponses correspondantes (SQL), le grand modèle apprend à utiliser les données. Par souci de simplicité, nous pouvons condenser la logique comme suit :

  • Question 1 : Combien de rouges à lèvres sont en stock ?
  • Réponse 1 : sélectionnez le montant de l'entrepôt où good_name='lipstick' et color='red'

Après avoir entraîné le modèle avec un tel ensemble de données, nous pouvons poser la question test suivante :

  • Question test : Combien de rouges à lèvres bleus y a-t-il en stock ?
  • Réponse de sortie : sélectionnez le montant de l'entrepôt où good_name='lipstick' et color='blue'

De là, nous voyons que NL2SQL met l'accent sur la dérivation de requêtes SQL possibles basées sur une compréhension sémantique et contextuelle, en s'appuyant sur un ensemble de données entraîné.


Méthode d'intégration de données d'IntaLink

L'intégration des données d'IntaLink n'exige pas que les utilisateurs fournissent des données de formation. Les relations entre les données sont générées via un modèle d'analyse des relations inter-tables. Cette génération de relations ne nécessite pas de comprendre la signification réelle des tableaux et des éléments de données, mais est dérivée d'un ensemble de méthodes qui analysent les valeurs caractéristiques des données pour déduire des associations entre les tableaux. Ci-dessous, nous illustrons l'établissement de relations inter-tables à l'aide de deux exemples de tables.

Tab_1

Name Student_ID CLASS Age Sex
Zhang San 2021_0001 2021_01 19 Male
Li Si 2021_0002 2021_01 18 Female
Wang Wu 2021_0003 2021_01 19 Male

Tab_2

Student_ID Course Grade Rank
2021_0001 Math 135 18
2021_0001 Chinese 110 23
2021_0002 Math 120 25
2021_0002 Chinese 125 10

Dans Tab_1, le Student_ID correspond au Student_ID dans Tab_2, partageant les mêmes valeurs caractéristiques. Par conséquent, pour lier ces deux tables, la condition Tab_1.Student_ID = Tab_2.Student_ID est vraie. Cette analyse des liens inter-tables nécessite la prise en compte de nombreux facteurs. Dans IntaLink, nous reproduisons la base de données mémoire des valeurs caractéristiques des données en tant qu'outil d'analyse, en utilisant un ensemble de méthodes analytiques optimisées pour produire des résultats d'analyse des relations inter-tables. En raison de la complexité du contenu impliqué, nous ne développerons pas davantage ici. Un article séparé discutera de la logique de mise en œuvre.


Différences entre IntaLink et les technologies de grands modèles dans la mise en œuvre de NL2SQL

  • 1) Il n'est pas nécessaire de préparer un ensemble de questions de formation pour le grand modèle ; les relations sont plutôt dérivées de l’analyse des données. Par conséquent, IntaLink peut être appliqué à un large éventail de données. Plus il est possible d'intégrer de données, plus ses avantages sont grands.
  • 2) Se concentre sur l'intégration des données, en particulier la génération de conditions relationnelles lors de l'intégration, sans se concentrer sur les méthodes d'utilisation des données. Remarque : L'intégration des données concerne l'établissement de relations entre plusieurs tables, tandis que les méthodes d'utilisation des données peuvent varier, telles que la sommation, le comptage, la moyenne, les valeurs minimales et maximales, etc. NL2SQL sélectionne les méthodes d'exploitation des données appropriées en fonction de la sémantique, comme SUM, COUNT, AVG, MIN, MAX, etc.
  • 3) Haute précision : en excluant les problèmes de qualité des données, les conditions relationnelles générées par IntaLink peuvent théoriquement atteindre une précision de cent pour cent.

Combinaison potentielle d'IntaLink et des technologies de grands modèles

Les technologies de grands modèles excellent dans la compréhension sémantique et le contenu génératif, tandis qu'IntaLink présente des avantages dans l'analyse des associations de données avec une charge de travail initiale inférieure et une plus grande précision. Idéalement, les technologies de grands modèles pourraient être intégrées pour comprendre les exigences de saisie des utilisateurs, en convertissant ces informations en tableaux et éléments de données nécessaires, qu'IntaLink générerait ensuite pour les ensembles de données, suivis par le grand modèle générant les résultats souhaités (par exemple, des rapports, des graphiques, etc.) pour la présentation de l'utilisateur.


Rejoignez la communauté IntaLink !

Nous serions ravis que vous fassiez partie du voyage IntaLink ! Connectez-vous avec nous et contribuez à notre projet :

? Dépôt GitHub : IntaLink

? Rejoignez notre communauté Discord

Faites partie de la révolution open source et aidez-nous à façonner l'avenir de l'intégration intelligente des données !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn