Maison >Périphériques technologiques >IA >Des centaines de milliards de bases de données vectorielles à très grande échelle accélèrent l'évolution de l'IA
Lorsque la "Guerre des Dieux" a commencé dans les modèles à grande échelle, un problème fatal est survenu qui a rendu intolérables les utilisateurs qui l'ont essayé. Il existe un problème commun à de nombreux modèles à grande échelle, qui consiste à « dire sérieusement des bêtises ». C'est ce que nous appelons souvent « l'illusion de l'IA ». Alors, comment rendre les grands modèles plus précis, plus intelligents et moins charabia ? En plus des cadres de modèles, des données et des algorithmes, il existe également une application clé : les bases de données vectorielles !
Derrière le centre de données
Il existe de nombreuses interprétations différentes de la relation entre les bases de données vectorielles et les grands modèles et de leur importance. Une manière plus vivante de le dire est que si l'on compare un grand modèle à un cerveau facile à oublier, alors la base de données vectorielles est équivalente à "l'hippocampe", qui est principalement responsable de fonctions telles que le stockage et la mémoire directionnelle. . D'un point de vue anatomique, si l'hippocampe d'une personne est retiré, la personne perdra la capacité de mémoire à long terme et sera incapable de percevoir des informations telles que le son, la lumière, le goût, etc.
Pour parler franchement, la raison fondamentale pour laquelle les grands modèles ont des hallucinations est que la base de données vectorielles des grands modèles n'est pas assez puissante. Par conséquent, les grands modèles ne peuvent trouver des réponses qu'à partir de données établies. Les résultats de l'inférence sont souvent généralisés ou absurdes. , ce qui affecte grandement l'expérience. Par conséquent, le fait qu'un grand modèle soit intelligent ou non dépend de la puissance de la base de données vectorielle. C'est également la raison fondamentale pour laquelle Tencent Cloud se concentre sur les bases de données vectorielles pour construire un « centre de données » AGI.
Certaines personnes pourraient penser : si j'améliore les capacités de planification des données au niveau du centre de données, les bases de données relationnelles traditionnelles peuvent-elles également les prendre en charge ? Mais la réalité est que lorsque les entreprises créent et utilisent de grands modèles, elles doivent d’abord connecter des données massives au grand modèle de manière sûre et efficace. Parmi les nombreuses données complexes, seules 20 % sont adaptées aux bases de données relationnelles et les 80 % restants sont des données structurées. . Ce sont toutes des données non structurées telles que du texte, des images, des vidéos et des audios. La base de données vectorielle peut traiter des données complexes non structurées en valeurs de coordonnées logiques multidimensionnelles et les connecter à de grands modèles. L'efficacité du traitement des données est 10 fois supérieure à celle des bases de données traditionnelles.
Dans le même temps, la base de données vectorielles peut également être utilisée comme base de connaissances externe pour fournir les informations les plus récentes, les plus précises et les plus complètes aux grands modèles, répondre efficacement aux questions et réponses en temps réel et permettre aux grands modèles d'avoir des informations à long terme. mémoire pour éviter la fragmentation pendant le chat. De cette façon, il est plus facile de comprendre que les bases de données vectorielles et les grands modèles sont les meilleurs partenaires.
Base de données vectorielles professionnelle VS plug-in vectoriel de base de données traditionnelle
En fait, avec les bases de données vectorielles comme principale piste derrière les grands modèles, les entreprises leaders sont déjà sur le chemin de l'innovation. Selon des statistiques préliminaires, plus de 50 fabricants travaillent déjà sur des bases de données vectorielles. Du point de vue technique spécifique, elle est principalement divisée en deux catégories : l'une est une base de données professionnelle native de vecteurs, qui a été conçue pour les vecteurs depuis sa naissance et peut stocker, déverrouiller et interroger des structures de données vectorielles ; l'autre est une base de données traditionnelle ; Un plug-in vectoriel a été ajouté pour permettre la récupération de vecteurs.
L'analyse comparative montre que les deux méthodes ont leurs propres scénarios d'application. Par exemple, lorsqu'une entreprise vient de démarrer, que la quantité de données n'est pas importante et que vous ne souhaitez pas introduire une nouvelle base de données, vous pouvez alors choisir la base de données traditionnelle + vecteur. méthode de plug-in. Mais si l'entreprise dispose d'une grande quantité de données, souhaite créer de grands modèles plus intelligents et a des exigences plus élevées en matière de performances et de développement futur, alors choisir un produit de base de données vectorielles professionnelle comme Tencent Cloud sera évidemment plus approprié.
Du point de vue des applications des bases de données vectorielles, il y a encore plus de potentiel. Actuellement, de nombreuses entreprises utilisent des bases de données vectorielles pour remédier à des faiblesses telles que l'illusion de grands modèles et l'amélioration des connaissances. Cependant, les développements futurs ne se limitent pas à ces capacités, mais peuvent également permettre d'obtenir de meilleures performances dans les requêtes d'images. Par exemple, vous pouvez interroger des photos sur votre téléphone, à la manière d'un moteur de recherche d'images, qui est en fait une requête vectorielle
Les bases de données vectorielles professionnelles ne peuvent pas remplacer les bases de données traditionnelles, en particulier dans les scénarios à grande échelle. Les bases de données relationnelles traditionnelles et les bases de données vectorielles peuvent se développer de manière collaborative et se compléter. Les bases de données vectorielles utilisent des données vectorisées pour répondre aux besoins de données à grande échelle, de récupération à faible latence et à haute concurrence, de correspondance floue et d'autres domaines difficiles à gérer avec les bases de données relationnelles traditionnelles. Les bases de données vectorielles prennent uniquement en charge les nouveaux types de données et ne stockent pas les données originales, tandis que les bases de données traditionnelles prennent en charge les types de données traditionnels tels que les valeurs numériques, les chaînes et l'heure. L'échelle de données prise en charge par les bases de données traditionnelles est relativement petite et ne peut prendre en charge que jusqu'à 100 millions d'éléments de données, tandis que les bases de données vectorielles peuvent prendre en charge des données à grande échelle, le résultat final étant de 100 milliards d'éléments de données. La méthode de requête des bases de données traditionnelles est une recherche précise, qui remplit ou non les conditions, tandis que les bases de données vectorielles utilisent des recherches approximatives, où la structure de la requête et les conditions de saisie doivent être aussi similaires que possible et les exigences en matière de puissance de calcul sont également plus élevé. Les applications de couche supérieure peuvent utiliser une approche API unifiée, plus adaptée au déploiement et à l'utilisation d'applications d'intelligence artificielle à grande échelle
Évolution intelligente
Les grands modèles ne partent pas de zéro, et les bases de données vectorielles non plus. Alors, comment la base de données vectorielles s’est-elle développée ? L'équipe Tencent Cloud Database a déjà réfléchi profondément !
Luo Yun, directeur général adjoint de Tencent Cloud Database, estime que l'essence d'un grand modèle ne devrait pas être un corps de stockage infiniment grand, mais une plate-forme dotée de capacités informatiques intelligentes, utilisant les capacités informatiques sous-jacentes qui n'étaient auparavant accessibles que via des langages de programmation. . La planification en langage naturel, cela devrait être une singularité passionnante. Tout en étant excité, j'ai de nouveau réfléchi calmement. Dans le processus de transformation numérique des êtres humains, existe-t-il d'autres possibilités en dehors des plates-formes informatiques ? Quel est exactement le noyau technique de l’ère AGI ? En résumé, on constate que la circulation intelligente des données sous-jacentes est la clé d’or pour tirer parti du data center !
De nos jours, lorsque les entreprises disposent de capacités informatiques intelligentes générales, les données sous-jacentes peuvent circuler rapidement. Nous pouvons stocker des fichiers dans le système de fichiers et appeler des données de table dans des bases de données relationnelles, des données KV dans des bases de données non relationnelles, etc. diffusés et reliés de manière intelligente. Mais si vous voulez que les données parlent aux humains, il ne suffit pas d'avoir une plate-forme informatique. Vous avez également besoin d'une plate-forme de données intelligente capable d'extraire les données en langage naturel, puis de les transmettre au grand modèle pour y parvenir. cet objectif, base de données vectorielles Cela devient une plaque tournante importante.
Étant donné que la base de données vectorielle est si importante, comment devrions-nous parler à la plate-forme de données basée sur l'expérience de base de données traditionnelle grâce à des mises à niveau intelligentes ? C’est exactement la spécialité de Tencent Cloud Database ! Lors du Tencent Cloud Vector Database Technology Summit, Tencent Cloud a annoncé avoir réalisé un test en coopération avec une organisation tierce, prouvant que Tencent Cloud Vector Database peut prendre en charge des centaines de milliards de données et a considérablement augmenté le taux de requête par seconde, atteignant 5 millions. Capacité maximale
À l'heure actuelle, Tencent Cloud Vector Database compte déjà un grand nombre d'utilisateurs, notamment des sociétés telles que Baichuan Intelligence, TAL et SalesEasy. Récemment, ils ont élaboré un plan de lancement d'AGI avec Baichuan, offrant 4 millions de jetons d'instances de bases de données vectorielles et de grands modèles Baichuan2.
Grâce à des technologies de base telles que l'intégration, l'indexation vectorielle, l'architecture de système distribué et l'accélération matérielle, Tencent Cloud Vector Database peut résoudre efficacement des problèmes spécifiques liés au texte, aux images, aux vidéos, y compris les produits biopharmaceutiques, au contrôle des risques, à l'audio, au multimodal et à d'autres scénarios généraux. . Par exemple : utilisez la technologie d'intégration pour mapper des données de grande dimension (telles que du texte, des images, de l'audio) dans un espace de faible dimension, c'est-à-dire convertir des images, des sons et du texte en vecteurs pour les représenter, et stocker ces vecteurs pour former un vecteur. base de données pour réaliser le processus d'intégration. Les méthodes incluent les réseaux de neurones, LSH (algorithme de hachage sensible à la localité), etc.
Tencent s'engage à améliorer les capacités des bases de données vectorielles depuis 2019, leader des entreprises dans l'ère de l'AGI. À ce jour, Tencent Cloud a fourni des services à plus de 40 clients internes, prenant en charge plus de 160 milliards de récupérations de données vectorielles chaque jour. Dans le même temps, Tencent Cloud fournit également des services à 1 000 clients externes, et le taux de croissance est incroyable
En regardant vers l'avenir, AGI accélère son évolution, ce qui apporte des surprises et des défis. Tencent Cloud Database continuera d’explorer et de diriger l’innovation comme toujours. "En route vers l'AGI, ensemble sur le chemin" - cette phrase résume parfaitement l'état actuel de l'équipe technique de Tencent Cloud !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!