Maison >Périphériques technologiques >IA >Pratique et réflexion sur la plateforme multimodale de grands modèles Jiuzhang Yunji DataCanvas
La photo ci-dessus est le premier atelier sur l'intelligence artificielle organisé au Dartmouth College aux États-Unis en 1956. Cette conférence est également considérée comme Ce sera le début de l'intelligence artificielle, et les participants sont principalement des pionniers de la logique symbolique (à l'exception du neurobiologiste Peter Milner au milieu du premier rang).
Cependant, cette théorie de la logique symbolique n'a pas pu être réalisée avant longtemps, et même la première période hivernale de l'IA a eu lieu dans les années 1980 et 1990. Ce n'est que grâce à la récente mise en œuvre de grands modèles de langage que nous avons découvert que les réseaux de neurones portent réellement cette pensée logique. Les travaux du neurobiologiste Peter Milner ont inspiré le développement ultérieur des réseaux de neurones artificiels, et c'est pour cette raison qu'il a été invité à y participer. lors de cette réunion académique.
En 2012, Andrew, directeur des véhicules autonomes de Tesla, a publié la photo ci-dessus sur son blog, montrant le président américain de l'époque, Obama, en train de plaisanter avec ses subordonnés. Pour que l'intelligence artificielle comprenne cette image, il ne s'agit pas seulement d'une tâche de perception visuelle, car en plus d'identifier les objets, elle doit également comprendre la relation entre eux. Ce n'est qu'en connaissant les principes physiques de l'échelle que nous pouvons connaître l'histoire décrite dans ; la photo : Obama marche dessus L'homme sur la balance a pris du poids, ce qui lui a valu cette expression étrange tandis que d'autres riaient. Une telle pensée logique a évidemment dépassé le cadre de la perception visuelle pure.Par conséquent, la cognition visuelle et la pensée logique doivent être combinées pour se débarrasser de l'embarras du « retard mental artificiel ». L'importance et la difficulté des grands modèles multimodaux se reflètent également ici. c'est.
L'image ci-dessus est un diagramme de structure anatomique du cerveau humain. La zone logique du langage sur l'image correspond au grand modèle de langage, tandis que d'autres zones correspondent à différents sens, notamment la vision, l'ouïe, le toucher et mouvement, mémoire, etc. Bien que le réseau de neurones artificiels ne soit pas un réseau de neurones cérébraux au sens propre du terme, nous pouvons toujours nous en inspirer, c'est-à-dire que lors de la construction d'un grand modèle, différentes fonctions peuvent être combinées entre elles. construction de modèles multimodaux.
Les grands modèles multimodaux peuvent faire beaucoup de choses pour nous, comme la compréhension de la vidéo. peut également nous aider Effectuer une post-analyse de vidéos, telle que la classification des programmes, les statistiques d'évaluation des programmes, etc. De plus, les graphiques vincentiens sont également un domaine d'application important des grands modèles multimodaux.
Si le grand modèle est combiné avec le mouvement de personnes ou de robots, une intelligence incarnée sera générée, tout comme les personnes, la méthode de planification du meilleur chemin basée sur l'expérience passée sera appliquée au nouveau Dans le scénario, résolvez certains problèmes qui n'ont jamais été rencontrés auparavant tout en évitant les risques ; vous pouvez même modifier le plan original pendant le processus d'exécution jusqu'à ce que vous obteniez enfin le succès. Il s’agit également d’un scénario d’application offrant de larges perspectives.
L'image ci-dessus montre quelques nœuds importants dans le processus de développement du grand modèle multimodal :
Comme vous pouvez le voir sur l'image ci-dessus, en seulement six mois, de nombreux changements ont eu lieu dans le grand modèle, et sa vitesse d'itération est très rapide.
L'image ci-dessus est un schéma d'architecture générale d'un grand modèle multimodal, comprenant un modèle de langage et un modèle visuel, à travers un modèle de langage fixe et un modèle visuel fixe. Apprenez à aligner le modèle ; l'alignement consiste à combiner l'espace vectoriel du modèle visuel et l'espace vectoriel du modèle de langage, puis à compléter la compréhension de la relation logique interne entre les deux dans un espace vectoriel unifié.
Le modèle Flamingo et le modèle BLIP2 présentés sur la photo adoptent une structure similaire (le modèle Flamingo utilise l'architecture Perceiver, tandis que le modèle BLIP2 utilise une version améliorée de l'architecture Transformer) ; grâce à une variété de méthodes d'apprentissage contrastées. Un grand nombre de jetons sont utilisés pour une grande quantité d'apprentissage afin d'obtenir de meilleurs effets d'alignement, enfin, le modèle est affiné en fonction de tâches spécifiques ;
Jiuzhang Yunji DataCanvas est un fournisseur de logiciels de base d'intelligence artificielle et fournit également des ressources humaines informatiques (y compris Clusters GPU) sont utilisés pour effectuer un stockage haute performance et une optimisation du réseau sur cette base, de grands outils de formation de modèles sont fournis, notamment des bacs à sable expérimentaux de modélisation d'annotation de données, etc. Jiuzhang Yunji DataCanvas prend non seulement en charge les grands modèles open source courants sur le marché, mais développe également de manière indépendante les grands modèles multimodaux Yuanshi. Au niveau de la couche application, des outils sont fournis pour gérer les mots d'invite, affiner le modèle et fournir un mécanisme d'exploitation et de maintenance du modèle. Parallèlement, une base de données vectorielles multimodale a été open source pour enrichir l'architecture logicielle de base.
Jiuzhang Yunji DataCanvas se concentre sur l'optimisation du développement du cycle de vie complet, y compris la préparation des données (l'annotation des données prend en charge l'annotation manuelle et l'annotation intelligente), le développement du modèle, le modèle évaluation (y compris l'évaluation horizontale et l'évaluation verticale), le raisonnement sur modèle (supportant la quantification du modèle, la distillation des connaissances et autres mécanismes de raisonnement accéléré), l'application du modèle, etc.
Lors de la construction du modèle, de nombreux travaux d'optimisation distribués et efficaces ont été effectués, notamment le parallélisme des données, le parallélisme tenseur, le parallélisme des pipelines, etc. Ces tâches d'optimisation distribuées sont effectuées en un seul clic et prennent en charge le contrôle visuel, ce qui peut réduire considérablement les coûts de main-d'œuvre et améliorer l'efficacité du développement.
Le réglage des grands modèles a également été optimisé, y compris la formation continue commune, le réglage de la supervision et le retour humain dans l'apprentissage par renforcement. De plus, de nombreuses optimisations ont été apportées pour le chinois, comme l'expansion automatique du vocabulaire chinois. Étant donné que de nombreux mots chinois ne sont pas inclus dans les grands modèles open source, ces mots peuvent être divisés en plusieurs jetons ; l'expansion automatique de ces mots peut permettre au modèle de mieux utiliser ces mots.
Le service de grands modèles est également un élément très important La plateforme a également apporté de nombreuses optimisations dans la quantification des modèles, la distillation des connaissances et d'autres aspects, ce qui réduit considérablement le temps de calcul et accélère le transformateur grâce à la distillation des connaissances couche par couche pour réduire sa quantité de calcul. Dans le même temps, de nombreux travaux d'élagage ont été effectués (y compris l'élagage structuré, l'élagage clairsemé, etc.), ce qui a considérablement amélioré la vitesse d'inférence des grands modèles.
De plus, le processus de dialogue interactif a également été optimisé. Par exemple, dans un transformateur de dialogue multi-tours, la clé et la valeur de chaque tenseur peuvent être mémorisées sans calculs répétés. Par conséquent, il peut être stocké dans Vector DB pour réaliser la fonction de mémoire de l'historique des conversations et améliorer l'expérience utilisateur pendant le processus d'interaction.
Prompt Manager, un outil de conception et de construction de mots d'invite de grands modèles, aide les utilisateurs à concevoir de meilleurs mots d'invite et guide les grands modèles pour générer un contenu de sortie plus précis, fiable et attendu. Cet outil peut non seulement fournir un mode de développement de boîte à outils de développement pour le personnel technique, mais également fournir un mode de fonctionnement d'interaction homme-machine pour le personnel non technique, répondant aux besoins de différents groupes de personnes pour l'utilisation de grands modèles.
Ses principales fonctions comprennent : la gestion de modèles d'IA, la gestion de scènes, la gestion de modèles de mots rapides, le développement de mots rapides et l'application de mots rapides, etc.
La plate-forme fournit des outils de gestion de mots d'invite couramment utilisés pour réaliser le contrôle de version, et fournit des modèles couramment utilisés pour accélérer la mise en œuvre des mots d'invite.
Après avoir présenté les fonctions de la plateforme, je partagerai ensuite le modèle multimodal. Pratiques de développement de grands modèles.
L'image ci-dessus est le cadre de base du grand modèle multimodal Jiuzhang Yunji DataCanvas. La différence par rapport aux autres grands modèles multimodaux est qu'elle contient de la mémoire, ce qui peut améliorer le grand modèle open source. Capacités de raisonnement.
Généralement, le nombre de paramètres des grands modèles open source est relativement faible. Si une partie des paramètres est utilisée pour la mémoire, sa capacité de raisonnement sera considérablement réduite. Si de la mémoire est ajoutée à un grand modèle open source, les capacités de raisonnement et de mémoire seront améliorées en même temps.
De plus, comme la plupart des modèles, le grand modèle multimodal corrigera également le grand modèle de langage et le codage des données fixe, et effectuera une formation modulaire séparée pour la fonction d'alignement, par conséquent, toutes les différentes modalités de données seront alignées sur ; le texte La partie logique ; dans le processus de raisonnement, la langue est d'abord traduite, puis fusionnée, et enfin le travail de raisonnement est effectué.
Parce que notre base de données vectorielle multimodale DingoDB combine des fonctions multimodales et ETL, elle peut fournir de bonnes capacités de gestion de données non structurées. La plate-forme fournit des fonctions ETL de pipeline et a effectué de nombreuses optimisations, notamment la compilation d'opérateurs, le traitement parallèle et l'optimisation du cache.
De plus, la plateforme fournit un Hub où les pipelines peuvent être réutilisés pour obtenir l'expérience de développement la plus efficace. Dans le même temps, il prend en charge de nombreux encodeurs sur Huggingface, qui peuvent réaliser un encodage optimal de différentes données modales.
Jiuzhang Yunji DataCanvas utilise le grand modèle multimodal Yuanshi comme base pour aider les utilisateurs à choisir d'autres grands modèles open source et également à utiliser leur propre modal. données Organiser une formation.
La construction d'un grand modèle multimodal est grossièrement divisée en trois étapes :
L'architecture de mémoire dans le grand modèle peut nous aider à réaliser la construction d'une base de connaissances multimodale, qui est en fait une application modèle. Zhihu est un module d'application de base de connaissances multimodale typique, et ses connaissances professionnelles peuvent être retracées.
Plus précisément, les connaissances professionnelles sont utilisées pour faire différents choix de codage via l'encodeur, et en même temps, une évaluation unifiée est effectuée sur la base de différentes méthodes d'évaluation, et la sélection de l'encodeur est réalisée par une évaluation en un clic. Enfin, la vectorisation de l'encodeur est appliquée et stockée dans la base de données vectorielles multimodale DingoDB, puis les informations pertinentes sont extraites via le module multimodal du grand modèle et le raisonnement est effectué via le modèle de langage.
La dernière partie du modèle nécessite souvent un ajustement précis des instructions. Étant donné que les besoins des différents utilisateurs sont différents, l'ensemble du grand modèle multimodal doit être affiné. En raison des avantages particuliers des bases de connaissances multimodales dans l'organisation de l'information, le modèle a la capacité d'apprendre et de récupérer. C'est également une innovation que nous avons apportée au processus de rédaction de paragraphes de texte.
La base de connaissances générales consiste à diviser le document en paragraphes, puis à déverrouiller chaque paragraphe indépendamment. Cette méthode est facilement perturbée par le bruit et, pour de nombreux documents volumineux, il est difficile de déterminer la norme de division des paragraphes.
Dans notre modèle, le module de récupération effectue un apprentissage et le modèle trouve automatiquement l'organisation des informations structurées appropriée. Pour un produit spécifique, commencez par le manuel du produit, localisez d'abord le grand paragraphe du catalogue, puis localisez le paragraphe spécifique. Dans le même temps, comme il s'agit d'une intégration d'informations multimodale, en plus du texte, elle contient souvent également des images, des tableaux, etc., qui peuvent également être vectorisés et combinés avec des méta-informations pour réaliser une récupération conjointe, améliorant ainsi l'efficacité de la récupération. .
Il convient de mentionner que le module de récupération utilise un mécanisme d'attention mémoire, qui peut augmenter le taux de rappel de 10 % par rapport à des algorithmes similaires. En même temps, le mécanisme d'attention mémoire peut être utilisé pour le traitement de documents multimodaux ; , ce qui est également un aspect très avantageux de.
4. Réflexions et perspectives d'avenir
1. Gestion des données d'entreprise - base de connaissances
Prenons l'exemple de l'agent commercial. Une architecture commune comprend deux agents existant en même temps, dont l'un est responsable de la prise de décision et l'autre est responsable de l'analyse de l'étape de vente. Les deux modules peuvent rechercher des informations pertinentes via des bases de connaissances multimodales, notamment des informations sur les produits, des statistiques de ventes historiques, des portraits de clients, des expériences de vente passées, etc. Ces informations sont intégrées pour aider ces deux agents à faire le travail le meilleur et le plus correct. Ces décisions dans à leur tour, ils aident les utilisateurs à obtenir les meilleures informations sur les ventes, qui sont ensuite enregistrées dans une base de données multimodale. Ce cycle continue d'améliorer les performances des ventes.
Nous pensons que les entreprises les plus précieuses de demain seront celles qui mettront l’intelligence en pratique. J'espère que Jiuzhang Yunji DataCanvas pourra vous accompagner jusqu'au bout et vous entraider.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!