Maison  >  Article  >  Périphériques technologiques  >  Interprétation de TaskMatrix.AI

Interprétation de TaskMatrix.AI

王林
王林avant
2023-04-28 15:37:061485parcourir

ChatGPT démontre des capacités impressionnantes de dialogue, d'apprentissage du contexte et de génération de code sur un large éventail de tâches de domaine ouvert, et les connaissances de bon sens qu'il acquiert peuvent également générer des résumés de solutions de haut niveau pour des tâches spécifiques à un domaine. Cependant, en plus de capacités d'apprentissage, de compréhension et de génération plus puissantes, quels autres problèmes ChatGPT doit-il résoudre ?

Microsoft a récemment publié TaskMatrix.AI, qui pourrait être une autre direction dans l'écosystème de l'intelligence artificielle, connectant des modèles de base avec des millions d'API pour effectuer des tâches, une combinaison de Toolformer et chatGPT, et peut-être une autre direction dans le futur LLM.

1. Problèmes

ChatGPT ou GPT-4 sont toujours confrontés à des difficultés dans certaines tâches professionnelles car ils manquent de suffisamment de données spécifiques au domaine lors de la pré-formation, ou ils ont souvent des erreurs dans l'exécution des calculs de réseau neuronal qui doivent effectuer les tâches avec précision. D’un autre côté, il existe de nombreux modèles et systèmes existants (basés sur des symboles ou sur des réseaux neuronaux) qui peuvent très bien accomplir certaines tâches spécifiques à un domaine. Cependant, ils ne sont pas compatibles avec le modèle de base en raison de différentes implémentations ou mécanismes de fonctionnement.

De plus, les cas d'utilisation de l'IA sont infinis, aidant non seulement dans le monde numérique mais aussi dans le monde physique pour faciliter une variété de tâches, de la manipulation de photos au contrôle des appareils domestiques intelligents, elle peut souvent faire plus qu'on ne l'imaginait.

Par conséquent, un mécanisme est nécessaire pour exploiter le modèle de base pour proposer un aperçu d'une solution de tâche, puis faire correspondre automatiquement certaines sous-tâches de l'aperçu avec des modèles prêts à l'emploi et des API système dotées de capacités spéciales pour les réaliser. TaskMatrix.AI est un tel mécanisme.

2. Présentation de TaskMatrix.AI

TaskMatrix.AI sert une variété de tâches en combinant des modèles de base avec des modèles et des API existants. Voici les tâches que TaskMatrix.AI peut effectuer :

  • L'intelligence artificielle peut comprendre différents types d'entrées (telles que du texte, des images, des vidéos, de l'audio et du code), effectuer des tâches numériques et physiques, puis générer du code pour appeler le API pour terminer la tâche.
  • TaskMatrix.AI dispose d'une plate-forme API qui sert de référentiel pour les tâches dans divers domaines. Toutes les API de la plate-forme ont un format de documentation cohérent, ce qui facilite l'utilisation du modèle de base et permet aux développeurs d'ajouter facilement de nouvelles API.
  • TaskMatrix.AI possède de solides capacités d'apprentissage tout au long de la vie, car elle peut développer ses compétences pour gérer de nouvelles tâches en ajoutant de nouvelles API dotées de fonctionnalités spécifiques à la plate-forme API.
  • Les réponses de TaskMatrix.AI sont mieux interprétables puisque la logique de résolution de tâches (c'est-à-dire le code d'opération) et les résultats de l'API sont compréhensibles.

3. TaskMatrix.AI de Architecture

L'architecture globale de TaskMatrix.AI et ses quatre composants principaux :

  • Multimodal Conversation Foundation Model (MCFM) : Il est chargé de communiquer avec les utilisateurs et de comprendre leurs objectifs et (multimodaux ) contexte et générer du code exécutable basé sur l'API pour effectuer des tâches spécifiques.
  • Plateforme API : fournit un schéma de documentation API unifié pour stocker des millions d'API avec différentes fonctionnalités et permet aux développeurs ou propriétaires d'API d'enregistrer, de mettre à jour et de supprimer leurs API.
  • Sélecteur d'API : recommandez des API pertinentes en fonction de la compréhension de MCFM des commandes utilisateur.
  • Exécuteur d'API : exécutez le code d'opération généré en appelant les API pertinentes et renvoyez les résultats d'exécution intermédiaires et finaux.

Interprétation de TaskMatrix.AI

Ces 4 sous-systèmes fonctionnent ensemble pour permettre à TaskMatrix.AI de comprendre les objectifs des utilisateurs et d'exécuter du code exécutable basé sur une API pour des tâches spécifiques. Le modèle MCFM (Multimodal Conversation Foundation Model) sert d'interface principale pour la communication entre les utilisateurs et peut comprendre les contextes multimodaux. API Platform fournit un schéma de documentation API unifié et un emplacement pour stocker des millions d'API. Le sélecteur d'API utilise la compréhension de MCFM des objectifs de l'utilisateur pour recommander des API pertinentes. Enfin, l'exécuteur de l'API exécute le code d'action généré par l'API concernée et renvoie les résultats. En outre, l’équipe a également utilisé la technologie d’apprentissage par renforcement avec rétroaction humaine (RLHF) pour former un modèle de récompense capable d’optimiser la matrice de tâches (taskMatrix). Cette méthode peut aider les sélecteurs MCFM et API à trouver des stratégies optimales et à améliorer les performances de tâches complexes.

3.1 Modèle de base de conversation multimodale (MCFM)

MCFM dispose de quatre entrées : paramètres du modèle de base, plate-forme API, instructions utilisateur et contexte de session. À l'aide de ces entrées, le modèle génère un code opérationnel pour compléter les instructions de l'utilisateur. De plus, un modèle de cadre de conversation multimodal (MCFM) idéal devrait avoir les quatre caractéristiques principales suivantes :

  • Obtenez une entrée multimodale et générez du code exécutable basé sur des API spécifiques à une tâche.
  • Extraire des tâches spécifiques des instructions utilisateur et proposer un aperçu de la solution.
  • Apprenez à utiliser l'API à partir de la documentation et associez-la à une tâche spécifique basée sur le bon sens et l'historique d'utilisation de l'API.
  • Contient un mécanisme de vérification de code explicite pour confirmer la fiabilité et la fiabilité.

ChatGPT et GPT-4 sont deux exemples de modèles dotés de ces capacités requises pour MCFM. Cependant, GPT-4 est plus adapté car il prend en charge l'entrée multimodale.

3.2 Plateforme API

La plateforme API a deux fonctions principales : stocker les API et gérer les développeurs ou propriétaires d'API. La plateforme API dispose d'un modèle de document API unifié qui comprend cinq aspects de chaque document API :

  • Nom de l'API : fournit un aperçu de l'API et sert de point d'entrée pour les exécutants des opérations.
  • Liste des paramètres : comprenant les paramètres d'entrée et les valeurs de retour, chaque paramètre a un nom, une description, un type de données et une valeur par défaut.
  • Description de l'API : contient des informations sur les fonctionnalités de l'API, son fonctionnement, les entrées et sorties, ainsi que les erreurs ou exceptions potentielles.
  • Exemple d'application (facultatif) : montrez comment utiliser l'API.
  • Conseils de composition (facultatif) : fournit des conseils sur la façon de combiner plusieurs API pour compléter des instructions utilisateur complexes.
  • La plateforme API a deux fonctions principales : le stockage des API et la gestion des API par les développeurs ou les propriétaires.

Exemple de description d'API : ouvrez un fichier

<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>

3.3 Sélecteur d'API

Le sélecteur d'API est conçu pour identifier et sélectionner l'API de la plateforme API qui correspond le mieux aux besoins de la tâche. Il peut réduire la pléthore d'API dont une plate-forme API peut disposer en récupérant les API sémantiquement pertinentes. Les sélecteurs d'API peuvent utiliser des stratégies de module pour localiser rapidement les API associées.

La stratégie de module fait référence à la méthode d'organisation des API en packages ou modules spécifiques en fonction de leurs domaines. Chaque module correspond à un domaine spécifique, comme les modèles visuels, les mathématiques, les logiciels spécifiques ou les équipements physiques. En utilisant cette stratégie, le sélecteur d'API peut localiser rapidement les API pertinentes qui correspondent aux exigences de la mission et aux grandes lignes de la solution telles que comprises par MCFM. Cette approche permet de simplifier le processus de sélection des API et facilite la récupération des API sémantiquement pertinentes à partir de la plateforme API.

3.4 Action Executor

L'exécuteur d'action est conçu pour exécuter du code d'action. L'IA utilise un exécuteur d'actions pour exécuter diverses API, depuis de simples requêtes HTTP jusqu'à des algorithmes complexes ou des modèles d'IA nécessitant plusieurs paramètres d'entrée.

Les exécuteurs d'actions ont également besoin d'un mécanisme de vérification pour améliorer la précision et la fiabilité, et confirmer si les résultats du code généré répondent aux tâches spécifiées par les humains.

3.5 Apprentissage par renforcement centré sur l'humain (RLHF)

TaskMatrix.AI exploitera RLHF pour améliorer les sélecteurs MCFM et API afin d'offrir de meilleures performances dans les tâches complexes.

RLHF se consacrera à l'optimisation des sélecteurs d'API, en utilisant un modèle de récompense formé basé sur les commentaires de l'API :

  • Feedback aux développeurs d'API
  • Les développeurs d'API recevront des commentaires indiquant si leur API est utilisée pour terminer la tâche.

Cela permettra de créer une documentation API de la manière la plus optimisée pour utiliser une API donnée.

4. Cas d'utilisation de TaskMatrix

TaskMatrix Quelles tâches l'IA peut-elle aider à résoudre ?

TaskMatrix. L'IA combinée aux développements continus des modèles sous-jacents, des services cloud, de la robotique et de l'Internet des objets a le potentiel de créer un monde futur de productivité et de créativité accrues.

4.1 Tâche de visualisation

Basé sur les caractéristiques multimodales de MCFM, TaskMatrix.AI peut effectuer des tâches de visualisation et prendre le langage et les images en entrée. Certaines des tâches visuelles qu'il peut effectuer, l'image ci-dessous montre comment TaskMatrix.AI est construit sur VisualChatGPT et est capable de mieux gérer les tâches VQA.

Interprétation de TaskMatrix.AI

Édition d'image pour supprimer ou remplacer des objets dans l'image, également via TaskMatrix.AI. À l'aide de techniques de traitement d'image ou d'algorithmes informatiques Image-to-Sketch/Depth/Hed/Line, les images peuvent être converties en esquisses, en profondeur, en détection globale de bords imbriqués ou en lignes. Sketch/Depth/Hed/Line-to-Image est l'opposé de ce qui précède, il générera une image basée sur les options données.

L'image ci-dessous montre un exemple de la façon dont TaskMatrix.AI est défini et exécuté sur un aperçu de solution à l'aide de trois appels API (Q&A sur l'image, sous-titrage d'image et remplacement d'objets dans l'image).

Interprétation de TaskMatrix.AI

4.2 Génération de contenu long multimodal

Un autre cas d'utilisation de TaskMatrix.AI est la création de grands contenus multimodaux (image et texte) pour supprimer les limitations de caractères des autres modèles.

Dans l'exemple ci-dessous, nous pouvons voir comment TaskMatrix.AI prend des instructions de haut niveau de l'utilisateur et génère une réponse raisonnable.

Interprétation de TaskMatrix.AI

4.3 Bureautique

TaskMatrix.AI peut facilement réduire la charge de travail de bureau en comprenant les instructions utilisateur reçues par la voix et en automatisant les tâches. De plus, il permet d’utiliser des logiciels complexes sans formation approfondie, permettant ainsi aux employés de se concentrer sur des tâches plus urgentes.

L'exemple ci-dessous montre une conversation entre TaskMatrix.AI et une personne utilisant différentes API lors de la création de diapositives PowerPoint.

Interprétation de TaskMatrix.AI

4.4 Utilisation des services Cloud

TaskMatrix.AI fonctionne comme une domotique intelligente, capable de communiquer avec tous les appareils de la maison et d'agir comme un point de connexion central entre eux. L'image ci-dessous montre une conversation entre une personne et TaskMatrix.AI, qui utilise des logiciels et du matériel robotiques internes pour effectuer les tâches quotidiennes.

Interprétation de TaskMatrix.AI

De plus, TaskMatrix.AI peut être utilisé dans de nombreux autres scénarios, la seule exigence est qu'il puisse exploiter des API telles que l'accès au Metaverse ou au Web3.

5. Défis de TaskMatrix.AI

TaskMatrix.AI présente encore de nombreuses lacunes et limitations qui doivent être résolues et traitées, telles que :

  • La nécessité de créer un modèle de base capable de gérer diverses tâches et diverses entrées, provenant d'apprendre des commentaires humains et d'utiliser un raisonnement de bon sens pour accomplir des tâches avec la plus haute qualité. Déterminer l'ensemble minimum de modalités requises pour TaskMatrix.AI et le former reste un défi.
  • Créer et maintenir une plate-forme hébergeant des millions d'API nécessite de résoudre plusieurs défis, de générer de la documentation sur les API, d'assurer la qualité des API et de recommander la création d'API. Sur cette base, les plates-formes d'API devraient fournir des conseils supplémentaires aux développeurs d'API pour créer de nouvelles API afin de résoudre ces tâches.
  • L'utilisation de millions d'API pour compléter les instructions utilisateur pose de nouveaux défis au-delà de la génération de texte libre, et il est crucial de recommander des API pertinentes à MCFM pour résoudre des tâches spécifiques. Pour les tâches complexes, TaskMatrix.AI peut ne pas être en mesure de proposer une solution immédiatement. Au lieu de cela, MCFM doit interagir avec l'utilisateur et essayer différentes solutions possibles pour trouver celle la plus appropriée.
  • La sécurité et la confidentialité peuvent poser problème, nécessitant de vérifier que le modèle suit les instructions de l'utilisateur et ne fait rien au-delà de l'intention de l'utilisateur. Le transfert de données doit être sécurisé et permettre un accès autorisé aux données lors de l'intégration avec diverses API de différents domaines nécessitant un accès à des données sensibles.
  • TaskMatrix.AI nécessite une stratégie de personnalisation pour aider les développeurs individuels à créer leurs propres interfaces d'IA personnalisées, ainsi que pour aider les utilisateurs à disposer de leurs propres assistants personnels. Réduire les coûts de mise à l'échelle et s'aligner sur le petit nombre d'exemples des utilisateurs constituent des défis.

6. Résumé

En regardant la loi de Moore, peut-être que « le nombre d’IA double tous les 18 mois » deviendra une nouvelle loi.

TaskMatrix.AI intègre des modèles sous-jacents à des millions de modèles et d'API système existants, ce qui donne lieu à une « super intelligence artificielle » capable d'effectuer une variété de tâches numériques et physiques. En tant que plate-forme d'IA, elle permet aux humains d'utiliser de grands modèles et API pour effectuer un grand nombre de tâches diverses. Il peut gérer toutes les tâches courantes (par exemple, créer des diapositives PPT ou exécuter un robot de nettoyage pour nettoyer la maison selon un calendrier), ce qui nous rend plus productifs et créatifs.

【Référence】

TaskMatrix.AI : Réaliser des tâches en connectant des modèles de fondation avec des millions d'API, https://arxiv.org/pdf/2303.16434.pdf


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer