Maison >Périphériques technologiques >IA >Interprétation de TaskMatrix.AI
ChatGPT démontre des capacités impressionnantes de dialogue, d'apprentissage du contexte et de génération de code sur un large éventail de tâches de domaine ouvert, et les connaissances de bon sens qu'il acquiert peuvent également générer des résumés de solutions de haut niveau pour des tâches spécifiques à un domaine. Cependant, en plus de capacités d'apprentissage, de compréhension et de génération plus puissantes, quels autres problèmes ChatGPT doit-il résoudre ?
Microsoft a récemment publié TaskMatrix.AI, qui pourrait être une autre direction dans l'écosystème de l'intelligence artificielle, connectant des modèles de base avec des millions d'API pour effectuer des tâches, une combinaison de Toolformer et chatGPT, et peut-être une autre direction dans le futur LLM.
ChatGPT ou GPT-4 sont toujours confrontés à des difficultés dans certaines tâches professionnelles car ils manquent de suffisamment de données spécifiques au domaine lors de la pré-formation, ou ils ont souvent des erreurs dans l'exécution des calculs de réseau neuronal qui doivent effectuer les tâches avec précision. D’un autre côté, il existe de nombreux modèles et systèmes existants (basés sur des symboles ou sur des réseaux neuronaux) qui peuvent très bien accomplir certaines tâches spécifiques à un domaine. Cependant, ils ne sont pas compatibles avec le modèle de base en raison de différentes implémentations ou mécanismes de fonctionnement.
De plus, les cas d'utilisation de l'IA sont infinis, aidant non seulement dans le monde numérique mais aussi dans le monde physique pour faciliter une variété de tâches, de la manipulation de photos au contrôle des appareils domestiques intelligents, elle peut souvent faire plus qu'on ne l'imaginait.
Par conséquent, un mécanisme est nécessaire pour exploiter le modèle de base pour proposer un aperçu d'une solution de tâche, puis faire correspondre automatiquement certaines sous-tâches de l'aperçu avec des modèles prêts à l'emploi et des API système dotées de capacités spéciales pour les réaliser. TaskMatrix.AI est un tel mécanisme.
TaskMatrix.AI sert une variété de tâches en combinant des modèles de base avec des modèles et des API existants. Voici les tâches que TaskMatrix.AI peut effectuer :
L'architecture globale de TaskMatrix.AI et ses quatre composants principaux :
Ces 4 sous-systèmes fonctionnent ensemble pour permettre à TaskMatrix.AI de comprendre les objectifs des utilisateurs et d'exécuter du code exécutable basé sur une API pour des tâches spécifiques. Le modèle MCFM (Multimodal Conversation Foundation Model) sert d'interface principale pour la communication entre les utilisateurs et peut comprendre les contextes multimodaux. API Platform fournit un schéma de documentation API unifié et un emplacement pour stocker des millions d'API. Le sélecteur d'API utilise la compréhension de MCFM des objectifs de l'utilisateur pour recommander des API pertinentes. Enfin, l'exécuteur de l'API exécute le code d'action généré par l'API concernée et renvoie les résultats. En outre, l’équipe a également utilisé la technologie d’apprentissage par renforcement avec rétroaction humaine (RLHF) pour former un modèle de récompense capable d’optimiser la matrice de tâches (taskMatrix). Cette méthode peut aider les sélecteurs MCFM et API à trouver des stratégies optimales et à améliorer les performances de tâches complexes.
MCFM dispose de quatre entrées : paramètres du modèle de base, plate-forme API, instructions utilisateur et contexte de session. À l'aide de ces entrées, le modèle génère un code opérationnel pour compléter les instructions de l'utilisateur. De plus, un modèle de cadre de conversation multimodal (MCFM) idéal devrait avoir les quatre caractéristiques principales suivantes :
ChatGPT et GPT-4 sont deux exemples de modèles dotés de ces capacités requises pour MCFM. Cependant, GPT-4 est plus adapté car il prend en charge l'entrée multimodale.
La plateforme API a deux fonctions principales : stocker les API et gérer les développeurs ou propriétaires d'API. La plateforme API dispose d'un modèle de document API unifié qui comprend cinq aspects de chaque document API :
Exemple de description d'API : ouvrez un fichier
<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>
Le sélecteur d'API est conçu pour identifier et sélectionner l'API de la plateforme API qui correspond le mieux aux besoins de la tâche. Il peut réduire la pléthore d'API dont une plate-forme API peut disposer en récupérant les API sémantiquement pertinentes. Les sélecteurs d'API peuvent utiliser des stratégies de module pour localiser rapidement les API associées.
La stratégie de module fait référence à la méthode d'organisation des API en packages ou modules spécifiques en fonction de leurs domaines. Chaque module correspond à un domaine spécifique, comme les modèles visuels, les mathématiques, les logiciels spécifiques ou les équipements physiques. En utilisant cette stratégie, le sélecteur d'API peut localiser rapidement les API pertinentes qui correspondent aux exigences de la mission et aux grandes lignes de la solution telles que comprises par MCFM. Cette approche permet de simplifier le processus de sélection des API et facilite la récupération des API sémantiquement pertinentes à partir de la plateforme API.
L'exécuteur d'action est conçu pour exécuter du code d'action. L'IA utilise un exécuteur d'actions pour exécuter diverses API, depuis de simples requêtes HTTP jusqu'à des algorithmes complexes ou des modèles d'IA nécessitant plusieurs paramètres d'entrée.
Les exécuteurs d'actions ont également besoin d'un mécanisme de vérification pour améliorer la précision et la fiabilité, et confirmer si les résultats du code généré répondent aux tâches spécifiées par les humains.
TaskMatrix.AI exploitera RLHF pour améliorer les sélecteurs MCFM et API afin d'offrir de meilleures performances dans les tâches complexes.
RLHF se consacrera à l'optimisation des sélecteurs d'API, en utilisant un modèle de récompense formé basé sur les commentaires de l'API :
Cela permettra de créer une documentation API de la manière la plus optimisée pour utiliser une API donnée.
TaskMatrix Quelles tâches l'IA peut-elle aider à résoudre ?
TaskMatrix. L'IA combinée aux développements continus des modèles sous-jacents, des services cloud, de la robotique et de l'Internet des objets a le potentiel de créer un monde futur de productivité et de créativité accrues.
Basé sur les caractéristiques multimodales de MCFM, TaskMatrix.AI peut effectuer des tâches de visualisation et prendre le langage et les images en entrée. Certaines des tâches visuelles qu'il peut effectuer, l'image ci-dessous montre comment TaskMatrix.AI est construit sur VisualChatGPT et est capable de mieux gérer les tâches VQA.
Édition d'image pour supprimer ou remplacer des objets dans l'image, également via TaskMatrix.AI. À l'aide de techniques de traitement d'image ou d'algorithmes informatiques Image-to-Sketch/Depth/Hed/Line, les images peuvent être converties en esquisses, en profondeur, en détection globale de bords imbriqués ou en lignes. Sketch/Depth/Hed/Line-to-Image est l'opposé de ce qui précède, il générera une image basée sur les options données.
L'image ci-dessous montre un exemple de la façon dont TaskMatrix.AI est défini et exécuté sur un aperçu de solution à l'aide de trois appels API (Q&A sur l'image, sous-titrage d'image et remplacement d'objets dans l'image).
Un autre cas d'utilisation de TaskMatrix.AI est la création de grands contenus multimodaux (image et texte) pour supprimer les limitations de caractères des autres modèles.
Dans l'exemple ci-dessous, nous pouvons voir comment TaskMatrix.AI prend des instructions de haut niveau de l'utilisateur et génère une réponse raisonnable.
TaskMatrix.AI peut facilement réduire la charge de travail de bureau en comprenant les instructions utilisateur reçues par la voix et en automatisant les tâches. De plus, il permet d’utiliser des logiciels complexes sans formation approfondie, permettant ainsi aux employés de se concentrer sur des tâches plus urgentes.
L'exemple ci-dessous montre une conversation entre TaskMatrix.AI et une personne utilisant différentes API lors de la création de diapositives PowerPoint.
TaskMatrix.AI fonctionne comme une domotique intelligente, capable de communiquer avec tous les appareils de la maison et d'agir comme un point de connexion central entre eux. L'image ci-dessous montre une conversation entre une personne et TaskMatrix.AI, qui utilise des logiciels et du matériel robotiques internes pour effectuer les tâches quotidiennes.
De plus, TaskMatrix.AI peut être utilisé dans de nombreux autres scénarios, la seule exigence est qu'il puisse exploiter des API telles que l'accès au Metaverse ou au Web3.
TaskMatrix.AI présente encore de nombreuses lacunes et limitations qui doivent être résolues et traitées, telles que :
En regardant la loi de Moore, peut-être que « le nombre d’IA double tous les 18 mois » deviendra une nouvelle loi.
TaskMatrix.AI intègre des modèles sous-jacents à des millions de modèles et d'API système existants, ce qui donne lieu à une « super intelligence artificielle » capable d'effectuer une variété de tâches numériques et physiques. En tant que plate-forme d'IA, elle permet aux humains d'utiliser de grands modèles et API pour effectuer un grand nombre de tâches diverses. Il peut gérer toutes les tâches courantes (par exemple, créer des diapositives PPT ou exécuter un robot de nettoyage pour nettoyer la maison selon un calendrier), ce qui nous rend plus productifs et créatifs.
【Référence】
TaskMatrix.AI : Réaliser des tâches en connectant des modèles de fondation avec des millions d'API, https://arxiv.org/pdf/2303.16434.pdf
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!