Maison >Périphériques technologiques >IA >L'invite n'est plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

L'invite n'est plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

WBOY
WBOYavant
2023-05-15 17:55:061088parcourir

Xi Xiaoyao Technology Talk Original
Auteur | Le QI a chuté partout

Récemment, de nombreuses équipes se sont recréées sur la base du ChatGPT convivial, et beaucoup d'entre elles ont obtenu des résultats exceptionnels. Le travail d'InternChat met l'accent sur la convivialité en interagissant avec le chatbot au-delà du langage (curseurs et gestes) pour les tâches multimodales. Le nom d'InternChat est également intéressant. Il signifie interaction, non verbal et chatbots. Il peut être appelé iChat. Contrairement aux systèmes interactifs existants qui s'appuient sur un langage pur, iChat améliore considérablement l'efficacité de la communication entre les utilisateurs et les chatbots en ajoutant des instructions de pointage. En outre, l'auteur fournit également un grand modèle de langage visuel appelé Husky qui peut effectuer une capture et une réponse visuelle aux questions, et peut également impressionner GPT-3.5-turbo avec seulement 7 milliards de paramètres.

Cependant, en raison de la popularité du site Web de démonstration, l'équipe a officiellement fermé temporairement la page d'expérience. Comprenons d'abord le contenu de ce travail à travers la vidéo ci-dessous~

Titre de la thèse :
InternChat : Résoudre des tâches centrées sur la vision en. Interagir avec les chatbots au-delà du langage

Lien papier :
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1

Adresse de démonstration :
https://www.php.cn/link/e355ad06c5a89f911fbb0aff 2de52435

Projet adresse :
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b

Principales caractéristiques du système

L'auteur a fourni quelques captures d'écran de tâches sur la page d'accueil du projet, afin que vous puissiez voir intuitivement certaines fonctions et effets de ce système interactif :

(a) Supprimer les objets couverts

Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !


(b) Édition d'images interactive

Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

(c) Génération d'images

Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

(d) Questions et réponses visuelles interactives

(e) Génération d'images interactives tâches centrées : pour que les ordinateurs comprennent ce qu’ils voient dans le monde et réagissent en conséquence.

Communication sous forme d'instructions non verbales : actions de pointage comme des curseurs et des gestes. Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

▲ Figure 1 L'architecture globale d'iChat Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

iChat combine les avantages du pointage et des commandes linguistiques pour effectuer des tâches centrées sur la vision. Comme le montre la figure 1, ce système se compose de 3 composants principaux :

Une unité de perception qui traite les instructions de pointage sur des images ou des vidéos Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

Un contrôleur LLM avec un mécanisme de contrôle auxiliaire capable d'analyser avec précision les instructions linguistiques ;

HuggingFace intégré ; Une boîte à outils en monde ouvert comprenant divers modèles en ligne, des modèles privés formés par les utilisateurs et d'autres applications (par exemple, calculatrices, moteurs de recherche).

    Il peut fonctionner efficacement à 3 niveaux, qui sont :
    1. Interaction de base ;
    2. Interaction guidée par la langue ;
    3. Interaction améliorée point à langue.

    Ainsi, comme le montre la figure 2, lorsqu'un système en langage pur ne peut pas accomplir la tâche, le système peut toujours exécuter avec succès des tâches interactives complexes.

    Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

    ▲ Figure 2 Soulignant les avantages des systèmes interactifs basés sur le langage

    Expérience

    Tout d'abord, examinons la combinaison d'instructions verbales et non verbales pour améliorer l'effet de communication avec le système interactif. Pour démontrer les avantages de ce modèle hybride par rapport aux instructions en langage pur, l’équipe de recherche a mené une enquête auprès des utilisateurs. Les participants ont discuté avec Visual ChatGPT et iChat et ont donné leur avis sur leur expérience d'utilisation. Les résultats des tableaux 1 et 2 montrent qu'iChat est plus efficace et plus convivial que Visual ChatGPT.

    Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

    ▲Tableau 1 Enquête auprès des utilisateurs sur "Supprimer quelque chose"

    Linvite nest plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !

    ▲Tableau 2 Enquête sur les utilisateurs sur "Remplacer quelque chose par quelque chose"

    Résumé

    Cependant, il y a encore quelques problèmes dans ce système. Limites, notamment :

    • L'efficacité d'iChat dépend fortement de la qualité et de la précision de son modèle open source sous-jacent. Cependant, ces modèles peuvent présenter des limitations ou des biais qui nuisent aux performances d'iChat.
    • À mesure que les interactions des utilisateurs deviennent plus complexes ou que le nombre d'instances augmente, le système doit maintenir la précision et le temps de réponse, ce qui peut être un défi pour iChat.
    • De plus, il existe un manque de collaboration apprenable entre la vision actuelle et les modèles basés sur le langage, comme le manque de fonctionnalités pouvant être ajustées par les données d'instruction.
    • iChat peut avoir des difficultés à gérer des situations nouvelles ou inhabituelles en dehors des données d'entraînement, ce qui entraîne une baisse des performances.
    • Réaliser une intégration transparente sur différents appareils et plates-formes peut s'avérer difficile en raison des différentes capacités matérielles, des limitations logicielles et des exigences d'accessibilité.

    Sur la liste des plans répertoriés sur la page d'accueil du projet, il y a encore plusieurs objectifs qui n'ont pas encore été atteints, parmi lesquels l'interaction chinoise que l'éditeur doit expérimenter à chaque fois sur le nouveau système de dialogue. ne devrait pas encore le prendre en charge. Il y a un problème avec le chinois, mais il ne semble pas y avoir de solution. Étant donné que la plupart des ensembles de données multimodaux sont basés sur l'anglais, la traduction anglais-chinois gaspille des ressources en ligne et du temps de traitement. La Chineseisation prendra encore du temps.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer