Maison >Périphériques technologiques >IA >L'invite n'est plus nécessaire, vous pouvez jouer au système de dialogue multimodal avec juste vos mains, iChat est là !
Xi Xiaoyao Technology Talk Original
Auteur | Le QI a chuté partout
Récemment, de nombreuses équipes se sont recréées sur la base du ChatGPT convivial, et beaucoup d'entre elles ont obtenu des résultats exceptionnels. Le travail d'InternChat met l'accent sur la convivialité en interagissant avec le chatbot au-delà du langage (curseurs et gestes) pour les tâches multimodales. Le nom d'InternChat est également intéressant. Il signifie interaction, non verbal et chatbots. Il peut être appelé iChat. Contrairement aux systèmes interactifs existants qui s'appuient sur un langage pur, iChat améliore considérablement l'efficacité de la communication entre les utilisateurs et les chatbots en ajoutant des instructions de pointage. En outre, l'auteur fournit également un grand modèle de langage visuel appelé Husky qui peut effectuer une capture et une réponse visuelle aux questions, et peut également impressionner GPT-3.5-turbo avec seulement 7 milliards de paramètres.
Cependant, en raison de la popularité du site Web de démonstration, l'équipe a officiellement fermé temporairement la page d'expérience. Comprenons d'abord le contenu de ce travail à travers la vidéo ci-dessous~
Titre de la thèse :
InternChat : Résoudre des tâches centrées sur la vision en. Interagir avec les chatbots au-delà du langage
Lien papier :
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1
Adresse de démonstration :
https://www.php.cn/link/e355ad06c5a89f911fbb0aff 2de52435
Projet adresse :
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b
L'auteur a fourni quelques captures d'écran de tâches sur la page d'accueil du projet, afin que vous puissiez voir intuitivement certaines fonctions et effets de ce système interactif :
(a) Supprimer les objets couverts
(b) Édition d'images interactive
(c) Génération d'images
(d) Questions et réponses visuelles interactives
(e) Génération d'images interactives tâches centrées : pour que les ordinateurs comprennent ce qu’ils voient dans le monde et réagissent en conséquence.Communication sous forme d'instructions non verbales : actions de pointage comme des curseurs et des gestes.
▲ Figure 1 L'architecture globale d'iChat
iChat combine les avantages du pointage et des commandes linguistiques pour effectuer des tâches centrées sur la vision. Comme le montre la figure 1, ce système se compose de 3 composants principaux :Une unité de perception qui traite les instructions de pointage sur des images ou des vidéos
Un contrôleur LLM avec un mécanisme de contrôle auxiliaire capable d'analyser avec précision les instructions linguistiques ; HuggingFace intégré ; Une boîte à outils en monde ouvert comprenant divers modèles en ligne, des modèles privés formés par les utilisateurs et d'autres applications (par exemple, calculatrices, moteurs de recherche).Ainsi, comme le montre la figure 2, lorsqu'un système en langage pur ne peut pas accomplir la tâche, le système peut toujours exécuter avec succès des tâches interactives complexes.
▲ Figure 2 Soulignant les avantages des systèmes interactifs basés sur le langage
Tout d'abord, examinons la combinaison d'instructions verbales et non verbales pour améliorer l'effet de communication avec le système interactif. Pour démontrer les avantages de ce modèle hybride par rapport aux instructions en langage pur, l’équipe de recherche a mené une enquête auprès des utilisateurs. Les participants ont discuté avec Visual ChatGPT et iChat et ont donné leur avis sur leur expérience d'utilisation. Les résultats des tableaux 1 et 2 montrent qu'iChat est plus efficace et plus convivial que Visual ChatGPT.
▲Tableau 1 Enquête auprès des utilisateurs sur "Supprimer quelque chose"
▲Tableau 2 Enquête sur les utilisateurs sur "Remplacer quelque chose par quelque chose"
Cependant, il y a encore quelques problèmes dans ce système. Limites, notamment :
Sur la liste des plans répertoriés sur la page d'accueil du projet, il y a encore plusieurs objectifs qui n'ont pas encore été atteints, parmi lesquels l'interaction chinoise que l'éditeur doit expérimenter à chaque fois sur le nouveau système de dialogue. ne devrait pas encore le prendre en charge. Il y a un problème avec le chinois, mais il ne semble pas y avoir de solution. Étant donné que la plupart des ensembles de données multimodaux sont basés sur l'anglais, la traduction anglais-chinois gaspille des ressources en ligne et du temps de traitement. La Chineseisation prendra encore du temps.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!