Maison >Périphériques technologiques >IA >DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-05-11 23:28:051298parcourir

Les êtres humains ont toujours rêvé que les robots puissent les aider à gérer les questions de vie et de travail. « S'il vous plaît, aidez-moi à baisser la température du climatiseur » et même « S'il vous plaît, aidez-moi à écrire un site Web de centre commercial » ont tous été réalisés ces dernières années avec les assistants à domicile et Copilot publiés par OpenAI.

L'émergence de GPT-4 nous montre en outre le potentiel des grands modèles multimodaux dans la compréhension visuelle. En termes de modèles open source de petite et moyenne taille, LLAVA et minigpt-4 fonctionnent bien. Ils peuvent regarder des images et discuter, et peuvent également deviner des recettes dans des images de nourriture pour les humains. Cependant, ces modèles sont encore confrontés à des défis importants lors de leur mise en œuvre réelle : ils n'ont pas de capacités de positionnement précises, ne peuvent pas donner l'emplacement spécifique d'un objet dans l'image et ne peuvent pas comprendre les instructions humaines complexes pour détecter des objets spécifiques. exécuter des tâches humaines spécifiques. Dans des scénarios réels, les gens rencontrent des problèmes complexes : s'ils peuvent demander à l'assistant intelligent d'obtenir la bonne réponse en prenant une photo, une telle fonction « photo et demander » est tout simplement cool.

Pour réaliser la fonction « photo et demander », le robot doit avoir de multiples capacités :

1. Capacité de compréhension du langage : capable d'écouter et de comprendre les intentions humaines

2. Capable de comprendre les objets dans l'image que vous voyez

3. Capacité de raisonnement de bon sens : Capable de convertir des intentions humaines complexes en cibles précises qui peuvent être localisées

4. Capacité de positionnement d'objets : Capable de localiser et de détecter à partir de. la photo Actuellement, seuls quelques grands modèles (comme le PaLM-E de Google) disposent de ces quatre capacités correspondant aux objets

. Cependant, des chercheurs de l'Université des sciences et technologies de Hong Kong et de l'Université de Hong Kong ont proposé un modèle entièrement open source DetGPT (nom complet DetectionGPT), qui n'a besoin que d'affiner trois millions de paramètres, permettant au modèle de posséder facilement un raisonnement complexe et local. capacités de positionnement d'objets, et peut être généralisé à la plupart des scènes à grande échelle. Cela signifie que le modèle peut comprendre les instructions abstraites humaines en raisonnant à partir de ses propres connaissances et identifier facilement les objets d'intérêt humain dans les images ! Ils ont transformé le modèle en une démo « photo et demande », et vous êtes invités à en faire l'expérience en ligne : https://detgpt.github.io/

DetGPT permet aux utilisateurs de tout faire fonctionner en langage naturel, sans avoir besoin pour les commandes ou interfaces encombrantes. Dans le même temps, DetGPT dispose également de capacités de raisonnement intelligent et de détection de cibles, qui peuvent comprendre avec précision les besoins et les intentions de l'utilisateur. Par exemple, lorsqu'un humain envoie une commande verbale « Je veux boire une boisson fraîche », le robot recherche d'abord une boisson fraîche dans la scène, mais ne la trouve pas. Alors j'ai commencé à penser : « Il n'y a pas de boisson fraîche dans la scène, où dois-je la trouver ? Grâce au puissant modèle de raisonnement du bon sens, j'ai pensé au réfrigérateur, j'ai donc scanné la scène et trouvé le réfrigérateur, et j'ai réussi à verrouiller l'emplacement de la boisson !