Maison >Périphériques technologiques >IA >Nouvelle technologie lancée, l'IDEA Research Institute a publié le modèle T-Rex, permettant aux utilisateurs de sélectionner les invites « Invite » directement sur l'image.

Nouvelle technologie lancée, l'IDEA Research Institute a publié le modèle T-Rex, permettant aux utilisateurs de sélectionner les invites « Invite » directement sur l'image.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-11-24 08:10:381316parcourir

Suite au populaire Grounded SAM, l'équipe de l'IDEA Research Instituteest de retour avec une nouvelle œuvre : une nouvelle invite visuelle (Visual Prompt) modèle T-Re x, utilisez des images pour reconnaître les images, dès la sortie de la boîte, ouvre un nouveau monde de détection d'ensemble ouvert !

Tirez le cadre, vérifiez et complétez ! Lors de la conférence IDEA 2023 qui vient de se terminer, Shen Xiangyang, président fondateur de l'Institut de recherche IDEA et académicien étranger de l'Académie nationale d'ingénierie, a démontré une nouvelle expérience de détection de cibles basée sur des signaux visuels et a publié le laboratoire modèle (aire de jeux) du nouveau modèle d'indices visuels T-Rex ), Interactive Visual Prompt (iVP), a déclenché une vague d'essais culminants sur place.

Nouvelle technologie lancée, lIDEA Research Institute a publié le modèle T-Rex, permettant aux utilisateurs de sélectionner les invites « Invite » directement sur limage.

Sur iVP, les utilisateurs peuvent personnellement débloquer l'expérience d'invite "une image vaut mille mots" : marquez l'objet d'intérêt sur l'image, fournissez un exemple visuel au modèle, et le modèle détectera alors tout objets similaires dans l’image cible. L'ensemble du processus est interactif et peut être facilement réalisé en quelques étapes seulement.

Nouvelle technologie lancée, lIDEA Research Institute a publié le modèle T-Rex, permettant aux utilisateurs de sélectionner les invites « Invite » directement sur limage.

Grounded SAM (Grounding DINO + SAM), publié par IDEA Research Institute en avril, est devenu très populaire sur Github et a collecté jusqu'à présent 11 000 étoiles. Différent de Grounded SAM, qui ne prend en charge que les invites textuelles, le modèle T-Rex publié cette fois fournit une fonction d'invite visuelle qui se concentre sur la création d'une interaction forte.

T-Rex possède de puissantes fonctionnalités prêtes à l'emploi et peut détecter des objets que le modèle n'a jamais vu pendant la phase d'entraînement sans recyclage ni réglage fin. Ce modèle peut non seulement être appliqué à toutes les tâches de détection, y compris le comptage, mais fournit également de nouvelles solutions pour des scénarios d'annotation interactifs intelligents.

Nouvelle technologie lancée, lIDEA Research Institute a publié le modèle T-Rex, permettant aux utilisateurs de sélectionner les invites « Invite » directement sur limage.

L'équipe a révélé que le développement de la technologie d'invite visuelle était dérivé de l'observation de points douloureux dans des scènes réelles. Certains partenaires espèrent utiliser des modèles visuels pour compter le nombre de marchandises dans les camions. Cependant, le modèle ne peut pas identifier individuellement chaque marchandise au moyen d'invites textuelles uniquement. La raison en est que les objets des scènes industrielles sont rares dans la vie quotidienne et difficiles à décrire avec des mots. Dans ce cas, les repères visuels constituent clairement une approche plus efficace. Dans le même temps, un retour visuel intuitif et une forte interactivité contribuent également à améliorer l’efficacité et la précision de la détection.

Sur la base d'informations sur les exigences d'utilisation réelles, l'équipe a conçu le T-Rex comme un modèle capable d'accepter plusieurs signaux visuels et d'afficher des invites à travers les images. En plus du mode d'invite à un tour le plus basique, le modèle actuel prend également en charge les trois modes avancés suivants

Nouvelle technologie lancée, lIDEA Research Institute a publié le modèle T-Rex, permettant aux utilisateurs de sélectionner les invites « Invite » directement sur limage.

Mode positif à plusieurs tours : convient aux scénarios dans lesquels les invites visuelles ne sont pas assez précises et provoquent des détections manquées
Mode positif+négatif : convient aux scénarios dans lesquels les signaux visuels sont ambigus et provoquent de fausses détections
Mode images croisées : convient aux scénarios dans lesquels une seule image de référence provoque la détection d'autres images

Dans le rapport technique publié en même temps À cette époque, l'équipe a résumé T -Quatre caractéristiques principales du modèle Rex :

Nouvelle technologie lancée, lIDEA Research Institute a publié le modèle T-Rex, permettant aux utilisateurs de sélectionner les invites « Invite » directement sur limage.

Ensemble ouvert : non limité par des catégories prédéfinies, avec la possibilité de détecter tous les objets
Invites visuelles : utilisez des exemples visuels pour spécifier les cibles de détection à surmonter la difficulté d'utiliser des objets rares et complexes Les questions entièrement exprimées dans le texte améliorent l'efficacité rapide
Retour visuel intuitif : fournissez un retour visuel intuitif tel que des cadres de délimitation pour aider les utilisateurs à évaluer efficacement les résultats de détection
Interactivité : les utilisateurs peuvent facilement participer au processus de détection et corriger les résultats du modèle

L'équipe de recherche a souligné que dans les scénarios de détection de cibles, l'ajout d'indices visuels peut compenser certaines des lacunes des indices textuels. À l’avenir, la combinaison des deux permettra de libérer davantage le potentiel de la technologie CV dans des domaines plus verticaux.

Pour les détails techniques du modèle T-Rex, veuillez vous référer au rapport technique publié en même temps.

Nouvelle technologie lancée, lIDEA Research Institute a publié le modèle T-Rex, permettant aux utilisateurs de sélectionner les invites « Invite » directement sur limage.

iVPLaboratoire de modèles : https://deepdataspace.com/playground/ivp

Lien Github : trex-counting.github.io

Ce travail provient du Centre de recherche en vision par ordinateur et robotique de l'Institut IDEA. Le modèle de détection de cible précédemment open source de l'équipe, DINO, a été le premier modèle DETR à atteindre la première place dans le classement de détection de cible COCO ; le très populaire détecteur de tir zéro Grounding DINO sur Github et le DINO peuvent également détecter et segmenter n'importe quel objet Grounded SAM. le travail de cette équipe

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

并发对象 github idea https prompt

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：L'IA provoque une révolution dans les logiciels de bureautique : Feishu lance un partenaire intelligent qui permet de choisir le grand modèle sous-jacentArticle suivant：L'IA provoque une révolution dans les logiciels de bureautique : Feishu lance un partenaire intelligent qui permet de choisir le grand modèle sous-jacent

Articles Liés

Voir plus