Maison >Périphériques technologiques >IA >Détection d'objets zéro-shot avec Patch 32 de base de la cite VIT32

Détection d'objets zéro-shot avec Patch 32 de base de la cite VIT32

Jennifer Aniston
Jennifer Anistonoriginal
2025-03-18 12:01:13815parcourir

Owl Vit: un puissant modèle de détection d'objets zéro

Owl Vit a rapidement gagné en popularité en tant que modèle de vision informatique polyvalente avec des applications dans diverses industries. Ce modèle accepte de manière unique à la fois une image et une requête de texte en entrée. Après le traitement d'image, la sortie comprend un score de confiance et l'emplacement de l'objet (spécifié dans la requête texte) dans l'image.

L'architecture de transformateur de vision innovante du modèle lui permet de comprendre efficacement la relation entre le texte et les images, justifiant son utilisation des encodeurs d'image et de texte pendant le traitement. Tirant un clip, Owl Vit assure une évaluation précise de la similitude du texte d'image par perte contrastive.

Capacités et applications clés

  • Détection d'objets zéro-shot: Owl Vit excelle dans l'identification des objets de diverses classes sans formation préalable sur ces classes spécifiques. Il analyse les images et sélectionne l'objet le plus probable dans une liste de candidats, fournissant des boîtes de délimitation pour identifier l'emplacement de l'objet.
  • Correspondance d'image texte: la force centrale du modèle réside dans sa capacité à faire correspondre avec précision les descriptions de texte aux images correspondantes. Cela élimine le besoin de données préalables approfondies pour chaque classe d'objets.
  • Applications du monde réel: Owl Vit trouve une utilisation pratique dans diverses applications, notamment:
    • Recherche d'images: facilite la récupération d'image à l'aide de requêtes basées sur le texte.
    • Robotique: permet aux robots d'identifier des objets dans leur environnement.
    • Technologie d'assistance: fournit un contenu d'image descriptif pour les utilisateurs malvoyants.

Architecture et utilisation du modèle

Owl Vit, un modèle open source, utilise la classification d'images basée sur les clips. Sa fondation est une architecture de transformateur de vision qui traite les images comme des séquences de correctifs à l'aide d'un encodeur de transformateur. Le même encodeur traite la requête du texte d'entrée, permettant au modèle d'identifier les relations entre les descriptions textuelles et le contenu de l'image.

Mise en œuvre pratique

Pour utiliser Owl Vit, vous aurez besoin des bibliothèques requests , PIL.Image et torch . La bibliothèque transformers Face Hugging Face donne accès au modèle pré-formé et aux outils de traitement nécessaires.

Le processus implique:

  1. Chargement du modèle: Chargez le OwlViTProcessor pré-formé et OwlViTForObjectDetection de la face étreinte.
  2. Entrée d'image et de texte: fournissez au modèle une image et une liste de descriptions de texte représentant des objets potentiels. Le processeur gère le prétraitement d'image et la conversion du tenseur.
  3. Détection d'objets: le modèle traite l'entrée, générant des boîtes de délimitation, des scores de confiance et des étiquettes pour les objets détectés.
  4. Post-traitement: la méthode post_process_object_detection du processeur convertit la sortie brute en un format convivial.

L'extrait de code ci-dessous illustre une implémentation de base:

 Demandes d'importation
à partir de l'image d'importation PIL
Importer une torche
De Transformers Import OwlvitProcessor, OwlvitForObjectDection

processeur = owlvitprocessor.from_pretraind ("google / owlvit-bas-parent32")
modèle = owlvitForObjectDetection.from_pretraind ("Google / Owlvit-Base-Patch32")

image_path = "/ contenu / cinq cat.jpg" # Remplacez par votre chemin d'image
image = image.open (image_path)
textes = [["une photo d'un chat", "une photo d'un chien"]]
entrées = processeur (text = textes, images = image, return_tensers = "pt")
sorties = modèle (** entrées)

Target_Sizes = Torch.tensor ([image.size [:: - 1]])
résultats = processeur.post_process_object_dection (sorties = sorties, threshold = 0.1, cible_sizes = cible_sizes)

# ... (traitement supplémentaire pour afficher les résultats) ... 

Détection d'objets zéro-shot avec Patch 32 de base de la cite VIT32Détection d'objets zéro-shot avec Patch 32 de base de la cite VIT32Détection d'objets zéro-shot avec Patch 32 de base de la cite VIT32Détection d'objets zéro-shot avec Patch 32 de base de la cite VIT32

Conclusion

Les capacités zéro-tir d'Owl Vit, combinées à sa correspondance efficace d'image texte, en font un outil puissant et polyvalent pour diverses tâches de vision par ordinateur. Sa facilité d'utilisation et son applicabilité réelle en font un atout précieux dans divers domaines.

(Remarque: les URL de l'image sont conservées de l'entrée d'origine.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn