Maison >Périphériques technologiques >IA >Détection d'objets zéro-shot avec Patch 32 de base de la cite VIT32
Owl Vit: un puissant modèle de détection d'objets zéro
Owl Vit a rapidement gagné en popularité en tant que modèle de vision informatique polyvalente avec des applications dans diverses industries. Ce modèle accepte de manière unique à la fois une image et une requête de texte en entrée. Après le traitement d'image, la sortie comprend un score de confiance et l'emplacement de l'objet (spécifié dans la requête texte) dans l'image.
L'architecture de transformateur de vision innovante du modèle lui permet de comprendre efficacement la relation entre le texte et les images, justifiant son utilisation des encodeurs d'image et de texte pendant le traitement. Tirant un clip, Owl Vit assure une évaluation précise de la similitude du texte d'image par perte contrastive.
Capacités et applications clés
Architecture et utilisation du modèle
Owl Vit, un modèle open source, utilise la classification d'images basée sur les clips. Sa fondation est une architecture de transformateur de vision qui traite les images comme des séquences de correctifs à l'aide d'un encodeur de transformateur. Le même encodeur traite la requête du texte d'entrée, permettant au modèle d'identifier les relations entre les descriptions textuelles et le contenu de l'image.
Mise en œuvre pratique
Pour utiliser Owl Vit, vous aurez besoin des bibliothèques requests
, PIL.Image
et torch
. La bibliothèque transformers
Face Hugging Face donne accès au modèle pré-formé et aux outils de traitement nécessaires.
Le processus implique:
OwlViTProcessor
pré-formé et OwlViTForObjectDetection
de la face étreinte.post_process_object_detection
du processeur convertit la sortie brute en un format convivial.L'extrait de code ci-dessous illustre une implémentation de base:
Demandes d'importation à partir de l'image d'importation PIL Importer une torche De Transformers Import OwlvitProcessor, OwlvitForObjectDection processeur = owlvitprocessor.from_pretraind ("google / owlvit-bas-parent32") modèle = owlvitForObjectDetection.from_pretraind ("Google / Owlvit-Base-Patch32") image_path = "/ contenu / cinq cat.jpg" # Remplacez par votre chemin d'image image = image.open (image_path) textes = [["une photo d'un chat", "une photo d'un chien"]] entrées = processeur (text = textes, images = image, return_tensers = "pt") sorties = modèle (** entrées) Target_Sizes = Torch.tensor ([image.size [:: - 1]]) résultats = processeur.post_process_object_dection (sorties = sorties, threshold = 0.1, cible_sizes = cible_sizes) # ... (traitement supplémentaire pour afficher les résultats) ...
Conclusion
Les capacités zéro-tir d'Owl Vit, combinées à sa correspondance efficace d'image texte, en font un outil puissant et polyvalent pour diverses tâches de vision par ordinateur. Sa facilité d'utilisation et son applicabilité réelle en font un atout précieux dans divers domaines.
(Remarque: les URL de l'image sont conservées de l'entrée d'origine.)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!