


Bien qu'ImageNet ait depuis longtemps rempli sa mission historique, il reste un ensemble de données clé dans le domaine de la vision par ordinateur.
En 2016, la précision sota du modèle de classification formé sur ImageNet était encore inférieure à 80 % ; aujourd'hui, la précision de 80,1 % ne peut être obtenue que par une généralisation sans tir de modèles pré-entraînés à grande échelle.
Récemment, LAION a formé un tout nouveau modèle ViT-G/14 CLIP à l'aide du framework open source OpenCLIP Sur l'ensemble de données ImageNet, la précision du CLIP OpenAI original n'est que de 75,4 %, tandis que. OpenCLIP A atteint une précision de 80,1 % avec un tir zéro et a obtenu une récupération d'images avec un tir zéro de 74,9 % (Recall@5) sur MS COCO. Il s'agit également du modèle CLIP open source le plus puissant actuellement.
LAION, qui signifie Large-scale Artificial Intelligence Open Network, est une organisation à but non lucratif comptant des membres du monde entier qui vise à fournir des modèles d'apprentissage automatique à grande échelle, des ensembles de données et des codes associés pour le public. Ils prétendent être une véritable IA ouverte, 100 % à but non lucratif et 100 % gratuite.
Les amis intéressés peuvent mettre à jour le modèle CLIP dont ils disposent !
Adresse du modèle : https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k
Le modèle OpenCLIP est spécifique à chaque ensemble de données. Performance est indiqué dans le tableau ci-dessous.
De manière générale, les performances sota des modèles de vision par ordinateur (CV) sur diverses tâches sont basées sur des données de formation dans un domaine spécifique et ne peuvent pas être généralisées à d'autres domaines ou tâches, ce qui entraîne une compréhension limitée des propriétés générales du monde visuel.
Le problème de généralisation est particulièrement important dans les domaines qui manquent de grandes quantités de données de formation.
Idéalement, le modèle de CV devrait apprendre le contenu sémantique de l'image plutôt que de trop se concentrer sur des étiquettes spécifiques dans l'ensemble de formation. Par exemple, pour une image d'un chien, le modèle doit être capable de comprendre qu'il y a un chien dans l'image, et de comprendre en outre qu'il y a des arbres en arrière-plan, qu'il fait jour, que le chien est sur l'herbe, etc. .
Mais les résultats actuels obtenus en utilisant la « formation de classification » sont exactement à l'opposé de ceux attendus. Le modèle apprend à pousser la représentation interne des chiens dans le même « espace vectoriel chien » et à pousser les chats dans le même « vecteur chat ». espace". Tous La réponse à la question est toujours binaire, c'est-à-dire si l'image peut être alignée avec une étiquette de classe.
Recycler un modèle de classification pour de nouvelles tâches est également une solution, mais la formation elle-même nécessite beaucoup de temps et d'investissement financier pour collecter des ensembles de données de classification et entraîner le modèle.
Heureusement, le modèle CLIP d'OpenAI est un modèle de classification très flexible et peut généralement être utilisé dans de nouvelles tâches de classification sans recyclage.
Pourquoi CLIP peut Zero-ShotContrastive Language-Image Pretraining (CLIP, Contrastive Language-Image Pretraining) est un modèle publié par OpenAI en 2021 principalement basé sur Transformer. CLIP se compose de deux modèles, un encodeur Transformer pour convertir le texte en intégration et un Visual Transformer (ViT) pour encoder des images.Les modèles de texte et d'image dans CLIP sont optimisés lors de la pré-formation pour aligner des textes et des images similaires dans l'espace vectoriel. Au cours du processus de formation, les paires image-texte dans les données sont rapprochées dans l'espace vectoriel, tandis que les vecteurs image et texte qui n'appartiennent pas à une paire sont séparés.
Il existe plusieurs différences entre CLIP et les modèles de classification générale :
Premièrement, OpenAI est formé à l'aide d'un très grand ensemble de données contenant 400 millions de paires texte-image explorées à partir d'Internet, et ses avantages. Les raisons sont :
1. La formation de CLIP ne nécessite que des « paires image-texte » et ne nécessite pas d'étiquettes de classe spécifiques, et ce type de données est très abondant dans le monde en ligne actuel centré sur les médias sociaux.
2. Les grands ensembles de données signifient la capacité de CLIP à comprendre les concepts textuels courants dans les images.
3. Le descripteur de texte contient souvent diverses fonctionnalités dans l'image, pas seulement une fonctionnalité de catégorie, ce qui signifie qu'une représentation d'image et de texte plus complète peut être établie.
Les avantages ci-dessus sont également un facteur clé dans la capacité de CLIP à établir Zero-shot. L'auteur de l'article a également comparé le modèle ResNet-101 et le modèle CLIP spécialement formés sur ImageNet, et l'a appliqué à d'autres ensembles de données dérivés d'ImageNet, comme indiqué ci-dessous pour la comparaison des performances.
On peut voir que bien que ResNet-101 soit formé sur ImageNet, ses performances sur des ensembles de données similaires sont bien pires que les performances de CLIP sur la même tâche.
Lors de l'application du modèle ResNet à d'autres domaines, une méthode courante est la « sonde linéaire », ce qui signifie saisir les caractéristiques apprises dans les dernières couches du modèle ResNet dans un classificateur linéaire, puis cibler un ensemble de données spécifique pour un réglage fin. .
Dans l'article CLIP, la détection linéaire ResNet-50 est comparée au CLIP zéro tir. La conclusion est que dans le même scénario, le CLIP zéro tir fonctionne mieux que le ResNet-50 dans plusieurs tâches.
Cependant, il convient de noter que Zero-shot ne surpasse pas la détection linéaire lorsqu'il reçoit davantage d'échantillons d'entraînement.
Classification Zero-shot à l'aide de CLIP
Comme vous pouvez le savoir dans la description ci-dessus, l'encodeur d'image et de texte peut créer un vecteur à 512 dimensions pour mapper l'image d'entrée et l'entrée de texte sur le même espace vectoriel.
Utiliser CLIP pour la classification zéro signifie mettre les informations de catégorie dans des phrases de texte.
Par exemple, si vous saisissez une image et souhaitez déterminer si sa catégorie est une voiture, un oiseau ou un chat, vous pouvez créer trois chaînes de texte pour représenter les catégories :
T1 représente une voiture : une photo d'un voiture
T2 représente un oiseau : une photo d'un oiseau
T3 représente un chat : une photo d'un chat
Entrez la description de la catégorie dans l'encodeur de texte et vous pourrez obtenir un vecteur qui peut représenter la catégorie.
Supposons que l'entrée soit une photo d'un chat. Utilisez le modèle ViT pour l'encoder. Après avoir obtenu le vecteur d'image, calculez la distance cosinusoïdale entre celui-ci et le vecteur de catégorie comme similarité avec T3. signifie que la catégorie de l'image appartient au chat.
Comme vous pouvez le constater, l'étiquette de catégorie n'est pas un simple mot, mais est réécrite en une phrase basée sur le format du modèle "une photo d'une {étiquette}", qui peut être étendue sans formation Prédiction de classe restreinte.
Dans l'expérience, l'utilisation de ce modèle d'invite a amélioré la précision de la classification d'ImageNet de 1,3 points de pourcentage. Cependant, le modèle d'invite n'améliore pas toujours les performances. En utilisation réelle, il doit être testé sur la base de différents ensembles de données.
Implémentation Python
Il est également très facile d'utiliser rapidement CLIP pour la classification zéro-shot. L'auteur a sélectionné l'ensemble de données frgfm/imagenette dans Hugging Face à titre de démonstration. L'ensemble de données contient 10 étiquettes, et toutes sont enregistrées sous forme d'entiers. valeurs.
L'utilisation de CLIP pour la classification nécessite de convertir les étiquettes de valeur entière en contenu texte correspondant.
Avant de calculer directement la similarité entre les tags et les photos, vous devez initialiser le modèle CLIP, qui peut être implémenté à l'aide du CLIP trouvé via les transformateurs Hugging Face.
Le transformateur de texte ne peut pas lire le texte directement, mais nécessite un ensemble de valeurs entières appelées ID de jeton (ou input_ID), où chaque entier unique représente un mot ou un sous-mot (c'est-à-dire un jeton).
Entrez le tenseur converti dans le transformateur de texte pour obtenir l'intégration du texte de l'étiquette
Notez que la sortie vectorielle par CLIP n'a pas encore été normalisée et que la similarité obtenue après multiplication de points est Les résultats sont inexacte.
Vous pouvez désormais sélectionner une image dans l'ensemble de données à tester et obtenir le vecteur d'image après le même processus de traitement.
Après avoir converti l'image en un vecteur de dimensions (1, 3, 224, 224), saisissez-la dans le modèle pour obtenir l'intégration
L'étape suivante consiste à calculer l'intégration de l'image et les dix dans l'ensemble de données La similarité du produit scalaire entre les intégrations de texte d'étiquette, celle avec le score le plus élevé est la catégorie prédite.
Le résultat donné par le modèle est un lecteur de cassettes. Après avoir exécuté l'ensemble des données à plusieurs reprises, nous pouvons obtenir une précision de 98,7%
En plus de la classification zéro tir. , la recherche multimodale, la détection de cibles et les modèles génératifs tels que Dall-E et Stable disusion d'OpenAI, CLIP ouvre une nouvelle porte à la vision par ordinateur.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Version Mac de WebStorm
Outils de développement JavaScript utiles

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

Dreamweaver Mac
Outils de développement Web visuel