recherche
MaisonPériphériques technologiquesIALa précision de l'échantillon zéro d'ImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Bien qu'ImageNet ait depuis longtemps rempli sa mission historique, il reste un ensemble de données clé dans le domaine de la vision par ordinateur.

En 2016, la précision sota du modèle de classification formé sur ImageNet était encore inférieure à 80 % ; aujourd'hui, la précision de 80,1 % ne peut être obtenue que par une généralisation sans tir de modèles pré-entraînés à grande échelle.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Récemment, LAION a formé un tout nouveau modèle ViT-G/14 CLIP à l'aide du framework open source OpenCLIP Sur l'ensemble de données ImageNet, la précision du CLIP OpenAI original n'est que de 75,4 %, tandis que. OpenCLIP A atteint une précision de 80,1 % avec un tir zéro et a obtenu une récupération d'images avec un tir zéro de 74,9 % (Recall@5) sur MS COCO. Il s'agit également du modèle CLIP open source le plus puissant actuellement.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

LAION, qui signifie Large-scale Artificial Intelligence Open Network, est une organisation à but non lucratif comptant des membres du monde entier qui vise à fournir des modèles d'apprentissage automatique à grande échelle, des ensembles de données et des codes associés pour le public. Ils prétendent être une véritable IA ouverte, 100 % à but non lucratif et 100 % gratuite.

Les amis intéressés peuvent mettre à jour le modèle CLIP dont ils disposent !

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Adresse du modèle : https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k

Le modèle OpenCLIP est spécifique à chaque ensemble de données. Performance est indiqué dans le tableau ci-dessous.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Capacité Zero-shot

De manière générale, les performances sota des modèles de vision par ordinateur (CV) sur diverses tâches sont basées sur des données de formation dans un domaine spécifique et ne peuvent pas être généralisées à d'autres domaines ou tâches, ce qui entraîne une compréhension limitée des propriétés générales du monde visuel.

Le problème de généralisation est particulièrement important dans les domaines qui manquent de grandes quantités de données de formation.

Idéalement, le modèle de CV devrait apprendre le contenu sémantique de l'image plutôt que de trop se concentrer sur des étiquettes spécifiques dans l'ensemble de formation. Par exemple, pour une image d'un chien, le modèle doit être capable de comprendre qu'il y a un chien dans l'image, et de comprendre en outre qu'il y a des arbres en arrière-plan, qu'il fait jour, que le chien est sur l'herbe, etc. .

Mais les résultats actuels obtenus en utilisant la « formation de classification » sont exactement à l'opposé de ceux attendus. Le modèle apprend à pousser la représentation interne des chiens dans le même « espace vectoriel chien » et à pousser les chats dans le même « vecteur chat ». espace". Tous La réponse à la question est toujours binaire, c'est-à-dire si l'image peut être alignée avec une étiquette de classe.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Recycler un modèle de classification pour de nouvelles tâches est également une solution, mais la formation elle-même nécessite beaucoup de temps et d'investissement financier pour collecter des ensembles de données de classification et entraîner le modèle.

Heureusement, le modèle CLIP d'OpenAI est un modèle de classification très flexible et peut généralement être utilisé dans de nouvelles tâches de classification sans recyclage.

Pourquoi CLIP peut Zero-Shot

Contrastive Language-Image Pretraining (CLIP, Contrastive Language-Image Pretraining) est un modèle publié par OpenAI en 2021 principalement basé sur Transformer.

CLIP se compose de deux modèles, un encodeur Transformer pour convertir le texte en intégration et un Visual Transformer (ViT) pour encoder des images.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Les modèles de texte et d'image dans CLIP sont optimisés lors de la pré-formation pour aligner des textes et des images similaires dans l'espace vectoriel. Au cours du processus de formation, les paires image-texte dans les données sont rapprochées dans l'espace vectoriel, tandis que les vecteurs image et texte qui n'appartiennent pas à une paire sont séparés.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Il existe plusieurs différences entre CLIP et les modèles de classification générale :

Premièrement, OpenAI est formé à l'aide d'un très grand ensemble de données contenant 400 millions de paires texte-image explorées à partir d'Internet, et ses avantages. Les raisons sont :

1. La formation de CLIP ne nécessite que des « paires image-texte » et ne nécessite pas d'étiquettes de classe spécifiques, et ce type de données est très abondant dans le monde en ligne actuel centré sur les médias sociaux.

2. Les grands ensembles de données signifient la capacité de CLIP à comprendre les concepts textuels courants dans les images.

3. Le descripteur de texte contient souvent diverses fonctionnalités dans l'image, pas seulement une fonctionnalité de catégorie, ce qui signifie qu'une représentation d'image et de texte plus complète peut être établie.

Les avantages ci-dessus sont également un facteur clé dans la capacité de CLIP à établir Zero-shot. L'auteur de l'article a également comparé le modèle ResNet-101 et le modèle CLIP spécialement formés sur ImageNet, et l'a appliqué à d'autres ensembles de données dérivés d'ImageNet, comme indiqué ci-dessous pour la comparaison des performances.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

On peut voir que bien que ResNet-101 soit formé sur ImageNet, ses performances sur des ensembles de données similaires sont bien pires que les performances de CLIP sur la même tâche.

Lors de l'application du modèle ResNet à d'autres domaines, une méthode courante est la « sonde linéaire », ce qui signifie saisir les caractéristiques apprises dans les dernières couches du modèle ResNet dans un classificateur linéaire, puis cibler un ensemble de données spécifique pour un réglage fin. .

Dans l'article CLIP, la détection linéaire ResNet-50 est comparée au CLIP zéro tir. La conclusion est que dans le même scénario, le CLIP zéro tir fonctionne mieux que le ResNet-50 dans plusieurs tâches.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Cependant, il convient de noter que Zero-shot ne surpasse pas la détection linéaire lorsqu'il reçoit davantage d'échantillons d'entraînement.

Classification Zero-shot à l'aide de CLIP

Comme vous pouvez le savoir dans la description ci-dessus, l'encodeur d'image et de texte peut créer un vecteur à 512 dimensions pour mapper l'image d'entrée et l'entrée de texte sur le même espace vectoriel.

Utiliser CLIP pour la classification zéro signifie mettre les informations de catégorie dans des phrases de texte.

Par exemple, si vous saisissez une image et souhaitez déterminer si sa catégorie est une voiture, un oiseau ou un chat, vous pouvez créer trois chaînes de texte pour représenter les catégories :

T1 représente une voiture : une photo d'un voiture

T2 représente un oiseau : une photo d'un oiseau

T3 représente un chat : une photo d'un chat

Entrez la description de la catégorie dans l'encodeur de texte et vous pourrez obtenir un vecteur qui peut représenter la catégorie.

Supposons que l'entrée soit une photo d'un chat. Utilisez le modèle ViT pour l'encoder. Après avoir obtenu le vecteur d'image, calculez la distance cosinusoïdale entre celui-ci et le vecteur de catégorie comme similarité avec T3. signifie que la catégorie de l'image appartient au chat.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Comme vous pouvez le constater, l'étiquette de catégorie n'est pas un simple mot, mais est réécrite en une phrase basée sur le format du modèle "une photo d'une {étiquette}", qui peut être étendue sans formation Prédiction de classe restreinte.

Dans l'expérience, l'utilisation de ce modèle d'invite a amélioré la précision de la classification d'ImageNet de 1,3 points de pourcentage. Cependant, le modèle d'invite n'améliore pas toujours les performances. En utilisation réelle, il doit être testé sur la base de différents ensembles de données.

Implémentation Python

Il est également très facile d'utiliser rapidement CLIP pour la classification zéro-shot. L'auteur a sélectionné l'ensemble de données frgfm/imagenette dans Hugging Face à titre de démonstration. L'ensemble de données contient 10 étiquettes, et toutes sont enregistrées sous forme d'entiers. valeurs.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

L'utilisation de CLIP pour la classification nécessite de convertir les étiquettes de valeur entière en contenu texte correspondant.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Avant de calculer directement la similarité entre les tags et les photos, vous devez initialiser le modèle CLIP, qui peut être implémenté à l'aide du CLIP trouvé via les transformateurs Hugging Face.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Le transformateur de texte ne peut pas lire le texte directement, mais nécessite un ensemble de valeurs entières appelées ID de jeton (ou input_ID), où chaque entier unique représente un mot ou un sous-mot (c'est-à-dire un jeton).

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Entrez le tenseur converti dans le transformateur de texte pour obtenir l'intégration du texte de l'étiquette

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Notez que la sortie vectorielle par CLIP n'a pas encore été normalisée et que la similarité obtenue après multiplication de points est Les résultats sont inexacte.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Vous pouvez désormais sélectionner une image dans l'ensemble de données à tester et obtenir le vecteur d'image après le même processus de traitement.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

Après avoir converti l'image en un vecteur de dimensions (1, 3, 224, 224), saisissez-la dans le modèle pour obtenir l'intégration

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

L'étape suivante consiste à calculer l'intégration de l'image et les dix dans l'ensemble de données La similarité du produit scalaire entre les intégrations de texte d'étiquette, celle avec le score le plus élevé est la catégorie prédite.

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour


Le résultat donné par le modèle est un lecteur de cassettes. Après avoir exécuté l'ensemble des données à plusieurs reprises, nous pouvons obtenir une précision de 98,7%

La précision de léchantillon zéro dImageNet dépasse 80 % pour la première fois et le modèle CLIP open source le plus puissant de la planète est mis à jour

En plus de la classification zéro tir. , la recherche multimodale, la détection de cibles et les modèles génératifs tels que Dall-E et Stable disusion d'OpenAI, CLIP ouvre une nouvelle porte à la vision par ordinateur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Gemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAGemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAApr 17, 2025 am 11:55 AM

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Qui est un analyste de Business Intelligence et comment en devenir un?Qui est un analyste de Business Intelligence et comment en devenir un?Apr 17, 2025 am 11:44 AM

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Comment ajouter une colonne dans SQL? - Analytique VidhyaComment ajouter une colonne dans SQL? - Analytique VidhyaApr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Analyste d'entreprise vs analyste de donnéesAnalyste d'entreprise vs analyste de donnéesApr 17, 2025 am 11:38 AM

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Que sont le comte et le coude à Excel? - Analytique VidhyaQue sont le comte et le coude à Excel? - Analytique VidhyaApr 17, 2025 am 11:34 AM

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Apr 17, 2025 am 11:29 AM

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Côté humain de l'AI: le bien-être et le quadruple de basCôté humain de l'AI: le bien-être et le quadruple de basApr 17, 2025 am 11:28 AM

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaître5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaîtreApr 17, 2025 am 11:24 AM

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Vous avez un jeu croisé?
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

Dreamweaver Mac

Dreamweaver Mac

Outils de développement Web visuel