Maison >Périphériques technologiques >IA >Les objets inconnus peuvent également être facilement identifiés et segmentés, et l'effet peut être transféré
Il peut également segmenter de nouveaux objets qui n'ont jamais été vus auparavant.
Il s'agit d'un nouveau cadre d'apprentissage développé par DeepMind : Réseaux de découverte et de représentation d'objets (Odin en abrégé)
Les méthodes d'apprentissage autosupervisé (SSL) précédentes peuvent bien décrire l'ensemble d'une grande scène, mais il est difficile de distinguer les objets individuels.
Maintenant, la méthode Odin le fait, et le fait sans aucune supervision.
Il n'est pas facile de distinguer un seul objet dans une image. Comment fait-on ?
Elle permet de bien distinguer divers objets dans l'image, principalement grâce à "l'auto-circulation" du cadre d'apprentissage Odin.
Odin a appris deux ensembles de réseaux qui fonctionnent ensemble, à savoir le réseau de découverte de cibles et le réseau de représentation de cibles.
Object Discovery Network prend une partie recadrée de l'image en entrée. La partie recadrée doit contenir la majeure partie de la zone de l'image, et cette partie de l'image n'a pas été améliorée sous d'autres aspects.
Ensuite, effectuez une analyse de cluster sur la carte de caractéristiques générée à partir de l'image d'entrée et segmentez chaque objet de l'image en fonction de différentes caractéristiques. La vue d'entrée du
réseau de représentation d'objets est l'image segmentée générée dans le réseau de découverte d'objets.
Une fois les vues saisies, elles sont prétraitées de manière aléatoire séparément, y compris le retournement, le flou et la conversion des couleurs au niveau du point.
De cette façon, deux ensembles de masques peuvent être obtenus. À l'exception des différences de recadrage, les autres informations sont les mêmes que le contenu de l'image sous-jacente.
Ensuite, les deux masques apprendront des fonctionnalités qui peuvent mieux représenter les objets dans l'image grâce à la perte de contraste.
Plus précisément, grâce à la détection de contraste, un réseau est formé pour identifier les caractéristiques des différents objets cibles, et il existe également de nombreuses caractéristiques « négatives » d'autres objets non pertinents.
Ensuite, maximisez la similarité du même objet cible dans différents masques, minimisez la similarité entre les différents objets cibles, puis effectuez une meilleure segmentation pour distinguer les différents objets cibles.
Dans le même temps, le réseau de découverte de cible sera mis à jour régulièrement en fonction des paramètres du réseau de représentation cible.
Le but ultime est de garantir que ces caractéristiques au niveau de l'objet restent à peu près inchangées dans différentes vues, en d'autres termes, de séparer les objets dans l'image.
Alors, quelle est l'efficacité du cadre d'apprentissage Odin ?
La méthode Odin est également très puissante dans les performances d'apprentissage par transfert sans connaissances préalables lors de la segmentation de scènes.
Tout d'abord, pré-entraînez-vous sur l'ensemble de données ImageNet à l'aide de la méthode Odin, puis évaluez son effet sur l'ensemble de données COCO ainsi que sur la segmentation sémantique PASCAL et Cityscapes.
L'objet cible est déjà connu, c'est-à-dire que la méthode qui obtient des connaissances préalables est nettement meilleure que les autres méthodes qui n'obtiennent pas de connaissances préalables lors de la segmentation de scène.
Même si la méthode Odin n'obtient pas de connaissances préalables, son effet est meilleur que DetCon et ReLICv2 qui obtiennent des connaissances préalables.
De plus, la méthode Odin peut être appliquée non seulement aux modèles ResNet, mais aussi à des modèles plus complexes, comme Swim Transformer.
En termes de données, les avantages de l'apprentissage du framework Odin sont évidents. Alors, où se reflètent les avantages d'Odin dans les images visuelles ?
Comparez les images de segmentation générées à l'aide d'Odin avec celles obtenues à partir d'un réseau initialisé aléatoirement (3ème colonne), d'un réseau supervisé par ImageNet (4ème colonne).
Les colonnes 3 et 4 ne parviennent pas à décrire clairement les limites des objets, ou manquent de cohérence et de localisation des objets du monde réel, alors que les effets d'image générés par Odin sont évidemment meilleurs.
Lien de référence :
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!