Maison >Périphériques technologiques >IA >Mise à jour OpenOOD v1.5 : bibliothèque de codes de détection hors distribution complète et précise et plateforme de test, prenant en charge les classements en ligne et les tests en un clic

Mise à jour OpenOOD v1.5 : bibliothèque de codes de détection hors distribution complète et précise et plateforme de test, prenant en charge les classements en ligne et les tests en un clic

PHPz
PHPzavant
2023-07-03 16:41:271063parcourir

La détection hors distribution (OOD) est cruciale pour le fonctionnement fiable des systèmes intelligents en monde ouvert, mais les méthodes actuelles de détection orientée objet souffrent du problème des « incohérences d'évaluation ».

Travaux antérieurs OpenOOD v1 unifie l'évaluation de la détection OOD, mais présente encore des limites en termes d'évolutivité et de convivialité.

Récemment, l'équipe de développement a de nouveau proposé OpenOOD v1.5 Par rapport à la version précédente, la nouvelle évaluation de la méthode de détection OOD a été considérablement améliorée pour garantir la précision, la standardisation et la convivialité.

Mise à jour OpenOOD v1.5 : bibliothèque de codes de détection hors distribution complète et précise et plateforme de test, prenant en charge les classements en ligne et les tests en un clicPhotos

Papier : https://arxiv.org/abs/2306.09301

Base de code OpenOOD : https://github.com/Jingkang50/OpenOOD

Classement OpenOOD : https://zjysteven. github.io/OpenOOD/

Notamment, OpenOOD v1.5 étend ses capacités d'évaluation à des ensembles de données à grande échelle tels que ImageNet, étudie l'importante mais inexploitée détection OOD à spectre complet et introduit de nouvelles fonctionnalités, comprend des classements en ligne et des fonctionnalités faciles à utiliser. -utiliser l'évaluateur.

Ce travail contribue également à une analyse approfondie et à la compréhension de résultats expérimentaux complets, enrichissant ainsi la base de connaissances sur les méthodes de détection OOD.

Avec ces améliorations, OpenOOD v1.5 vise à faire progresser la recherche OOD et à fournir une référence d'évaluation plus puissante et plus complète pour la recherche sur la détection OOD.

Contexte de recherche

Pour un classificateur d'images bien formé, une capacité clé qui lui permet de fonctionner de manière fiable dans le monde ouvert est de détecter un échantillon inconnu et hors distribution (OOD).

Par exemple, nous avons formé un classificateur de chats et de chiens à l'aide d'un ensemble de photos de chats et de chiens. Pour les échantillons en distribution (ID), c'est-à-dire les photos de chats et de chiens ici, nous attendons naturellement du classificateur qu'il les identifie avec précision dans les catégories correspondantes.

Pour les échantillons OOD hors distribution, c'est-à-dire toute image autre que des chats et des chiens (comme des avions, des fruits, etc.), nous espérons que le modèle pourra détecter qu'il s'agit d'objets/concepts inconnus et nouveaux. , et ne peut donc pas les classer dans aucune catégorie de chats ou de chiens au sein de la distribution.

Ce problème est la détection hors distribution (détection OOD), qui a attiré une large attention ces dernières années, et de nouveaux travaux émergent les uns après les autres. Cependant, même si le domaine se développe rapidement, il est devenu difficile de suivre et de mesurer l’état de développement de ce domaine pour diverses raisons.

Cause 1 : ensemble de données OOD de test incohérent.

Le développement rapide de diverses tâches d'apprentissage profond est indissociable d'un ensemble de données de test unifié (tout comme CIFAR, ImageNet pour la classification d'images, PASCAL VOC, COCO pour la détection d'objets).

Cependant, malheureusement, le domaine de la détection OOD a toujours manqué d'un ensemble de données OOD unifié et largement adopté. Cela se traduit par la figure ci-dessus. Lorsque nous examinons les paramètres expérimentaux des travaux existants, nous constatons que les données OOD utilisées sont très incohérentes (par exemple, pour CIFAR-10, qui sont des données ID, certains travaux utilisent MNIST et SVHN. comme OOD, certaines œuvres utilisent CIFAR-100, Tiny ImageNet comme OOD). Dans de telles circonstances, les comparaisons directes et équitables de toutes les méthodes se heurtent à des difficultés considérables.

Raison 2 : Terminologie confuse.

En plus de la détection OOD, d'autres termes tels que « Open-Set Recognition (OSR) » et « Novelty Detection » apparaissent également souvent dans la littérature.

Ils se concentrent essentiellement sur le même problème, avec seulement de légères différences dans les détails de certains paramètres expérimentaux. Cependant, une terminologie différente peut conduire à des branches inutiles entre les méthodes. Par exemple, la détection OOD et l'OSR étaient autrefois considérées comme deux tâches indépendantes, et il y avait peu de méthodes entre différentes branches (même si elles résolvaient le même problème).

Cause 3 : Mauvaise opération.

Dans de nombreux travaux, les chercheurs utilisent souvent directement des échantillons de l'ensemble de tests OOD pour ajuster les paramètres ou même entraîner des modèles. Une telle opération surestimerait la capacité de détection OOD de la méthode.

Les problèmes ci-dessus sont évidemment préjudiciables au développement ordonné du domaine. Nous avons un besoin urgent d'un référentiel et d'une plate-forme unifiés pour tester et évaluer les méthodes de détection OOD existantes et futures.

OpenOOD est né sous de tels défis. Sa première version a franchi une étape importante, mais elle présente des problèmes de petite échelle et de convivialité qui doivent être améliorés.

Par conséquent, dans la nouvelle version d'OpenOOD v1.5, nous l'avons encore renforcé et mis à niveau, en essayant de créer une plate-forme de test complète, précise et facile à utiliser pour la majorité des chercheurs.

En résumé, OpenOOD possède les fonctionnalités et contributions importantes suivantes :

1. Base de code énorme et modulaire.

Cette base de code comprend et modularise la structure du modèle, le prétraitement des données, le post-traitement, la formation, les tests, etc. pour faciliter la réutilisation et le développement. Actuellement, OpenOOD implémente près de 40 méthodes de détection OOD de pointe pour les tâches de classification d'images.

Mise à jour OpenOOD v1.5 : bibliothèque de codes de détection hors distribution complète et précise et plateforme de test, prenant en charge les classements en ligne et les tests en un clicPhotos

2.

Comme le montre la figure ci-dessus, avec seulement quelques lignes de code, l'évaluateur d'OpenOOD peut donner les résultats du test de détection OOD du classificateur et du post-processeur fournis sur l'ensemble de données d'identification spécifié.

Les données OOD correspondantes sont déterminées et fournies en interne par l'évaluateur, ce qui garantit la cohérence et l'équité du test. L'évaluateur prend également en charge les scénarios de détection OOD standard (détection OOD standard) et de détection OOD à spectre complet (détection OOD à spectre complet) (nous en parlerons plus tard).

3. Classements en ligne.

À l'aide d'OpenOOD, nous avons comparé les performances de près de 40 méthodes de détection OOD sur quatre ensembles de données d'identification : CIFAR-10, CIFAR-100, ImageNet-200 et ImageNet-1K, et avons intégré les résultats dans un classement public. J'espère que cela pourra aider tout le monde à comprendre à tout moment les méthodes les plus efficaces et les plus prometteuses dans ce domaine.

4. Nouvelles découvertes dans les résultats expérimentaux.

Sur la base des résultats expérimentaux complets d'OpenOOD, nous présentons de nombreuses nouvelles découvertes dans cet article. Par exemple, même si cela semble avoir peu à voir avec la détection OOD, l’augmentation des données peut en réalité améliorer efficacement les performances de détection OOD, et cette amélioration est orthogonale et complémentaire à l’amélioration apportée par les méthodes spécifiques de détection OOD.

De plus, nous avons constaté que les performances des méthodes existantes en matière de détection OOD à spectre complet ne sont pas satisfaisantes, ce qui constituera également un problème important à résoudre dans le futur domaine.

Description du problème

Cette partie décrira brièvement et de manière générale les objectifs de la détection OOD standard et à spectre complet. Pour une description plus détaillée et formelle, vous êtes invités à lire notre article.

Mise à jour OpenOOD v1.5 : bibliothèque de codes de détection hors distribution complète et précise et plateforme de test, prenant en charge les classements en ligne et les tests en un clicPhotos

Tout d'abord un peu de contexte. Dans le scénario de classification d'images que nous considérons, les données en distribution (ID) sont définies par la tâche de classification correspondante. Par exemple, pour la classification CIFAR-10, la distribution ID correspond à ses 10 catégories sémantiques.

Le concept d'OOD se forme par rapport à l'ID : les images correspondant à toute catégorie sémantique autre que la catégorie sémantique ID et différente de la catégorie ID sont des images OOD hors distribution. Dans le même temps, nous devons discuter des deux types suivants de changements de répartition.

Déplacement sémantique : La distribution change au niveau sémantique profond, correspondant à l'axe horizontal de la figure ci-dessus. Par exemple, les catégories sémantiques sont les chats et les chiens lors de l'entraînement, et les catégories sémantiques sont les avions et les fruits lors des tests.

Covariate Shift : la distribution change au niveau statistique de la surface (tandis que la sémantique reste inchangée), correspondant à l'axe vertical de la figure ci-dessus. Par exemple, pendant l'entraînement, il y a des photos nettes et naturelles de chats et de chiens, tandis que pendant les tests, il y a des images de chats et de chiens avec du bruit ou dessinées à la main.

Avec l'arrière-plan ci-dessus, combiné à l'image ci-dessus, vous pouvez facilement comprendre la détection OOD standard et à spectre complet.

Détection OOD standard

Objectif (1) : Former un classificateur sur la distribution d'ID afin qu'il puisse classer avec précision les données d'identification. On suppose ici qu’il n’y a pas de décalage covariable entre les données d’ID de test et les données d’ID de formation.

Objectif (2) : Sur la base du classificateur formé, concevoir une méthode de détection OOD afin qu'elle puisse classer n'importe quel échantillon en deux catégories : ID/OOD. La chose correspondante dans la figure ci-dessus est de distinguer (a) de (c) + (d).

Détection OOD à spectre complet

Objectif (1) : similaire à la détection OOD standard, mais la différence est que le changement de covariable est pris en compte, c'est-à-dire que le classificateur doit être utilisé indépendamment du fait qu'il existe ou non un décalage de covariable dans l'image d'identification de test par rapport à l'image d'entraînement. Classer avec précision dans la catégorie d'identification correspondante (par exemple, le classificateur de chat et de chien doit non seulement classer avec précision les images de chat et de chien « propres », mais doit également être capable de généraliser à photos de chats et de chiens bruyantes et floues).

Objectif (2) : Considérez également les échantillons ID décalés par covariable, qui doivent être distingués des échantillons OOD ainsi que des échantillons ID normaux (pas de décalage covariable). Correspond à la distinction entre (a) + (b) et (c) + (d) dans la figure ci-dessus.

Pourquoi les tests OOD à spectre complet sont-ils importants ?

Des amis familiers ont peut-être découvert que la cible (1) dans la détection OOD à spectre complet correspond en fait à un autre sujet de recherche très important : la généralisation hors distribution (généralisation OOD).

Il doit être précisé que l'OOD dans la généralisation OOD fait référence aux échantillons avec changement de covariable, tandis que l'OOD dans la détection OOD fait référence aux échantillons avec changement sémantique.

Les deux types de changements sont très courants dans le monde réel. Cependant, la généralisation OOD existante et la détection OOD standard ne prennent en compte que l'un d'entre eux et ignorent l'autre.

En revanche, la détection OOD à spectre complet prend naturellement en compte les deux décalages dans le même scénario, reflétant plus précisément nos attentes quant aux performances d'un classificateur idéal dans le monde ouvert.

Résultats expérimentaux et nouvelles découvertes

Dans la version 1.5, OpenOOD compare près de 40 méthodes sur 6 ensembles de données de référence (4 pour la détection OOD standard, 2 pour la détection OOD à spectre complet) Un test unifié et complet a été réalisé.

Les méthodes mises en œuvre et les ensembles de données sont décrits dans le document, et tout le monde est invité à le consulter. Toutes les expériences peuvent également être reproduites dans la base de code OpenOOD. Ici, nous discutons directement des conclusions dérivées des résultats de la comparaison.

Mise à jour OpenOOD v1.5 : bibliothèque de codes de détection hors distribution complète et précise et plateforme de test, prenant en charge les classements en ligne et les tests en un clicPhotos

Découverte 1 : Il n'y a pas un seul gagnant.

Dans le tableau ci-dessus, il n'est pas difficile de constater qu'aucune méthode ne peut systématiquement donner des performances exceptionnelles sur tous les ensembles de données de référence.

Par exemple, les méthodes d'inférence post-hoc ReAct et ASH fonctionnent bien sur le grand ensemble de données ImageNet, mais n'ont aucun avantage par rapport aux autres méthodes du CIFAR.

En revanche, certaines méthodes de formation qui ajoutent des contraintes à la formation, telles que RotPred et LogitNorm, sont meilleures que les méthodes de post-traitement sur de petits ensembles de données, mais ne sont pas exceptionnelles sur ImageNet.

Constatation 2 : les augmentations de données sont utiles.

Comme le montre le tableau ci-dessus, bien que les améliorations des données ne soient pas spécifiquement conçues pour la détection OOD, elles peuvent améliorer efficacement les performances de la détection OOD. Ce qui est encore plus surprenant, c'est que les améliorations apportées par l'augmentation des données et les améliorations apportées par les méthodes de post-traitement OOD spécifiques s'amplifient mutuellement.

Voici AugMix à titre d'exemple. Lorsqu'il est combiné avec le post-processeur MSP le plus simple, il atteint 77,49 % du taux de détection ImageNet-1K proche de l'OOD, ce qui est seulement inférieur à la perte d'entropie croisée sans amélioration des données (corss-). perte d'entropie) ) la formation a un taux de détection de 77,38%, soit 1,47% de plus.

Cependant, lorsque AugMix est combiné avec le post-processeur ASH plus avancé, le taux de détection correspondant est 3,99 % plus élevé que la ligne de base d'entropie croisée et atteint le plus haut dans nos tests de 82,16 %. De tels résultats montrent que la combinaison de l’amélioration des données et du post-traitement présente un grand potentiel pour améliorer encore les capacités de détection OOD à l’avenir.

Constatation 3 : La détection à spectre complet pose un défi pour les détecteurs actuels.

Il ressort clairement de la figure ci-dessus que lorsque la scène passe de la détection OOD standard à la détection OOD à spectre complet (c'est-à-dire que les images d'identification décalées par covariable sont ajoutées aux données d'identification de test), les performances de la plupart méthodes Toutes présentent une dégradation significative (baisse supérieure à 10 % du taux de détection).

Cela signifie que la méthode actuelle a tendance à étiqueter les images d'identification décalées par covariable dont la sémantique réelle n'a pas changé comme OOD.

Ce comportement est contraire à la perception humaine (et est également la cible de la détection OOD à spectre complet) : Supposons qu'un étiqueteur humain étiquete des photos de chats et de chiens, et à ce moment-là, il/elle voit un chat et un chat bruyants et flous. photos de chien, il doit toujours reconnaître qu'il s'agit d'un chat/chien et qu'il s'agit de données d'identification en distribution plutôt que de données OOD inconnues hors distribution.

En général, les méthodes actuelles ne peuvent pas résoudre efficacement la détection OOD à spectre complet, et nous pensons que ce sera un problème important dans le domaine à l'avenir.

De plus, de nombreux résultats ne sont pas répertoriés ici, tels que l'augmentation des données qui est toujours efficace pour la détection OOD à spectre complet, etc. Bienvenue à nouveau dans notre journal.

Outlook

Nous espérons que la base de code, les testeurs, les classements, les ensembles de données de référence et les résultats de tests détaillés d'OpenOOD pourront rassembler des chercheurs de tous horizons pour promouvoir le développement du domaine. J'attends avec impatience que tout le monde utilise OpenOOD pour développer et tester la détection OOD.

Nous acceptons également toute forme de contribution à OpenOOD, y compris, mais sans s'y limiter, la fourniture de commentaires, l'ajout des dernières méthodes à la base de code et aux classements d'OpenOOD, l'extension des futures versions d'OpenOOD, etc.

Référence : https://arxiv.org/abs/2306.09301

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer