Maison >Périphériques technologiques >IA >Comment définir correctement la formation en phase de test ? Méthodes d'inférence séquentielle et de clustering adaptatif au domaine

Comment définir correctement la formation en phase de test ? Méthodes d'inférence séquentielle et de clustering adaptatif au domaine

WBOYavant: 2023-04-11 09:11:021498parcourir

L'adaptation de domaine est une méthode importante pour résoudre l'apprentissage par transfert. Les méthodes actuelles d'adaptation de domaine reposent sur les données du domaine d'origine et du domaine cible pour la formation synchrone. Lorsque les données du domaine source ne sont pas disponibles et que les données du domaine cible ne sont pas complètement visibles, la formation au moment du test devient une nouvelle méthode d'adaptation de domaine. Les recherches actuelles sur la formation au temps de test (TTT) utilisent largement l'apprentissage auto-supervisé, l'apprentissage contrasté, l'auto-formation et d'autres méthodes. Cependant, la manière de définir la TTT dans des environnements réels est souvent ignorée, ce qui entraîne un manque de comparabilité entre les différentes méthodes.

Récemment, l'Université de Technologie de Chine du Sud, l'équipe A*STAR et le Laboratoire Pengcheng ont proposé conjointement un critère de classification systématique des problèmes TTT, en distinguant si la méthode a des capacités d'inférence séquentielle (Sequential Inference) et si la cible de formation du domaine source doit être modifié, fournit une classification détaillée des méthodes actuelles. Dans le même temps, une méthode basée sur le regroupement ancré des données du domaine cible est proposée, qui permet d'obtenir la plus grande précision de classification sous diverses classifications TTT. Cet article indique la bonne direction pour les recherches ultérieures sur le TTT et évite toute confusion dans les paramètres expérimentaux. ne sont pas comparables. Le document de recherche a été accepté pour NeurIPS 2022.

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

Papier : https://arxiv.org/abs/2206.02721
Code : https://github.com/Gorilla-Lab-SCUT/TTAC

1. Introduction

Le succès de l'apprentissage profond est principalement dû à la grande quantité de données étiquetées et à l'hypothèse selon laquelle l'ensemble d'entraînement et l'ensemble de test sont indépendants et distribués de manière identique. En général, lorsqu'il est nécessaire de s'entraîner sur des données synthétiques puis de tester sur des données réelles, les hypothèses ci-dessus ne peuvent pas être satisfaites, ce que l'on appelle également un changement de domaine. Pour atténuer ce problème, Domain Adaptation (DA) est née. Les tâches DA existantes nécessitent soit un accès aux données des domaines source et cible pendant la formation, soit une formation sur plusieurs domaines simultanément. Le premier nécessite que le modèle ait toujours accès aux données du domaine source pendant la formation à l'adaptation, tandis que le second nécessite des calculs plus coûteux. Afin de réduire la dépendance à l'égard des données du domaine source, les données du domaine source ne sont pas accessibles en raison de problèmes de confidentialité ou de surcharge de stockage. L'adaptation de domaine sans source (SFDA) sans données de domaine source résout le problème d'adaptation de domaine des données de domaine source inaccessibles. L'auteur a découvert que SFDA doit être formé sur l'ensemble des données cibles pendant plusieurs cycles pour parvenir à la convergence. SFDA ne peut pas résoudre de tels problèmes lorsqu'il est confronté à des données en streaming et à des prédictions d'inférence en temps opportun. Ce paramètre plus réaliste qui nécessite une adaptation rapide au streaming de données et à la réalisation de prédictions d'inférence est appelé Test-Time Training (TTT) ou Test-Time Adaptation (TTA).

L'auteur a remarqué qu'il existe une confusion dans la communauté sur la définition du TTT, ce qui conduit à une comparaison injuste. L'article classe les méthodes TTT existantes en fonction de deux facteurs clés :

Pour les données qui apparaissent en continu et qui doivent faire des prédictions en temps opportun sur les données qui apparaissent actuellement, on parle de protocole d'adaptation en un seul tour (One-Pass). Adaptation) ; pour les autres protocoles qui ne répondent pas aux paramètres ci-dessus, appelés Adaptation Multi-Pass, le modèle devra peut-être être mis à jour pendant plusieurs tours sur l'ensemble de l'ensemble de test avant de faire des prédictions d'inférence du début à la fin.
Modifiez l'équation de perte de formation du domaine source selon que cela est nécessaire, par exemple en introduisant des branches auto-supervisées supplémentaires pour obtenir un TTT plus efficace.

L'objectif de cet article est de résoudre le protocole TTT le plus réaliste et le plus difficile, c'est-à-dire une adaptation en un seul tour sans modifier l'équation de perte d'entraînement. Ce paramètre est similaire au TTA proposé par TENT [1], mais ne se limite pas à l'utilisation d'informations légères du domaine source, telles que les statistiques des fonctionnalités. Étant donné l’objectif de TTT de s’adapter efficacement au moment du test, cette hypothèse est efficace sur le plan informatique et améliore considérablement les performances de TTT. Les auteurs ont nommé ce nouveau protocole TTT Séquentiel Test Time Training (sTTT).

En plus de la classification ci-dessus des différentes méthodes TTT, l'article propose également deux technologies pour rendre le sTTT plus efficace et précis :

L'article propose la méthode Test-Time Anchored Clustering (TTAC).
Afin de réduire l'impact des pseudo-étiquettes erronées sur les mises à jour des clusters, le document filtre les pseudo-étiquettes en fonction de la stabilité des prédictions du réseau et de la confiance dans l'échantillon.

2. Introduction à la méthode

Le document est divisé en quatre parties pour expliquer la méthode proposée, qui sont 1) l'introduction du module de clustering ancré de la formation au temps de test (TTT), comme indiqué dans la partie Clustering ancré dans Figure 1 ; 2) Présenter quelques stratégies de filtrage des pseudo-étiquettes, telles que la partie Pseudo Label Filter de la Figure 1 ; 3) Différent de l'utilisation de la distance L2 pour mesurer la distance entre deux distributions dans TTT++ [2], l'auteur utilise la divergence KL pour mesurer la distance entre deux distributions. Mesurer la distance entre deux distributions globales de fonctionnalités ; 4) Introduire une méthode itérative efficace pour mettre à jour les statistiques de fonctionnalités dans le processus de formation au temps de test (TTT). Enfin, la cinquième section donne le code du processus de l'ensemble de l'algorithme.

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

Partie 1 Dans le clustering ancré, l'auteur utilise d'abord un mélange de gaussiennes pour modéliser les caractéristiques du domaine cible, où chaque composante gaussienne représente un cluster découvert. Les auteurs utilisent ensuite la distribution de chaque catégorie dans le domaine source comme points d'ancrage pour la distribution dans le domaine cible pour la mise en correspondance. De cette manière, les fonctionnalités des données de test peuvent former des clusters en même temps, et les clusters sont associés à des catégories de domaine source, réalisant ainsi une généralisation au domaine cible. Pour résumer, les caractéristiques du domaine source et du domaine cible sont modélisées respectivement en fonction des informations de catégorie :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

Ensuite, la distance entre deux distributions gaussiennes mixtes est mesurée par la divergence KL et obtenue en réduisant la divergence KL. de deux fonctionnalités de domaine. Cependant, il n’existe pas de solution fermée pour résoudre directement la divergence KL sur deux distributions gaussiennes mixtes, ce qui rend impossible l’utilisation de méthodes efficaces d’optimisation de gradient. Dans cet article, l'auteur alloue le même nombre de clusters dans les domaines source et cible, et chaque cluster de domaine cible est attribué à un cluster de domaine source, de sorte que la solution de divergence KL de l'ensemble de la Gaussienne mixte puisse être transformée en chaque paire Somme des divergences KL entre gaussiennes. La formule est la suivante :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

La solution sous forme fermée de la formule ci-dessus est :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

Dans la formule 2, les paramètres du cluster de domaine source peuvent être collectés hors ligne, et parce que seuls des éléments légers Les statistiques sont des données utilisées, elles ne provoquent donc pas de problèmes de fuite de confidentialité et n'utilisent qu'une petite quantité de surcharge de calcul et de stockage. Pour les variables du domaine cible, l'utilisation de pseudo-étiquettes est impliquée. Pour cela, l'auteur a conçu une stratégie de filtrage de pseudo-étiquettes efficace et légère.

La deuxième partie de la stratégie de filtrage des pseudo-étiquettes est principalement divisée en deux parties :

1) Filtrage pour une prédiction cohérente dans les séries temporelles :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

2) Filtrage basé sur la probabilité a posteriori :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

Enfin, utilisez les échantillons filtrés pour résoudre les statistiques du cluster de domaine cible :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

Partie 3 Car dans le clustering ancré, certains échantillons filtrés ne participent pas à l'estimation du domaine cible. L'auteur effectue également un alignement global des fonctionnalités sur tous les échantillons de test, similaire à l'approche des clusters dans le clustering ancré. Ici, tous les échantillons sont considérés comme un cluster global, défini respectivement dans le domaine source et le domaine cible

Comment définir correctement la formation en phase de test ? Méthodes d'inférence séquentielle et de clustering adaptatif au domaine

puis. encore une fois Alignez la distribution globale des fonctionnalités dans le but de minimiser la divergence KL :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

La partie 4 et les trois parties ci-dessus introduisent toutes des méthodes d'alignement de domaine, mais dans le processus TTT, vous souhaitez estimer la distribution d'une cible Le domaine n'est pas simple car nous ne pouvons pas observer les données de l'ensemble du domaine cible. Dans un travail de pointe, TTT++ [2] utilise une file d'attente de fonctionnalités pour stocker des échantillons partiels passés afin de calculer une distribution locale afin d'estimer la distribution globale. Mais cela entraîne non seulement une surcharge de mémoire, mais conduit également à un compromis entre précision et mémoire. Dans cet article, l'auteur propose une mise à jour itérative des statistiques pour réduire la surcharge de mémoire. La formule de mise à jour itérative spécifique est la suivante :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

En général, l'ensemble de l'algorithme est présenté comme suit. Algorithme 1 :

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

3. Résultats expérimentaux

Comme mentionné dans l'introduction, cet article L'auteur accorde une grande attention à la comparaison équitable des différentes méthodes selon différentes stratégies TTT. L'auteur classe toutes les méthodes TTT selon les deux facteurs clés suivants : 1) s'il s'agit d'un protocole d'adaptation en un seul passage (One-Pass Adaptation) et 2) la modification de l'équation de perte d'apprentissage du domaine source, respectivement enregistrée comme O/N pour indiquer le besoin ou non de modifier l'équation de formation du domaine source, O/M représente une adaptation en un seul tour ou une adaptation en plusieurs tours. En outre, l'auteur a mené suffisamment d'expériences comparatives et des analyses plus approfondies sur 6 ensembles de données de référence.

Comme le montre le tableau 1, TTT++[2] apparaît sous les protocoles N-O et Y-O car TTT++[2] a une branche auto-supervisée supplémentaire. Nous n'ajouterons pas de branche auto-supervisée sous la perte de protocole N-O. alors que la perte de cette molécule peut être utilisée normalement sous Y-O. TTAC utilise également la même branche auto-supervisée que TTT++[2] sous YO. Comme le montre le tableau, TTAC a obtenu des résultats optimaux sous tous les protocoles TTT et tous les ensembles de données ; sur les ensembles de données CIFAR10-C et CIFAR100-C, TTAC a obtenu une amélioration de plus de 3 %. Tableau 2 - Le tableau 5 montre que les données sur ImageNet-C, CIFAR10.1 et VisDA ont respectivement obtenu les meilleurs résultats.

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

De plus, l'auteur a mené des expériences d'ablation rigoureuses sous plusieurs protocoles TTT en même temps et a clairement vu le rôle de chaque composant, comme le montre le tableau 6. Tout d'abord, à partir de la comparaison entre L2 Dist et KLD, on peut voir que l'utilisation de la divergence KL pour mesurer les deux distributions a un meilleur effet. Deuxièmement, on constate que si le clustering ancré ou la supervision de pseudo-étiquettes est utilisé seul, le L'amélioration n'est que de 14 %, mais si elle est combinée avec le cluster ancré et le filtre de pseudo-étiquette, vous pouvez constater une amélioration significative des performances de 29,15 % -> 11,33 %. Cela montre également la nécessité et la combinaison efficace de chaque composant.

Comment définir correctement la formation en phase de test ? Méthodes dinférence séquentielle et de clustering adaptatif au domaine

Enfin, l'auteur analyse entièrement le TTAC à partir de cinq dimensions à la fin du texte, y compris les performances cumulées sous sTTT (N-O), la visualisation TSNE des fonctionnalités TTAC, l'analyse TTT indépendante du domaine source et l'analyse des échantillons de test. files d'attente et cycles de mise à jour, surcharge de calcul mesurée en temps d'horloge murale. Il existe des preuves et des analyses plus intéressantes présentées en annexe de l'article.

IV.Résumé

Cet article ne présente que brièvement les points de contribution de ce travail du TTAC : comparaison de classification des méthodes TTT existantes, des méthodes proposées et des expériences sous chaque classification de protocole TTT. Il y aura une discussion et une analyse plus détaillées dans le document et en annexe. Nous espérons que ce travail fournira une référence équitable pour les méthodes TTT et que les futures études pourront comparer leurs protocoles respectifs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Filter github 算法 https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：OpenAI a annoncé que ChatGPT prend en charge les plug-ins tiers, ce qui n'est pas aussi simple qu'une recherche en ligneArticle suivant：OpenAI a annoncé que ChatGPT prend en charge les plug-ins tiers, ce qui n'est pas aussi simple qu'une recherche en ligne

Articles Liés

Voir plus