Maison >Périphériques technologiques >IA >Méthode BAT : le premier adaptateur bidirectionnel universel de suivi de cible multimodal de l'AAAI 2024
Le suivi d'objets est l'une des tâches fondamentales de la vision par ordinateur. Ces dernières années, le suivi d'objets à modalité unique (RVB) a fait des progrès significatifs. Cependant, en raison des limites d'un seul capteur d'imagerie, nous devons introduire des images multimodales (telles que RVB, infrarouge, etc.) pour compenser cette lacune et permettre un suivi de cible par tous les temps dans des environnements complexes. L'application de telles images multimodales peut fournir des informations plus complètes et améliorer la précision et la robustesse de la détection et du suivi des cibles. Le développement du suivi de cible multimodal revêt une grande importance pour la réalisation d’applications de vision par ordinateur de plus haut niveau.
Cependant, les tâches de suivi multimodal existantes sont également confrontées à deux problèmes majeurs :
De nombreux efforts de suivi multimodal qui pré-entraînent sur des séquences RVB, puis affinent entièrement les scènes multimodales, présentent des problèmes de temps et d'efficacité, ainsi que des performances limitées.
En plus de la méthode de réglage fin complète, elle s'inspire également de méthodes efficaces de réglage fin des paramètres dans le domaine du traitement du langage naturel (NLP). Certaines méthodes récentes ont introduit un réglage rapide et efficace des paramètres dans le suivi multimodal. Pour ce faire, ces méthodes gèlent les paramètres du réseau fédérateur et ajoutent un ensemble supplémentaire de paramètres apprenables.
Habituellement, ces méthodes se concentrent sur une modalité (généralement RVB) comme modalité principale et l'autre modalité comme modalité auxiliaire. Cependant, cette méthode ignore la corrélation dynamique entre les données multimodales et ne peut donc pas utiliser pleinement les effets complémentaires des informations multimodales dans des scènes complexes, limitant ainsi les performances de suivi.
Photo 1 : Différents modes dominants dans des scénarios complexes.
Pour résoudre les problèmes ci-dessus, des chercheurs de l'Université de Tianjin ont proposé une solution appelée Adaptateur bidirectionnel pour le suivi multimodal (BAT). Différente des méthodes traditionnelles, la méthode BAT ne repose pas sur un mode dominant fixe et un mode auxiliaire, mais obtient de meilleures performances dans le changement de mode auxiliaire en mode dominant grâce au processus d'extraction dynamique des informations efficaces. L'innovation de cette méthode est qu'elle peut s'adapter à différentes caractéristiques des données et exigences des tâches, améliorant ainsi la capacité de représentation du modèle de base dans les tâches en aval. En utilisant la méthode BAT, les chercheurs espèrent fournir une solution de suivi multimodale plus flexible et plus efficace, apportant de meilleurs résultats à la recherche et aux applications dans des domaines connexes.
BAT se compose de deux encodeurs de modèle de base avec des paramètres partagés spécifiques aux branches modales et d'un adaptateur bidirectionnel général. Au cours du processus de formation, BAT n'a pas entièrement affiné le modèle de base, mais a adopté une méthode de formation étape par étape. Chaque branche de modalité spécifique est initialisée à l'aide du modèle de base avec des paramètres fixes, et seuls les adaptateurs bidirectionnels nouvellement ajoutés sont entraînés. Chaque branche modale apprend les informations de repère d'autres modalités et les combine avec les informations de caractéristiques de la modalité actuelle pour améliorer les capacités de représentation. Deux branches spécifiques à une modalité interagissent via un adaptateur bidirectionnel universel pour fusionner dynamiquement les informations dominantes et auxiliaires afin de s'adapter au paradigme de l'association multimodale non fixe. Cette conception permet à BAT d'affiner le contenu sans changer la signification du contenu original, améliorant ainsi la capacité de représentation et l'adaptabilité du modèle.
L'adaptateur bidirectionnel universel adopte une structure de sablier légère et peut être intégré dans chaque couche de l'encodeur de transformateur du modèle de base pour éviter d'introduire un grand nombre de paramètres apprenables. En ajoutant seulement un petit nombre de paramètres de formation (0,32 M), l'adaptateur bidirectionnel universel présente des coûts de formation inférieurs et permet d'obtenir de meilleures performances de suivi par rapport aux méthodes entièrement affinées et aux méthodes basées sur l'apprentissage des signaux.
Papier "Adaptateur bidirectionnel pour le suivi multimodal" :
Lien papier : https://arxiv.org/abs/2312.10611
Lien code : https://github .com/SparkTempest/BAT
Comme le montre la figure 2, nous proposons un cadre de repères visuels de suivi multimodal (BAT) basé sur un adaptateur bidirectionnel. Le cadre dispose d'un encodeur à double flux avec modalité RVB et infrarouge thermique. modalité. structure, chaque flux utilise les mêmes paramètres de modèle sous-jacents. L'adaptateur bidirectionnel est configuré en parallèle avec la couche d'encodeur à double flux pour croiser les données multimodales des deux modalités. La méthode
n'affine pas complètement le modèle de base, mais apprend uniquement un adaptateur bidirectionnel léger pour transférer efficacement le tracker RVB pré-entraîné vers des scènes multimodales, obtenant ainsi une excellente complémentarité multimodale et une excellente précision de suivi.
Figure 2 : Architecture globale de BAT.
Convertissez d'abord le cadre de modèle (le cadre initial de l'objet cible dans le premier cadre ) et le cadre de recherche (image de suivi ultérieure) de chaque modalité en , ils sont épissés ensemble et transmis respectivement au codeur de transformateur à double flux N-couche.
L'adaptateur bidirectionnel est configuré en parallèle avec la couche d'encodeur à double flux pour apprendre les caractéristiques d'une modalité à l'autre. À cette fin, les caractéristiques de sortie des deux branches sont ajoutées et entrées dans la tête de prédiction H pour obtenir la boîte de résultat de suivi final B.
L'adaptateur bidirectionnel adopte une conception modulaire et est intégré respectivement dans l'étape d'auto-attention multi-têtes et l'étape MLP. La structure détaillée de l'adaptateur bidirectionnel est illustrée sur le côté droit de la figure 1. est conçu pour transformer les repères de fonctionnalités d'un modèle à un autre état vers un autre mode. Il se compose de trois couches de projection linéaire, tn représente le nombre de jetons dans chaque modalité, le jeton d'entrée est d'abord réduit dimensionnellement à travers la projection vers le bas et passe à travers une couche de projection linéaire, puis projeté vers le haut jusqu'à la dimension d'origine dt et renvoyé en tant qu'invite de fonctionnalité, transformer les couches d'encodeur vers d'autres modalités.
Grâce à cette structure simple, l'adaptateur bidirectionnel peut exécuter efficacement des invites de fonctionnalités entre les modes pour obtenir un suivi multimodal.
Étant donné que l'encodeur du transformateur et la tête de prédiction sont gelés, seuls les paramètres de l'adaptateur nouvellement ajouté doivent être optimisés. Notamment, contrairement à la plupart des adaptateurs traditionnels, notre adaptateur bidirectionnel fonctionne comme un indicateur de fonctionnalité multimodale pour changer dynamiquement les modalités dominantes, garantissant ainsi de bonnes performances de suivi dans le monde ouvert.
Comme le montre le tableau 1, la comparaison des deux ensembles de données RGBT234 et LasHeR montre que notre méthode est meilleure que les méthodes de pointe en termes de précision et de taux de réussite. Comme le montre la figure 3, la comparaison des performances avec les méthodes de pointe sous différentes propriétés de scène de l'ensemble de données LasHeR démontre également la supériorité de la méthode proposée.
Ces expériences prouvent pleinement que notre cadre de suivi à double flux et notre adaptateur bidirectionnel peuvent suivre avec succès des cibles dans les environnements les plus complexes et extraire de manière adaptative des informations efficaces à partir de modes auxiliaires dominants changeants de manière dynamique pour obtenir les meilleurs résultats avancés.
Tableau 1 Performances globales sur les ensembles de données RGBT234 et LasHeR.
Figure 3 Comparaison des BAT et des méthodes concurrentes sous différents attributs dans l'ensemble de données LasHeR.
Les expériences prouvent notre efficacité à générer dynamiquement des informations efficaces provenant de l'évolution des modèles dominants-auxiliaires dans des scénarios complexes. Comme le montre la figure 4, par rapport aux méthodes associées qui corrigent le mode dominant, notre méthode peut suivre efficacement la cible même lorsque RVB est totalement indisponible, lorsque RVB et TIR peuvent fournir des informations efficaces dans les scènes suivantes, l'effet de suivi est bien meilleur. . Notre adaptateur bidirectionnel extrait dynamiquement les caractéristiques efficaces de la cible des modalités RVB et IR, capture des emplacements de réponse cible plus précis et élimine les interférences de la modalité RVB.
Figure 4 Visualisation des résultats du suivi.
Nous évaluons également notre méthode sur l'ensemble de données de suivi RGBE. Comme le montre la figure 5, comparée à d'autres méthodes de l'ensemble de tests VisEvent, notre méthode donne les résultats de suivi les plus précis dans différents scénarios complexes, prouvant l'efficacité et la généralisation de notre modèle BAT.
Figure 5 Résultats de suivi sous l'ensemble de données VisEvent.
Figure 6 Attention visualisation du poids.
Nous visualisons les poids d'attention des différentes couches de suivi des cibles dans la figure 6. Par rapport à la méthode de base-dual (cadre à double flux pour l'initialisation des paramètres de base du modèle), notre BAT pilote efficacement le mode auxiliaire pour apprendre davantage d'informations complémentaires du mode dominant, tout en maintenant l'efficacité du mode dominant à mesure que la profondeur du réseau augmente. performances, améliorant ainsi les performances globales de suivi.
Les expériences montrent que BAT capture avec succès des informations complémentaires multimodales et réalise un suivi dynamique adaptatif d'échantillons.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!