Maison >Périphériques technologiques >IA >Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer

PHPz
PHPzavant
2024-04-23 08:01:01861parcourir

Introduction

Comme le montre la figure 1, le réseau de suivi de cible unique RGB-T à trois étages existant utilise généralement deux branches d'extraction de caractéristiques indépendantes, qui sont respectivement responsables de l'extraction des caractéristiques des deux modalités. Cependant, les branches d’extraction de caractéristiques mutuellement indépendantes entraîneront un manque d’interaction d’informations efficace entre les deux modalités lors de l’étape d’extraction de caractéristiques. Par conséquent, une fois que le réseau a terminé la formation hors ligne, il ne peut extraire que des fonctionnalités fixes de chaque image modale et ne peut pas s'ajuster dynamiquement en fonction de l'état modal réel pour extraire des fonctionnalités dynamiques plus ciblées. Cette limitation restreint la capacité du réseau à s'adapter à diverses apparences bimodales cibles et à la correspondance dynamique entre les apparences modales. Comme le montre la figure 2, cette méthode d'extraction de caractéristiques n'est pas adaptée aux scénarios d'application pratiques du suivi de cible unique RVB-T, en particulier dans des environnements complexes, car le caractère arbitraire de la cible suivie conduira à diverses apparences bimodales de la cible, et la dynamique. La relation entre les deux modalités change également à mesure que l'environnement de suivi change. Le suivi de fusion en trois étapes ne peut pas bien s'adapter à cette situation, ce qui entraîne un goulot d'étranglement évident en termes de vitesse.

À l'exception du réseau de suivi de cible unique RGB-T basé sur Transformer, il utilise l'addition directe ou la cascade pour combiner les fonctionnalités des deux zones de recherche modales et saisir la tête de prédiction pour produire le résultat de prédiction final. Cependant, les images vidéo fournies par l'ensemble de données de suivi de cible unique RVB-T actuel ne sont pas complètement alignées, et toutes les zones de recherche modale ne peuvent pas fournir des informations efficaces, comme la zone de recherche modale RVB dans la nuit noire et les scénarios de suivi croisé chaud. Et la zone de recherche extérieure infrarouge ne sera pas en mesure de fournir des informations efficaces sur l'apparence de la cible, et il y aura beaucoup de bruit de fond. Par conséquent, la fusion de fonctionnalités directement par ajout ou cascade élément par élément ne prend pas en compte le problème de la fusion de fonctionnalités dans différentes zones de recherche. Pour résoudre ce problème, cet article propose une nouvelle méthode appelée Fusion Feature Selection Module (FFSM). Le module FFSM est principalement utilisé pour sélectionner les caractéristiques de la zone de recherche de l'apparence de la cible avec des informations efficaces. Plus précisément, le module FFSM apprend d'abord le poids de chaque fonctionnalité de zone de recherche via le mécanisme d'attention. Ensuite, les caractéristiques de la zone de recherche sont pondérées et additionnées en fonction de ces poids pour obtenir les caractéristiques de fusion finales. Ce mécanisme peut filtrer efficacement le bruit de fond non valide et extraire les informations sur l'apparence de la cible avec une plus grande importance, améliorant ainsi les performances de suivi d'une cible unique RVB-T. Afin de vérifier l'efficacité du module FFSM, nous avons mené des expériences en présence d'une grande quantité de bruit de fond. Les résultats expérimentaux montrent que le réseau de suivi de cible unique RGB-T utilisant le module FFSM atteint de meilleures performances en matière de suivi de cible par rapport à l'ajout direct par élément ou à la cascade. Dans les scénarios de nuit noire et de suivi croisé chaud, le module FFSM peut sélectionner avec précision les informations efficaces sur l'apparence de la cible, améliorant ainsi la précision et la robustesse du suivi de la cible. En bref, l'introduction du module FFSM résout efficacement le problème de la fusion directe des fonctionnalités et améliore les performances du réseau de suivi de cible unique RGB-T. Cette méthode peut être largement utilisée en présence d'une grande quantité de bruit de fond. Transformateur. Son cœur est d'unifier directement les trois parties fonctionnelles de la méthode de suivi de fusion en trois étapes dans un réseau fédérateur ViT pour une exécution simultanée grâce à des méthodes conjointes d'extraction de caractéristiques, de fusion et de modélisation de corrélation, réalisant ainsi une extraction directe de modèles cibles et une recherche sous interaction modale. Les caractéristiques de fusion de la région et construisent la modélisation d'association entre les deux caractéristiques de fusion, améliorant ainsi considérablement la vitesse et la précision du suivi. En outre, USTrack a également conçu un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale, qui peut réduire l'interférence des modes non valides en supprimant directement la génération de modes non valides, réduisant ainsi l'impact des informations de bruit sur les résultats de suivi finaux. En fin de compte, USTrack a créé la vitesse la plus rapide du suivi de cible unique RGB-T actuel à 84,2 FPS, et a considérablement réduit les informations de bruit en minimisant l'écart de position de la cible dans les deux images modales et en atténuant l'impact des informations modales non valides sur les résultats de suivi. impact sur les résultats finaux prévisionnels.

Les contributions de cet article sont les suivantes : Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Le réseau actuel de suivi de fusion en trois étapes a le problème du manque d'interaction modale dans l'étape d'extraction des caractéristiques modales. Ce chapitre propose une méthode conjointe d’extraction de caractéristiques, de fusion et de modélisation de corrélation. Cette méthode peut extraire directement les caractéristiques de fusion du modèle cible et de la zone de recherche sous l'interaction des modalités, et effectuer simultanément l'opération de modélisation de corrélation entre les deux caractéristiques de fusion. Pour la première fois, un paradigme de suivi de fusion en une seule étape efficace et concis est fourni pour la conception d'un réseau de suivi de cible unique RVB-T à court terme.

Ne changez pas le sens du texte original, ajustez la structure de la phrase, "%EF%BC%882%EF%BC%89 a d'abord proposé un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale, qui peut évaluer la fiabilité de différentes images modales en fonction sur les propriétés réelles de l'environnement de suivi et éliminez les fonctionnalités de fusion générées par des modalités non valides basées sur la fiabilité, réduisant ainsi l'impact des informations de bruit sur les résultats de prédiction finaux, améliorant ainsi encore les performances de suivi "

Cet article présente trois simples RGB-T grand public. données de référence de suivi de cible. Un grand nombre d'expériences sur le plateau montrent que cette méthode atteint non seulement de nouvelles performances SoTA, mais crée également la vitesse de suivi la plus rapide allant jusqu'à 84,2 FPS. Surtout sur l'ensemble de données de suivi à court terme et l'ensemble de données de suivi à long terme VTUAV, USTrack surpasse les meilleures méthodes existantes de 11,1 %/11,7 % et 11,3 %/9,7 % sur les métriques MPR/MSR.

Méthode

Comme le montre la figure 3, l'architecture globale d'USTrack se compose de trois parties : deux couches d'intégration, un réseau fédérateur ViT et un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale. Les doubles couches intégrées se composent de deux couches intégrées indépendantes. Cela tient compte du fait que le mécanisme d'attention obtient des informations globales basées sur la similarité et que les performances inhérentes des données modales différentes peuvent amener les deux modalités à avoir des représentations de caractéristiques différentes pour le même modèle. Si le modèle est directement cartographié par l'attention, cette hétérogénéité peut limiter. la capacité du réseau à modéliser les informations partagées sur l'état modal, affectant ainsi le processus ultérieur de fusion de fonctionnalités. Par conséquent, USTrack utilise deux couches d'intégration apprenables pour mapper les entrées correspondant à différentes modalités dans un espace propice à la fusion, pour aligner les deux modalités dans une certaine mesure et réduire l'impact des intrinsèques modaux sur la fusion de fonctionnalités. Ensuite, toutes les sorties de la double couche d'intégration sont utilisées conjointement comme entrée du réseau fédérateur ViT et sont directement transmises à travers la couche d'attention. Il fusionne les informations modales, la fusion de fonctionnalités et la fusion de modèles cibles grâce à l'attention, unifie les trois étapes fonctionnelles du suivi RVB-T et fournit un paradigme de suivi efficace en une seule étape pour le suivi RVB-T.

Le mécanisme de sélection des fonctionnalités basé sur la fiabilité des modèles est une tête de prédiction et deux modules d'évaluation de la fiabilité. Il permet aux deux têtes de prédiction de produire des résultats différents et, sur la base du score de fiabilité du modèle, aide le réseau à sélectionner la zone de recherche correspondant au modèle la plus adaptée au scénario de suivi actuel. Le mécanisme de sélection de caractéristiques peut être utilisé dans la prédiction finale pour réduire l'impact des informations de bruit générées par des modèles invalides sur le résultat de prédiction final.

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 3

Résultats expérimentaux

USTrack a sélectionné les ensembles de données GTOT, RGB234 et VTUAV comme références de test, et les résultats des tests sont présentés dans la figure 4. Nous avons également utilisé VTUAV comme référence pour analyser les performances d'USTrack dans différents scénarios de défi. Comme le montre la figure 5, cet article a éliminé les six attributs difficiles présentant les améliorations de performances les plus évidentes. Ce sont : la déformation (DEF), le changement d'échelle (SV), l'occlusion complète (FO), l'occlusion partielle (PO), le croisement thermique (TC) et l'éclairage extrême (EI). Plus précisément, les attributs de défi de déformation (DEF) et de changement d'échelle (SV) peuvent démontrer efficacement les différences d'apparence de la cible au cours du processus de suivi. Les attributs de défi d'occlusion complète (FO), d'occlusion partielle (PO), de croisement thermique (TC) et d'éclairage extrême (EI) peuvent provoquer le changement ou la disparition de l'apparence de l'état modal correspondant, démontrant efficacement la dynamique de la cible dans différents scénarios de défi. relation. USTrack a obtenu les améliorations de performances les plus significatives dans les scénarios de suivi avec ces attributs difficiles, et on peut évaluer que l'approche conjointe d'extraction, de fusion et de modélisation de caractéristiques peut atténuer efficacement le problème de l'interaction insuffisante des caractéristiques modales dans l'étape d'extraction dans les trois phases. Paradigme de suivi de fusion par étapes, il peut mieux s'adapter à la relation dynamique entre les différentes apparences et modalités de la cible pendant le suivi.

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 4
Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 5

Comme le montrent les figures 6 et , afin de vérifier l'efficacité du mécanisme de sélection de caractéristiques basé sur la fiabilité modale, nous avons élargi le modèle avec des expériences comparatives entre la double prédiction la structure de tête du mécanisme de sélection de caractéristiques et plusieurs structures de tête de prédiction communes sont réalisées, et les résultats visuels de la bonne correspondance entre la fiabilité modale et la scène de suivi réelle sont donnés.

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 6
Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 7

Résumé

Ce chapitre propose un réseau de suivi de cible unique RVB-T à court terme en une seule étape efficace basé sur Transformer. Le cœur d'USTrack est de proposer une méthode conjointe d'extraction, de fusion et de modélisation de corrélation pour résoudre le problème du manque d'interaction modale dans l'étape d'extraction de caractéristiques du réseau traditionnel de suivi de fusion en trois étapes. Cela améliore l'adaptabilité du réseau de suivi à diverses apparences bimodales cibles et la correspondance dynamique entre les apparences modales. Sur cette base, un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale est en outre proposé. Ce mécanisme réduit l'impact des informations de bruit sur le résultat final de la prédiction en éliminant directement les caractéristiques de fusion générées par les modes invalides, obtenant ainsi de meilleures performances de suivi. USTrack atteint les performances SoTA sur trois ensembles de données grand public et établit un nouveau record pour la vitesse d'inférence de suivi RVB-T la plus rapide à 84,2 FPS. Il convient de noter que sur le plus grand ensemble de données de référence de suivi de cible unique RGB-T, VTUAV, cette méthode augmente les indicateurs d'évaluation MPR/MSR de 11,1 %/11,7 % et 11,3 %/9,7 % respectivement par rapport à la méthode SoTA existante. a réalisé une avancée majeure en termes de performances, en ajoutant une nouvelle et puissante méthode de référence à cet ensemble de données de référence.

Informations sur l'auteur

1. Xia Qiangqiang

Étudiant à la maîtrise, Institut d'innovation scientifique et technologique de la défense nationale, Académie des sciences militaires. Les intérêts de recherche incluent le traitement d’images visuelles, la détection de cibles, le suivi de cibles uniques, etc. Le premier auteur a publié un article lors de la conférence CCF de classe A et a remporté le premier prix pour Huawei lors du quatrième concours d'innovation en intelligence artificielle pour diplômés chinois de la « Huawei Cup » 2022.

2. Zhao Jian

Zhao Jian, chef du Laboratoire d'apprentissage cognitif multimédia (EVOL Lab) de l'Institut de recherche sur l'intelligence artificielle de China Telecom, jeune scientifique, chercheur à l'Institut d'optoélectronique et d'intelligence de l'Université polytechnique du Nord-Ouest, et titulaire d'un doctorat de l'Université nationale de Singapour. Ses intérêts de recherche incluent l'analyse multimédia, la sécurité locale et le renseignement incorporé.

Au total, 32 articles du CCF-A ont été publiés sur la compréhension de la perception visuelle sans contrainte, et 31 articles ont été publiés en tant que premier auteur/auteur correspondant dans des revues et conférences internationales faisant autorité telles que T-PAMI et CVPR, dont un auteur T-PAMI× 2 (IF : 24,314), IJCV×3 (IF : 13,369), et le premier inventeur a autorisé 5 brevets d'invention nationaux. Des avancées technologiques pertinentes ont été appliquées par six entreprises leaders du secteur technologique, dont Baidu, Ant Financial et Qihoo 360, et ont produit des avantages significatifs. Il a été sélectionné dans le « Projet de promotion des jeunes talents » de l'Association chinoise pour la science et la technologie et de l'Association de Pékin pour la science et la technologie, et a accueilli 6 projets, dont le Fonds national pour les sciences naturelles de la jeunesse. A remporté le Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023), le premier prix du Wu Wenjun Artificial Intelligence Natural Science Award (2/5, 2022), le prix Lee Hwee Kuan de la Singapore Pattern Recognition and Machine Intelligence Association (PREMIA), et le seul meilleur étudiant de l'ACM Multimedia Paper Award (premier ouvrage, 1/208, conférence CCF-A, 2018), a remporté à 7 reprises le championnat d'événements scientifiques et technologiques internationaux importants.

A été directeur de la Beijing Image and Graphics Society, membre du comité de rédaction des revues de renommée internationale "Artificial Intelligence Advances" et "IET Computer Vision", rédacteur invité des numéros spéciaux de "Pattern Recognition Letters" et "Electronics ", président principal de terrain de VALSE et buteur de l'ACM Multimedia 2021. Président du forum, président de la zone CICAI 2022/2023, président du forum CCBR 2024, membre senior de la Société chinoise pour l'intelligence artificielle/Société chinoise de l'image et des graphiques, juge du " Challenge Cup "Concours de travaux scientifiques et technologiques pour étudiants universitaires, membre du comité d'experts du concours chinois d'intelligence artificielle, etc.

Page d'accueil : https://zhaoj9014.github.io

Capture d'écran du papier

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer

Lien papier

https://arxiv.org/abs/2308.13764

Code lien

https://github.com/xiajianqiang

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer