Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer
PHPznach vorne
2024-04-23 08:01:01855Durchsuche
Einführung
Wie in Abbildung 1 dargestellt, verwendet das bestehende dreistufige RGB-T-Einzelzielverfolgungsnetzwerk normalerweise zwei unabhängige Merkmalsextraktionszweige, die jeweils für die Extraktion der Merkmale der beiden Modalitäten verantwortlich sind. Allerdings führen voneinander unabhängige Merkmalsextraktionszweige zu einem Mangel an effektiver Informationsinteraktion zwischen den beiden Modalitäten in der Merkmalsextraktionsphase. Sobald das Netzwerk das Offline-Training abgeschlossen hat, kann es daher nur feste Merkmale aus jedem Modalbild extrahieren und kann sich nicht dynamisch an den tatsächlichen Modalzustand anpassen, um gezieltere dynamische Merkmale zu extrahieren. Diese Einschränkung schränkt die Fähigkeit des Netzwerks ein, sich an verschiedene bimodale Zielerscheinungen und die dynamische Entsprechung zwischen modalen Erscheinungen anzupassen. Wie in Abbildung 2 dargestellt, eignet sich diese Methode zur Merkmalsextraktion nicht für praktische Anwendungsszenarien der RGB-T-Einzelzielverfolgung, insbesondere in komplexen Umgebungen, da die Beliebigkeit des verfolgten Ziels zu unterschiedlichen bimodalen Erscheinungsformen des Ziels und der Dynamik führt Die Beziehung zwischen den beiden Modalitäten ändert sich auch, wenn sich die Tracking-Umgebung ändert. Die dreistufige Fusionsverfolgung kann sich dieser Situation nicht gut anpassen, was zu einem offensichtlichen Geschwindigkeitsengpass führt.
Mit Ausnahme des auf Transformer basierenden RGB-T-Einzelzielverfolgungsnetzwerks werden die Funktionen der beiden modalen Suchbereiche durch direkte Addition oder Kaskade kombiniert und der Vorhersagekopf eingegeben, um das endgültige Vorhersageergebnis auszugeben. Die vom aktuellen RGB-T-Einzelzielverfolgungsdatensatz bereitgestellten Videobilder sind jedoch nicht vollständig ausgerichtet, und nicht jeder modale Suchbereich kann effektive Informationen bereitstellen, wie z. B. der modale RGB-Suchbereich in dunklen Nacht- und heißen Cross-Tracking-Szenarien. Und der äußere Infrarot-Suchbereich wird keine effektiven Informationen über das Erscheinungsbild des Ziels liefern können, und es wird viel Hintergrundrauschen geben. Daher berücksichtigt die direkte Zusammenführung von Features durch elementweise Addition oder Kaskadierung nicht das Problem der Zusammenführung von Features in verschiedenen Suchbereichen.
Um dieses Problem zu lösen, schlägt dieses Papier eine neue Methode namens Fusion Feature Selection Module (FFSM) vor. Das FFSM-Modul wird hauptsächlich zur Auswahl von Suchbereichsmerkmalen mit Zielerscheinung und effektiven Informationen verwendet. Insbesondere lernt das FFSM-Modul zunächst über den Aufmerksamkeitsmechanismus das Gewicht jedes Suchbereichsmerkmals. Anschließend werden die Merkmale des Suchbereichs gewichtet und basierend auf diesen Gewichten summiert, um die endgültigen Fusionsmerkmale zu erhalten. Dieser Mechanismus kann ungültige Hintergrundgeräusche effektiv herausfiltern und wichtigere Informationen zum Erscheinungsbild des Ziels extrahieren, wodurch die Leistung der RGB-T-Einzelzielverfolgung verbessert wird.
Um die Wirksamkeit des FFSM-Moduls zu überprüfen, führten wir Experimente bei starkem Hintergrundrauschen durch. Experimentelle Ergebnisse zeigen, dass das RGB-T-Einzelzielverfolgungsnetzwerk unter Verwendung des FFSM-Moduls eine bessere Leistung bei der Zielverfolgung im Vergleich zur direkten elementweisen Addition oder Kaskade erzielt. In dunklen Nacht- und heißen Cross-Tracking-Szenarien kann das FFSM-Modul effektive Zielerscheinungsinformationen präzise auswählen und so die Genauigkeit und Robustheit der Zielverfolgung verbessern.
Kurz gesagt, die Einführung des FFSM-Moduls löst effektiv das Problem der direkten Merkmalsfusion und verbessert die Leistung des RGB-T-Einzelzielverfolgungsnetzwerks. Diese Methode kann häufig verwendet werden, wenn viel Hintergrundrauschen vorhanden ist Transformator. Sein Kern besteht darin, die drei Funktionsteile der dreistufigen Fusionsverfolgungsmethode direkt in einem ViT-Backbone-Netzwerk zur gleichzeitigen Ausführung durch gemeinsame Methoden zur Merkmalsextraktion, Fusion und Korrelationsmodellierung zu vereinen und so eine direkte Extraktion von Zielvorlagen und eine Suche unter modaler Interaktion zu erreichen. Die Fusionsmerkmale der Region und die Konstruktion der Assoziationsmodellierung zwischen den beiden Fusionsmerkmalen verbessern so die Verfolgungsgeschwindigkeit und -genauigkeit erheblich. Darüber hinaus hat USTrack auch einen Mechanismus zur Funktionsauswahl basierend auf der Modalzuverlässigkeit entwickelt, der die Interferenz ungültiger Modi reduzieren kann, indem die Erzeugung ungültiger Modi direkt unterdrückt wird, wodurch der Einfluss von Rauschinformationen auf die endgültigen Tracking-Ergebnisse verringert wird. Am Ende erzielte USTrack mit 84,2 Bildern pro Sekunde die höchste Geschwindigkeit bei der aktuellen RGB-T-Einzelzielverfolgung und reduzierte die Rauschinformationen erheblich, indem die Positionsabweichung des Ziels in den beiden Modalbildern minimiert und die Auswirkungen ungültiger Modalinformationen auf die Verfolgung abgeschwächt wurden Auswirkungen auf die endgültigen Prognoseergebnisse.
Das obige ist der detaillierte Inhalt vonEffiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!