Maison > Article > Périphériques technologiques > Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA
Récemment, les résultats de divers concours CVPR2022 ont été annoncés. L'équipe de la plateforme d'IA de création intelligente de ByteDance "Byte-IC-AutoML" a remporté le défi de segmentation d'instance basé sur des données synthétiques (Accessibility Vision and Autonomy Challenge (ci-après dénommé AVA)). , s'appuyant sur le cadre de transformateurs parallèles pré-entraînés (PPT) auto-développé, s'est démarqué et est devenu le vainqueur de la seule piste du concours.
Adresse papier:https://www.php.cn/link/ede529dfcbb2907e9760eea0875cdd12
Ce concours AVA est parrainé par l'Université de Boston. Organisé conjointement avec Université Carnegie Mellon.
Le concours génère un ensemble de données de segmentation d'instances synthétiques via un moteur de rendu contenant des échantillons de données de systèmes autonomes interagissant avec des piétons handicapés. L'objectif du concours est de fournir des benchmarks et des méthodes de détection d'objets et de segmentation d'instances pour les personnes et les objets liés à l'accessibilité.
Visualisation des jeux de données
Byte-IC-. L'équipe AutoML a proposé un cadre de transformateurs parallèles pré-entraînés (PPT) à compléter. Le cadre se compose principalement de trois modules : 1) Transformateurs pré-entraînés parallèles à grande échelle ; 2) Amélioration des données de copier-coller d'équilibre ; 3) Suppression non maximale au niveau des pixels et fusion de modèles ; formation Transformers
De nombreux articles récents de pré-formation ont montré que les modèles pré-entraînés sur des ensembles de données à grande échelle peuvent bien se généraliser à différents scénarios en aval. Par conséquent, l'équipe utilise les ensembles de données COCO et
BigDetectionet CBNetV2. UniFormer unifie la convolution et l'attention personnelle, résout simultanément les deux problèmes majeurs de redondance locale et de dépendance globale et permet un apprentissage efficace des fonctionnalités. L'architecture CBNetV2 concatène plusieurs paquets de base identiques connectés de manière composite pour créer des détecteurs hautes performances. Les extracteurs de fonctionnalités de base du modèle sont tous Swin Transformer. Plusieurs transformateurs pré-entraînés à grande échelle sont disposés en parallèle, et les résultats de sortie sont intégrés et appris pour produire le résultat final. carte des différentes méthodes sur l'ensemble de données de validation
Augmentation des données par copier-coller d'équilibre
La technique de copier-coller fournit des résultats impressionnants pour les modèles de segmentation d'instance en collant aléatoirement des objets, en particulier pour un ensemble de données sous un distribution à longue traîne. Cependant, cette méthode augmente uniformément les échantillons de toutes les catégories et ne parvient pas à atténuer fondamentalement le problème de longue traîne de la répartition des catégories. Par conséquent, l’équipe a proposé la méthode d’amélioration des données Balance Copier-Coller. L'équilibre copier-coller échantillonne de manière adaptative les catégories en fonction du nombre effectif de catégories, améliore la qualité globale de l'échantillon, atténue les problèmes de petit nombre d'échantillons et de distribution à longue traîne, et améliore finalement considérablement le mAP du modèle dans la segmentation des instances.
Améliorations apportées par la technologie d'amélioration des données Balance Copier-Coller
Expérience d'ablation par fusion de modèles sur l'ensemble de validation
Expérience d'ablation par fusion de modèles sur l'ensemble de test
Actuellement, les ensembles de données urbaines et de circulation sont des scènes plus générales, ne contenant que les transports normaux et les piétons. L'ensemble de données manque d'informations sur les personnes handicapées et les personnes à mobilité réduite. catégories de leurs dispositifs auxiliaires, ces personnes et objets ne peuvent pas être détectés par le modèle de détection obtenu à partir des ensembles de données existants actuels.
Cette solution technique de l'équipe Byte-IC-AutoML de ByteDance est largement utilisée dans la conduite autonome actuelle et dans la compréhension des scènes de rue : le modèle obtenu grâce à ces données synthétiques peut identifier les « fauteuils roulants » et les « personnes en fauteuil roulant ». Les « personnes » et les « personnes avec des béquilles » peuvent non seulement classer les personnes/objets plus précisément, mais également éviter les erreurs d'appréciation qui conduisent à des malentendus sur la scène. De plus, grâce à cette méthode de synthèse des données, des données de catégories relativement rares dans le monde réel peuvent être construites, formant ainsi un modèle de détection de cible plus polyvalent et plus complet.
Intelligent Creation est l'institut de recherche en technologie d'innovation multimédia de ByteDance et un fournisseur de services complet. Couvrant la vision par ordinateur, le graphisme, la voix, la prise de vue et le montage, les effets spéciaux, les clients, les plateformes d'IA, l'ingénierie des serveurs et d'autres domaines techniques, une boucle fermée d'algorithmes-ingénierie-systèmes-produits de pointe a été mise en œuvre au sein du département, dans le but d'utiliser multiple De cette manière, nous fournissons aux secteurs d'activité internes de l'entreprise et aux clients coopératifs externes la compréhension du contenu, la création de contenu, l'expérience interactive, les capacités de consommation et les solutions industrielles les plus avancées du secteur. Les capacités techniques de l'équipe sont mises à la disposition du monde extérieur grâce au Volcano Engine.
Volcano Engine est une plate-forme de services cloud appartenant à ByteDance. Elle ouvre les méthodes de croissance, les capacités techniques et les outils accumulés lors du développement rapide de ByteDance à des sociétés externes, fournissant une base cloud, une distribution de vidéos et de contenu, du big data, des services tels que Comme l’intelligence artificielle, le développement, l’exploitation et la maintenance aident les entreprises à atteindre une croissance soutenue lors des mises à niveau numériques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!