Maison >Périphériques technologiques >IA >Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

WBOY
WBOYavant
2023-04-08 23:01:061813parcourir

Récemment, les résultats de divers concours CVPR2022 ont été annoncés. L'équipe de la plateforme d'IA de création intelligente de ByteDance "Byte-IC-AutoML" a remporté le défi de segmentation d'instance basé sur des données synthétiques (Accessibility Vision and Autonomy Challenge (ci-après dénommé AVA)). , s'appuyant sur le cadre de transformateurs parallèles pré-entraînés (PPT) auto-développé, s'est démarqué et est devenu le vainqueur de la seule piste du concours.

Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

Adresse papier:https://www.php.cn/link/ede529dfcbb2907e9760eea0875cdd12

Ce concours AVA est parrainé par l'Université de Boston. Organisé conjointement avec Université Carnegie Mellon.

Le concours génère un ensemble de données de segmentation d'instances synthétiques via un moteur de rendu contenant des échantillons de données de systèmes autonomes interagissant avec des piétons handicapés. L'objectif du concours est de fournir des benchmarks et des méthodes de détection d'objets et de segmentation d'instances pour les personnes et les objets liés à l'accessibilité.

Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

Visualisation des jeux de données


Analyse des difficultés de la concurrence

  1. Problème de généralisation des domaines : Les ensembles de données de ce concours sont tous des images, des domaines de données et des images naturelles synthétisées par des moteurs de rendu . Il existe des différences significatives ;
  2. Problème de longue traîne/peu d'échantillons : les données ont une distribution à longue traîne, par exemple, les catégories « Béquilles » et « Fauteuil roulant » sont moins nombreuses dans l'ensemble de données, et l'effet de segmentation est plus faible. pire ;
  3. Robustesse de la segmentation Problème : L'effet de segmentation de certaines catégories est très faible. Le mAP de segmentation d'instance est 30 inférieur au mAP de segmentation de détection de cible

Byte-IC-. L'équipe AutoML a proposé un cadre de transformateurs parallèles pré-entraînés (PPT) à compléter. Le cadre se compose principalement de trois modules : 1) Transformateurs pré-entraînés parallèles à grande échelle ; 2) Amélioration des données de copier-coller d'équilibre ; 3) Suppression non maximale au niveau des pixels et fusion de modèles ; formation TransformersVoyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

De nombreux articles récents de pré-formation ont montré que les modèles pré-entraînés sur des ensembles de données à grande échelle peuvent bien se généraliser à différents scénarios en aval. Par conséquent, l'équipe utilise les ensembles de données COCO et

BigDetection

pour pré-entraîner d'abord le modèle, ce qui peut atténuer davantage l'écart de champ entre les données naturelles et les données synthétiques, afin qu'il puisse utiliser moins de données dans les données synthétiques en aval. Scénarios de données. Exemples pour une formation rapide. Au niveau du modèle, considérant que les Vision Transformers n'ont pas le biais inductif de CNN et peuvent bénéficier des avantages de la pré-formation, l'équipe utilise

UniFormer

et CBNetV2. UniFormer unifie la convolution et l'attention personnelle, résout simultanément les deux problèmes majeurs de redondance locale et de dépendance globale et permet un apprentissage efficace des fonctionnalités. L'architecture CBNetV2 concatène plusieurs paquets de base identiques connectés de manière composite pour créer des détecteurs hautes performances. Les extracteurs de fonctionnalités de base du modèle sont tous Swin Transformer. Plusieurs transformateurs pré-entraînés à grande échelle sont disposés en parallèle, et les résultats de sortie sont intégrés et appris pour produire le résultat final. carte des différentes méthodes sur l'ensemble de données de validation

Augmentation des données par copier-coller d'équilibre Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

La technique de copier-coller fournit des résultats impressionnants pour les modèles de segmentation d'instance en collant aléatoirement des objets, en particulier pour un ensemble de données sous un distribution à longue traîne. Cependant, cette méthode augmente uniformément les échantillons de toutes les catégories et ne parvient pas à atténuer fondamentalement le problème de longue traîne de la répartition des catégories. Par conséquent, l’équipe a proposé la méthode d’amélioration des données Balance Copier-Coller. L'équilibre copier-coller échantillonne de manière adaptative les catégories en fonction du nombre effectif de catégories, améliore la qualité globale de l'échantillon, atténue les problèmes de petit nombre d'échantillons et de distribution à longue traîne, et améliore finalement considérablement le mAP du modèle dans la segmentation des instances.

Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

Améliorations apportées par la technologie d'amélioration des données Balance Copier-Coller

Suppression non maximale au niveau des pixels et fusion de modèles

Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

Expérience d'ablation par fusion de modèles sur l'ensemble de validation

Voyager sans obstacles est plus sûr ! Les résultats de la recherche de ByteDance ont remporté le championnat du concours CVPR2022 AVA

Expérience d'ablation par fusion de modèles sur l'ensemble de test

Actuellement, les ensembles de données urbaines et de circulation sont des scènes plus générales, ne contenant que les transports normaux et les piétons. L'ensemble de données manque d'informations sur les personnes handicapées et les personnes à mobilité réduite. catégories de leurs dispositifs auxiliaires, ces personnes et objets ne peuvent pas être détectés par le modèle de détection obtenu à partir des ensembles de données existants actuels.

Cette solution technique de l'équipe Byte-IC-AutoML de ByteDance est largement utilisée dans la conduite autonome actuelle et dans la compréhension des scènes de rue : le modèle obtenu grâce à ces données synthétiques peut identifier les « fauteuils roulants » et les « personnes en fauteuil roulant ». Les « personnes » et les « personnes avec des béquilles » peuvent non seulement classer les personnes/objets plus précisément, mais également éviter les erreurs d'appréciation qui conduisent à des malentendus sur la scène. De plus, grâce à cette méthode de synthèse des données, des données de catégories relativement rares dans le monde réel peuvent être construites, formant ainsi un modèle de détection de cible plus polyvalent et plus complet.

Intelligent Creation est l'institut de recherche en technologie d'innovation multimédia de ByteDance et un fournisseur de services complet. Couvrant la vision par ordinateur, le graphisme, la voix, la prise de vue et le montage, les effets spéciaux, les clients, les plateformes d'IA, l'ingénierie des serveurs et d'autres domaines techniques, une boucle fermée d'algorithmes-ingénierie-systèmes-produits de pointe a été mise en œuvre au sein du département, dans le but d'utiliser multiple De cette manière, nous fournissons aux secteurs d'activité internes de l'entreprise et aux clients coopératifs externes la compréhension du contenu, la création de contenu, l'expérience interactive, les capacités de consommation et les solutions industrielles les plus avancées du secteur. Les capacités techniques de l'équipe sont mises à la disposition du monde extérieur grâce au Volcano Engine.

Volcano Engine est une plate-forme de services cloud appartenant à ByteDance. Elle ouvre les méthodes de croissance, les capacités techniques et les outils accumulés lors du développement rapide de ByteDance à des sociétés externes, fournissant une base cloud, une distribution de vidéos et de contenu, du big data, des services tels que Comme l’intelligence artificielle, le développement, l’exploitation et la maintenance aident les entreprises à atteindre une croissance soutenue lors des mises à niveau numériques.



Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer