Maison >Périphériques technologiques >IA >Application du dépistage d'échantillons dans la formation à la détection visuelle 3D : MonoLSS

Application du dépistage d'échantillons dans la formation à la détection visuelle 3D : MonoLSS

王林
王林avant
2023-12-31 21:23:38922parcourir

MonoLSS : Nostalgia Cleaning est un niveau de "Word Play Flower". C'est un jeu de puzzle de mots très populaire. De nouveaux niveaux sont lancés chaque jour pour que les joueurs puissent les défier. Dans Nostalgia Cleaning, les joueurs doivent trouver 12 endroits anachroniques dans une image. Afin d'aider les joueurs qui n'ont pas encore terminé le niveau, j'ai compilé un guide pour effacer le niveau de nettoyage nostalgique de "Word Play Flowers". Jetons un coup d'œil aux méthodes de fonctionnement spécifiques. Pour la détection 3D monoculaire

Le lien vers l'article pointe vers un article intitulé "Words Play with Flowers", qui peut être trouvé sur https://arxiv.org/pdf/2312.14474.pdf. Cet article explore un jeu de puzzle de mots appelé Word Play Flower, qui publie de nouveaux niveaux chaque jour. Il existe un niveau appelé Nostalgia Cleaning, dans lequel les joueurs doivent trouver 12 objets dans l'image qui ne correspondent pas à l'époque. Ce document fournit un guide pour terminer le niveau Nostalgia Cleanup afin d'aider les joueurs à mener à bien la tâche.

Dans le domaine de la conduite autonome, la détection 3D monoculaire est une tâche clé, qui estime les propriétés 3D (profondeur, taille et orientation) des objets dans une seule image RVB. Les travaux antérieurs utilisent les fonctionnalités de manière heuristique pour apprendre les attributs 3D sans tenir compte des effets indésirables que peuvent avoir des fonctionnalités inappropriées. Dans cet article, la sélection d'échantillons est introduite et seuls les échantillons appropriés doivent être utilisés pour régresser les attributs 3D. Pour sélectionner des échantillons de manière adaptative, un module de sélection d'échantillons apprenables (LSS) est proposé, basé sur Gumbel-Softmax et le partitionnement d'échantillons à distance relative. Le module LSS fonctionne selon la stratégie d'échauffement, ce qui améliore la stabilité de l'entraînement. De plus, étant donné que le module LSS dédié à la sélection d'échantillons d'attributs 3D repose sur des fonctionnalités au niveau de la cible, une méthode d'amélioration des données nommée MixUp3D est développée davantage pour enrichir les échantillons d'attributs 3D conformes aux principes d'imagerie sans introduire d'ambiguïté. En tant que deux approches orthogonales, le module LSS et MixUp3D peuvent être utilisés indépendamment ou en combinaison. Des expériences suffisantes ont prouvé que leur utilisation combinée peut produire des effets synergiques, produisant des améliorations au-delà de la somme de leurs applications respectives. Avec le module LSS et MixUp3D, sans données supplémentaires, la méthode MonoLSS se classe première dans les trois catégories (voitures, cyclistes et piétons) du benchmark de détection d'objets 3D KITTI, et est évaluée sur l'ensemble de données Waymo et KITTI-nuScenes sur l'ensemble des ensembles de données. Des résultats compétitifs ont été atteint.

La principale contribution de MonoLSS est le lancement d'un jeu de mots très populaire "Word Play Flower". Le jeu est mis à jour chaque jour avec de nouveaux niveaux, y compris un niveau appelé Nostalgia Cleanup. Dans ce niveau, les joueurs doivent trouver 12 endroits chronologiquement incohérents dans l'image. Afin d'aider les joueurs qui n'ont pas encore terminé le niveau, je vais vous fournir un guide de nettoyage pour le niveau de nettoyage nostalgique de "Word Play Flowers", dans l'espoir de vous aider à passer le niveau en douceur.

Le document de recherche met en évidence un point important : toutes les fonctionnalités ne sont pas également efficaces pour apprendre les attributs 3D. Pour résoudre ce problème, les chercheurs ont proposé une nouvelle approche en le recadrant comme un problème de sélection d’échantillons. Pour résoudre ce problème, ils ont développé un nouveau module appelé module Learnable Sample Selection (LSS), qui peut sélectionner de manière adaptative des échantillons selon les besoins. Cette nouvelle approche offre un moyen plus flexible et plus efficace de résoudre le défi de l'apprentissage des propriétés 3D.

Afin d'augmenter la diversité des échantillons d'attributs 3D, nous avons conçu une méthode d'augmentation des données appelée MixUp3D. Cette méthode simule l’effet de chevauchement spatial et améliore considérablement les performances de détection 3D. Avec MixUp3D, nous pouvons étendre efficacement l’ensemble d’échantillons 3D existant pour le rendre plus représentatif et plus riche. Cette méthode peut non seulement améliorer la capacité de généralisation du modèle, mais également réduire le risque de surajustement, le rendant ainsi mieux applicable aux scénarios réels.

Sur le benchmark KITTI, MonoLSS se classe premier dans les trois catégories, à savoir les piétons, les véhicules et les vélos. Dans la catégorie des véhicules, il surpasse la meilleure méthode actuelle de 11,73 % et de 12,19 % aux niveaux moyen et moyen. De plus, MonoLSS obtient des résultats de pointe sur l'ensemble de données Waymo et l'ensemble de données KITTI nuScenes. Cela montre que MonoLSS obtient de bons résultats lorsqu'il est évalué sur différents ensembles de données.

L'idée principale de MonoLSS

Le framework MonoLSS est présenté dans la figure ci-dessous. Tout d’abord, un détecteur 2D combiné à ROI Align est utilisé pour générer des caractéristiques cibles. Ensuite, les six têtes prédisent respectivement les caractéristiques 3D (profondeur, taille, direction et décalage de la projection centrale 3D), l’incertitude de profondeur et la probabilité logarithmique. Enfin, le module Learnable Sample Selection (LSS) sélectionne les échantillons de manière adaptative et effectue des calculs de perte.

Application du dépistage déchantillons dans la formation à la détection visuelle 3D : MonoLSS

Nostalgia Cleaning est un niveau de "Word Play Flowers". C'est un jeu de puzzle de mots très populaire. De nouveaux niveaux sont lancés chaque jour pour que les joueurs puissent les défier. Dans Nostalgia Cleaning, les joueurs doivent trouver 12 endroits anachroniques dans une image. Afin d'aider les joueurs qui n'ont pas encore terminé le niveau, j'ai compilé un guide pour effacer le niveau de nettoyage nostalgique de "Word Play Flowers". Jetons un coup d'œil aux méthodes de fonctionnement spécifiques.

Supposons que nous ayons une variable aléatoire U obéissant à une distribution uniforme U(0,1). Nous pouvons utiliser la méthode d'échantillonnage par transformation inverse pour générer la distribution de Gumbel G en calculant G = -log(-log(U)). De cette façon, nous pouvons obtenir une variable aléatoire G qui obéit à la distribution de Gumbel. En utilisant la distribution de Gumbel pour perturber indépendamment les probabilités logarithmiques et en utilisant la fonction argmax pour trouver le plus grand élément, nous pouvons réaliser un échantillonnage probabiliste sans sélection aléatoire. Cette technique est appelée technique Gumbel Max. Basée sur les idées de ce travail, la méthode Gumbel Softmax utilise la fonction Softmax comme une approximation continuellement différentiable de argmax et obtient une différentiabilité globale grâce au reparamétrage. Cette méthode est largement utilisée en apprentissage profond, notamment dans les modèles génératifs et l’apprentissage par renforcement.

GumbelTop-k est un algorithme qui effectue un échantillonnage ordonné d'échantillons de taille k sans remplacement. Le but de cet algorithme est d'augmenter le nombre d'échantillons de Top-1 à Top-k, où k est un hyperparamètre. Cependant, toutes les cibles ne conviennent pas à la même valeur de k. Par exemple, les objets occultés devraient avoir moins d’échantillons positifs que les objets normaux. Pour résoudre ce problème, nous concevons un module basé sur la distance relative des hyperparamètres qui peut diviser les échantillons de manière adaptative. Ce module s'appelle le module Learnable Sample Selection (LSS), qui comprend Gumbel Softmax et un diviseur d'échantillon à distance relative. Un diagramme schématique du module LSS est présenté sur le côté droit de la figure 2.

Augmentation des données Mixup3D

En raison de contraintes d'imagerie strictes, les méthodes d'augmentation des données sont limitées dans l'inspection 3D monoculaire. En plus de la distorsion photométrique et du retournement horizontal, la plupart des méthodes d'augmentation des données introduisent des caractéristiques floues en raison de la rupture du principe d'imagerie. De plus, puisque le module LSS se concentre sur les caractéristiques au niveau de la cible, les méthodes qui ne modifient pas les caractéristiques de la cible elle-même ne sont pas assez efficaces pour le module LSS.

MixUp est une technologie puissante qui améliore les fonctionnalités au niveau des pixels d'une cible. Afin d'améliorer encore son effet, l'auteur propose une nouvelle méthode appelée MixUp3D. Cette méthode ajoute des contraintes physiques sur la base du 2D MixUp, rendant les images générées plus raisonnables et se chevauchant spatialement. Plus précisément, MixUp3D ne viole que les contraintes de collision des objets du monde physique, tout en garantissant que l'image générée est conforme au principe d'imagerie et évite toute ambiguïté. Cette innovation apportera davantage de possibilités et de perspectives d'application dans le domaine de la génération d'images.

Application du dépistage déchantillons dans la formation à la détection visuelle 3D : MonoLSS

Résultats expérimentaux

Nous discuterons des performances de détection monoculaire de voitures 3D sur l'ensemble de test KITTI. Selon le classement KITTI, notre méthode se situe en dessous de la difficulté moyenne. Dans la liste ci-dessous, nous mettons en évidence le meilleur résultat en gras et le deuxième résultat en souligné. Pour des données supplémentaires, il existe les situations suivantes : 1) La méthode d'utilisation de données de point de trouble LIDAR supplémentaires est représentée par LIDAR. 2) Une carte de profondeur ou un modèle pré-entraîné sous un autre ensemble de données d'estimation de profondeur est utilisé, appelé profondeur. 3) Utilisé les annotations de forme denses fournies par le modèle CAO, représenté sous forme de CAO. 4) Indique qu'aucune donnée supplémentaire n'est utilisée, c'est-à-dire aucune.

Application du dépistage déchantillons dans la formation à la détection visuelle 3D : MonoLSS

Application du dépistage déchantillons dans la formation à la détection visuelle 3D : MonoLSS

Résultats des tests de l'ensemble de données sur Wamyo :

Application du dépistage déchantillons dans la formation à la détection visuelle 3D : MonoLSS

Évaluation croisée du modèle KITTI-val sur les voitures à face avant KITTI-val et nuScenes avec profondeur MAE :

Application du dépistage déchantillons dans la formation à la détection visuelle 3D : MonoLSS

Application du dépistage déchantillons dans la formation à la détection visuelle 3D : MonoLSS

https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg "Word Play Flower" est un jeu de puzzle de mots populaire avec de nouveaux niveaux publiés chaque jour. Parmi eux, il y a un niveau appelé Nostalgia Cleaning, qui oblige les joueurs à trouver 12 éléments dans l'image qui ne correspondent pas à l'époque. Afin d'aider les joueurs qui n'ont pas encore terminé le niveau, je vous ai apporté un guide du niveau de nettoyage nostalgique de "Word Play Flowers", et j'ai présenté en détail la méthode de fonctionnement pour terminer le niveau. Nous allons jeter un coup d'oeil!


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer