


Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout
La construction de cartes vectorisées haute définition (HD) nécessite de prédire les catégories et les coordonnées des points des éléments de la carte (tels que les limites des routes, les séparateurs de voies, les passages pour piétons, etc.). Les méthodes de pointe sont principalement basées sur l’apprentissage de représentations au niveau des points pour régresser des coordonnées de points précises. Cependant, ce pipeline présente des limites dans l'obtention d'informations au niveau des éléments et dans la gestion des défaillances au niveau des éléments, telles que des formes d'éléments incorrectes ou des enchevêtrements entre les éléments. Afin de résoudre les problèmes ci-dessus, cet article propose un cadre HybrId simple et efficace, nommé HIMap, pour apprendre et interagir pleinement avec les informations au niveau des points et des éléments.
Plus précisément, une représentation hybride appelée HIQuery est introduite pour représenter tous les éléments de la carte, et un interacteur d'éléments ponctuels est proposé pour extraire de manière interactive les informations hybrides des éléments, telles que les positions des points et les formes des éléments, et il est codé dans HIQuery. De plus, des contraintes de cohérence point-élément sont également proposées pour améliorer la cohérence entre les informations au niveau point et au niveau élément. Enfin, les éléments de point de sortie de HIQuery intégré peuvent être directement convertis en classe, coordonnées de point et masque de l'élément de carte. Des expériences approfondies sont menées sur les ensembles de données nuScenes et Argoverse2, montrant des résultats systématiquement supérieurs aux méthodes précédentes. Il convient de noter que la méthode atteint 77,8 mAP sur l'ensemble de données nuScenes, ce qui est nettement meilleur que le SOTA précédent d'au moins 8,3 mAP !
Nom de l'article : HIMap : HybrId Representation Learning for End-to-end Vectorized HD Map Construction
Lien de l'article : https://arxiv.org/pdf/2403.08639.pdf
HIMap introduit d'abord un hybride appelé HIQuery Représente toutes les cartes éléments de la carte. Il s'agit d'un ensemble de paramètres apprenables qui peuvent être mis à jour et affinés de manière itérative en interagissant avec les fonctionnalités BEV. Ensuite, un décodeur hybride multicouche est conçu pour coder les informations hybrides des éléments de la carte (telles que la position du point, la forme de l'élément) dans HIQuery et effectuer une interaction entre les éléments ponctuels, voir Figure 2. Chaque couche du décodeur hybride comprend des interactions d'éléments ponctuels, l'auto-attention et le FFN. À l'intérieur de l'interacteur point-élément, un mécanisme d'interaction mutuelle est mis en œuvre pour réaliser l'échange d'informations au niveau point et au niveau élément et éviter le biais d'apprentissage des informations à un seul niveau. Enfin, les éléments de point de sortie intégrés de HIQuery peuvent être directement convertis en coordonnées de point, classe et masque de l'élément. De plus, des contraintes de cohérence point-élément sont également proposées pour améliorer la cohérence entre les informations au niveau point et au niveau élément.
Présentation du framework HIMap
Le processus global de HIMap est illustré à la figure 3(a). HIMap est compatible avec une variété de données de capteurs aéroportés, telles que les images RVB provenant de caméras multi-vues, les nuages de points provenant du lidar ou les données multimodales. Ici, nous prenons comme exemple des images RVB multi-vues pour expliquer le fonctionnement de HIMap.
BEV Feature Extractor est un outil permettant d'extraire des fonctionnalités BEV à partir d'images RVB multi-vues. Son cœur comprend l'extraction de la partie principale des fonctionnalités 2D multi-échelles à partir de chaque perspective, l'obtention de la partie FPN des fonctionnalités à échelle unique en fusionnant et en affinant les fonctionnalités multi-échelles, et l'utilisation du module de conversion de fonctionnalités 2D en BEV pour mapper les fonctionnalités 2D en BEV. caractéristiques. . Ce processus permet de convertir les informations d'image en fonctionnalités BEV plus adaptées au traitement et à l'analyse, améliorant ainsi la convivialité et la précision des fonctionnalités. Grâce à cette méthode, nous pouvons mieux comprendre et utiliser les informations contenues dans les images multi-vues, offrant ainsi une assistance plus solide pour le traitement ultérieur des données et la prise de décision.
HIQuery : Afin d'apprendre pleinement les informations au niveau des points et des éléments des éléments de la carte, HIQuery est introduit pour représenter tous les éléments de la carte !
Décodeur hybride : le décodeur hybride produit une HIQuery intégrée en interagissant de manière itérative avec HIQuery Qh avec les fonctionnalités BEV X.
L'objectif de l'interacteur d'éléments ponctuels est d'extraire de manière interactive les informations au niveau des points et des éléments des éléments de la carte et de les encoder dans HIQuery. La motivation de l’interaction des deux niveaux d’information vient de leur complémentarité. Les informations au niveau des points contiennent des connaissances de localisation locales, tandis que les informations au niveau des éléments fournissent une forme globale et des connaissances sémantiques. Cette interaction permet ainsi un affinement mutuel des informations locales et globales des éléments cartographiques.
Considérant la différence originale entre la représentation au niveau des points et la représentation au niveau des éléments, qui se concentrent respectivement sur les informations locales et les informations globales, l'apprentissage des représentations à deux niveaux peut également interférer l'une avec l'autre. Cela augmentera la difficulté de l'interaction des informations et réduira l'efficacité de l'interaction des informations. Par conséquent, des contraintes de cohérence des éléments ponctuels sont introduites pour améliorer la cohérence entre chaque niveau de point et les informations au niveau de l'élément, et la discriminabilité des éléments peut également être améliorée !
Comparaison des résultats expérimentaux
L'article a mené des expériences sur l'ensemble de données NuScenes et l'ensemble de données Argoverse2 !
Comparaison du modèle SOTA sur le val-set nuScenes :
Comparaison du modèle SOTA sur le val-set Argoverse2 :
Comparaison avec le modèle SOTA sous l'ensemble de validation nuScenes données multimodales :
Plus d'expériences d'ablation :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Dans le livre de 1971 de John Rawls, The Theory of Justice, il a proposé une expérience de pensée que nous devrions prendre en tant que noyau de la conception de l'IA d'aujourd'hui et utilise la prise de décision: le voile de l'ignorance. Cette philosophie fournit un outil simple pour comprendre l'équité et fournit également un plan pour les dirigeants afin d'utiliser cette compréhension pour concevoir et mettre en œuvre l'IA de manière équitable. Imaginez que vous établissez des règles pour une nouvelle société. Mais il y a une prémisse: vous ne savez pas à l'avance quel rôle vous allez jouer dans cette société. Vous pouvez finir par être riche ou pauvre, sain ou handicapé, appartenant à une minorité majoritaire ou marginale. Opérant dans le cadre de ce «voile d'ignorance» empêche les décideurs de prendre des décisions qui bénéficient elles-mêmes. Au contraire, les gens seront plus motivés pour formuler le public

De nombreuses entreprises se spécialisent dans l'automatisation des processus robotiques (RPA), offrant des robots pour automatiser les tâches répétitives - UIPATH, l'automatisation n'importe où, le prisme bleu et autres. Pendant ce temps, l'exploitation de processus, l'orchestration et le traitement des documents intelligents spécialis

L'avenir de l'IA va au-delà de la simple prédiction des mots et de la simulation conversationnelle; Les agents de l'IA émergent, capables d'action indépendante et d'achèvement des tâches. Ce changement est déjà évident dans des outils comme le claude d'Anthropic. Agents de l'IA: recherche un

Les progrès technologiques rapides nécessitent une perspective prospective sur l'avenir du travail. Que se passe-t-il lorsque l'IA transcende une simple amélioration de la productivité et commence à façonner nos structures sociétales? Le prochain livre de Topher McDougal, Gaia Wakes:

La classification des produits, impliquant souvent des codes complexes comme "HS 8471.30" à partir de systèmes tels que le système harmonisé (HS), est crucial pour le commerce international et les ventes intérieures. Ces codes garantissent une application fiscale correcte, impactant chaque inv

L'avenir de la consommation d'énergie dans les centres de données et l'investissement en technologie climatique Cet article explore la forte augmentation de la consommation d'énergie dans les centres de données motivés par l'IA et son impact sur le changement climatique, et analyse des solutions innovantes et des recommandations politiques pour relever ce défi. Défis de la demande d'énergie: les centres de données à grande échelle importants et ultra-larges consomment une puissance énorme, comparable à la somme de centaines de milliers de familles nord-américaines ordinaires, et des centres émergents d'IA à l'échelle ultra-large consomment des dizaines de fois plus de puissance que cela. Au cours des huit premiers mois de 2024, Microsoft, Meta, Google et Amazon ont investi environ 125 milliards de dollars en construction et en fonctionnement des centres de données d'IA (JP Morgan, 2024) (tableau 1). La demande d'énergie croissante est à la fois un défi et une opportunité. Selon Canary Media, l'électricité imminente

L'IA générative révolutionne la production cinématographique et télévisée. Le modèle Ray 2 de Luma, ainsi que la Gen-4 de Runway, Sora d'Openai, Veo et d'autres modèles de Google, améliorent la qualité des vidéos générées à une vitesse sans précédent. Ces modèles peuvent facilement créer des effets spéciaux complexes et des scènes réalistes, même de courts clips vidéo et des effets de mouvement perçus par la caméra ont été réalisés. Bien que la manipulation et la cohérence de ces outils doivent encore être améliorées, la vitesse de progrès est incroyable. La vidéo générative devient un support indépendant. Certains modèles sont bons dans la production d'animation, tandis que d'autres sont bons dans les images en direct. Il convient de noter que Adobe's Firefly et Moonvalley's MA

L'expérience utilisateur de ChatGPT diminue: est-ce une dégradation du modèle ou des attentes de l'utilisateur? Récemment, un grand nombre d'utilisateurs payés par Chatgpt se sont plaints de leur dégradation des performances, ce qui a attiré une attention généralisée. Les utilisateurs ont signalé des réponses plus lentes aux modèles, des réponses plus courtes, un manque d'aide et encore plus d'hallucinations. Certains utilisateurs ont exprimé leur insatisfaction aux réseaux sociaux, soulignant que Chatgpt est devenu «trop flatteur» et a tendance à vérifier les vues des utilisateurs plutôt que de fournir des commentaires critiques. Cela affecte non seulement l'expérience utilisateur, mais apporte également des pertes réelles aux clients des entreprises, tels que la réduction de la productivité et le gaspillage des ressources informatiques. Preuve de dégradation des performances De nombreux utilisateurs ont signalé une dégradation significative des performances de Chatgpt, en particulier dans des modèles plus anciens tels que le GPT-4 (qui sera bientôt interrompu du service à la fin de ce mois). ce


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft

Navigateur d'examen sécurisé
Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel
