La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Email de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Le premier auteur de cet article, An Zhaochong, étudie actuellement pour un doctorat à l'Université de Copenhague, sous la direction de Serge Belongie. Il est diplômé d'un master de l'ETH Zurich. Au cours de son master, il a participé à plusieurs projets de recherche dans le laboratoire de son mentor Luc Van Gool. Ses principaux intérêts de recherche comprennent la compréhension des scènes, l'apprentissage en quelques plans et l'apprentissage multimodal.
La compréhension de la scène 3D permet aux robots humanoïdes de « voir » la scène environnante, permettant à la fonction de conduite autonome de la voiture de percevoir les situations possibles pendant la conduite en temps réel, créant ainsi des comportements et des réactions plus intelligents. Tout cela nécessite une annotation détaillée d’un grand nombre de scènes 3D, ce qui augmente considérablement le coût en temps et en ressources.
Récemment, l'ETH Zurich et d'autres équipes ont proposé une méthode d'apprentissage en quelques plans, qui a considérablement amélioré cette limitation, réexaminé la tâche FS-PCS actuelle et introduit une nouvelle référence dans le domaine de la perception de scènes 3D pour fournir une bonne base. pour l’avenir. La conception et le développement de modèles innovent.
- Lien papier : https://arxiv.org/abs/2403.00592
- Lien code : https://github.com/ZhaochongAn/COSeg
Exemple de résultat de segmentation 3D en quelques plansLa compréhension de la scène 3D joue un rôle essentiel dans des domaines tels que la conduite autonome et les robots intelligents. Elle permet aux appareils de percevoir et de comprendre leur environnement. -monde dimensionnel. Bien que les modèles traditionnels d’apprentissage entièrement supervisé fonctionnent bien en matière de reconnaissance de catégories spécifiques, ces modèles se limitent souvent à l’identification de ces catégories prédéfinies. Cela signifie que chaque fois qu'une nouvelle catégorie d'objets doit être reconnue, une grande quantité de données de scène 3D doit être collectée et annotée en détail. Ce processus est non seulement long et laborieux, mais limite également considérablement l'application d'une surveillance entièrement supervisée. modèles dans le monde réel. Étendue et flexibilité des applications. Cependant, grâce à la méthode d'apprentissage en quelques coups, cette situation a été considérablement améliorée. L'apprentissage en quelques coups est une technique qui nécessite très peu d'échantillons étiquetés pour s'adapter rapidement aux nouvelles catégories. Cela signifie que le modèle peut rapidement apprendre et s'adapter à de nouveaux environnements avec un petit nombre d'exemples, réduisant ainsi considérablement le coût de la collecte et du traitement des données. Cette méthode d'apprentissage rapide et flexible rend la technologie de compréhension des scènes 3D plus adaptable au monde réel en évolution rapide, ouvrant de nouvelles possibilités pour divers scénarios d'application tels que la conduite autonome et les systèmes robotiques avancés. Par conséquent, l’étude de modèles 3D à quelques plans peut promouvoir efficacement l’application pratique de nombreuses tâches importantes dans le monde entier. Spécialement, pour la tâche de segmentation sémantique de nuage de points 3D Few-shot (FS-PCS), l'entrée du modèle inclut le nuage de points de support et l'annotation de la nouvelle catégorie (masque de support) et du nuage de points de requête. Le modèle doit acquérir des connaissances sur les nouvelles catégories en utilisant le nuage de points de support et le masque de support et les appliquer au nuage de points de requête de segmentation pour prédire les étiquettes de ces nouvelles catégories. Les catégories cibles utilisées lors de la formation et des tests du modèle ne se chevauchent pas pour garantir que les catégories utilisées lors des tests sont toutes de nouvelles catégories et n'ont pas été vues par le modèle pendant la formation.审 Le réexamen et la correction de la tâche Figure 1. La visualisation des deux scènes (les perspectives sont Porte et PLANCHE)
Tableau 1. Comparaison des performances des modèles précédents en présence (avec FG) et absence (sans FG) de fuite de prospects Cet article revient sur la tâche FS-PCS actuelle. Il s'avère que le paramètre de tâche actuel présente deux problèmes importants :
-
Le premier problème est la fuite au premier plan : les tâches 3D échantillonnent généralement uniformément des points denses dans le nuage de points de la scène en tant qu'entrée du modèle. Cependant, la méthode d'échantillonnage utilisée par FS-PCS n'est pas un échantillonnage uniforme, mais elle échantillonnera plus de points pour la catégorie cible (zone de premier plan) et moins de points pour la zone non cible (zone d'arrière-plan). de cette façon, il y aura une répartition plus dense des points au premier plan, ce qui entraînera des problèmes de fuite au premier plan. Comme le montre la figure 1, les nuages de points d'entrée dans les quatrième et sixième colonnes proviennent de l'échantillonnage biaisé actuel et montrent une distribution de points plus dense dans la zone de premier plan (porte ou tableau) qu'à l'arrière-plan, tandis que les nuages de points d'entrée dans les troisième et sixième colonnes cinquième colonnes L'entrée utilise un échantillonnage de cohérence corrigé, présentant une distribution uniforme de densité de points. Ce problème provoque la fuite des informations de la nouvelle classe par la distribution de densité du nuage de points, permettant au modèle d'exploiter simplement la différence de densité dans le nuage de points d'entrée et de prédire des zones plus denses au premier plan pour obtenir de bonnes performances en quelques prises de vue. Cela ne repose pas sur l’apprentissage de la capacité à transférer des connaissances du support vers la requête. Par conséquent, l'évaluation actuelle benchmark ne peut pas refléter les performances réelles des modèles passés. Comme le montre le tableau 1, après avoir corrigé la fuite au premier plan dans le paramètre actuel, le modèle précédent a montré une baisse importante des performances, ce qui indique que le modèle précédent s'appuyait fortement sur les différences de densité pour obtenir des performances apparemment supérieures en quelques tirs. Le deuxième problème est la distribution de points clairsemée
: le paramètre actuel- échantillonne uniquement 2048 pointsde la scène en entrée du modèle pendant la formation et les tests. Comme le montre la figure 1, dans la première rangée et la cinquième colonne, il est difficile pour l'œil humain de distinguer la porte de catégorie sémantique dans la zone du mur de catégorie environnant. Pour la deuxième ligne, il est également difficile de distinguer si la zone cible est la classe planche ou une autre classe comme la fenêtre. Ces nuages de points d'entrée clairsemés ont des informations sémantiques très limitées , introduisant une ambiguïté importante et limitant la capacité du modèle à exploiter efficacement la sémantique de la scène.
Par conséquent, afin de corriger ces problèmes, l'auteur a proposé
un nouveau paramètre pour normaliser la tâche FS-PCS
, en utilisant un échantillonnage uniforme et en augmentant le nombre de points d'échantillonnage de 10 fois à 20480 points. Comme le montre la troisième colonne de la figure 1, l'entrée sous le nouveau paramètre présente une distribution de points cohérente et des informations sémantiques plus claires, ce qui rend la tâche plus proche du scénario d'application réel. Sous le paramètre nouvellement corrigé, l'auteur a introduit un nouveau modèle appelé Segmentation d'optimisation de corrélation (COSeg). Les méthodes précédentes sont basées sur le
paradigme d'optimisation des fonctionnalités
, se concentrant sur l'optimisation des fonctionnalités de support ou de requête, et saisissant les fonctionnalités améliorées dans le module de prédiction sans paramètre pour obtenir des résultats de prédiction, qui peuvent être considérés comme une modélisation implicite entre le support et requête Corrélations
. Au contraire, il ne se concentre pas sur l'optimisation des fonctionnalités. L'article propose un paradigme d'optimisation des corrélations, qui saisit directement les corrélations entre le support et la requête dans un module avec des paramètres, et optimise explicitement les corrélations, permettant au modèle de façonner directement. la corrélation entre la relation requête et support, ce qui améliore la capacité de généralisation du modèle. Figure 2. Architecture COSeg Dans COSeg, calculez d'abord la corrélation multi-prototypique spécifique à la classe entre chaque point de requête et les prototypes de support, appelée CMC, ce qui signifie chaque point et tout Relations entre les prototypes de catégories . Le CMC est ensuite entré dans le module d'augmentation d'hyper-corrélation (HCA) suivant.
Le module HCA utilise deux relations potentielles pour optimiser les corrélations. Premièrement, les points de requête sont tous liés les uns aux autres, ils sont donc également liés aux corrélations entre les prototypes de catégories. De là, nous pouvons obtenir la relation entre points et points , qui correspond à la première moitié de HCA sur les corrélations. dans la dimension ponctuelle de l'attention. Deuxièmement, la classification d'un point de requête en classe de premier plan ou d'arrière-plan dépend des corrélations relatives entre les prototypes de premier plan et d'arrière-plan du point. À partir de là, nous pouvons obtenir la relation entre le premier plan et l'arrière-plan, qui correspond à la seconde moitié de HCA. Les corrélations font attention dans la dimension catégorie. De plus, puisque le modèle à quelques coups est formé sur la catégorie de base et testé sur la catégorie roman. Ces modèles seront facilement perturbés par les catégories de base familières existant dans la scène de test, affectant la segmentation des nouvelles catégories. Afin de résoudre ce problème, l'article propose d'apprendre des prototypes sans paramètres pour la catégorie de base (appelés prototypes de base). Lorsque
segmentez une nouvelle classe , les points de requête appartenant à la classe de base doivent être prédits en arrière-plan . Par conséquent, à l’aide de prototypes de base, l’auteur introduit le module Base Prototypes Calibration (BPC) à l’intérieur de la couche HCA pour ajuster les corrélations entre les catégories de points et d’arrière-plan, atténuant ainsi les interférences causées par la classe de base. Résultats expérimentaux
référence et prouvé. Les performances supérieures de la méthode COSeg permettent d'obtenir les meilleurs résultats dans diverses tâches à quelques coups. La visualisation montre également clairement que COSeg obtient de meilleurs résultats de segmentation. En outre, l’auteur propose également des expériences d’ablation approfondies pour prouver l’efficacité de la conception et la supériorité du paradigme d’optimisation de corrélation. Résumé
Les contributions des recherches de cet article dans le domaine des FS-PCS sont les suivantes.
Tout d'abord, les auteurs identifient deux problèmes clés dans le cadre actuel du FS-PCS (fuite au premier plan et distribution de points clairsemés
), qui réduisent la précision des références d'évaluation par rapport aux méthodes précédentes. Afin de résoudre les problèmes du contexte précédent, l'article présente un nouveau paramètre standardisé et un nouveau référentiel d'évaluation.
De plus, dans le cadre du paramètre FS-PCS standardisé, l'auteur propose un nouveau paradigme d'optimisation de corrélation, qui améliore considérablement les performances de généralisation du modèle sur des tâches à quelques coups. Le modèle présenté dans cet article COSeg combine HCA pour extraire des informations efficaces de corrélation de nuages de points et BPC pour ajuster la prédiction d'arrière-plan, obtenant ainsi les meilleures performances sur toutes les tâches de quelques prises de vue.
Le paramètre standardisé corrigé dans l'article ouvre davantage de possibilités pour améliorer la tâche de segmentation 3D en quelques plans Dans le même temps, le nouveau paradigme d'optimisation de corrélation proposé fournit également une nouvelle direction pour la conception et la conception futures des modèles. développement. . En tant que nouvelle référence dans le domaine du FS-PCS, ces travaux devraient inciter davantage de chercheurs à explorer et à repousser les limites de la compréhension des scènes 3D sur petits échantillons.
À titre de référence, les points suivants peuvent être utilisés comme orientations de recherche potentielles pour promouvoir davantage le développement de ce domaine : Dans le nouveau cadre de l'article, bien que COSeg obtienne les meilleures performances, il y a encore beaucoup de place à l'amélioration. Le modèle peut être amélioré pour obtenir une meilleure généralisation de quelques plans : comme l'amélioration de la méthode d'extraction de prototypes [1, 2], l'amélioration du module d'optimisation de corrélation [3] et le ciblage de chaque petit nombre. -tâche de tir.
La résolution du problème d'interférence de la catégorie de base est également un facteur clé affectant les performances de quelques tirs. Elle peut être optimisée du point de vue de l'entraînement ou de la conception du modèle [5,6] pour mieux réduire l'interférence de la catégorie de base.
- Améliorez l'efficacité de la formation et de l'inférence du modèle [7], en particulier lorsqu'il est déployé dans des applications pratiques, l'efficacité du modèle est également une considération clé.
- En résumé, ce domaine a des perspectives très larges, et il en est encore à son stade émergent. Pour la majorité des chercheurs, il s'agit sans aucun doute d'un domaine de recherche plein d'espoir et d'opportunités.
Lien de référence :
[1] Lang, Chunbo et al. "Analyse progressive et distillation des points communs pour la segmentation de la télédétection en quelques coups." ).[2] Liu, Yuanwei, et al. "Transformateur minier de prototype intermédiaire pour la segmentation sémantique en quelques coups." Advances in Neural Information Processing Systems 35 (2022) : 38020-38031. [3] Zhang, Canyu et al. "Segmentation sémantique de nuages de points 3D via un réseau de transformateurs stratifiés spécifiques à une classe." Actes de la conférence AAAI sur l'intelligence artificielle. .[4] Bodiaf, Malik, et al. "Segmentation en quelques coups sans méta-apprentissage : une bonne inférence transductive est tout ce dont vous avez besoin ?." Actes de la conférence IEEE/CVF sur la vision par ordinateur et les modèles. reconnaissance. 2021. [5] Wang, Jiahui, et al. "Segmentation sémantique des nuages de points à quelques coups via l'auto-supervision contrastive et l'attention multi-résolution." ). IEEE, 2023.[6] Lang, Chunbo, et al. "Apprendre ce qu'il ne faut pas segmenter : une nouvelle perspective sur la segmentation en quelques plans." reconnaissance de formes.[7] Sun, Yanpeng, et al. « Réglage précis des valeurs singulières : la segmentation en quelques plans nécessite un réglage précis de quelques paramètres. » ) : 37484-37496.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!