Maison > Article > Périphériques technologiques > Le brevet Microsoft AR/VR propose d'utiliser les fonctionnalités d'angle et de ligne pour l'alignement d'images multi-caméras
Les systèmes MR peuvent utiliser plusieurs caméras, mais les images doivent être alignées lors de leur rendu. Cependant, l’alignement des images constitue un problème complexe. Par conséquent, dans une demande de brevet intitulée « Méthode d'alignement d'image à l'aide de fonctionnalités de coin et de ligne », Microsoft a proposé une solution
Bien sûr, des méthodes d'utilisation des fonctionnalités angulaires pour l'alignement des images existent déjà dans l'industrie. Cependant, identifier les coins d’une image et aligner l’image en fonction des coins identifiés est une opération longue et gourmande en calcul.
Ce que Microsoft propose, c'est une technologie d'amélioration plus efficace qui permet d'obtenir une meilleure correspondance des fonctionnalités. L'invention introduit principalement un procédé hybride qui utilise des caractéristiques de coin et des caractéristiques de ligne pour effectuer un alignement visuel, et cette solution entraîne moins de contraintes requises dans le processus d'alignement, améliorant ainsi l'efficacité de calcul et la correspondance de caractéristiques.
La figure 11 montre un exemple d'environnement 1100 dans lequel un utilisateur utilise une caméra frontale 1105 et une caméra externe 1110. Comme mentionné précédemment, le contenu de l'image généré par ces deux caméras doit être aligné. Mais l'environnement 1100 peut être un environnement à faible luminosité, ou il peut s'agir d'un environnement qui présente un faible contraste en termes de gradient thermique ou de contraste.
Par exemple, une fois l'objet refroidi tard dans la nuit, le gradient de température de l'environnement peut généralement être uniforme. Dans ce cas, le profil ou gradient de température de l'environnement peut être inférieur à un seuil isotherme 1115 spécifique. Dans ce cas, les techniques traditionnelles d’alignement du contenu peuvent échouer. Le mode de réalisation décrit par Microsoft fournit une solution à de tels scénarios.
La figure 12 montre un exemple de processus de détection de coin 1200 qui peut être utilisé pour aligner des images. La figure 12 montre une première image 1205 générée par la caméra visiocasque 1105 de la figure 11, et une deuxième image 1210 générée par la caméra externe 1110.
Effectuez des opérations de détection de coins pour identifier les "coins" présents dans l'image. Par exemple, des modes de réalisation peuvent être utilisés pour identifier des caractéristiques de coin dans la première image. Autrement dit, il est possible d'identifier un ensemble de pixels dans une image qui correspond à un angle
Un « coin » fait référence à un ou plusieurs pixels d'intensité non uniforme qui ont un premier bloc de pixels proches positionné horizontalement par rapport audit ou plusieurs pixels et un troisième bloc de pixels positionné verticalement par rapport audit ou plusieurs pixels. . Deux blocs de pixels proches. En d’autres termes, un coin est défini comme un ensemble d’un ou plusieurs pixels qui contrastent avec les coins adjacents dans les directions X et Y par rapport à l’ensemble de pixels.
Identifiez les éléments de coin 1215 dans la première image 1205, et identifiez également les éléments de coin dans la deuxième image 1210. Par conséquent, l'entité de coin 1225 est identifiée avec succès. Il est à noter que la caractéristique angulaire 1225 correspond à la caractéristique angulaire 1215
Pour aligner le contenu de l'image, ce mode de réalisation est chargé d'identifier un seuil de 1230 coins. Les nombres seuils de coins doivent correspondre les uns aux autres. Autrement dit, les multiples coins identifiés dans la première image 1205 doivent être identifiés et doivent correspondre aux multiples coins identifiés dans la deuxième image 1210
Si ces seuils sont atteints, des modes de réalisation peuvent effectuer une opération d'alignement d'image pour générer une image de superposition 1235, qui est une image dans laquelle le contenu de la deuxième image 1210 est aligné puis superposé avec le contenu correspondant de la première image 1205.
La détection et l'alignement des coins sont une opération gourmande en calcul, et si la correspondance entre les coins détectés et l'image n'est pas assez bonne, l'ensemble du processus peut échouer. Par exemple, la méthode utilisant uniquement les points d'angle nécessite d'identifier au moins 5 points d'angle d'une image, puis de les faire correspondre avec les points d'angle correspondants dans la deuxième image. Dans des conditions de faible contraste, même identifier 5 points d'angle correspondants peut être un défi
Après avoir identifié un nombre suffisant de coins, le mode de réalisation utilise ensuite un modèle de mouvement pour identifier les rotations 3D afin d'adapter le contenu de l'image de la première ou de la deuxième image à l'autre en effectuant diverses rotations et transformations pour aligner les 5 coins les uns avec les autres. image. La réalisation d’un tel alignement nécessite beaucoup de calculs.
Par conséquent, nous devons réduire les contraintes qui existent lors de l'utilisation uniquement de méthodes angulaires, et la figure 13 illustre une telle technique.
Le processus de détection de point d'angle et de point de ligne 1300 est illustré à la figure 13. Ce processus comprend une combinaison de l'opération de détection de point d'angle 1200 et de l'opération de détection de point de ligne à la figure 12. A noter que l'opération de détection de coin et l'opération de détection de ligne sont effectuées en même temps
Habituellement, il est plus simple d'identifier les « lignes » correspondantes dans l'image que d'identifier les coins, de sorte que le processus de détection des lignes est généralement plus rapide que le processus de détection des coins. Étant donné que les deux processus peuvent s'exécuter en parallèle et que le processus de détection de ligne est plus rapide, l'ajout du processus de détection de ligne n'aura pas d'impact négatif sur la vitesse du processus d'alignement global
En incorporant l'utilisation de lignes pour aligner les images, moins de coins peuvent être utilisés dans le processus d'alignement, ce qui entraîne des contraintes assouplies et un alignement généralement plus facile. Surtout dans des conditions de basses températures, nécessiter l'utilisation de moins de coins est très bénéfique car il peut être difficile de trouver et de faire correspondre les coins
Une « ligne » est définie comme un groupe d'un ou plusieurs pixels qui ont une intensité uniforme par rapport au premier bloc de pixels proche positionné horizontalement du ou des ensembles de pixels, et qui ont une intensité uniforme par rapport à l'ensemble d'un ou de plusieurs ensembles de pixels. plus de pixels L'intensité inégale du deuxième bloc de pixels voisin positionné verticalement. Alternativement, ils ont une intensité inégale par rapport à un premier bloc de pixels proche positionné horizontalement d'un ou plusieurs ensembles de pixels, et ont une intensité uniforme par rapport à un deuxième bloc de pixels proche positionné verticalement par rapport à un ou plusieurs ensembles de pixels
.Sur la figure 13, une première image 1305 et une deuxième image 1310 représentatives de l'image de la figure 12 sont représentées. La figure 13 montre également une méthode de mise en œuvre qui peut détecter les caractéristiques de coin 1315 dans la première image 1305
Lors de la détection des entités de coin sur la première image 1305, les entités linéaires sont également détectées en même temps, comme indiqué dans les entités linéaires 1320 et 1325. De manière générale, on peut détecter plus de lignes que le nombre de coins détectables
Effectuez des opérations d'angle et de ligne sur la deuxième image 1310. À des fins d'illustration, le mode de réalisation identifie les caractéristiques de coin 1330. Parallèlement à l'opération de détection de coin, des modes de réalisation détectent simultanément des lignes dans la seconde image 1310, telles que des caractéristiques de ligne 1335 et des caractéristiques de ligne 1340.
Veuillez noter que l'entité de coin 1330 correspond à l'entité de coin 1315 ; l'entité de ligne 1335 correspond à l'entité de ligne 1320. L’entité linéaire 1340 correspond à l’entité linéaire 1325. Des modes de réalisation peuvent identifier ces correspondances puis générer ou utiliser un modèle de mouvement approprié pour aligner ces points caractéristiques les uns avec les autres
Sur la base du principe de l'invention, nous avons défini le premier seuil à 1345. Le premier seuil fait référence au nombre de caractéristiques angulaires correspondantes qui doivent être identifiées dans les deux images afin de les aligner. Parallèlement, nous définissons également un deuxième seuil de 1350. Le deuxième seuil fait référence au nombre d'entités de ligne correspondantes qui doivent être identifiées dans les deux images pour qu'elles s'alignent
La satisfaction du premier seuil 1345 et du deuxième seuil 1350 permet aux modes de réalisation d'aligner le contenu de la première image 1305 et de la deuxième image 1310 pour générer une image de superposition 1355. Il convient de noter que le seuil fait généralement référence au nombre total de virages et de lignes qui doivent être reconnus.
Après avoir compris la commodité et la rapidité de la détection des caractéristiques de ligne, vous pouvez vous demander pourquoi les modes de réalisation s'appuient uniquement sur des opérations de détection de ligne et évitent d'effectuer des opérations de détection de coin. La raison en est que la détection de lignes dans une image peut entraîner des problèmes d'ouverture.
Voici le contenu réécrit : D'après la figure 14, nous pouvons voir le problème de l'ouverture, c'est-à-dire que l'ambiguïté de l'ouverture est de 1 400. Sur la figure 14, le segment de ligne 1405 fait partie d'une ligne entière. L'ambiguïté d'ouverture 1400 fait référence au fait que plusieurs parties différentes d'une ligne peuvent (mais de manière incorrecte) se rapporter au segment de ligne identifié 1405
Par exemple, le segment de ligne 1410 peut être un bloc de pixels qui correspond au segment de ligne 1405, même s'il se trouve en réalité au mauvais endroit ou au mauvais emplacement. De même, le segment de ligne 1415 ou le segment de ligne 1420 peut contenir des blocs de pixels qui peuvent mapper ou faire correspondre les pixels dans le segment de ligne 1405. Un tel scénario introduit une ambiguïté dans le processus d’alignement.
Par conséquent, s’appuyer sur le processus de détection de ligne lui-même n’est pas une technologie suffisante. En d'autres termes, le fait de s'appuyer sur des combinaisons de lignes et d'angles permet aux modes de réalisation d'utiliser des contraintes assouplies, améliorant ainsi l'efficacité des calculs.
Un exemple de flux de processus 1500 est illustré à la figure 15. Initialement, un ensemble d'images est acquis, tel qu'une image de caméra visiocasque 1505 et une image de caméra externe 1510. Ces images peuvent être des images thermiques. Le gradient de température ou contraste 1520 dans l'image peut être inférieur à un certain seuil de contraste 1525. Par conséquent, identifier un nombre suffisant de coins dans une image peut s’avérer assez difficile. Dans ce cas, une approche hybride peut être utilisée pour détecter une combinaison de coins et de lignes afin d'obtenir un alignement
Transmettez l'image de la caméra frontale 1505 et l'image de la caméra externe 1510 au détecteur d'angle 1530 et au détecteur de ligne 1535. Ces deux détecteurs fonctionnent simultanément et n'ont aucune dépendance l'un par rapport à l'autre
Veuillez noter que le détecteur de lignes 1535 est généralement plus rapide pour détecter les lignes que le détecteur de coins 1530 pour détecter les angles. En d'autres termes, le temps de retard du détecteur de ligne 1535 est plus court que le temps de retard du détecteur de coin 1530
Le détecteur de coin 1530 analyse les deux images et identifie les points de coin 1545 dans les images. De même, le détecteur de lignes 1535 analyse les deux images et identifie les lignes 1550 dans les images. Le mode de réalisation effectue ensuite l'alignement 1555 en identifiant les coins et les lignes correspondants dans les deux images.
Afin d'effectuer l'alignement, un nombre seuil de lignes et de coins doit être déterminé. Le seuil de correspondance est plus pertinent que le seuil d'identification du nombre de coins ou de lignes. Les modes de réalisation ajustent ensuite les coins et les lignes identifiés dans un modèle 3D 1560 tel qu'un modèle de mouvement. Les opérations d'ajustement de modèle 1565 sont ensuite effectuées sur le modèle 1560 pour faire pivoter, traduire et/ou transformer une image afin de faire correspondre ou aligner les coins et les lignes correspondants dans l'autre image.
En d'autres termes, lors de l'exécution d'une opération de reprojection, le mode de réalisation utilise les coins et les lignes identifiés pour aligner le contenu d'une image avec le contenu d'une autre image
Brevets associés : Brevet Microsoft Alignement d'image à l'aide des fonctionnalités de coin et de ligne
La demande de brevet Microsoft intitulée « Alignement d'image à l'aide de fonctionnalités de coin et de ligne » a été initialement soumise en février 2022 et a été récemment publiée par l'Office américain des brevets et des marques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!