Maison >Périphériques technologiques >IA >Kavita Bala, doyenne de la Cornell School of Computing : Qu'est-ce que le « métaverse » ? L'Œil de Dieu pourrait naître grâce à l'IA
Cet article est reproduit à partir de Lei Feng.com Si vous devez le réimprimer, veuillez vous rendre sur le site officiel de Lei Feng.com pour demander une autorisation.
Mes recherches de ces dernières années se sont principalement concentrées sur l'apparence et la compréhension visuelles, de la résolution micronique à la classe mondiale. Avant de commencer mon discours, permettez-moi de vous montrer un exemple très intéressant. L'interface visuelle entre le protagoniste et le monde dans ce film est très intéressante.
Vous pouvez voir que lorsque cette personne marche dans le monde réel, une série de textes apparaît sur son interface visuelle. Le protagoniste est un fan de voiture, donc l'interface visuelle lui montre une multitude d'informations sur la voiture :
Avec juste une photo, l'interface visuelle peut vous donner toutes les informations sur la voiture. Nous avons besoin de recherches dans les domaines de la vision par ordinateur et de la compréhension visuelle pour faire progresser cette technologie.
Le protagoniste continue de marcher, et lorsque vous vous rapprochez de ces modèles, vous constaterez qu'il ne s'agit pas de vraies personnes, même si elles semblent très réalistes. Pour parvenir à une telle technologie, nous devons étudier l’apparence réaliste.
Puis le protagoniste s'est dirigé vers une vitrine et a vu tous les produits dans la vitrine. Cette fois, son interface visuelle lui montre toutes les informations sur le produit à l'intérieur et simule même l'effet du port du produit. Le protagoniste peut expérimenter le produit sans le toucher.
Pour obtenir l'effet de la vidéo que je vous ai montrée, nous avons besoin d'une technologie appelée "graphiques inversés" pour numériser tous les attributs du produit et le faire correspondre à l'interactivité.
Je montre ces exemples pour vous montrer les différentes technologies que nous développons. Vous devez avoir beaucoup entendu parler de réalité augmentée/réalité mixte. Ce que je viens de mentionner, ce sont les technologies qui pilotent actuellement le développement de la réalité augmentée. Aujourd'hui, je vais me concentrer sur la technologie visuelle.
Un modèle semble si réel qu'on ne peut pas dire s'il est réel ou faux. C'est l'apparence réaliste dans le domaine de l'infographie. Il existe une autre direction dans ce domaine, qui consiste à prendre une photo d'un objet. Objet Photos, comment comprendre toutes les propriétés des objets sur cette photo ? Ensuite, nous pouvons continuer à développer sur cette base pour comprendre les propriétés de ce monde ?
Voici les trois contenus majeurs dont je vais parler aujourd'hui :
Commençons par les graphiques basés sur la physique.
Tout d'abord, je voudrais vous présenter un test célèbre : le test de la boîte de Cornell, qui est conçu pour déterminer la précision du logiciel de rendu en comparant la scène rendue avec une photo réelle de la même scène. Les deux images que je vous montre, l'une est rendue artificiellement et l'autre est réelle - en fait, celle de gauche est une scène réelle et celle de droite est une image virtuelle.
Depuis des années, les gens travaillent dur pour créer des images que ce test ne peut pas détecter comme réelles ou fausses. Mais le monde réel n'est pas aussi simple que l'image de la boîte de Cornell. Il existe de nombreux types de matériaux dans le monde réel, tels que les tissus, les peaux, les feuilles, la nourriture, etc. Les gens interagissent constamment avec le monde et jugent si ce qu’ils voient est réel. Lorsque nous voulons simuler les effets visuels réalistes du modèle de gauche ci-dessous, la manière de représenter ces matériaux complexes est un grand défi. C'est également un problème que j'étudie depuis de nombreuses années.
Je vais donc parler de la façon de capturer correctement l'apparence du tissu et du tissu. Tout d’abord, posons une question : regardez ces deux images. En tant qu’être humain, vous pouvez immédiatement reconnaître que la gauche est du velours et la droite est un matériau brillant semblable à de la soie. Qu'est-ce qui fait que le velours ressemble à du velours, et qu'est-ce qui fait que la soie est différente du velours mais ressemble à de la soie ?
La réponse est : la structure.
Les deux tissus ne sont pas seulement différents en apparence, mais l'essentiel est que leurs effets visuels sont différents en raison de leurs structures différentes. Si nous saisissons cette structure, nous capturons leur essence visuelle.
Donc, ce que nous avons fait dans le projet original était : examiner des micro-CT scans de ces matériaux.
Dans le micro-CT scan du velours, on peut voir que le velours est une matière poilue.
La structure de la soie est complètement différente. La soie est très étroitement entrelacée. Les fils de chaîne et de trame forment un motif spécifique. C'est précisément parce que la structure de la soie est si serrée qu'elle donne à la soie un effet brillant. .
À ce stade, nous constaterons que tant que nous saisissons la microstructure du matériau, nous pouvons fondamentalement saisir le modèle d'apparence du matériau. Même si le matériau est très complexe, il reste inchangé.
Une fois que nous avons saisi la structure, nous pouvons saisir les informations qui montrent les propriétés optiques, telles que la couleur, etc. Ces informations ont suffi à nous donner un modèle complet, nous permettant de recréer les effets visuels réalistes de ce matériau.
Comme le montre la photo, en maîtrisant les caractéristiques structurelles des deux tissus, nous avons réussi à restituer les effets visuels du velours et de la soie.
Nous avons effectué de nombreuses recherches sur la promotion réelle de ces modèles et réfléchi aux applications concrètes que ce modèle peut avoir. Nous pensons désormais que cet outil facilitera le prototypage numérique pour les designers industriels, les designers textiles, etc., en donnant aux designers la possibilité de simuler l'apparence de véritables tissus tissés.
Dans un métier à tisser industriel, du vrai fil est utilisé sur la bobine, et après avoir ajouté un motif de tissage, le métier à tisser industriel produira un tissu comme celui présenté ci-dessous à droite, Et nous voulons créer un visuel Turing moderne test Essentiellement un pipeline entièrement numérique, utilisant une combinaison de tomodensitogrammes et de photos pour obtenir le même effet qu'un métier à tisser industriel.
Cet effet visuel virtuel mais réaliste permet aux concepteurs de prendre des décisions importantes sans réellement fabriquer le tissu.
Nous avons en fait créé un modèle de faible dimension et 22 paramètres qui représentent de manière plus intuitive la structure du matériau. Les concepteurs gagneront en puissance s'ils peuvent utiliser cet outil.
Et ces 22 paramètres mèneront au deuxième sujet dont je vais parler, les graphiques inversés.
Le deuxième problème que nous avons rencontré est, après avoir eu ces modèles, comment s'adapter à ces modèles ? C’est également un sujet important dans la recherche en infographie.
Commençons par la relation entre la lumière et la surface des objets.
Lorsque la lumière rencontre une surface métallique, la lumière sera réfléchie. Comme pour d’autres matériaux, tels que la peau, les aliments, les tissus, etc., lorsque la lumière rencontre leur surface, la lumière pénètre dans la surface et interagit dans une certaine mesure avec l’objet. C’est ce qu’on appelle la diffusion souterraine.
Comme le montre l'image ci-dessus, la façon de juger si un sushi est délicieux est de juger de la brillance et de la fraîcheur de son apparence. Par conséquent, si vous souhaitez simuler l’effet visuel d’un certain objet, vous devez comprendre ce qui se passe lorsque la lumière frappe la surface d’un tel objet.
Légende : Pipeline de bout en bout
Dans un monde idéal, nous avons une sorte de représentation apprise, et après avoir pris une photo, nous pouvons reconnaître que les objets sur la photo sont toutes Quelles propriétés matérielles il possède, quels paramètres matériels il possède et trois paramètres liés à différentes diffusions peuvent également être connus : la distance parcourue par la lumière dans le milieu, son degré de dispersion, quel est l'albédo du matériau lorsqu'il est diffusé, etc. .
Et maintenant que nous disposons de très bons moteurs de rendu basés sur la physique qui peuvent simuler l'ensemble du processus physique de la lumière frappant la surface d'un objet, je pense que nous avons déjà la capacité de créer ce type de pipeline.
Si nous combinons le moteur de rendu basé physiquement et la représentation apprise pour obtenir ce pipeline de bout en bout, puis faisons correspondre l'image de sortie avec l'image d'entrée et minimisons la perte, nous pouvons alors obtenir les propriétés matérielles (c'est-à-dire ce qui précède. matériau π au milieu de l’image).
Pour y parvenir efficacement, nous devons combiner efficacement l'apprentissage et la physique, bouleverser le processus de rendu physique du monde et travailler dur pour obtenir les paramètres inverses.
Cependant, la récupération de forme et de matière est très difficile. Le processus ci-dessus nécessite que le moteur de rendu R soit différentiable.
Pour restaurer les effets visuels d'un produit comme une scène de film, nous devons disposer d'un pipeline de rendu différenciable, ce qui signifie que nous devons être capables de différencier la perte de l'attribut que nous voulons restaurer. Voici un exemple de récupération de matière et de géométrie, nous pouvons utiliser la méthode de la chaîne pour simplement échantillonner sur les bords de la surface afin d'obtenir les informations dont nous avons besoin.
Ensuite, nous pouvons proposer un processus pour restaurer les effets visuels des objets comme indiqué ci-dessous. Tout d'abord, nous pouvons utiliser un téléphone mobile pour prendre une série de photos de l'objet que nous souhaitons restaurer, puis initialiser les images, optimiser le matériau et la forme, puis optimiser à nouveau grâce à un rendu différentiable. Enfin, l'objet peut présenter une simulation réaliste. Effet Peut être utilisé en réalité augmentée/réalité virtuelle et dans d’autres applications.
Dans la simulation visuelle, la diffusion souterraine est un phénomène très important. L'image ci-dessous est une œuvre de plusieurs artistes appelée Cubes. Il s’agit en fait de carrés d’un côté de 2,5 cm composés de 98 sortes d’aliments. La surface de chacun des 98 aliments est différente et complexe, ce qui a éveillé notre intérêt pour l’exploration.
La surface des aliments étant très complexe, la diffusion souterraine doit être prise en compte lors de la restauration des propriétés des matières premières. Le contenu spécifique de cet aspect sera présenté dans un article que nous publierons plus tard. développé un pipeline de rendu entièrement différentiel. Ce que nous utilisons ce pipeline pour récupérer, ce sont les propriétés des matériaux centrées sur la diffusion souterraine. Enfin, nous avons restauré les différents matériaux et formes des deux fruits, et présenté avec succès les effets visuels des cubes de kiwi et de fruit du dragon.
Illustration : Le processus de restauration des cubes de kiwi et de fruit du dragon
Dans la recherche ci-dessus, nous avons utilisé une combinaison d'apprentissage et de physique, et avons résumé les 3 points importants suivants.
Je me souviens encore du protagoniste du film marchant dans la rue, il regardait les produits dans la vitrine, puis l'interface visuelle lui donnait toutes les informations sur les objets qu'il a vus.
Il s'agit de la Reconnaissance d'objets à granularité fine (Reconnaissance d'objets à granularité fine), qui est un vaste domaine de recherche en vision par ordinateur qui a été utilisée dans de nombreux secteurs tels que la reconnaissance de produits et l'immobilier. application.
Remarque sur l'image : Les informations précises fournies par la reconnaissance d'objets à granularité fine
Comme le montre cette image, la reconnaissance d'objets à granularité fine peut indiquer que cette personne porte un x, et ce x ne fait pas référence à un sac de téléphone portable (la plupart des gens peuvent le dire), ici x fait référence à une marque spécifique de sac à main. Ce type de connaissance précise est hors de portée de la plupart des gens ordinaires.
Essentiellement, nous pouvons fournir des informations de niveau expert grâce à la reconnaissance visuelle, ou même des informations de niveau expert dans plus d'un domaine, et je pense que la recherche dans ce domaine est très passionnante.
Cette image montre un poêle à feu de camp. Peut-être que certaines personnes ne peuvent pas déterminer le but de cet objet simplement par la vision, mais la reconnaissance fine d'un objet peut non seulement nous dire qu'il s'agit d'un poêle à feu de camp, mais aussi. Fournissez également un nom pour l’œuvre d’art, où elle peut être achetée, ainsi que des informations sur l’artiste qui l’a conçue.
Légende : IKEA APP
Nous avons lancé cette méthode d'utilisation dans l'application de réalité augmentée d'IKEA. Nous avons intégré la reconnaissance visuelle et le rendu virtuel dans l'application de réalité augmentée. Dès lors, nos idées passées sur les interfaces visuelles ont commencé à devenir progressivement une réalité.
Légende : L'interface de l'IA d'achat de Meta, GrokNet
La recherche dans l'image ci-dessus fait en fait partie de l'IA d'achat de Meta « GrokNet ». Le slogan de GrokNet est de faire en sorte que chaque image incite les gens à faire des achats (shoppable), et l'objectif de mon équipe de recherche et de moi-même est de rendre chaque image compréhensible (compréhensible).
Ce que j'ai dit ci-dessus sont tous des recherches relativement fondamentales, et ce que nous faisons maintenant, c'est collecter des informations visuelles à une échelle sans précédent, notamment des photos, des vidéos et même des images satellite. Le nombre de nos satellites a considérablement augmenté au fil des ans. Il existe désormais environ 1 500 satellites qui téléchargent 100 téraoctets de données chaque jour. Si nous pouvons comprendre les images satellite, nous pouvons alors comprendre l'orientation du développement du monde entier et la connaître. Que se passe-t-il dans le monde ? C’est une direction de recherche très passionnante.
Légende : Pouvons-nous comprendre des images à l'échelle mondiale ?
Si nous pouvons comprendre l'image au niveau mondial, alors nous pouvons répondre à ces questions sur l'image : Comment devrions-nous vivre ? Que portons-nous ? Que manger ? Comment notre comportement évolue-t-il au fil du temps ? Comment la Terre a-t-elle changé au fil du temps ?
Nous avons donc commencé à étudier ce problème avec des anthropologues et des sociologues. Ils sont très fascinés par ces problèmes, mais il leur manque un outil puissant pour les étudier. L’un des anthropologues avec lesquels nous avons travaillé était très intéressé par l’évolution des vêtements à travers le monde, et nous avons découvert que cette question avait de nombreux liens.
Pourquoi les gens de différentes régions de la planète s'habillent-ils différemment ? Nous pensons qu'il y a plusieurs raisons :
Nous avons donc commencé à nous pencher sur ce problème et à analyser un ensemble d'environ 8 millions d'images de personnes du monde entier. Nous avons inventé un algorithme de reconnaissance simple pour identifier les vêtements que portent les gens, qui comprend 12 attributs.
Et qu'avons-nous découvert de cette recherche ?
Certaines tendances ressortent de notre analyse. Par exemple, les personnes dans le coin supérieur droit ont tendance à porter des vêtements verts, tandis que les personnes dans le coin inférieur gauche ont tendance à porter des vêtements rouges.
Grâce à l'analyse du Big Data, nous avons constaté que certaines données sont cohérentes avec nos préréglages. Par exemple, la météo affecte les vêtements des gens. Les gens choisissent de porter des vêtements épais en hiver et des vêtements frais en été. mais dans un certain sens, il existe cependant des phénomènes de données étranges dans ces aspects. Comme le montre la figure ci-dessous, à Chicago, au cours des dernières années, il y a eu plusieurs moments où les gens ont choisi de porter du vert.
Ces moments sont tous en mars de chaque année. Après enquête, il s'avère que ces moments sont la Saint-Patrick à Chicago :
C'est un festival local très important. jour, les habitants de Chicago choisissent de porter du vert. Si vous n'êtes pas un local, vous ne connaissez peut-être pas cet événement culturel.
Illustration : Activités culturelles appréciées dans le monde entier, les gens porteront différentes couleurs de vêtements pour ces activités
En identifiant les changements vestimentaires des gens dans le Big Data, nous pouvons comprendre la culture locale/Activités politiques comprendre les différentes cultures régionales à travers le monde. Ce qui précède montre comment nous comprenons la signification des informations illustrées dans une perspective mondiale.
Lien vidéo original : https://www.youtube.com/watch?v=kaQSc4iFaxc
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!