Maison >Périphériques technologiques >IA >La recherche sur l'apprentissage automatique en acoustique pourrait débloquer un métaverse multimodal

La recherche sur l'apprentissage automatique en acoustique pourrait débloquer un métaverse multimodal

王林avant: 2023-04-16 18:34:031446parcourir

Des chercheurs du MIT et d'IBM Watson AI Lab ont créé un modèle d'apprentissage automatique pour prédire ce que les auditeurs entendront à différents endroits de l'espace 3D.

Les chercheurs ont d'abord utilisé ce modèle d'apprentissage automatique pour comprendre comment tout son présent dans une pièce se propage dans l'espace, créant ainsi une image d'une pièce en 3D de la même manière que les gens comprennent leur environnement à travers le son.

Dans un article co-écrit par Yilun Du, étudiant diplômé du Département de génie électrique et d'informatique (EECS) du MIT, les chercheurs montrent comment des techniques similaires à la modélisation visuelle 3D peuvent être appliquées à l'acoustique.

Mais ils doivent faire face à la différence de propagation du son et de la lumière. Par exemple, en raison des obstacles, de la forme de la pièce et des caractéristiques du son, les auditeurs situés à différents endroits de la pièce peuvent avoir des impressions très différentes du son, rendant les résultats imprévisibles.

Pour résoudre ce problème, les chercheurs ont intégré des fonctionnalités acoustiques dans leur modèle. Premièrement, toutes choses étant égales par ailleurs, l’échange des positions de la source sonore et de l’auditeur ne change pas ce que l’auditeur entend. Le son est également particulièrement affecté par les conditions locales, telles que les obstacles entre l'auditeur et la source du son.

Du a déclaré : « Jusqu'à présent, la plupart des chercheurs se sont concentrés uniquement sur la modélisation visuelle. Mais en tant qu'êtres humains, nous avons plusieurs modes de perception. Non seulement la vision est importante, mais le son est également important. Je pense que ce travail ouvre une voie passionnante. direction de recherche pour mieux utiliser le son pour modéliser le monde. "

Grâce à cette approche, le modèle de champ acoustique neuronal (NAF) résultant est capable d'échantillonner de manière aléatoire des points sur une grille pour en savoir plus sur les caractéristiques spécifiques à l'emplacement. . Par exemple, être proche d’une porte peut grandement affecter ce que l’auditeur entend de l’autre côté de la pièce.

Le modèle est capable de prédire ce qu'un auditeur est susceptible d'entendre à partir d'un stimulus acoustique spécifique en fonction de la position relative de l'auditeur dans la pièce.

L'article déclare : « En modélisant la propagation acoustique dans une scène comme un système linéaire invariant dans le temps, NAF apprend à cartographier en continu les positions de l'émetteur et de l'auditeur avec des fonctions de réponse impulsionnelle neuronale, qui peuvent être appliquées à des sons arbitraires. a démontré que la continuité du NAF nous permet de restituer le son spatial aux auditeurs à n'importe quel endroit et de prédire la propagation du son dans de nouveaux emplacements. "

Chuang Gan, chercheur principal au MIT-IBM Watson AI Lab, a également participé au projet. , il a déclaré : « Cette nouvelle technologie pourrait offrir de nouvelles opportunités pour créer des expériences immersives multimodales dans les applications Metaverse. »

Nous savons que tous les lecteurs de Reg ne seront pas enthousiasmés par ce cas d'utilisation.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Top 10 des tendances de l’intelligence artificielle à surveiller en 2023Article suivant：Top 10 des tendances de l’intelligence artificielle à surveiller en 2023

Articles Liés

Voir plus