Maison >Périphériques technologiques >IA >Des scientifiques développent des lunettes sonar à intelligence artificielle capables de reconnaître la lecture labiale avec une précision de 95 %
Selon l'actualité du 10 avril, des chercheurs de l'Université Cornell aux États-Unis ont développé une nouvelle technologie qui permet une communication silencieuse via des lunettes sonar. Les lunettes utilisent de minuscules haut-parleurs et microphones pour lire les mots prononcés silencieusement par le porteur, leur permettant ainsi d'effectuer diverses tâches sans nécessiter d'intervention physique.
La technologie, dirigée par Ruidong Zhang, doctorant à Cornell, est une amélioration par rapport à un projet similaire qui utilisait un casque sans fil, alors que les modèles précédents reposaient sur la caméra.
Selon IT House, les lunettes sonar utilisent une interface de reconnaissance vocale silencieuse appelée EchoSpeech, qui utilise le sonar pour détecter les mouvements de la bouche et utilise un algorithme d'apprentissage profond pour analyser les caractéristiques de l'écho en temps réel. Cela permet au système de reconnaître les mots prononcés silencieusement par le porteur avec une précision d'environ 95 %.
L'une des perspectives les plus intéressantes de cette technologie est que les personnes ayant des troubles de la parole peuvent l'utiliser pour alimenter silencieusement des conversations dans un synthétiseur vocal, puis prononcer les mots à haute voix. Les lunettes pourraient également être utilisées pour contrôler la lecture de musique dans une bibliothèque silencieuse ou pour dicter des informations lors d'un concert bruyant.
La technologie est petite et peu gourmande, et n’envahit pas la vie privée car aucune donnée ne quitte le téléphone de l’utilisateur. De cette façon, il n’y a aucun problème de confidentialité. Les lunettes sont très pratiques à porter et sont plus pratiques et réalisables que les autres technologies de reconnaissance vocale silencieuse disponibles.
Les chercheurs ont déclaré que le système n'a besoin que de quelques minutes de données d'entraînement pour apprendre le modèle vocal de l'utilisateur, une fois l'apprentissage terminé, il peut envoyer et recevoir des ondes sonores vers le visage de l'utilisateur, détecter les mouvements de la bouche et utiliser des algorithmes d'apprentissage en profondeur pour analyser. les réponses. Le système est actuellement capable de reconnaître 31 commandes isolées et une séquence de numéros consécutifs avec un taux d'erreur inférieur à 10 %.
La version actuelle du système offre environ 10 heures d’autonomie et peut communiquer sans fil avec le smartphone de l’utilisateur via Bluetooth. Le smartphone est responsable du traitement et de la prédiction de toutes les données, et transmet les résultats à un certain nombre de « touches d'action » qui lui permettent d'écouter de la musique, d'interagir avec des appareils intelligents ou d'activer un assistant vocal.
Le laboratoire Intelligent Computer Interfaces for Future Interaction (SciFi) de l’Université Cornell tire parti d’un programme de subventions Cornell pour explorer la possibilité de commercialiser cette technologie.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!