Maison >Périphériques technologiques >IA >Synthèse EEG de la parole naturelle ! LeCun transmet les nouveaux résultats de la sous-revue Nature, et le code est open source
Les derniers progrès dans les interfaces cerveau-ordinateur ont été publiés dans la revue Nature, et LeCun, l'un des trois géants du deep learning, est venu les présenter.
Cette fois, les signaux neuronaux sont utilisés pour la synthèse vocale afin d'aider les personnes aphasiques dues à des défauts neurologiques à retrouver la capacité de communiquer.
Il a été rapporté qu'une équipe de recherche de l'Université de New York a développé un nouveau type de synthétiseur vocal différenciable qui peut utiliser un réseau neuronal convolutionnel léger pour coder la parole en une série de paramètres vocaux interprétables (tels que la hauteur, le volume, la fréquence des formants, etc.) et resynthétiser la parole via un synthétiseur vocal différentiable.
En mappant les signaux neuronaux sur ces paramètres de parole, les chercheurs ont construit un système de décodage de la parole neuronale hautement interprétable et applicable à des situations de faible volume de données, et capable de générer une parole à consonance naturelle.
Au total, 48 chercheurs ont collecté des données sur des sujets et mené des expériences pour vérifier le décodage de la parole afin d'évaluer les futures interfaces cerveau-ordinateur de haute précision.
Les résultats montrent que le cadre peut gérer des densités d'échantillonnage spatial élevées et faibles et peut traiter les signaux EEG des hémisphères gauche et droit, montrant de fortes capacités de décodage de la parole.
Auparavant, la société Neuralink de Musk a implanté avec succès des électrodes dans le cerveau d'un sujet, qui peuvent effectuer des opérations simples avec le curseur pour réaliser des fonctions telles que la saisie au clavier.
Cependant, le décodage neuronal de la parole est généralement considéré comme plus complexe.
La plupart des tentatives visant à développer des décodeurs neuro-vocaux et d'autres modèles d'interface cerveau-ordinateur de haute précision reposent sur un type particulier de données : les données enregistrées par électrocorticographie (ECoG), généralement provenant de patients épileptiques en cours de traitement.
Utilisez des électrodes implantées chez des patients épileptiques pour collecter des données sur le cortex cérébral pendant la parole. Ces données ont une haute résolution spatiale et temporelle et ont aidé les chercheurs à obtenir une série de résultats remarquables dans le domaine du décodage de la parole.
Cependant, le décodage vocal des signaux neuronaux se heurte encore à deux défis majeurs.
Les premières tentatives de décodage des signaux neuronaux en parole reposaient principalement sur des modèles linéaires. Les modèles ne nécessitaient généralement pas d'énormes ensembles de données d'entraînement et étaient hautement interprétables, mais la précision était très faible.
Récemment basées sur les réseaux de neurones profonds, notamment l'utilisation d'architectures de réseaux de neurones convolutifs et récurrents, de nombreuses tentatives ont été faites dans les deux dimensions clés de la simulation de la représentation latente intermédiaire de la parole et de la qualité de la parole synthétisée. Par exemple, certaines études décodent l'activité du cortex cérébral en espace de mouvement de la bouche, puis la convertissent en parole. Bien que les performances de décodage soient puissantes, la voix reconstruite ne semble pas naturelle.
D'un autre côté, certaines méthodes réussissent à reconstruire une parole naturelle en utilisant le vocodeur wavenet, le réseau contradictoire génératif (GAN) , etc., mais la précision est limitée.
Une étude récente publiée dans Nature a obtenu à la fois précision et exactitude en utilisant les caractéristiques HuBERT quantifiées comme espace de représentation intermédiaire et un synthétiseur vocal pré-entraîné pour convertir ces caractéristiques en parole chez un patient doté d'un dispositif implanté.
Cependant, les fonctionnalités HuBERT ne peuvent pas représenter des informations acoustiques spécifiques au locuteur et peuvent uniquement générer des sons de haut-parleur fixes et unifiés. Des modèles supplémentaires sont donc nécessaires pour convertir ce son universel en la voix d'un patient spécifique. De plus, cette étude et la plupart des tentatives précédentes ont adopté une architecture non causale, ce qui peut limiter son utilisation dans les applications pratiques d'interface cerveau-ordinateur nécessitant des opérations causales temporelles. Création d'un synthétiseur vocal différenciableL'équipe de recherche du NYU Video Lab et du Flinker Lab a introduit un nouveau cadre de décodage de l'électroencéphalogramme
(ECoG), qui est généré par un modèle de codage et de décodage de la parole utilisant uniquement des signaux vocaux.
△Cadre de décodage de la parole neuronaleUne partie est le décodeur ECoG, qui convertit le signal ECoG en paramètres de parole acoustique que nous pouvons comprendre (tels que la hauteur, si le son production, volume et fréquence des formants, etc.);
L'autre partie est le synthétiseur vocal, qui convertit ces paramètres vocaux en spectrogramme.
Les chercheurs ont construit un synthétiseur vocal différentiable, qui permet au synthétiseur vocal de participer également à la formation lors de la formation du décodeur ECoG et d'optimiser conjointement pour réduire l'erreur de reconstruction du spectrogramme.
Cet espace latent de faible dimension a une forte interprétabilité, et l'encodeur vocal léger pré-entraîné génère des paramètres vocaux de référence, aidant les chercheurs à construire un cadre de décodage neuronal efficace et à surmonter le problème des données très rares dans le domaine de. décodage de la parole.
Ce cadre peut générer une parole naturelle très proche de la voix du locuteur, et la partie décodeur ECoG peut être connectée à différentes architectures de modèles d'apprentissage en profondeur et prend également en charge les opérations causales.
Les chercheurs ont collecté et traité les données ECoG de 48 patients en neurochirurgie, en utilisant plusieurs architectures d'apprentissage profond (y compris la convolution, le réseau neuronal récurrent et le transformateur) comme décodeurs ECoG.
Le framework a démontré une grande précision sur différents modèles, avec les meilleures performances obtenues avec l'architecture convolutive (ResNet). Le cadre proposé par les chercheurs dans cet article ne peut atteindre une grande précision que grâce à des opérations causales et un taux d'échantillonnage relativement faible (faible densité, espacement de 10 mm). Ils ont également démontré la capacité d’effectuer un décodage efficace de la parole à partir des hémisphères gauche et droit du cerveau, étendant ainsi l’application du décodage neuronal de la parole à l’hémisphère droit.
Le synthétiseur vocal différenciable
(synthétiseur vocal)rend la tâche de resynthèse vocale très efficace et peut utiliser une très petite synthèse vocale pour faire correspondre le son original avec un audio haute fidélité. Le principe du synthétiseur vocal différenciable s'inspire du principe du système génératif humain et divise la parole en deux parties : Voice
(pour modéliser les voyelles)et Unvoice (pour modéliser les consonnes) . La partie Voix peut d'abord utiliser le signal de fréquence fondamentale pour générer des harmoniques, et le filtrer avec un filtre composé des pics formants de F1-F6 pour obtenir les caractéristiques spectrales de la partie voyelle.
Pour la partie Unvoice, les chercheurs ont filtré le bruit blanc avec les filtres correspondants pour obtenir le spectre correspondant. Un paramètre apprenable peut contrôler le rapport de mélange des deux parties à chaque instant, le signal d'intensité est amplifié et un bruit de fond ajouté. pour obtenir le spectre final de la parole.
Résultats de la recherche
et boucle La différence dans le décodage vocal performances entre (LSTM) et Transformer (3D Swin) . Il convient de noter que ces modèles peuvent effectuer des opérations non causales
(non causales)ou causales dans le temps. La causalité des modèles de décodage a de grandes implications pour les interfaces cerveau-ordinateur
(BCI)applications : les modèles causals utilisent uniquement les signaux neuronaux passés et actuels pour générer la parole, tandis que les modèles acausaux utilisent également les signaux neuronaux futurs, ce qui en temps réel n'est pas réalisable en application. Par conséquent, ils se sont concentrés sur la comparaison des performances du même modèle lors de l'exécution d'opérations causales et causales.
Il a été constaté que même la version causale du modèle ResNet est comparable à la version non causale, sans différence significative entre les deux. De même, les performances des versions causales et non causales du modèle Swin sont similaires, mais les performances de la version causale du modèle LSTM sont nettement inférieures à celles de la version non causale.
Les chercheurs démontrent une précision de décodage moyenne (N = 48) pour plusieurs paramètres clés de la parole, notamment le poids du son (utilisé pour distinguer les voyelles des consonnes), l'intensité sonore, la hauteur f0, le premier formant f1 et le deuxième formant Peak f2. Une reconstruction précise de ces paramètres vocaux, en particulier la hauteur, le poids du son et les deux premiers formants, est essentielle pour obtenir un décodage et une reconstruction précis de la parole qui imite naturellement la voix du participant.
Les résultats montrent que les modèles non causals et causals peuvent obtenir des résultats de décodage raisonnables, ce qui fournit des orientations positives pour les recherches et applications futures.
2. Recherche sur le décodage de la parole et le taux d'échantillonnage spatial des signaux neuronaux des cerveaux gauche et droit
Dans cette perspective, ils ont comparé les performances de décodage des hémisphères cérébraux gauche et droit des participants pour vérifier la possibilité d’utiliser l’hémisphère cérébral droit pour la récupération de la parole.
Parmi les 48 sujets collectés dans l'étude, les signaux ECoG de 16 sujets ont été collectés à partir du cerveau droit.
En comparant les performances des décodeurs ResNet et Swin, nous avons constaté que l'hémisphère droit du cerveau peut également effectuer un décodage de la parole de manière stable et que l'effet de décodage est inférieur à celui de l'hémisphère gauche du cerveau.
Cela signifie que pour les patients présentant des lésions de l'hémisphère gauche et une perte de la capacité de langage, l'utilisation de signaux neuronaux de l'hémisphère droit pour restaurer le langage peut être une solution réalisable.
Ensuite, ils ont également exploré l’impact de la densité d’échantillonnage des électrodes sur l’effet de décodage de la parole.
Les études précédentes utilisaient principalement des grilles d'électrodes de densité plus élevée (0,4 mm) , tandis que la densité des grilles d'électrodes couramment utilisées en pratique clinique est plus faible (LD 1 cm) . Cinq participants ont utilisé des grilles d'électrodes de type hybride (HB) , qui sont principalement des échantillonnages à faible densité mais intègrent des électrodes supplémentaires. Les quarante-trois participants restants ont été échantillonnés à faible densité. Les performances de décodage de ces échantillons hybrides (HB) sont similaires aux échantillons traditionnels à faible densité (LD) .
Cela montre que le modèle peut apprendre des informations vocales du cortex cérébral avec différentes densités d'échantillonnage spatial, ce qui implique également que la densité d'échantillonnage couramment utilisée dans la pratique clinique pourrait être suffisante pour les futures applications d'interface cerveau-ordinateur.
3. Recherche sur la contribution de différentes zones cérébrales du cerveau gauche et droit au décodage de la parole
Les chercheurs ont également examiné la contribution des zones du cerveau liées à la parole dans le processus de décodage de la parole, ce qui sera utile à l'avenir. l'implantation de la parole dans les hémisphères gauche et droit du cerveau constitue une référence importante.
Utilise la technologie d'occlusion(analyse d'occlusion) pour évaluer la contribution de différentes zones cérébrales au décodage de la parole.
En comparant les modèles causals et non causals des décodeurs ResNet et Swin, il s'avère que le cortex auditif contribue davantage au modèle non causal. Cela confirme que dans les applications de décodage vocal en temps réel, les modèles causals doivent être utilisés. être utilisé, car dans le décodage de la parole en temps réel, nous ne pouvons pas tirer parti des signaux de neurofeedback.
De plus, que ce soit dans l'hémisphère droit ou gauche, l'apport du cortex sensorimoteur, notamment de la zone abdominale, est similaire, ce qui laisse penser que l'implantation de prothèses neurales dans l'hémisphère droit pourrait être une solution réalisable.
En conclusion, cette recherche a fait une série de progrès dans l'interface cerveau-ordinateur, mais les chercheurs ont également mentionné certaines limites du modèle actuel. Par exemple, le processus de décodage nécessite des données d'entraînement à la parole associées à des enregistrements ECoG, ce qui est très important. pour l'aphasie. Les patients peuvent ne pas être éligibles.
À l'avenir, ils espèrent développer une architecture modèle capable de gérer des données hors grille et de mieux utiliser les données EEG multi-patients et multimodales.
Dans le domaine de l'interface cerveau-ordinateur, la recherche actuelle en est encore à ses débuts. Avec l'itération de la technologie matérielle et les progrès rapides de la technologie d'apprentissage profond, les idées d'interface cerveau-ordinateur apparaissant dans les films de science-fiction vont se développer. se rapprocher de la réalité.
Lien papier : https://www.nature.com/articles/s42256-024-00824-8.
Lien GitHub : https://github.com/flinkerlab/neural_speech_decoding.
Plus d'exemples de discours générés : https://xc1490.github.io/nsd/.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!