Maison >Périphériques technologiques >IA >NeurIPS23 | « Brain Reading » décode l'activité cérébrale et reconstruit le monde visuel

NeurIPS23 | « Brain Reading » décode l'activité cérébrale et reconstruit le monde visuel

PHPzavant: 2024-01-10 14:54:24634parcourir

Dans cet article NeurIPS23, des chercheurs de l'Université de Louvain, de l'Université nationale de Singapour et de l'Institut d'automatisation de l'Académie chinoise des sciences ont proposé une « technologie de lecture cérébrale » visuelle capable d'analyser l'activité cérébrale humaine à haute résolution. image que vous voyez de vos propres yeux.

Dans le domaine des neurosciences cognitives, les gens se rendent compte que la perception humaine n'est pas seulement affectée par des stimuli objectifs, mais aussi profondément affectée par les expériences passées. Ces facteurs agissent ensemble pour créer une activité complexe dans le cerveau. Par conséquent, décoder les informations visuelles issues de l’activité cérébrale devient une tâche importante. Parmi eux, l'imagerie par résonance magnétique fonctionnelle (IRMf), en tant que technologie non invasive efficace, joue un rôle clé dans la récupération et l'analyse des informations visuelles, en particulier les catégories d'images, en raison des caractéristiques de bruit des signaux IRMf et de la vision cérébrale. complexité de la représentation, cette tâche se heurte à des défis considérables. Pour résoudre ce problème, cet article propose un cadre d'apprentissage de la représentation IRMf en deux étapes, qui vise à identifier et à éliminer le bruit dans l'activité cérébrale, et se concentre sur l'analyse des modèles d'activation neuronale qui sont cruciaux pour la reconstruction visuelle, en reconstruisant avec succès des images de haut niveau du cerveau. activité. résolution et images sémantiquement précises.

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 Lien article : https://arxiv.org/abs/2305.17214

Lien projet : https://github.com/soinx0629/vis_dec_neurips/

La méthode proposée dans l'article est basée sur un double apprentissage contrastif , modèle croisé Le modèle de croisement et de diffusion des informations d'état a obtenu une amélioration de près de 40 % des indicateurs d'évaluation sur les ensembles de données IRMf pertinents par rapport aux meilleurs modèles précédents. La qualité, la lisibilité et la pertinence sémantique des images générées sont toutes supérieures aux méthodes existantes. Amélioration perceptible. Ce travail aide à comprendre le mécanisme de perception visuelle du cerveau humain et contribue à promouvoir la recherche sur la technologie d’interface visuelle cerveau-ordinateur. Les codes pertinents sont open source.

Bien que l'imagerie par résonance magnétique fonctionnelle (IRMf) soit largement utilisée pour analyser les réponses neuronales, la reconstruction précise des images visuelles à partir de ses données reste un défi, principalement parce que les données IRMf contiennent du bruit provenant de sources multiples, ce qui peut masquer les modèles d'activation neuronale. De plus, le processus de réponse neuronale déclenché par la stimulation visuelle est complexe et en plusieurs étapes, ce qui fait que le signal IRMf présente une superposition complexe non linéaire difficile à inverser et à décoder.

Les méthodes de décodage neuronal traditionnelles, telles que la régression des crêtes, bien qu'utilisées pour associer les signaux IRMf aux stimuli correspondants, ne parviennent souvent pas à capturer efficacement la relation non linéaire entre les stimuli et les réponses neuronales. Récemment, des techniques d'apprentissage profond, telles que les réseaux contradictoires génératifs (GAN) et les modèles de diffusion latente (LDM), ont été adoptées pour modéliser cette relation complexe avec plus de précision. Cependant, isoler l’activité cérébrale liée à la vision du bruit et la décoder avec précision reste l’un des principaux défis dans ce domaine.

Pour relever ces défis, ce travail propose un cadre d'apprentissage de la représentation IRMf en deux étapes, capable d'identifier et de supprimer efficacement le bruit dans les activités cérébrales et de se concentrer sur l'analyse des modèles d'activation neuronale qui sont essentiels à la reconstruction visuelle. Cette méthode génère des images haute résolution et sémantiquement précises avec une précision Top-1 de 39,34 % pour 50 catégories, dépassant la technologie de pointe existante.

Un aperçu de la méthode est une brève description d'une série d'étapes ou de processus. Il est utilisé pour expliquer comment atteindre un objectif spécifique ou accomplir une tâche spécifique. Le but d’un aperçu de la méthode est de fournir au lecteur ou à l’utilisateur une compréhension globale de l’ensemble du processus afin qu’il puisse mieux comprendre et suivre les étapes. Dans un aperçu de la méthode, vous incluez généralement la séquence d'étapes, le matériel ou les outils nécessaires, ainsi que les problèmes ou défis qui peuvent être rencontrés. En décrivant l'aperçu de la méthode de manière claire et concise, le lecteur ou l'utilisateur peut plus facilement comprendre et accomplir avec succès la tâche requise

Apprentissage de la représentation IRMf (FRL)

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 Phase 1 : Pré-entraîner l'encodeur automatique des masques à double contraste ( DC-MAE)

Afin de distinguer les modèles d'activité cérébrale partagée et le bruit individuel parmi différents groupes de personnes, cet article présente la technologie DC-MAE pour pré-entraîner les représentations IRMf à l'aide de données non étiquetées. DC-MAE se compose d'un encodeur NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et d'un décodeur , où NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel prend le signal IRMf masqué en entrée et est entraîné pour prédire le signal IRMf non masqué. Ce que l'on appelle le « double contraste » signifie que le modèle optimise la perte de contraste dans l'apprentissage de la représentation IRMf et participe à deux processus de contraste différents.

Dans la première étape de l'apprentissage contrastif, les échantillons NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 de chaque lot contenant n échantillons IRMf v sont masqués au hasard deux fois, générant deux versions masquées différentes et sous forme de paires d'échantillons positifs à des fins de comparaison. Par la suite, les couches convolutionnelles 1D convertissent ces deux versions en représentations intégrées, qui sont respectivement introduites dans l'encodeur fMRI NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel . Le décodeur reçoit ces représentations latentes codées et produit des prédictions NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et . Optimisez le modèle grâce à la première perte de contraste calculée par la fonction de perte InfoNCE, c'est-à-dire la perte de contraste croisé :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Dans la deuxième étape de l'apprentissage contrastif, chaque image originale non masquée NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et son image masquée correspondante forment une paire d'échantillons positifs naturels. Le représente ici l'image prédite par le décodeur NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel . La deuxième perte de contraste, qui est la perte de contraste propre, est calculée selon la formule suivante :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Optimiser la perte de contraste propre NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 peut réaliser une reconstruction d'occlusion. Qu'il s'agisse de ou de NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel , l'échantillon négatif provient du même lot d'instances. et sont optimisés conjointement comme suit : NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 , où les hyperparamètres et sont utilisés pour ajuster le poids de chaque terme de perte.

Deuxième étape : réglage à l'aide d'un guidage intermodal

Étant donné le faible rapport signal/bruit et la nature hautement convolutionnelle des enregistrements IRMf, il est important que les apprenants des fonctionnalités IRMf se concentrent sur celles les plus pertinentes pour le traitement visuel Et il est crucial de reconstruire le schéma d’activation cérébrale le plus informatif

Après la première étape de pré-formation, l'auto-encodeur IRMf est ajusté avec l'assistance d'image pour réaliser la reconstruction IRMf, et la deuxième étape suit également ce processus. Plus précisément, un échantillon NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et sa réponse neuronale correspondante enregistrée par IRMf sont sélectionnés parmi un lot de n échantillons. et NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel sont traités par blocage et masquage aléatoire, transformés respectivement en NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et , puis entrés dans l'encodeur d'image et l'encodeur IRMf NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel respectivement pour générer et . Pour reconstruire l'IRMf, le module d'attention croisée permet de fusionner NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

W et b représentent respectivement le poids et le biais de la couche linéaire correspondante. NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 est le facteur d'échelle et est la dimension du vecteur clé. CA est l'abréviation de attention croisée. Une fois ajouté à NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel , il est entré dans le décodeur IRMf pour reconstruire , et nous obtenons NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Des calculs similaires sont également effectués dans l'auto-encodeur d'image, et la sortie NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel de l'encodeur d'image NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 est combinée avec le module d'attention croisée Les sorties de sont combinées puis utilisées pour décoder l'image NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel , donnant NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 :

Les auto-encodeurs IRMf et d'image sont entraînés conjointement en optimisant la fonction de perte suivante :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Lors de la génération d'images, un modèle de diffusion latente peut être utilisé (LDM)

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Après avoir terminé les première et deuxième étapes de la formation FRL, utilisez l'encodeur de la fonctionnalité IRMf NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel pour piloter un modèle de diffusion latente (MLD) afin de générer des images à partir de l'activité cérébrale. Comme le montre la figure, le modèle de diffusion comprend un processus de diffusion directe et un processus de débruitage inverse. Le processus direct dégrade progressivement l'image en bruit gaussien normal en introduisant progressivement un bruit gaussien avec une variance variable.

Cette étude génère des images en extrayant des connaissances visuelles à partir d'un modèle de diffusion latente étiquette-image (LDM) pré-entraîné et en utilisant les données IRMf comme condition. Un mécanisme d’attention croisée est utilisé ici pour incorporer les informations IRMf dans le LDM, suite aux recommandations d’études de diffusion stable. Afin de renforcer le rôle de l’information conditionnelle, les méthodes d’attention croisée et de conditionnement par pas de temps sont utilisées ici. Dans la phase d'entraînement, l'encodeur VQGAN NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et l'encodeur IRMf formés par les première et deuxième étapes de FRL NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel sont utilisés pour traiter l'image u et fMRI v, et l'encodeur IRMf est affiné tout en gardant le LDM inchangé. la fonction est : NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

où, NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 est le schéma de bruit du modèle de diffusion. Dans la phase d'inférence, le processus commence avec un bruit gaussien standard au pas de temps T, et le LDM suit séquentiellement le processus inverse pour supprimer progressivement le bruit de la représentation cachée, en fonction des informations IRMf fournies. Lorsque le pas de temps zéro est atteint, la représentation cachée est convertie en image à l'aide du décodeur VQGAN NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 .

Expérience

Résultats de reconstruction

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Par comparaison avec des études précédentes telles que DC-LDM, IC-GAN et SS-AE, et dans l'évaluation sur les ensembles de données GOD et BOLD5000, cette étude montre que Le modèle proposé surpasse considérablement ces modèles en termes de précision, avec une amélioration de 39,34 % et 66,7 % par rapport à DC-LDM et IC-GAN respectivement

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

L'évaluation sur quatre autres sujets de l'ensemble de données GOD montre, même lorsque DC-LDM est autorisé à être ajusté sur l'ensemble de tests, le modèle proposé dans cette étude est nettement meilleur que le DC-LDM dans la précision de classification Top-1 de 50 façons, prouvant que le modèle proposé est efficace dans différents sujets. Fiabilité et supériorité dans la reconstruction des sujets. ' activité cérébrale.

Les résultats de la recherche montrent que l'utilisation du cadre d'apprentissage de la représentation IRMf proposé et du LDM pré-entraîné peut mieux reconstruire l'activité visuelle du cerveau, dépassant de loin le niveau de base actuel. Ce travail permet d'explorer davantage le potentiel des modèles de décodage neuronal

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

接口 github https 重构自动化

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Poisson électronique en bois, assistant IA ambulant et affiches de sonneries personnalisées, la version 7.5 de DingTalk plaît aux jeunesArticle suivant：Poisson électronique en bois, assistant IA ambulant et affiches de sonneries personnalisées, la version 7.5 de DingTalk plaît aux jeunes

Articles Liés

Voir plus