Maison  >  Article  >  Périphériques technologiques  >  L'IA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

L'IA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

WBOY
WBOYavant
2023-04-13 19:10:011840parcourir

Dans le roman de science-fiction "Le problème à trois corps", les Trisolariens qui tentent d'occuper la terre se voient proposer un cadre tout à fait unique : partager des informations par le biais d'ondes cérébrales, avec une pensée transparente et de mauvaises intentions entre eux. Pour eux, penser et parler sont le même mot. Les êtres humains, de leur côté, ont profité de la nature opaque de leur pensée pour élaborer le « Plan face au mur », et ont finalement réussi à tromper les Trisolarans et à remporter une victoire par étapes.

La question est alors : la pensée humaine est-elle vraiment complètement opaque ? Avec l’émergence de certains moyens techniques, la réponse à cette question ne semble plus aussi absolue. De nombreux chercheurs tentent de décoder les mystères de la pensée humaine et de décoder certains signaux cérébraux en texte, images et autres informations.

Récemment, deux équipes de recherche ont réalisé des progrès importants dans le sens du décodage d'images en même temps, et les articles connexes ont été acceptés par le CVPR 2023.

La première équipe vient de l'Université d'Osaka. Ils utilisent la diffusion stable, récemment très populaire, pour reconstruire des images de haute résolution et de haute précision de l'activité cérébrale à partir d'images d'activité cérébrale humaine obtenues par imagerie par résonance magnétique fonctionnelle (IRMf) ( Voir " Stable Diffusion lit les signaux de votre cerveau pour reproduire des images, et la recherche a été acceptée par le CVPR").

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Par coïncidence, presque au même moment, les équipes chinoises de l'Université nationale de Singapour, de l'Université chinoise de Hong Kong et de l'Université de Stanford ont également obtenu des résultats similaires. Ils ont développé un décodeur visuel humain appelé « MinD-Vis », qui peut décoder directement les stimuli visuels humains à partir des données IRMf grâce à une modélisation de masque pré-entraînée et un modèle de diffusion latente. Il génère ces images qui sont non seulement raisonnablement détaillées, mais qui représentent également avec précision la sémantique et les caractéristiques de l'image (telles que la texture et la forme). Actuellement, le code de cette recherche est open source.

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Titre de l'article : Voir au-delà du cerveau : modèle de diffusion conditionnelle avec modélisation masquée clairsemée pour le décodage de la vision

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

  • Lien de l'article : XIV. org /abs/2211.06956
  • Lien du code : https://github.com/zjc062/mind-vis
  • Lien du projet : https://mind-vis.github.io/

Ensuite, nous présenterons cet article en détail.

Aperçu de la recherche

"Ce que vous voyez est ce que vous pensez."

La perception humaine et les connaissances antérieures sont étroitement liées dans le cerveau. Notre perception du monde n'est pas seulement affectée par des stimuli objectifs, mais aussi par notre expérience. Ces effets forment des activités cérébrales complexes. Comprendre ces activités cérébrales et décoder les informations est l’un des objectifs importants des neurosciences cognitives, où le décodage des informations visuelles constitue un problème difficile.

L'imagerie par résonance magnétique fonctionnelle (IRMf) est une méthode non invasive et efficace couramment utilisée qui peut être utilisée pour récupérer des informations visuelles telles que des catégories d'images.

MinD-Vis vise à explorer la possibilité d'utiliser des modèles d'apprentissage profond pour décoder les stimuli visuels directement à partir des données IRMf.

Les méthodes précédentes qui décodaient des activités neuronales complexes directement à partir des données IRMf souffrent d'un manque d'appariement {IRMf - image} et d'un guidage biologique efficace, de sorte que les images reconstruites sont souvent floues et dénuées de sens sémantiquement. C’est donc un défi important d’apprendre efficacement les représentations IRMf, qui aident à établir le lien entre l’activité cérébrale et les stimuli visuels.

De plus, la variabilité individuelle complique le problème, et nous devons apprendre les représentations à partir de grands ensembles de données et assouplir les contraintes liées à la génération d'une synthèse conditionnelle à partir de l'IRMf.

Par conséquent, L'auteur estime que l'utilisation de l'apprentissage auto-supervisé (apprentissage auto-supervisé avec tâche pré-texte) couplé à des modèles génératifs à grande échelle peut donner au modèle une connaissance contextuelle et des performances étonnantes après avoir été affiné sur un Ensemble de données relativement petit. Capacité générative .

Sur la base de l'analyse ci-dessus, MinD-Vis a proposé une modélisation du signal masqué et un modèle de diffusion latente bi-conditionnelle pour le décodage visuel humain. Les contributions spécifiques sont les suivantes :

  • Modélisation du cerveau codé et masqué clairsemé (SC). -MBM) en tant qu'apprenant pré-entraîné biologiquement guidé des caractéristiques du cerveau pour un décodage visuel efficace.
  • En ajoutant un modèle de diffusion latente biconditionnelle (DC-LDM), la cohérence du décodage est renforcée sous la même sémantique tout en permettant de générer de la variance.
  • Combinant la capacité de représentation de SC-MBM et la capacité de génération de DC-LDM, les images générées par MinD-Vis sont plus raisonnables tout en conservant les informations sémantiques.
  • Testé quantitativement et qualitativement sur plusieurs ensembles de données.

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Comparaison avec les méthodes précédentes – Qualité de génération

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Comparaison avec les méthodes précédentes – Comparaison quantitative des indicateurs d'évaluation

Depuis Apprentissage Supervisé + Grand Modèles génératifs à l'échelle

Étant donné que la collecte de paires {IRMf - image} est très coûteuse et prend beaucoup de temps, cette tâche a toujours souffert d'un manque d'annotation des données. De plus, chaque ensemble de données et les données de chaque individu auront un certain décalage de domaine.

Dans cette tâche, les chercheurs visent à établir un lien entre l'activité cérébrale et la stimulation visuelle, et ainsi à générer des informations d'image correspondantes.

Pour ce faire, ils ont utilisé un apprentissage auto-supervisé et des modèles génératifs à grande échelle. Ils pensent que cette approche permet d’affiner les modèles sur des ensembles de données relativement petits et d’acquérir des connaissances contextuelles et des capacités génératives étonnantes.

MinD-Vis Framework

Ce qui suit présentera le cadre MinD-Vis en détail et présentera les raisons et les idées de la conception.

Les données IRMf présentent ces caractéristiques et problèmes :

  1. l'IRMf utilise des voxels 3D (voxels) pour mesurer les changements liés aux niveaux d'oxygène dans le sang du cerveau (BOLD) afin d'observer les changements dans l'activité cérébrale. Les amplitudes des voxels voisins sont souvent similaires, indiquant la présence d'une redondance spatiale dans les données IRMf.
  2. Lors du calcul des données IRMf, la région d'intérêt (ROI) est généralement extraite et les données sont converties en un vecteur 1D. Dans cette tâche, seul le signal du cortex visuel du cerveau est extrait. Par conséquent, le nombre de voxels (environ 4 000) est bien inférieur au nombre de pixels de l'image (256*256*3). traitées en termes de latitude et d'habitude. Il existe une lacune considérable dans la manière dont les données d'image sont utilisées.
  3. En raison des différences individuelles, des différences dans la conception expérimentale et de la complexité des signaux cérébraux, chaque ensemble de données et les données de chaque individu auront un certain changement de domaine.
  4. Pour un stimulus visuel fixe, les chercheurs espèrent que les images restituées par le modèle seront sémantiquement cohérentes cependant, en raison des différences individuelles, chacun a des réactions différentes à ce stimulus visuel, et les chercheurs espèrent également que le modèle aura un une certaine variance et flexibilité.

Pour résoudre ces problèmes, MinD-Vis contient deux étapes :

  1. Utiliser des ensembles de données IRMf à grande échelle pour entraîner l'auto-encodeur masqué à apprendre la représentation IRMf.
  2. Intégrez l'encodeur IRMf pré-entraîné avec LDM pour un double conditionnement via un conditionnement d'attention croisée et un conditionnement par pas de temps pour effectuer une synthèse conditionnelle. Ensuite, nous affinons conjointement la tête d'attention croisée dans LDM en utilisant une paire {fMRI, Image}.

Ces deux étapes seront présentées en détail ici.

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Présentation de MinD-Vis

(A) Modélisation cérébrale masquée à code clairsemé (SC-MBM) (Aperçu de MinD-Vis à gauche)

Merci à l'IRMf space Les informations sont redondantes et les données IRMf peuvent toujours être récupérées même si elles sont largement obscurcies. Par conséquent, dans la première étape de MinD-Vis, la plupart des données IRMf sont masquées pour gagner du temps de calcul. Ici, l'auteur utilise une approche similaire à Masked Autoencoder :

  1. Divisez les voxels IRMf en patchs
  2. Utilisez une couche de convolution 1D avec une foulée égale à la taille du patch pour la convertir en intégration
  3. Le reste Le patch IRMf est ajouté avec intégration positionnelle et utilisé comme entrée du transformateur de vision
  4. Décoder pour obtenir les données reconstruites
  5. Calculer la perte entre les données reconstruites et les données d'origine
  6. Optimiser le modèle par rétropropagation pour rendre les données reconstruites aussi similaires que possible aux données originales
  7. Répétez les étapes 2 à 6 pour entraîner le modèle final

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

SC-MBM peut restaurer efficacement les informations IRMf masquées

Ceci Quelle est la différence entre le design et le masqueed Autoencoder ?

  • Lorsque la modélisation de masque est appliquée à des images naturelles, le modèle utilise généralement un rapport d'intégration/taille de patch égal ou légèrement supérieur à 1.
  • Dans cette tâche, l'auteur a utilisé un rapport d'intégration/taille de patch relativement important, ce qui peut augmenter considérablement la capacité d'information et créer un grand espace de représentation pour l'IRMf. Cette conception correspond également à la distribution de l'information dans le cerveau. . Codage clairsemé*.

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Expérience d'ablation de SC-MBM

(B) LDM à double condition (DC-LDM) (aperçu MinD-Vis à droite)

Au stade A Après avoir effectué un apprentissage contextuel à grande échelle, l'encodeur IRMf peut convertir les données IRMf en une représentation clairsemée avec des contraintes de localité. Ici, les auteurs formulent la tâche de décodage comme un problème de génération conditionnelle et utilisent le LDM pré-entraîné pour résoudre ce problème.

  • LDM opère sur l'espace latent des images, avec les données IRMf z comme informations conditionnelles, et le but est d'apprendre à former des images grâce à un processus de rétrodiffusion.
  • Dans les tâches de génération d'images, la diversité et la cohérence sont des objectifs opposés, et l'IRMf des images repose davantage sur la génération de cohérence.
  • Pour assurer la cohérence des générations, l'auteur combine le conditionnement d'attention croisée et le conditionnement par pas de temps, et utilise un mécanisme conditionnel avec intégration du temps dans la couche intermédiaire d'UNet.
  • Ils ont en outre reformulé la formule de l'objectif d'optimisation en une formule alternée à double ajustement.

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Nous avons démontré la stabilité de notre méthode en décodant plusieurs fois des images dans différents états aléatoires.

Réglage fin

Une fois que l'encodeur IRMf est pré-entraîné par SC-MBM, il est intégré au LDM pré-entraîné par double conditionnement. Ici, par :

  1. Utilisez une couche convolutive pour fusionner la sortie de l'encodeur dans la dimension latente ;
  2. Optimisez conjointement l'encodeur IRMf, les têtes d'attention croisées et les têtes de projection, et d'autres parties sont corrigées ; les têtes d'attention sont connectées et pré-entraînées. La clé du conditionnement de l'espace et de l'espace latent de l'IRMf
  3. Dans le processus de réglage fin de bout en bout grâce aux images IRMf, des connexions plus claires entre l'IRMf et les caractéristiques de l'image seront apprises grâce à un grand- représentations IRMf de capacité.

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Expérience d'ablation DC-LDM

Détails supplémentaires

De façon inattendue, MinD-Vis peut décoder certaines choses qui n'existent pas réellement dans l'image de vérité terrain, mais des détails qui sont très pertinents par rapport au contenu de l’image. Par exemple, lorsque l'image est un paysage naturel, MinD-Vis décode une rivière et un ciel bleu ; lorsqu'il s'agit d'une maison, MinD-Vis décode une décoration intérieure similaire. Cela présente à la fois des avantages et des inconvénients. Le bon côté est que cela montre que nous pouvons décoder ce que nous avions imaginé ; le mauvais côté est que cela peut affecter l’évaluation des résultats du décodage. L'auteur estime que lorsque le nombre d'échantillons d'apprentissage est petit, la difficulté de décoder le stimulus sera différente. Par exemple, l'ensemble de données GOD contient plus d'échantillons de dressage d'animaux que de vêtements. Cela signifie qu'un mot sémantiquement similaire à « poilu » est plus susceptible d'être décodé comme un animal plutôt que comme un vêtement, comme le montre l'image ci-dessus, où une chaussette est décodée comme un mouton.

Configuration expérimentale

Ensembles de données

LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Ici, l'auteur a utilisé trois ensembles de données publics.

La première étape de pré-formation : utilisation du projet Human Connectome, qui fournit 136 000 segments de données IRMf, pas d'images, uniquement IRMf. LIA sait ce que vous pensez et le dessine pour vous. Le code du projet est open source.

Affinement de l'encodeur et du modèle de génération de deuxième étape : des ensembles de données génériques de décodage d'objets (GOD) et des ensembles de données Brain, Object, Landscape (BOLD5000) ont été utilisés. Ces deux ensembles de données fournissent respectivement 1 250 et 5 254 paires {IRMf, Image}, dont 50 et 113 ont été prises respectivement comme ensembles de test.

Structure du modèle

La conception de la structure du modèle (ViT et modèle de diffusion) dans cet article fait principalement référence à la littérature passée. Veuillez vous référer au texte pour plus de détails sur les paramètres du modèle. De même, ils adoptent également une architecture asymétrique : l’encodeur vise à apprendre des représentations IRMf significatives, tandis que le décodeur tente de prédire les correctifs obscurcis. Par conséquent, nous suivons la conception précédente et réduisons la taille du décodeur, que nous rejetons après la pré-formation.

Indice d'évaluation

  • Comme la littérature précédente, l'auteur a également utilisé l'exactitude de la classification n-way top-1 et top-5 pour évaluer l'exactitude sémantique des résultats. Il s'agit d'une méthode qui évalue les résultats en calculant la précision de la classification parmi les 1 et 5 premiers pour n-1 catégories sélectionnées au hasard et la catégorie correcte sur plusieurs essais. Contrairement aux approches précédentes, ils adoptent ici une méthode d'évaluation plus directe et reproductible, utilisant un classificateur ImageNet1K pré-entraîné pour juger de l'exactitude sémantique des images générées au lieu d'utiliser des fonctionnalités artisanales. De plus, ils ont utilisé la distance de démarrage de Fréchet (FID) comme référence pour évaluer la qualité des images générées. Cependant, en raison du nombre limité d’images dans l’ensemble de données, le FID peut ne pas évaluer parfaitement la distribution des images.
  • Effet

Les expériences présentées dans cet article ont été menées au niveau individuel, c'est-à-dire que le modèle a été formé et testé sur le même individu. À des fins de comparaison avec la littérature précédente, les résultats pour le troisième sujet de l'ensemble de données GOD sont rapportés ici et les résultats pour les autres sujets sont répertoriés en annexe.

Écrit à la fin

À travers ce projet, l'auteur a démontré la faisabilité de restaurer les informations visuelles du cerveau humain grâce à l'IRMf. Cependant, de nombreuses questions doivent être abordées dans ce domaine, telles que la manière de mieux gérer les différences entre les individus, la manière de réduire l'impact du bruit et des interférences sur le décodage et la manière de combiner le décodage IRMf avec d'autres techniques de neurosciences pour parvenir à un résultat optimal. compréhension plus complète des mécanismes et des fonctions du cerveau humain. Dans le même temps, nous devons également mieux comprendre et respecter les questions éthiques et juridiques entourant le cerveau humain et la vie privée des individus.

De plus, nous devons également explorer des scénarios d'application plus larges, tels que la médecine et l'interaction homme-machine, afin de transformer cette technologie en applications pratiques. Dans le domaine médical, la technologie de décodage IRMf pourrait être utilisée à l’avenir pour aider des groupes spéciaux tels que les personnes malvoyantes, les malentendants et même les patients souffrant de paralysie générale à décoder leurs pensées. En raison d’un handicap physique, ces personnes sont incapables d’exprimer leurs pensées et leurs souhaits via les méthodes de communication traditionnelles. En utilisant la technologie IRMf, les scientifiques peuvent décoder leur activité cérébrale pour accéder à leurs pensées et à leurs souhaits, leur permettant ainsi de communiquer avec eux de manière plus naturelle et plus efficace. Dans le domaine de l'interaction homme-machine, la technologie de décodage IRMf peut être utilisée pour développer des interfaces homme-machine et des systèmes de contrôle plus intelligents et adaptatifs, tels que le décodage de l'activité cérébrale de l'utilisateur pour obtenir une expérience d'interaction homme-machine plus naturelle et plus efficace.

Nous pensons qu'avec le soutien d'ensembles de données à grande échelle + de grands modèles + de puissance de calcul, le décodage IRMf aura un impact plus large et de grande envergure, favorisant le développement des neurosciences cognitives et de l'intelligence artificielle.

Remarque : *La base biologique de l'apprentissage des représentations de stimuli visuels dans le cerveau à l'aide d'un codage clairsemé : un codage clairsemé a été proposé comme stratégie pour la représentation des informations sensorielles. La recherche montre que les stimuli visuels sont peu codés dans le cortex visuel, ce qui augmente l’efficacité de la transmission de l’information et réduit la redondance dans le cerveau. Grâce à l'IRMf, le contenu visuel de scènes naturelles peut être reconstruit à partir de petites quantités de données collectées dans le cortex visuel. Le codage clairsemé peut être un moyen efficace de coder en vision par ordinateur. L'article mentionne la méthode SC-MBM, qui divise les données IRMf en petits blocs pour introduire des contraintes de localité, puis code de manière clairsemée chaque petit bloc dans un espace vectoriel de grande dimension, qui peut être utilisé comme un apprenant biologiquement efficace et efficient des caractéristiques cérébrales. , utilisé pour l'encodage et le décodage visuel.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer