搜索
首页科技周边人工智能自动化所研发无创多模态学习模型,实现大脑信号解码与语义分析

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

  • 论文地址:https://ieeexplore.ieee.org/document/10089190 
  • 代码地址:https://github.com/ChangdeDu/BraVL
  • 数据地址:https://figshare.com/articles/dataset/BraVL/17024591

太长不看版

这项研究首次将大脑、视觉和语言知识相结合,通过多模态学习的方式,实现了从人类脑活动记录中零样本地解码视觉新类别。本文还贡献了三个「脑 - 图 - 文」三模态匹配数据集

实验结果表明了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义。这些发现不仅对人类视觉系统的理解有所启示,而且也为将来的脑机接口技术提供了新的思路。本研究的代码和数据集均已开源。

研究背景

解码人类视觉神经表征是一个具有重要科学意义的挑战,可以揭示视觉处理机制并促进脑科学与人工智能的发展。然而,目前的神经解码方法难以泛化到训练数据以外的新类别上,主要原因有两个:一是现有方法未充分利用神经数据背后的多模态语义知识,二是现有的可利用的配对(刺激 - 脑响应)训练数据很少。

研究表明,人类对视觉刺激的感知和识别受到视觉特征和人们先前经验的影响。例如当我们看到一个熟悉的物体时,我们的大脑会自然而然地检索与该物体相关的知识。如下图 1 所示,认知神经科学对双重编码理论 [9] 的研究认为,具体概念在大脑中既以视觉方式又以语言方式进行编码,其中语言作为有效的先验经验,有助于塑造由视觉生成的表征。

因此,作者认为想要更好地解码记录到的脑信号,不仅应该使用实际呈现的视觉语义特征,还应该包括与该视觉目标对象相关的更丰富的语言语义特征的组合来进行解码。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 1. 人类大脑中的知识双重编码。当我们看到大象的图片时,会自然地在脑海中检索到大象的相关知识(如长长的鼻子、长长的牙齿、大大耳朵等)。此时,大象的概念会在大脑中以视觉和语言的形式进行编码,其中语言作为一种有效的先前经验,有助于塑造由视觉产生的表征。

如下图 2 所示,由于收集各种视觉类别的人脑活动非常昂贵,通常研究者只有非常有限的视觉类别的脑活动。然而,图像和文本数据却非常丰富,它们也可以提供额外的有用信息。本文的方法可以充分利用所有类型的数据(三模态、双模态和单模态)来提高神经解码的泛化能力

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 2. 图像刺激、引发的大脑活动以及它们相应的文本数据。我们只能为少数类别收集大脑活动数据,但是可以很容易地收集几乎所有类别的图像和 / 或文本数据。因此,对于已知类别,我们假设大脑活动、视觉图像和相应的文本描述都可用于训练,而对于新类别,仅视觉图像和文本描述可用于训练。测试数据是来自新类别的大脑活动数据。

「脑 - 图 - 文」多模态学习

如下图 3A 所示,本文方法的关键在于将每种模态学习到的分布对齐到一个共享的潜在空间中,该空间包含与新类别相关的基本多模态信息。

具体地说,作者提出了一种多模态自编码变分贝叶斯学习框架,其中使用了专家混合相乘模型(Mixture-of-Products-of-Experts,MoPoE),推断出一种潜在编码,以实现所有三种模态的联合生成。为了学习更相关的联合表示,并在脑活动数据有限的情况下提高数据效率,作者还进一步引入了模态内和模态间的互信息正则化项。此外,BraVL 模型可以在各种半监督学习场景下进行训练,以纳入额外的大规模图像类别的视觉和文本特征。

在图 3B 中,作者从新类别的视觉和文本特征的潜在表示中训练 SVM 分类器。需要注意的是,在这一步中编码器 E_v 和 E_t 被冻结,只有 SVM 分类器(灰色模块)会被优化。

在应用中,如图 3C 所示,本文方法的输入仅为新类别脑信号,不需要其他数据,因此可以轻松应用于大多数神经解码场景。SVM 分类器之所以能够从(B)推广到(C),是因为这三种模态的潜在表示已经在 A 中对齐。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 3 本文提出的 “脑 - 图 - 文” 三模态联合学习框架,简称 BraVL。

此外,脑信号会因试次(trial)的不同而发生变化,即使是相同的视觉刺激也是如此。为了提高神经解码的稳定性,作者使用了稳定性选择方法来处理 fMRI 数据。所有体素的稳定性分数如下图 4 所示,作者选取稳定性最好的前 15% 体素参与神经解码过程。这种操作可以有效地降低 fMRI 数据的维度,并抑制噪声体素引起的干扰,而不会严重影响脑特征的判别能力。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 4. 大脑视觉皮层的体素活动稳定性分数映射图。

现有的神经编解码数据集往往只有图像刺激和脑响应。为了获取视觉概念对应的语言描述,作者采用了一种半自动的维基百科文章抽取方法

具体来说,作者首先创建 ImageNet 类与其对应的维基百科页面的自动匹配,匹配是基于 ImageNet 类和维基百科标题的同义词集单词之间的相似性,以及它们的父类别。如下图 5 所示,遗憾的是,这种匹配偶尔会产生假阳性,因为名称相似的类可能表示非常不同的概念。在构建三模态数据集时,为了确保视觉特征和语言特征之间的高质量匹配,作者手动删除了不匹配的文章。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 5. 半自动视觉概念描述获取

实验结果

作者在多个「脑 - 图 - 文」三模态匹配数据集上进行了广泛的零样本神经解码实验,实验结果如下表所示。可以看到,使用视觉和文本特征组合 (V&T) 的模型比单独使用它们中的任何一种的模型表现得要好得多。值得注意的是,基于 V&T 特征的 BraVL 在两个数据集上的平均 top-5 准确率都有显著提高。这些结果表明,尽管呈现给被试的刺激只包含视觉信息,但可以想象,被试会下意识地调用适当的语言表征,从而影响视觉处理。

对于每个视觉概念类别,作者还展示了加入文本特征后的神经解码准确率增益,如下图 6 所示。可以看到,对于大多数测试类,文本特征的加入都有积极的影响,平均 Top-1 解码精度提高了约 6%。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 6. 加入文本特征后的神经解码准确率增益

除了神经解码分析,作者还分析了文本特征在体素级神经编码方面的贡献 (基于视觉或文本特征预测相应的脑体素活动),结果如图 7 所示。可见,对于大多数高级视觉皮层 (HVC,如 FFA, LOC 和 IT),在视觉特征的基础上融合文本特征可以提高大脑活动的预测精度,而对于大多数低级视觉皮层 (LVC,如 V1, V2 和 V3),融合文本特征是没有好处的,甚至是有害的。

从认知神经科学的角度来看,我们的结果是合理的,因为一般认为 HVC 负责处理物体的类别信息、运动信息等更高层次的语义信息,而 LVC 负责处理方向、轮廓等底层信息。此外,最近的一项神经科学研究发现,视觉和语言语义表示在人类视觉皮层的边界上对齐 (即「语义对齐假说」)[10],作者的实验结果也支持这一假说

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 7. 将文本特征贡献投影到视觉皮层

更多实验结果请参见原文。

总体上,本文得出了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征组合的解码模型比单独使用两者中的任何一种的解码模型的性能要好得多;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义;4) 使用自然语言作为概念描述比使用类名具有更高的神经解码性能;5) 单模态和双模态的额外数据均能显著提高解码精度。

讨论与展望

论文第一作者、中科院自动化所特别研究助理杜长德表示:「此工作证实了从大脑活动、视觉图像和文本描述中提取的特征对于解码神经信号是有效的。然而,提取的视觉特征可能无法准确反映人类视觉处理的所有阶段,更好的特征集将有助于这些任务的完成。例如,可以使用更大的预训练语言模型(如 GPT-3),来提取更具有零样本泛化能力的文本特征。此外,尽管维基百科文章包含丰富的视觉信息,但这些信息很容易被大量的非视觉句子所掩盖。通过视觉句子提取或者使用 ChatGPT 和 GPT-4 等模型收集更准确和丰富的视觉描述可以解决这个问题。最后,与相关研究相比,虽然本研究使用了相对较多的三模态数据,但更大更多样化的数据集会更有益。这些方面我们留待未来的研究。」

论文通讯作者、中科院自动化所何晖光研究员指出:「本文提出的方法有三个潜在的应用:1)作为一种神经语义解码工具,此方法将在新型读取人脑语义信息的神经假肢设备的开发中发挥重要作用。虽然这种应用还不成熟,但本文的方法为其提供了技术基础。2)通过跨模态推断脑活动,本文方法还可以用作神经编码工具,用于研究视觉和语言特征如何在人类大脑皮层上表达,揭示哪些脑区具有多模态属性(即对视觉和语言特征敏感)。3)AI 模型内部表征的神经可解码性可以被视为该模型的类脑水平指标。因此,本文的方法也可以用作类脑特性评估工具,测试哪个模型的(视觉或语言)表征更接近于人类脑活动,从而激励研究人员设计更类脑的计算模型。」

神经信息编解码是脑机接口领域的核心问题,也是探索人脑复杂功能背后的原理从而促进类脑智能发展的有效途径。自动化所神经计算与脑机交互研究团队已在该领域持续深耕多年,做出了一系列研究工作,发表在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 头条报道,并获得 ICME 2019 Best Paper Runner-up Award。 

该研究得到了科技创新 2030—“新一代人工智能” 重大项目、基金委项目、自动化所 2035 项目以及中国人工智能学会 - 华为 MindSpore 学术奖励基金及智能基座等项目的支持。

作者简介

第一作者:杜长德,中科院自动化所特别研究助理,从事脑认知与人工智能方面的研究,在视觉神经信息编解码、多模态神经计算等方面发表论文 40 余篇,包括 TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾获得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承担科技部、基金委、中科院的多项科研任务,研究成果被 MIT Technology Review 头条报道。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

个人主页:https://changdedu.github.io/ 

通讯作者:何晖光,中科院自动化所研究员,博导,中国科学院大学岗位教授,上海科技大学特聘教授,中科院青促会优秀会员,建国七十周年纪念章获得者。先后承担 7 项国家自然基金(含基金重点和国际合作重点)、2 项 863、国家重点研究计划课题等项目。曾获得国家科技进步二等奖两项(分别排名第二、第三)、北京市科技进步奖两项、教育部科技进步一等奖、中科院首届优秀博士论文奖、北京市科技新星、中科院 “卢嘉锡青年人才奖”、福建省 “闽江学者” 讲座教授。其研究领域为人工智能、脑 - 机接口、医学影像分析等。近五年来,在 IEEE TPAMI/TNNLS、ICML 等期刊和会议上发表文章 80 余篇。他是 IEEEE TCDS、《自动化学报》等期刊编委,CCF 杰出会员,CSIG 杰出会员。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型


以上是自动化所研发无创多模态学习模型,实现大脑信号解码与语义分析的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT无法访问?本文提供多种实用解决方案!许多用户在日常使用ChatGPT时,可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况,逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查 首先,我们需要确定问题是出在OpenAI服务器端,还是用户自身网络或设备问题。 请按照以下步骤进行排查: 步骤1:检查OpenAI官方状态 访问OpenAI Status页面 (status.openai.com),查看ChatGPT服务是否正常运行。如果显示红色或黄色警报,则表示Open

计算ASI的风险始于人类的思想计算ASI的风险始于人类的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工学院物理学家Max Tegmark告诉《卫报》,AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数',这是一场比赛的可能性

易于理解的解释如何编写和撰写歌词和推荐工具易于理解的解释如何编写和撰写歌词和推荐工具May 14, 2025 am 05:01 AM

AI音乐创作技术日新月异,本文将以ChatGPT等AI模型为例,详细讲解如何利用AI辅助音乐创作,并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。 通过这些技术,每个人都能轻松创作原创音乐。但需注意,AI生成内容的版权问题不容忽视,使用时务必谨慎。 让我们一起探索AI在音乐领域的无限可能! OpenAI最新AI代理“OpenAI Deep Research”介绍: [ChatGPT]Ope

什么是chatgpt-4?对您可以做什么,定价以及与GPT-3.5的差异的详尽解释!什么是chatgpt-4?对您可以做什么,定价以及与GPT-3.5的差异的详尽解释!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显着提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解释如何使用chatgpt应用程序!日本支持和语音对话功能解释如何使用chatgpt应用程序!日本支持和语音对话功能May 14, 2025 am 04:59 AM

CHATGPT应用程序:与AI助手释放您的创造力!初学者指南 ChatGpt应用程序是一位创新的AI助手,可处理各种任务,包括写作,翻译和答案。它是一种具有无限可能性的工具,可用于创意活动和信息收集。 在本文中,我们将以一种易于理解的方式解释初学者,从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能,以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

如何使用中文版Chatgpt?注册程序和费用的说明如何使用中文版Chatgpt?注册程序和费用的说明May 14, 2025 am 04:56 AM

ChatGPT中文版:解锁中文AI对话新体验 ChatGPT风靡全球,您知道它也提供中文版本吗?这款强大的AI工具不仅支持日常对话,还能处理专业内容,并兼容简体中文和繁体中文。无论是中国地区的使用者,还是正在学习中文的朋友,都能从中受益。 本文将详细介绍ChatGPT中文版的使用方法,包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择,并分析潜在风险及应对策略。此外,我们还将对比ChatGPT中文版和其他中文AI工具,帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

5 AI代理神话,您需要停止相信5 AI代理神话,您需要停止相信May 14, 2025 am 04:54 AM

这些可以将其视为生成AI领域的下一个飞跃,这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动,而不是简单地回答问题或产生信息

易于理解使用Chatgpt创建和管理多个帐户的非法性的解释易于理解使用Chatgpt创建和管理多个帐户的非法性的解释May 14, 2025 am 04:50 AM

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释! Chatgpt在各种情况下都使用,但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户,使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点,例如业务和私人使用差异,并遵守OpenAI的使用条款,并提供指南,以帮助您安全地利用多个帐户。 Openai

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。