搜索
首页科技周边人工智能NeurIPS23|「读脑术」解码大脑活动重构视觉世界

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

在认知神经科学领域,人们意识到人类的感知不仅受到客观刺激的影响,还深受过去的经验所影响。这些因素共同作用,形成了大脑中复杂的活动。因此,解码大脑活动中的视觉信息成为了一项重要的任务。其中,功能性磁共振成像(fMRI)作为一种高效的非侵入性技术,在恢复和分析视觉信息,尤其是图像类别方面发挥着关键的作用

然而,由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性,这一任务面临着不小的挑战。针对这一问题,本文提出了一个双阶段 fMRI 表征学习框架,旨在识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式,成功从大脑活动中重建出高分辨率且语义上准确的图像。

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

论文链接:https://arxiv.org/abs/2305.17214

项目链接:https://github.com/soinx0629/vis_dec_neurips/

论文中提出的方法基于双重对比学习、跨模态信息交叉及扩散模型,在相关 fMRI 数据集上取得了相对于以往最好模型接近 40% 的评测指标提升,在生成图像的质量、可读性及语义相关性相对于已有方法均有肉眼可感知的提升。该工作有助于理解人脑的视觉感知机制,有益于推动视觉的脑机接口技术的研究。相关代码均已开源。

功能性磁共振成像(fMRI)虽广泛用于解析神经反应,但从其数据中准确重建视觉图像仍具挑战,主要因为 fMRI 数据包含多种来源的噪声,这些噪声可能掩盖神经激活模式,增加解码难度。此外,视觉刺激引发的神经反应过程复杂多阶段,使得 fMRI 信号呈现非线性的复杂叠加,难以逆转并解码。

传统的神经解码方式,例如岭回归,尽管被用于将 fMRI 信号与相应刺激关联,却常常无法有效捕捉刺激和神经反应之间的非线性关系。近期,深度学习技术,如生成对抗网络(GAN)和潜在扩散模型(LDMs),已被采用以更准确地建模这种复杂关系。然而,将视觉相关的大脑活动从噪声中分离出来,并准确进行解码,依然是该领域的主要挑战之一。

为了应对这些挑战,该工作提出了一个双阶段 fMRI 表征学习框架,该方法能够有效识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式。该方法在生成高分辨率及语义准确的图像方面,其 50 分类的 Top-1 准确率超过现有最先进技术 39.34%。

方法概述即为对于一系列步骤或过程的简要描述。它用于解释如何达到特定目标或完成特定任务。方法概述的目的是提供读者或用户一个对整个过程的整体了解,以便他们能够更好地理解和跟随其中的步骤。在方法概述中,通常包括步骤的顺序、所需的材料或工具以及可能遇到的问题或挑战。通过清晰明了地描述方法概述,读者或用户能够更加容易地理解并成功地完成所需的任务

fMRI 表征学习 (FRL)

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

第一阶段:预训练双对比掩模自动编码器 (DC-MAE)

为了在不同人群中区分共有的大脑活动模式和个体噪声,本文引入了 DC-MAE 技术,利用未标记数据对 fMRI 表征进行预训练。DC-MAE 包含一个编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和一个解码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,其中NeurIPS23|「读脑术」解码大脑活动重构视觉世界以遮蔽的 fMRI 信号为输入,NeurIPS23|「读脑术」解码大脑活动重构视觉世界 则被训练以预测未遮蔽的 fMRI 信号。所谓的 “双重对比” 是指模型在 fMRI 表征学习中优化对比损失并参与了两个不同的对比过程。

在第一阶段的对比学习中,每个包含 n 个 fMRI 样本 v 的批次中的样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界被随机遮蔽两次,生成两个不同的遮蔽版本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,作为对比的正样本对。随后,1D 卷积层将这两个版本转换为嵌入式表示,分别输入至 fMRI 编码器NeurIPS23|「读脑术」解码大脑活动重构视觉世界。解码器NeurIPS23|「读脑术」解码大脑活动重构视觉世界 接收这些编码的潜在表示,产生预测值NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界。通过 InfoNCE 损失函数计算的第一次对比损失,即交叉对比损失,来优化模型:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在第二阶段对比学习中,每个未遮蔽的原始图像NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界及其相应的遮蔽图像NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界形成一对天然正样本。这里的NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界代表解码器NeurIPS23|「读脑术」解码大脑活动重构视觉世界预测出的图像。第二次对比损失,也就是自对比损失,根据以下公式进行计算:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

优化自对比损失NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界能够实现遮蔽重建。无论是NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界还是NeurIPS23|「读脑术」解码大脑活动重构视觉世界,负样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界都来自同一批次的实例。NeurIPS23|「读脑术」解码大脑活动重构视觉世界NeurIPS23|「读脑术」解码大脑活动重构视觉世界共同按如下方式优化:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,其中超参数NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界用于调节各损失项的权重。

  • 第二阶段:使用跨模态指导进行调整

鉴于fMRI记录的信噪比较低且高度卷积的特性,对于fMRI特征学习器来说,专注于与视觉处理最相关且对重建最有信息价值的大脑激活模式是至关重要的

在第一阶段预训练后,fMRI 自编码器通过图像辅助进行调整,以实现 fMRI 的重建,第二阶段同样遵循此过程。具体而言,从 n 个样本批次中选择一个样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界及其对应的 fMRI 记录的神经反应NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|「读脑术」解码大脑活动重构视觉世界经过分块和随机遮蔽处理,分别转变为NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|「读脑术」解码大脑活动重构视觉世界,然后分别输入到图像编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和 fMRI 编码器NeurIPS23|「读脑术」解码大脑活动重构视觉世界中,生成NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界。为重建 fMRINeurIPS23|「读脑术」解码大脑活动重构视觉世界,利用交叉注意力模块将NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界进行合并:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

W 和 b 分别代表相应线性层的权重和偏置。NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是缩放因子,NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是键向量的维度。CA 是交叉注意力(cross-attention)的缩写。NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界加上NeurIPS23|「读脑术」解码大脑活动重构视觉世界后,输入到 fMRI 解码器中以重建NeurIPS23|「读脑术」解码大脑活动重构视觉世界,得到NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

图像自编码器中也进行了类似的计算,图像编码器NeurIPS23|「读脑术」解码大脑活动重构视觉世界的输出NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界通过交叉注意力模块NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|「读脑术」解码大脑活动重构视觉世界的输出合并,然后用于解码图像NeurIPS23|「读脑术」解码大脑活动重构视觉世界,得到NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

通过优化以下损失函数,fMRI 和图像自编码器共同进行训练:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

生成图像时,可以使用潜在扩散模型(LDM)

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在完成 FRL 第一阶段和第二阶段的训练后,使用 fMRI 特征学习器的编码器NeurIPS23|「读脑术」解码大脑活动重构视觉世界来驱动一个潜在扩散模型(LDM),从大脑活动生成图像。如图所示,扩散模型包括一个向前的扩散过程和一个逆向去噪过程。向前过程逐渐将图像降解为正态高斯噪声,通过逐渐引入变方差的高斯噪声。

该研究通过从预训练的标签至图像潜在扩散模型(LDM)中提取视觉知识,并利用 fMRI 数据作为条件生成图像。这里采用交叉注意力机制,将 fMRI 信息融入 LDM,遵循稳定扩散研究的建议。为了强化条件信息的作用,这里采用了交叉注意力和时间步条件化的方法。在训练阶段,使用 VQGAN 编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和经 FRL 第一和第二阶段训练的 fMRI 编码器NeurIPS23|「读脑术」解码大脑活动重构视觉世界 处理图像 u 和 fMRI v,并在保持 LDM 不变的情况下微调 fMRI 编码器,损失函数为:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

其中,NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是扩散模型的噪声计划。在推理阶段,过程从时间步长 T 的标准高斯噪声开始,LDM 依次遵循逆向过程逐步去除隐藏表征的噪声,条件化在给定的 fMRI 信息上。当到达时间步长零时,使用 VQGAN 解码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界将隐藏表征转换为图像。

实验

重建结果 

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

通过与 DC-LDM、IC-GAN 和 SS-AE 等先前研究的对比,并在 GOD 和 BOLD5000 数据集上的评估中显示,该研究提出的模型在准确率上显著超过这些模型,其中相对于 DC-LDM 和 IC-GAN 分别提高了 39.34% 和 66.7%

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在 GOD 数据集的其他四名受试者上的评估显示,即使在允许 DC-LDM 在测试集上进行调整的情况下,该研究提出的模型在 50 种方式的 Top-1 分类准确率上也显著优于 DC-LDM,证明了提出的模型在不同受试者大脑活动重建方面的可靠性和优越性。

研究结果显示,使用提出的fMRI表征学习框架和预先训练的LDM,能够更好地重建大脑的视觉活动,远远超过目前的基准水平。这项工作有助于进一步挖掘神经解码模型的潜力

以上是NeurIPS23|「读脑术」解码大脑活动重构视觉世界的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
阅读AI索引2025:AI是您的朋友,敌人还是副驾驶?阅读AI索引2025:AI是您的朋友,敌人还是副驾驶?Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

开始使用Meta Llama 3.2 -Analytics Vidhya开始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

AV字节:Meta' llama 3.2,Google的双子座1.5等AV字节:Meta' llama 3.2,Google的双子座1.5等Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

与机器交谈的人类成本:聊天机器人真的可以在乎吗?与机器交谈的人类成本:聊天机器人真的可以在乎吗?Apr 11, 2025 pm 12:00 PM

连接的舒适幻想:我们在与AI的关系中真的在蓬勃发展吗? 这个问题挑战了麻省理工学院媒体实验室“用AI(AHA)”研讨会的乐观语气。事件展示了加油

了解Python的Scipy图书馆了解Python的Scipy图书馆Apr 11, 2025 am 11:57 AM

介绍 想象一下,您是科学家或工程师解决复杂问题 - 微分方程,优化挑战或傅立叶分析。 Python的易用性和图形功能很有吸引力,但是这些任务需要强大的工具

3种运行Llama 3.2的方法-Analytics Vidhya3种运行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式联运AI强力 Meta的最新多模式模型Llama 3.2代表了AI的重大进步,具有增强的语言理解力,提高的准确性和出色的文本生成能力。 它的能力t

使用dagster自动化数据质量检查使用dagster自动化数据质量检查Apr 11, 2025 am 11:44 AM

数据质量保证:与Dagster自动检查和良好期望 保持高数据质量对于数据驱动的业务至关重要。 随着数据量和源的增加,手动质量控制变得效率低下,容易出现错误。

大型机在人工智能时代有角色吗?大型机在人工智能时代有角色吗?Apr 11, 2025 am 11:42 AM

大型机:AI革命的无名英雄 虽然服务器在通用应用程序上表现出色并处理多个客户端,但大型机是专为关键任务任务而建立的。 这些功能强大的系统经常在Heavil中找到

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器