- 論文網址:https://ieeexplore.ieee.org/document/10089190
- #程式碼位址:https://github.com/ChangdeDu/BraVL
- ##資料位址:https:// figshare.com/articles/dataset/BraVL/17024591
首次將大腦、視覺和語言知識結合,透過多模態學習的方式,實現了從人類腦活動記錄中零樣本地解碼視覺新類別。本文也貢獻了三個「腦 - 圖 - 文」三模態匹配資料集。
實驗結果顯示了一些有趣的結論和認知洞見:1)從人類腦活動中解碼新的視覺類別是可以實現的,並且精度較高;2)使用視覺和語言特徵的組合的解碼模型比僅使用其中之一的模型表現更好;3)視覺感知可能伴隨著語言影響來表示視覺刺激的語義。這些發現不僅對人類視覺系統的理解有所啟示,也為未來的腦機介面技術提供了新的思路。本研究的程式碼和資料集均已開源。研究背景
解碼人類視覺神經表徵是具有重要科學意義的挑戰,可以揭示視覺處理機制並促進腦科學與人工智慧的發展。然而,目前的神經解碼方法難以泛化到訓練資料以外的新類別上,主要原因有兩個:一是現有方法未充分利用神經資料背後的多模態語意知識,二是現有的可利用的配對(刺激- 腦響應)訓練資料很少。
研究表明,人類對視覺刺激的感知和識別受到視覺特徵和人們先前經驗的影響。例如當我們看到一個熟悉的物體時,我們的大腦會自然而然地檢索與該物體相關的知識。如下圖1 所示,認知神經科學對雙重編碼理論[9] 的研究認為,具體概念在大腦中既以視覺方式又以語言方式進行編碼,其中語言作為有效的先驗經驗,有助於塑造由視覺生成的表徵。因此,作者認為想要更好地解碼記錄到的腦訊號,不僅應該使用實際呈現的視覺語義特徵,還應該包括與該視覺目標物件相關的更豐富的語言語意特徵的組合來進行解碼。
#圖 1. 人類大腦中的知識雙重編碼。當我們看到大象的圖片時,會自然地在腦海中檢索大象的相關知識(如長長的鼻子、長長的牙齒、大耳朵等)。此時,大象的概念會在大腦中以視覺和語言的形式進行編碼,其中語言作為一種有效的先前經驗,有助於塑造由視覺產生的表徵。
如下圖 2 所示,由於收集各種視覺類別的人腦活動非常昂貴,通常研究者只有非常有限的視覺類別的腦活動。然而,圖像和文字資料卻非常豐富,它們也可以提供額外的有用資訊。本文的方法可以充分利用所有類型的資料(三模態、雙模態和單模態)來提高神經解碼的泛化能力#。
圖 2. 圖像刺激、引發的大腦活動以及它們對應的文字資料。我們只能為少數類別收集大腦活動數據,但可以輕鬆收集幾乎所有類別的圖像和 / 或文字數據。因此,對於已知類別,我們假設大腦活動、視覺圖像和相應的文字描述都可用於訓練,而對於新類別,僅視覺圖像和文字描述可用於訓練。測試數據是來自新類別的大腦活動數據。
「腦- 圖- 文」多模態學習
如下圖3A 所示,本文方法的關鍵在於將每種模態學習到的分佈對齊到一個共享的潛在空間中,該空間包含與新類別相關的基本多模態資訊。
具體地說,作者提出了一種多模態自編碼變分貝葉斯學習框架 #,其中使用了專家混合相乘模型(Mixture-of-Products-of-Experts,MoPoE),推斷出一種潛在編碼,以實現所有三種模態的聯合生成。為了學習更相關的聯合表示,並在腦活動數據有限的情況下提高數據效率,作者還進一步引入了模態內和模態間的互資訊正則化項。此外,BraVL 模型可以在各種半監督學習場景下進行訓練,以納入額外的大規模圖像類別的視覺和文字特徵。
在圖3B 中,作者從新類別的視覺和文字特徵的潛在表示中訓練SVM 分類器。需要注意的是,在這一步驟中編碼器 E_v 和 E_t 被凍結,只有 SVM 分類器(灰色模組)會被最佳化。
在應用程式中,如圖3C 所示,本文方法的輸入僅為新類別腦訊號,不需要其他資料,因此可以輕鬆應用於大多數神經解碼場景。 SVM 分類器之所以能夠從(B)推廣到(C),是因為這三種模態的潛在表示已經在 A 中對齊。
#圖3 本文提出的「腦- 圖- 文」 三模態聯合學習框架,簡稱BraVL。
此外,腦訊號會因試次(trial)的不同而發生變化,即使是相同的視覺刺激也是如此。為了提高神經解碼的穩定性,作者使用了穩定性選擇方法來處理 fMRI 資料。所有體素的穩定性分數如下圖 4 所示,作者選取穩定性最好的前 15% 體素參與神經解碼過程。這種操作可以有效地降低 fMRI 資料的維度,並抑制噪音體素引起的干擾,而不會嚴重影響腦部特徵的判別能力。
#圖 4. 大腦視覺皮質的體素活動穩定性分數映射圖。
現有的神經編解碼資料集往往只有影像刺激和腦部反應。為了獲得視覺概念對應的語言描述,作者採用了一種半自動的維基百科文章抽取方法。
具體來說,作者首先創建ImageNet 類別與其對應的維基百科頁面的自動匹配,匹配是基於ImageNet 類別和維基百科標題的同義詞集單字之間的相似性,以及它們的父類別。如下圖 5 所示,遺憾的是,這種匹配偶爾會產生假陽性,因為名稱相似的類別可能表示非常不同的概念。在建立三模態資料集時,為了確保視覺特徵和語言特徵之間的高品質匹配,作者手動刪除了不匹配的文章。
图 5. 半自动视觉概念描述获取
实验结果
作者在多个「脑 - 图 - 文」三模态匹配数据集上进行了广泛的零样本神经解码实验,实验结果如下表所示。可以看到,使用视觉和文本特征组合 (V&T) 的模型比单独使用它们中的任何一种的模型表现得要好得多。值得注意的是,基于 V&T 特征的 BraVL 在两个数据集上的平均 top-5 准确率都有显著提高。这些结果表明,尽管呈现给被试的刺激只包含视觉信息,但可以想象,被试会下意识地调用适当的语言表征,从而影响视觉处理。
对于每个视觉概念类别,作者还展示了加入文本特征后的神经解码准确率增益,如下图 6 所示。可以看到,对于大多数测试类,文本特征的加入都有积极的影响,平均 Top-1 解码精度提高了约 6%。
图 6. 加入文本特征后的神经解码准确率增益
除了神经解码分析,作者还分析了文本特征在体素级神经编码方面的贡献 (基于视觉或文本特征预测相应的脑体素活动),结果如图 7 所示。可见,对于大多数高级视觉皮层 (HVC,如 FFA, LOC 和 IT),在视觉特征的基础上融合文本特征可以提高大脑活动的预测精度,而对于大多数低级视觉皮层 (LVC,如 V1, V2 和 V3),融合文本特征是没有好处的,甚至是有害的。
从认知神经科学的角度来看,我们的结果是合理的,因为一般认为 HVC 负责处理物体的类别信息、运动信息等更高层次的语义信息,而 LVC 负责处理方向、轮廓等底层信息。此外,最近的一项神经科学研究发现,视觉和语言语义表示在人类视觉皮层的边界上对齐 (即「语义对齐假说」)[10],作者的实验结果也支持这一假说
图 7. 将文本特征贡献投影到视觉皮层
更多实验结果请参见原文。
总体上,本文得出了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征组合的解码模型比单独使用两者中的任何一种的解码模型的性能要好得多;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义;4) 使用自然语言作为概念描述比使用类名具有更高的神经解码性能;5) 单模态和双模态的额外数据均能显著提高解码精度。
讨论与展望
论文第一作者、中科院自动化所特别研究助理杜长德表示:「此工作证实了从大脑活动、视觉图像和文本描述中提取的特征对于解码神经信号是有效的。然而,提取的视觉特征可能无法准确反映人类视觉处理的所有阶段,更好的特征集将有助于这些任务的完成。例如,可以使用更大的预训练语言模型(如 GPT-3),来提取更具有零样本泛化能力的文本特征。此外,尽管维基百科文章包含丰富的视觉信息,但这些信息很容易被大量的非视觉句子所掩盖。通过视觉句子提取或者使用 ChatGPT 和 GPT-4 等模型收集更准确和丰富的视觉描述可以解决这个问题。最后,与相关研究相比,虽然本研究使用了相对较多的三模态数据,但更大更多样化的数据集会更有益。这些方面我们留待未来的研究。」
論文通訊作者、中科院自動化所何暉光研究員指出:「本文提出的方法有三個潛在的應用:1)作為一種神經語義解碼工具,此方法將在新型讀取人腦語義訊息的神經義肢設備的開發中發揮重要作用。雖然這種應用還不成熟,但本文的方法為其提供了技術基礎。2)透過跨模態推斷腦活動,本文方法還可以用作神經編碼工具,用於研究視覺和語言特徵如何在人類大腦皮層上表達,揭示哪些腦區具有多模態屬性(即對視覺和語言特徵敏感)。3)AI 模型內部表徵的神經可解碼性可以被視為該模型的類腦水平指標。因此,本文的方法也可以用作類腦特性評估工具,測試哪個模型的(視覺或語言)表徵更接近於人類腦活動,從而激勵研究人員設計更類腦的計算模型。 ”
神經資訊編解碼是腦機介面領域的核心問題,也是探索人腦複雜功能背後的原理從而促進類腦智能發展的有效途徑。自動化所神經計算與腦機互動研究團隊已在該領域持續深耕多年,做出了一系列研究工作,發表在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 頭條報道,並獲得 ICME 2019 Best Paper Runner-up Award。
該研究得到了科技創新2030—「新一代人工智慧」 重大計畫、基金委計畫、自動化所2035 計畫以及中國人工智慧學會- 華為MindSpore 學術獎勵基金及智能基座等項目的支持。
作者簡介
第一作者:杜長德,中科院自動化所特別研究助理,從事腦認知與人工智慧方面的研究,在視覺神經訊息編解碼、多模態神經計算等方面發表論文40 餘篇,包括TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾獲 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 華人新星百強。先後承擔科技部、基金委、中科院的多項科研任務,研究成果被 MIT Technology Review 頭條報道。
個人首頁:https://changdedu.github.io/
通訊作者:何暉光,中科院自動化所研究員,博導,中國科學院大學職位教授,上海科技大學特聘教授,中科院青促會優秀會員,建國七十週年紀念章獲得者。先後承擔 7 項國家自然基金(含基金重點及國際合作重點)、2 項 863、國家重點研究計畫課題等項目。曾獲國家科技進步二等獎兩項(分別排名第二、第三)、北京市科技進步獎兩項、教育部科技進步一等獎、中科院首屆優秀博士論文獎、北京市科技新星、中科院“盧嘉錫青年人才獎」、福建省「閩江學者」 講座教授。其研究領域為人工智慧、腦 - 機介面、醫學影像分析等。近五年來,在 IEEE TPAMI/TNNLS、ICML 等期刊和會議上發表文章 80 餘篇。他是 IEEEE TCDS、《自動化學報》等期刊編委,CCF 傑出會員,CSIG 傑出會員。
以上是自動化所研發無創多模態學習模型,實現大腦訊號解碼與語意分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

SublimeText3漢化版
中文版,非常好用

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SublimeText3 Linux新版
SublimeText3 Linux最新版