首次將大腦、視覺和語言知識結合,透過多模態學習的方式,實現了從人類腦活動記錄中零樣本地解碼視覺新類別。本文也貢獻了三個「腦 - 圖 - 文」三模態匹配資料集。
實驗結果顯示了一些有趣的結論和認知洞見:1)從人類腦活動中解碼新的視覺類別是可以實現的,並且精度較高;2)使用視覺和語言特徵的組合的解碼模型比僅使用其中之一的模型表現更好;3)視覺感知可能伴隨著語言影響來表示視覺刺激的語義。這些發現不僅對人類視覺系統的理解有所啟示,也為未來的腦機介面技術提供了新的思路。本研究的程式碼和資料集均已開源。研究背景
解碼人類視覺神經表徵是具有重要科學意義的挑戰,可以揭示視覺處理機制並促進腦科學與人工智慧的發展。然而,目前的神經解碼方法難以泛化到訓練資料以外的新類別上,主要原因有兩個:一是現有方法未充分利用神經資料背後的多模態語意知識,二是現有的可利用的配對(刺激- 腦響應)訓練資料很少。
研究表明,人類對視覺刺激的感知和識別受到視覺特徵和人們先前經驗的影響。例如當我們看到一個熟悉的物體時,我們的大腦會自然而然地檢索與該物體相關的知識。如下圖1 所示,認知神經科學對雙重編碼理論[9] 的研究認為,具體概念在大腦中既以視覺方式又以語言方式進行編碼,其中語言作為有效的先驗經驗,有助於塑造由視覺生成的表徵。因此,作者認為想要更好地解碼記錄到的腦訊號,不僅應該使用實際呈現的視覺語義特徵,還應該包括與該視覺目標物件相關的更豐富的語言語意特徵的組合來進行解碼。
#圖 1. 人類大腦中的知識雙重編碼。當我們看到大象的圖片時,會自然地在腦海中檢索大象的相關知識(如長長的鼻子、長長的牙齒、大耳朵等)。此時,大象的概念會在大腦中以視覺和語言的形式進行編碼,其中語言作為一種有效的先前經驗,有助於塑造由視覺產生的表徵。
如下圖 2 所示,由於收集各種視覺類別的人腦活動非常昂貴,通常研究者只有非常有限的視覺類別的腦活動。然而,圖像和文字資料卻非常豐富,它們也可以提供額外的有用資訊。本文的方法可以充分利用所有類型的資料(三模態、雙模態和單模態)來提高神經解碼的泛化能力#。
圖 2. 圖像刺激、引發的大腦活動以及它們對應的文字資料。我們只能為少數類別收集大腦活動數據,但可以輕鬆收集幾乎所有類別的圖像和 / 或文字數據。因此,對於已知類別,我們假設大腦活動、視覺圖像和相應的文字描述都可用於訓練,而對於新類別,僅視覺圖像和文字描述可用於訓練。測試數據是來自新類別的大腦活動數據。
如下圖3A 所示,本文方法的關鍵在於將每種模態學習到的分佈對齊到一個共享的潛在空間中,該空間包含與新類別相關的基本多模態資訊。
具體地說,作者提出了一種多模態自編碼變分貝葉斯學習框架 #,其中使用了專家混合相乘模型(Mixture-of-Products-of-Experts,MoPoE),推斷出一種潛在編碼,以實現所有三種模態的聯合生成。為了學習更相關的聯合表示,並在腦活動數據有限的情況下提高數據效率,作者還進一步引入了模態內和模態間的互資訊正則化項。此外,BraVL 模型可以在各種半監督學習場景下進行訓練,以納入額外的大規模圖像類別的視覺和文字特徵。
在圖3B 中,作者從新類別的視覺和文字特徵的潛在表示中訓練SVM 分類器。需要注意的是,在這一步驟中編碼器 E_v 和 E_t 被凍結,只有 SVM 分類器(灰色模組)會被最佳化。
在應用程式中,如圖3C 所示,本文方法的輸入僅為新類別腦訊號,不需要其他資料,因此可以輕鬆應用於大多數神經解碼場景。 SVM 分類器之所以能夠從(B)推廣到(C),是因為這三種模態的潛在表示已經在 A 中對齊。
#圖3 本文提出的「腦- 圖- 文」 三模態聯合學習框架,簡稱BraVL。
此外,腦訊號會因試次(trial)的不同而發生變化,即使是相同的視覺刺激也是如此。為了提高神經解碼的穩定性,作者使用了穩定性選擇方法來處理 fMRI 資料。所有體素的穩定性分數如下圖 4 所示,作者選取穩定性最好的前 15% 體素參與神經解碼過程。這種操作可以有效地降低 fMRI 資料的維度,並抑制噪音體素引起的干擾,而不會嚴重影響腦部特徵的判別能力。
#圖 4. 大腦視覺皮質的體素活動穩定性分數映射圖。
現有的神經編解碼資料集往往只有影像刺激和腦部反應。為了獲得視覺概念對應的語言描述,作者採用了一種半自動的維基百科文章抽取方法。
具體來說,作者首先創建ImageNet 類別與其對應的維基百科頁面的自動匹配,匹配是基於ImageNet 類別和維基百科標題的同義詞集單字之間的相似性,以及它們的父類別。如下圖 5 所示,遺憾的是,這種匹配偶爾會產生假陽性,因為名稱相似的類別可能表示非常不同的概念。在建立三模態資料集時,為了確保視覺特徵和語言特徵之間的高品質匹配,作者手動刪除了不匹配的文章。
图 5. 半自动视觉概念描述获取
作者在多个「脑 - 图 - 文」三模态匹配数据集上进行了广泛的零样本神经解码实验,实验结果如下表所示。可以看到,使用视觉和文本特征组合 (V&T) 的模型比单独使用它们中的任何一种的模型表现得要好得多。值得注意的是,基于 V&T 特征的 BraVL 在两个数据集上的平均 top-5 准确率都有显著提高。这些结果表明,尽管呈现给被试的刺激只包含视觉信息,但可以想象,被试会下意识地调用适当的语言表征,从而影响视觉处理。
对于每个视觉概念类别,作者还展示了加入文本特征后的神经解码准确率增益,如下图 6 所示。可以看到,对于大多数测试类,文本特征的加入都有积极的影响,平均 Top-1 解码精度提高了约 6%。
图 6. 加入文本特征后的神经解码准确率增益
除了神经解码分析,作者还分析了文本特征在体素级神经编码方面的贡献 (基于视觉或文本特征预测相应的脑体素活动),结果如图 7 所示。可见,对于大多数高级视觉皮层 (HVC,如 FFA, LOC 和 IT),在视觉特征的基础上融合文本特征可以提高大脑活动的预测精度,而对于大多数低级视觉皮层 (LVC,如 V1, V2 和 V3),融合文本特征是没有好处的,甚至是有害的。
从认知神经科学的角度来看,我们的结果是合理的,因为一般认为 HVC 负责处理物体的类别信息、运动信息等更高层次的语义信息,而 LVC 负责处理方向、轮廓等底层信息。此外,最近的一项神经科学研究发现,视觉和语言语义表示在人类视觉皮层的边界上对齐 (即「语义对齐假说」)[10],作者的实验结果也支持这一假说
图 7. 将文本特征贡献投影到视觉皮层
更多实验结果请参见原文。
总体上,本文得出了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征组合的解码模型比单独使用两者中的任何一种的解码模型的性能要好得多;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义;4) 使用自然语言作为概念描述比使用类名具有更高的神经解码性能;5) 单模态和双模态的额外数据均能显著提高解码精度。
论文第一作者、中科院自动化所特别研究助理杜长德表示:「此工作证实了从大脑活动、视觉图像和文本描述中提取的特征对于解码神经信号是有效的。然而,提取的视觉特征可能无法准确反映人类视觉处理的所有阶段,更好的特征集将有助于这些任务的完成。例如,可以使用更大的预训练语言模型(如 GPT-3),来提取更具有零样本泛化能力的文本特征。此外,尽管维基百科文章包含丰富的视觉信息,但这些信息很容易被大量的非视觉句子所掩盖。通过视觉句子提取或者使用 ChatGPT 和 GPT-4 等模型收集更准确和丰富的视觉描述可以解决这个问题。最后,与相关研究相比,虽然本研究使用了相对较多的三模态数据,但更大更多样化的数据集会更有益。这些方面我们留待未来的研究。」
論文通訊作者、中科院自動化所何暉光研究員指出:「本文提出的方法有三個潛在的應用:1)作為一種神經語義解碼工具,此方法將在新型讀取人腦語義訊息的神經義肢設備的開發中發揮重要作用。雖然這種應用還不成熟,但本文的方法為其提供了技術基礎。2)透過跨模態推斷腦活動,本文方法還可以用作神經編碼工具,用於研究視覺和語言特徵如何在人類大腦皮層上表達,揭示哪些腦區具有多模態屬性(即對視覺和語言特徵敏感)。3)AI 模型內部表徵的神經可解碼性可以被視為該模型的類腦水平指標。因此,本文的方法也可以用作類腦特性評估工具,測試哪個模型的(視覺或語言)表徵更接近於人類腦活動,從而激勵研究人員設計更類腦的計算模型。 ”
神經資訊編解碼是腦機介面領域的核心問題,也是探索人腦複雜功能背後的原理從而促進類腦智能發展的有效途徑。自動化所神經計算與腦機互動研究團隊已在該領域持續深耕多年,做出了一系列研究工作,發表在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 頭條報道,並獲得 ICME 2019 Best Paper Runner-up Award。
該研究得到了科技創新2030—「新一代人工智慧」 重大計畫、基金委計畫、自動化所2035 計畫以及中國人工智慧學會- 華為MindSpore 學術獎勵基金及智能基座等項目的支持。
第一作者:杜長德,中科院自動化所特別研究助理,從事腦認知與人工智慧方面的研究,在視覺神經訊息編解碼、多模態神經計算等方面發表論文40 餘篇,包括TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾獲 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 華人新星百強。先後承擔科技部、基金委、中科院的多項科研任務,研究成果被 MIT Technology Review 頭條報道。
個人首頁:https://changdedu.github.io/
通訊作者:何暉光,中科院自動化所研究員,博導,中國科學院大學職位教授,上海科技大學特聘教授,中科院青促會優秀會員,建國七十週年紀念章獲得者。先後承擔 7 項國家自然基金(含基金重點及國際合作重點)、2 項 863、國家重點研究計畫課題等項目。曾獲國家科技進步二等獎兩項(分別排名第二、第三)、北京市科技進步獎兩項、教育部科技進步一等獎、中科院首屆優秀博士論文獎、北京市科技新星、中科院“盧嘉錫青年人才獎」、福建省「閩江學者」 講座教授。其研究領域為人工智慧、腦 - 機介面、醫學影像分析等。近五年來,在 IEEE TPAMI/TNNLS、ICML 等期刊和會議上發表文章 80 餘篇。他是 IEEEE TCDS、《自動化學報》等期刊編委,CCF 傑出會員,CSIG 傑出會員。
以上是自動化所研發無創多模態學習模型,實現大腦訊號解碼與語意分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!