在這篇NeurIPS23 論文中,來自魯汶大學、新加坡國立大學和中科院自動化所的研究者提出了一種視覺「讀腦術」,能夠從人類的大腦活動中以高解析度解析出人眼觀看的影像。
在認知神經科學領域,人們意識到人類的感知不僅受到客觀刺激的影響,也深受過去經驗的影響。這些因素共同作用,形成了大腦中複雜的活動。因此,解碼大腦活動中的視覺訊息成為了一項重要的任務。其中,功能性磁振造影(fMRI)作為一種高效的非侵入性技術,在恢復和分析視覺訊息,尤其是影像類別方面發揮關鍵的作用
然而,由於fMRI 訊號的噪聲特性和大腦視覺表徵的複雜性,這項任務面臨著不小的挑戰。針對這個問題,本文提出了一個雙階段fMRI 表徵學習框架,旨在識別並去除大腦活動中的噪聲,並專注於解析對視覺重建至關重要的神經激活模式,成功從大腦活動中重建出高解析度且語意上準確的影像。
論文連結:https://arxiv.org/abs/2305.17214
專案連結:https://github.com/soinx0629/vis_dec_neurips/
論文中提出的方法是基於雙重對比學習、跨模態資訊交叉及擴散模型,在相關fMRI 資料集上取得了相對於以往最好模型接近40% 的評測指標提升,在生成影像的品質、可讀性及語意相關性相對於已有方法均有肉眼可感知的提升。此工作有助於理解人腦的視覺感知機制,有益於推動視覺的腦機介面技術的研究。相關程式碼均已開源。
功能性磁振造影(fMRI)雖廣泛用於解析神經反應,但從其數據中準確重建視覺圖像仍具挑戰,主要因為fMRI 數據包含多種來源的噪聲,這些噪聲可能掩蓋神經激活模式,增加解碼難度。此外,視覺刺激引發的神經反應過程複雜多階段,使得 fMRI 訊號呈現非線性的複雜疊加,難以逆轉並解碼。
傳統的神經解碼方式,例如嶺回歸,儘管被用於將 fMRI 訊號與相應刺激關聯,卻常常無法有效捕捉刺激和神經反應之間的非線性關係。近期,深度學習技術,如生成對抗網路(GAN)和潛在擴散模型(LDMs),已被採用以更準確地建模這種複雜關係。然而,將視覺相關的大腦活動從噪音中分離出來,並準確進行解碼,仍然是該領域的主要挑戰之一。
為了應對這些挑戰,該工作提出了一個雙階段fMRI 表徵學習框架,該方法能夠有效識別並去除大腦活動中的噪聲,並專注於解析對視覺重建至關重要的神經激活模式。此方法在產生高解析度及語意準確的影像方面,其 50 分類的 Top-1 準確率超過現有最先進技術 39.34%。
方法概述即為一系列步驟或流程的簡要描述。它用於解釋如何達到特定目標或完成特定任務。方法概述的目的是提供讀者或使用者一個對整個過程的整體了解,以便他們能夠更好地理解和跟隨其中的步驟。在方法概述中,通常包括步驟的順序、所需的材料或工具以及可能遇到的問題或挑戰。透過清晰明了地描述方法概述,讀者或使用者能夠更容易地理解並成功地完成所需的任務
#fMRI 表徵學習(FRL)
第一階段:預訓練雙重對比遮罩自動編碼器(DC-MAE)
為了在不同人群中區分共有的大腦活動模式和個體噪聲,本文引入了 DC-MAE 技術,利用未標記資料對 fMRI 表徵進行預訓練。 DC-MAE 包含一個編碼器和一個解碼器
,其中
以遮蔽的 fMRI 訊號為輸入,
則被訓練以預測未遮蔽的 fMRI 訊號。所謂的 「雙重對比」 是指模型在 fMRI 表徵學習中優化對比損失並參與了兩個不同的對比過程。
在第一階段的對比學習中,每個包含n 個fMRI 樣本v 的批次中的樣本被隨機遮蔽兩次,產生兩個不同的遮蔽版本
和
,作為對比的正樣本對。隨後,1D 卷積層將這兩個版本轉換為嵌入式表示,分別輸入至 fMRI 編碼器
。解碼器
接收這些編碼的潛在表示,產生預測值
和
。透過 InfoNCE 損失函數計算的第一次對比損失,即交叉對比損失,來最佳化模型:
在第二階段對比學習中,每個未遮蔽的原始影像及其對應的遮蔽影像
形成一對天然正樣本。這裡的
代表解碼器
預測出的影像。第二次對比損失,也就是自對比損失,根據以下公式進行計算:
優化自對比損失能夠實現遮蔽重建。無論是
或
,負樣本
都來自同一批次的實例。
和
共同如下優化:
,其中超參數
和
用於調節各損失項的權重。
第二階段:使用跨模態指導進行調整
#鑑於fMRI記錄的訊號雜訊比較低且高度卷積的特性,對於fMRI特徵學習器來說,專注於與視覺處理最相關且對重建最有資訊價值的大腦活化模式是至關重要的
在第一階段預訓練後,fMRI 自編碼器透過影像輔助進行調整,以實現 fMRI 的重建,第二階段同樣遵循此過程。具體而言,從 n 個樣本批次中選擇一個樣本及其對應的 fMRI 記錄的神經反應
。
和
經過分割塊和隨機遮蔽處理,分別轉變為
和
,然後分別輸入到影像編碼器
和fMRI 編碼器
中,產生
和
。為重建 fMRI
,利用交叉注意力模組將
和
合併:
W 和 b 分別代表對應線性層的權重和偏移。 是縮放因子,
是鍵向量的維度。 CA 是交叉注意力(cross-attention)的縮寫。
加上
後,輸入到fMRI 解碼器中以重建
,得到
:
圖片自編碼器也進行了類似的計算,圖像編碼器的輸出
透過交叉注意力模組
與
的輸出合併,然後用於解碼圖像
,得到
:
#透過最佳化以下損失函數,fMRI 和影像自編碼器共同進行訓練:
#產生影像時,可以使用潛在擴散模型(LDM)
在完成 FRL 第一階段和第二階段的訓練後,使用 fMRI 特徵學習器的編碼器來驅動一個潛在擴散模型(LDM),從大腦活動生成影像。如圖所示,擴散模型包括一個向前的擴散過程和一個逆向去噪過程。向前過程逐漸將影像降解為常態高斯噪聲,透過逐漸引入變方差的高斯噪聲。
該研究透過從預先訓練的標籤到影像潛在擴散模型(LDM)中提取視覺知識,並利用 fMRI 資料作為條件來產生影像。這裡採用交叉注意力機制,將 fMRI 訊息融入 LDM,遵循穩定擴散研究的建議。為了強化條件資訊的作用,這裡採用了交叉注意力和時間步條件化的方法。在訓練階段,使用VQGAN 編碼器和經FRL 第一和第二階段訓練的fMRI 編碼器
處理圖像u 和fMRI v,並在保持LDM 不變的情況下微調fMRI 編碼器,損失函數為:
其中,是擴散模型的雜訊計畫。在推理階段,過程從時間步長 T 的標準高斯噪聲開始,LDM 依次遵循逆向過程逐步去除隱藏表徵的噪聲,條件化在給定的 fMRI 訊息上。當到達時間步長零時,使用 VQGAN 解碼器
將隱藏表徵轉換為影像。
實驗
重建結果
透過與DC-LDM、IC- GAN 和SS-AE 等先前研究的對比,並在GOD 和BOLD5000 資料集上的評估中顯示,該研究提出的模型在準確率上顯著超過這些模型,其中相對於DC-LDM 和IC-GAN 分別提高了39.34% 和66.7%
在GOD 資料集的其他四名受試者上的評估顯示,即使在允許DC-LDM 在測試集上進行調整的情況下,研究提出的模型在50 種方式的Top-1 分類準確率上也顯著優於DC-LDM,證明了所提出的模型在不同受試者大腦活動重建方面的可靠性和優越性。
研究結果顯示,使用提出的fMRI來表徵學習框架和預先訓練的LDM,能夠更好地重建大腦的視覺活動,遠遠超過目前的基準水平。這項工作有助於進一步挖掘神經解碼模型的潛力
以上是NeurIPS23|「讀腦」解碼大腦活動重建視覺世界的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

大型語言模型(LLM)已成為現代AI應用不可或缺的一部分,但是評估其功能仍然是一個挑戰。長期以來,傳統的基準一直是測量LLM性能的標準,但隨著RA

AI聊天機器人變得越來越聰明,並且越來越複雜。 Google DeepMind的最新實驗模型Gemini 2.5 Pro代表了AI Chatbot功能中的一個重大飛躍。具有改進的CONTEX

Openai的O3:推理和多模式能力的飛躍 OpenAI的O3模型代表了AI推理能力的重大進步。 O3專為複雜解決問題,分析任務和自主工具的使用而設計

Canva Create 2025:用Canva Code和AI革新設計 Canva的Create 2025活動推出了重大進步,將其平台擴展到AI驅動的工具,企業解決方案,尤其是開發人員工具。 關鍵更新包括ENH

簡單任務的應用程序躍跳時的時代即將結束。 想像一下,通過一次對話預訂假期,或者自動進行賬單。 這是AI代理商的力量 - 您期望您需求的新數字助手,而不是JUS

Openai的開創性O3和O4-Mini推理模型:向Agi邁出的巨大飛躍 在GPT 4.1 Family發射之後,Openai在AI:O3和O4-Mini推理模型中推出了其最新進步。 這些不僅僅是AI模型;這

利用駱駝4和自動基因的力量建立智能AI代理 Meta的Llama 4模型家族正在改變AI景觀,提供了本地的多模式能力來徹底改變智能係統的發展。 本文探索


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

禪工作室 13.0.1
強大的PHP整合開發環境

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

記事本++7.3.1
好用且免費的程式碼編輯器