搜尋
首頁科技週邊人工智慧AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

即便沒有霍格華茲的魔法,也能看到別人在想什麼了!

方法很簡單,基於Stable Diffusion便視覺化大腦影像。

例如,你看到的小熊、飛機、火車是這樣的。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

當AI看到大腦訊號後,產生的影像是下面的樣子,可見該有的要點全有了。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

這個AI讀腦術剛剛被CVPR 2023接收,讓圈友們瞬間「顱內高潮」。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

太野了!忘了提示工程吧,現在你只要用腦子去「想」那些畫面就行了。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

想像一下,用Stable Diffusion從fMRI資料中重建視覺影像,或許意味著未來可能發展為非入侵式的腦機介面。

讓AI直接跳過人類語言,感知人類大腦中所思所想。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

到時候,馬斯克搞的Neuralink也要追趕這一AI天花板了。

無須微調,用AI直接復現你在想什麼

那麼,AI讀腦究竟如何實現?

最新研究來自日本大阪大學的研究團隊。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

論文網址:https://www.php.cn/link/0424d20160a6a558e5bf86a7bc9b67f0

大阪大學前沿生物科學研究生院和日本NICT的CiNet的研究人員基於潛在的擴散模型(LDM),更具體地說,透過Stable Diffusion從fMRI資料中重建視覺體驗。

整個運作過程的框架也非常簡單:1個影像編碼器、1個影像解碼器,還有1個語意解碼器。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

透過這樣做,該團隊消除了訓練和微調複雜人工智慧模型的需要。

所有需要訓練的是簡單的線性模型,將下部和上部視覺腦區的fMRI訊號映射到單一Stable Diffusion成分。

具體來說,研究人員將大腦區域映射為圖像和文字編碼器的輸入。下部腦區被映射到影像編碼器,上部腦區被映射到文字編碼器。如此一來可以這讓該系統能夠使用影像組成和語意內容進行重建。

首先是解碼分析。研究中所採用的LDM模型,由影像編碼器ε、影像解碼器D、文字編碼器τ組成。

研究者分別從早期和高級視覺皮層的fMRI訊號中解碼出重建圖像z以及相關文本c的潛在表徵,將其作為輸入,由自動編碼器產生復現出的圖像Xzc。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

接著,研究者也建立了一個編碼模型,對來自LDM不同組件的fMRI訊號進行預測,從而探索LDM的內部運作機制。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

研究人員使用來自自然場景資料集(NSD)的fMRI影像進行實驗,並測試他們是否能使用Stable Diffusion來重建受試者所看到的東西。

可以看到,編碼模型與LDM相關潛像預測精度,最後一種模型在大腦後部視覺皮層產生的預測精確度是最高的。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

對一個主體的視覺重建結果顯示,只用z重建的影像在視覺上與原始影像一致,但不能捕捉到語意內容。

而只用c重建的圖像具有較好的語義保真度,但視覺一致性較差,使用zc重建的圖像則可以同時具備高語義保真度和高解析度.

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

來自所有受試者對相同影像的重建結果顯示,重建的效果在不同受試者之間是穩定且比較準確的。

而在具體細節上的差異,可能來自不同個體知覺經驗或資料品質的不同,而非重建過程有誤。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

最後,將定量評估的結果繪製成圖表。

種種結果顯示,研究中採用的方法不僅可以捕捉到低層次的視覺外觀,而且還能捕捉到原始刺激物的高層次語意內容。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

由此看來,實驗顯示圖像和文字解碼的結合提供了準確的重建。

研究人員表示,受試者之間在準確性方面存在差異,但這些差異與fMRI影像的品質相關。根據團隊的說法,重建的品質與目前SOTA的方法相當,但不需要訓練其中使用的AI模型。

同時,團隊也利用從fMRI資料中得出的模型來研究Stable Diffusion的各個構建塊,例如語意內容是如何在逆向擴散過程中產生的,或在U-Net中發生什麼過程。

在去噪過程的早期階段,U-Net 的瓶頸層(橘色)產生最高的預測效能,隨著去噪過程的進行,早期層(藍色)進行早期視覺皮層活動的預測,瓶頸層則轉向高階視覺皮層。

這也就是說,在擴散過程剛開始時,影像資訊壓縮在瓶頸層中,伴隨著去噪,U-Net層之間的分離出現在視覺皮層中。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

此外,團隊正在對擴散不同階段的影像轉換進行定量解釋。透過這種方式,研究人員旨在從生物學的角度為更好地理解擴散模型做出貢獻,這些模型被廣泛使用,但人們對它們的理解仍然有限。

人腦畫面,早被AI解碼了?

多年來,研究人員一直在使用人工智慧模型來解碼來自人類大腦的訊息。

大多數方法的核心,透過使用預先錄製的fMRI圖像作為文字或圖像的生成性AI模型的輸入。

例如,在2018年初,一組來自日本的研究人員展示了一個神經網路如何從fMRI錄音中重建影像。

2019年,一個小組從猴子的神經元中重建了圖像,Meta的研究小組在Jean-Remi King的領導下,發表了新的工作,例如從fMRI數據中得出文本。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

2022年10月,德州大學奧斯汀分校的一個團隊表明,GPT模型可以從fMRI掃描中推斷出描述一個人在影片中看到的語義內容的文字。

2022年11月,新加坡國立大學、香港中文大學和史丹佛大學的研究人員使用了MinD-Vis擴散模型從fMRI掃描中重建影像,其準確性明顯高於當時可用的方法。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

再往前倒推的話,有網友指出了「根據腦波產生影像至少從2008年開始就有了,以某種方式暗示著Stable Diffusion能夠讀懂人的思想,簡直太荒謬了。」

這項由加州大學柏克萊分校發表在Nature的論文稱,利用視覺解碼器可以將人的腦電波活動轉換成影像。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

#要說回溯歷史,還有人直接拿出1999年,史丹佛李飛飛的一項關於從大腦皮質重建影像的研究。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

李飛飛也動手評論轉發,稱自己當時還是大學實習生。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

也有2011年,UC伯克利的一項研究使用功能性磁振造影(fMRI)和計算模型,初步重建了大腦的「動態視覺影像」。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

也就是說,他們重現了人們看過的片段。

但是相較於最新研究,這項重建完全稱不上「高清」,幾乎無法辨認。

作者介紹

Yu Takagi

Yu Takagi是大阪大學的助理教授。他的研究興趣是計算神經科學和人工智慧的交叉領域。

在博士期間,他在ATR腦資訊交流研究實驗室研究使用功能性磁振造影(fMRI)從全腦功能連結預測不同個體差異的技術。

最近,他在牛津大學的牛津人腦活動中心和東京大學的心理學系,利用機器學習技術了解複雜決策任務中的動態計算。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

Shinji Nishimoto

Shinji Nishimoto是大阪大學的教授。他的研究方面是對大腦中視覺和認知處理的定量理解。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

更具體地說,Nishimoto教授團隊的研究重點是透過建立自然感知和認知條件下誘發的大腦活動的預測模型來理解神經處理和代表。

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

有網友問作者,這項研究能否用於解夢?

「將同樣的技術應用於睡眠期間的大腦活動是可能的,但這種應用的準確性目前還不清楚。」

AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像

看過這項研究後:攝神取念術(Legilimency)妥妥的有了。

參考資料:

##https: //www.php.cn/link/0424d20160a6a558e5bf86a7bc9b67f0

##1 /02d72b702eed900577b953ef7a9c1182

##

以上是AI讀腦炸裂!掃描大腦畫面,Stable Diffusion逼真復現影像的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境