如果人工智慧可以解讀你的想像,將你腦海中的圖像變成現實,那會怎麼樣?
雖然這聽起來有點賽博龐克。但最近發表的一篇論文,讓 AI 圈吵翻了天。
這篇論文發現,他們使用最近非常火辣的Stable Diffusion,就能重建大腦活動中的高分辨率、高精準影像。作者寫道,與先前的研究不同,他們不需要訓練或微調人工智慧模型來創建這些圖像。
- #論文網址:https://www .biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
- 網頁網址:https://sites.google.com/view/ stablediffusion-with-brain/
他們是怎麼做到的呢?
在本研究中,作者基於 Stable Diffusion 來重建透過功能性磁振造影 (fMRI) 而獲得的人腦活動影像。作者也表示,透過研究與大腦相關功能的不同組成部分(例如圖像 Z 的潛在向量等),也有助於了解隱擴散模型的機制。
這篇論文也已經被 CVPR 2023 接收。
該研究的主要貢獻包括:
- #證明了其簡單框架可以從具有高語義保真度的大腦活動中重建高解析度(512×512)影像,而無需訓練或微調複雜的深度生成模型,如下圖所示;
- 透過將特定組成部分映射到不同的大腦區域,該研究從神經科學的角度定量解釋了LDM 的每個組成部分;
- 該研究客觀地解釋了LDM 實現的文本到圖像轉換過程如何結合條件文本表達的語意訊息,同時保持原始影像的外觀。
方法概覽
該研究的整體方法如下圖 2 所示。圖 2(上)是該研究中使用的 LDM 示意圖,其中,ε 表示圖像編碼器,D 表示圖像解碼器,τ 表示文字編碼器(CLIP)。
圖 2(中)是本研究的解碼分析示意圖。研究者分別從早期(藍色)和高級(黃色)視覺皮層內的 fMRI 訊號中解碼了呈現圖像 (z) 和相關文本 c 的潛在表徵。這些潛在表徵被用作產生重建影像 X_zc 的輸入。
圖 2(下)是本研究的編碼分析示意圖。研究者建構了編碼模型來預測來自 LDM 不同組成部分的 fMRI 訊號,包括 z、c 和 z_c。
有關 Stable Diffusion 這裡就不做太多介紹,相信很多人比較了解。
結果
我們來看看該研究的視覺重建結果。
解碼
#下圖 3 展示了一個主體(subj01)的視覺重建結果。研究者為每個測試影像產生了五個影像,並選擇了具有最高 PSM 的影像。一方面,只用 z 重建的圖像在視覺上與原始圖像一致,但未能抓住其語義內容。另一方面,只用 c 重建的圖像產生的圖像具有很高的語義保真度,但在視覺上卻不一致。最後,使用 z_c 重建的影像可以產生具有高語義保真度的高解析度影像。
圖4 展示了所有測試者對相同影像的重建影像(所有影像都是用z_c 產生的) 。整體來說,各測試者的重建品質是穩定且準確的。
#圖5 是量化評估的結果:
#編碼模型
#圖6 顯示了編碼模型對與LDM 相關的三種潛像的預測精度:z,原始圖像的潛像;c,圖像文本註釋的潛像;以及z_c,經過與c 交叉注意力反向擴散過程後的z 的加噪潛像表徵。
圖 7 顯示,當加入少量的雜訊時,z 對整個皮質的體素活動的預測比 z_c 更好。有趣的是,當增加噪音水平時,z_c 對高位視覺皮層內體素活動的預測優於 z,這表明圖像的語義內容逐漸被強調。
在迭代去噪過程中,加入雜訊的潛在表徵如何改變?圖 8 顯示,在去雜訊過程的早期階段,z 訊號主導了 fMRI 訊號的預測。在去噪過程的中間階段,z_c 對高位視覺皮層內活動的預測比 z 好得多,表明大部分語義內容在這個階段出現了。結果顯示了 LDM 如何從雜訊中提煉和生成影像。
最後,研究者探討了 U-Net 的每一層都在處理什麼資訊。圖 9 顯示了去雜訊過程的不同步驟(早期、中期、晚期)以及 U-Net 不同層的編碼模型的結果。在去噪過程的早期階段,U-Net 的瓶頸層(橘色)在整個皮質中產生了最高的預測效能。然而,隨著去噪的進行,U-Net 的早期層(藍色)預測早期視覺皮層內的活動,而瓶頸層則轉向對更高的視覺皮層的卓越預測能力。
更多研究細節,可查看原始論文。
以上是'使用Stable Diffusion技術重現影像,相關研究被CVPR會議接受'的詳細內容。更多資訊請關注PHP中文網其他相關文章!

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3漢化版
中文版,非常好用

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),