'使用Stable Diffusion技術重現影像，相關研究被CVPR會議接受'-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

'使用Stable Diffusion技術重現影像，相關研究被CVPR會議接受'

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 26, 2023 pm 12:43 PM

影像研究

如果人工智慧可以解讀你的想像，將你腦海中的圖像變成現實，那會怎麼樣？

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

雖然這聽起來有點賽博龐克。但最近發表的一篇論文，讓 AI 圈吵翻了天。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

這篇論文發現，他們使用最近非常火辣的Stable Diffusion，就能重建大腦活動中的高分辨率、高精準影像。作者寫道，與先前的研究不同，他們不需要訓練或微調人工智慧模型來創建這些圖像。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

#論文網址：https://www .biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
網頁網址：https://sites.google.com/view/ stablediffusion-with-brain/

他們是怎麼做到的呢？

在本研究中，作者基於 Stable Diffusion 來重建透過功能性磁振造影 (fMRI) 而獲得的人腦活動影像。作者也表示，透過研究與大腦相關功能的不同組成部分（例如圖像 Z 的潛在向量等），也有助於了解隱擴散模型的機制。

這篇論文也已經被 CVPR 2023 接收。

該研究的主要貢獻包括：

#證明了其簡單框架可以從具有高語義保真度的大腦活動中重建高解析度（512×512）影像，而無需訓練或微調複雜的深度生成模型，如下圖所示；
透過將特定組成部分映射到不同的大腦區域，該研究從神經科學的角度定量解釋了LDM 的每個組成部分；
該研究客觀地解釋了LDM 實現的文本到圖像轉換過程如何結合條件文本表達的語意訊息，同時保持原始影像的外觀。

方法概覽

該研究的整體方法如下圖 2 所示。圖 2（上）是該研究中使用的 LDM 示意圖，其中，ε 表示圖像編碼器，D 表示圖像解碼器，τ 表示文字編碼器（CLIP）。

圖 2（中）是本研究的解碼分析示意圖。研究者分別從早期（藍色）和高級（黃色）視覺皮層內的 fMRI 訊號中解碼了呈現圖像 (z) 和相關文本 c 的潛在表徵。這些潛在表徵被用作產生重建影像 X_zc 的輸入。

圖 2（下）是本研究的編碼分析示意圖。研究者建構了編碼模型來預測來自 LDM 不同組成部分的 fMRI 訊號，包括 z、c 和 z_c。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

有關 Stable Diffusion 這裡就不做太多介紹，相信很多人比較了解。

結果

我們來看看該研究的視覺重建結果。

解碼

下圖 3 展示了一個主體（subj01）的視覺重建結果。研究者為每個測試影像產生了五個影像，並選擇了具有最高 PSM 的影像。一方面，只用 z 重建的圖像在視覺上與原始圖像一致，但未能抓住其語義內容。另一方面，只用 c 重建的圖像產生的圖像具有很高的語義保真度，但在視覺上卻不一致。最後，使用 z_c 重建的影像可以產生具有高語義保真度的高解析度影像。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

圖4 展示了所有測試者對相同影像的重建影像（所有影像都是用z_c 產生的）。整體來說，各測試者的重建品質是穩定且準確的。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

#圖5 是量化評估的結果：

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

#編碼模型

#圖6 顯示了編碼模型對與LDM 相關的三種潛像的預測精度：z，原始圖像的潛像；c，圖像文本註釋的潛像；以及z_c，經過與c 交叉注意力反向擴散過程後的z 的加噪潛像表徵。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

圖 7 顯示，當加入少量的雜訊時，z 對整個皮質的體素活動的預測比 z_c 更好。有趣的是，當增加噪音水平時，z_c 對高位視覺皮層內體素活動的預測優於 z，這表明圖像的語義內容逐漸被強調。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

在迭代去噪過程中，加入雜訊的潛在表徵如何改變？圖 8 顯示，在去雜訊過程的早期階段，z 訊號主導了 fMRI 訊號的預測。在去噪過程的中間階段，z_c 對高位視覺皮層內活動的預測比 z 好得多，表明大部分語義內容在這個階段出現了。結果顯示了 LDM 如何從雜訊中提煉和生成影像。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

最後，研究者探討了 U-Net 的每一層都在處理什麼資訊。圖 9 顯示了去雜訊過程的不同步驟（早期、中期、晚期）以及 U-Net 不同層的編碼模型的結果。在去噪過程的早期階段，U-Net 的瓶頸層（橘色）在整個皮質中產生了最高的預測效能。然而，隨著去噪的進行，U-Net 的早期層（藍色）預測早期視覺皮層內的活動，而瓶頸層則轉向對更高的視覺皮層的卓越預測能力。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

更多研究細節，可查看原始論文。

以上是'使用Stable Diffusion技術重現影像，相關研究被CVPR會議接受'的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將