ホームページ >テクノロジー周辺機器 >AI >「安定拡散技術を利用した画像再現、関連研究がCVPRカンファレンスに採択されました」

「安定拡散技術を利用した画像再現、関連研究がCVPRカンファレンスに採択されました」

WBOY
WBOY転載
2023-04-26 12:43:08800ブラウズ

人工知能があなたの想像力を読み取って、心の中のイメージを現実に変えることができたらどうなるでしょうか?

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

# これは少しサイバーパンクのように聞こえますが。しかし、最近発表された論文がAI界に波紋を引き起こした。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

この論文では、最近非常に人気のある安定拡散を使用して、高解像度の脳活動を高効率で再構築していることがわかりました。高精度な画像。著者らは、これまでの研究とは異なり、これらの画像を作成するために人工知能モデルをトレーニングしたり微調整したりする必要はなかったと書いている。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了


  • 紙のアドレス: https://www 。 biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
  • ウェブページのアドレス: https://sites.google.com/view/stablediffusion -with-brain/
彼らはどうやってそれを実現したのでしょうか?

この研究では、著者らは安定拡散を使用して、機能的磁気共鳴画像法 (fMRI) によって取得された人間の脳活動の画像を再構成しました。著者はまた、脳関連機能のさまざまな要素(画像 Z の潜在ベクトルなど)を研究することによって、潜在拡散モデルのメカニズムを理解することも役立つと述べました。

この論文は CVPR 2023 にも採択されました。

この研究の主な貢献は次のとおりです:

    シンプルなフレームワークが脳活動から高い意味忠実度でデータを生成できることを実証する以下の図に示すように、特定のコンポーネントをさまざまな脳領域に対応するため、この研究では、神経科学の観点から LDM の各コンポーネントを定量的に説明します。
  • この研究では、LDM によって実装されるテキストから画像への変換プロセスが、条件付きテキスト表現のセマンティックをどのように組み合わせるかについて客観的に説明します。元の画像の外観を維持しながら情報を保存します。
  • 方法論の概要
  • この研究の全体的な方法論を以下の図 2 に示します。図 2 (上) は、この研究で使用した LDM の概略図です。ε は画像エンコーダ、D は画像デコーダ、τ はテキスト エンコーダ (CLIP) を表します。

図 2 (中) は、本研究のデコード解析の概略図です。提示された画像 (z) の基礎となる表現 (z) と関連するテキスト c を、それぞれ初期 (青) 視覚野と高度 (黄色) 視覚野内の fMRI 信号から解読しました。これらの潜在表現は、再構成画像 X_zc を生成するための入力として使用されます。

図 2 (下) は、この研究のコーディング分析の概略図です。 z、c、z_c などの LDM のさまざまなコンポーネントからの fMRI 信号を予測するためのエンコード モデルを構築しました。

#安定拡散については多くの人がよく知っていると思いますので、ここではあまり紹介しません。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了結果

この研究の視覚的再構成結果を見てみましょう。

デコード

下の図 3 は、被験者 (subj01) の視覚的再構成結果を示しています。各テスト画像に対して 5 つの画像を生成し、PSM が最も高い画像を選択しました。一方で、z のみを使用して再構成された画像は、元の画像と視覚的に一致しますが、その意味的な内容を捉えることができません。一方、c のみを使用して再構成された画像は、意味論的忠実度が高い画像を生成しますが、視覚的には一貫性がありません。最後に、z_c 再構成イメージを使用すると、セマンティック忠実度の高い高解像度イメージを生成できます。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

# 図 4 は、すべてのテスターに​​よる同じ画像の再構成を示しています (すべての画像は z_c で生成されました)。全体として、テスター全体の再構成品質は安定していて正確でした。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

# 図 5 は定量的評価の結果です。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

コーディング モデル ## 図 6 は、LDM に関連するコーディング モデルのペアを示しています。 3 つの潜在画像の予測精度: z、元の画像の潜在画像、c、画像テキスト注釈の潜在画像、および z_c、c によるクロスアテンション逆拡散プロセス後の z のノイズを含む潜在画像表現。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了図 7 は、少量のノイズが追加された場合に、z が z_c よりも皮質全体のボクセル活動をより正確に予測することを示しています。興味深いことに、ノイズ レベルを増加すると、z_c は高視覚野のボクセル活動を z よりも正確に予測し、画像の意味内容が徐々に強調されることを示します。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

追加されたノイズの基礎となる表現は、反復的なノイズ除去プロセス中にどのように変化するのでしょうか?図 8 は、ノイズ除去プロセスの初期段階では、z 信号が fMRI 信号の予測を支配していることを示しています。ノイズ除去プロセスの中間段階では、z_c は高視覚野内の活動を z よりもはるかに正確に予測します。これは、ほとんどの意味内容がこの段階で出現することを示しています。結果は、LDM がノイズから画像をどのように調整して生成するかを示しています。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

最後に、研究者らは、U-Net の各層がどのような情報を処理しているかを調査しました。図 9 は、ノイズ除去プロセスのさまざまなステップ (初期、中間、後期) の結果と、U-Net のさまざまなレイヤーのエンコード モデルを示しています。ノイズ除去プロセスの初期段階では、U-Net のボトルネック層 (オレンジ) が皮質全体で最高の予測パフォーマンスをもたらします。ただし、ノイズ除去が進むにつれて、U-Net の初期層 (青) が初期視覚野内の活動を予測する一方、ボトルネック層は高次視覚野の優れた予測能力に移行します。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了研究の詳細については、元の論文をご覧ください。

以上が「安定拡散技術を利用した画像再現、関連研究がCVPRカンファレンスに採択されました」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。