ホームページ >テクノロジー周辺機器 >AI >AI読書脳が爆発!脳画像をスキャンし、安定拡散により画像をリアルに再現
ホグワーツの魔法がなくても、他の人が何を考えているかを見ることができます。
手法は非常にシンプルで、安定拡散に基づいて脳画像を可視化します。
たとえば、あなたが目にするクマ、飛行機、電車はこんな感じです。
AI が脳信号を認識すると、生成される画像は次のとおりです。ポイントも含まれております。
この AI 脳読み取りテクノロジーは、CVPR 2023 に承認されたばかりで、ファンに瞬時の「頭蓋内オーガズム」を与えます。
#ワイルドすぎる!プロジェクトを促すことは忘れて、頭を使ってそれらの写真について「考える」だけで済みます。
安定拡散を使用して fMRI データから視覚画像を再構成することを想像してください。これは、非侵襲的技術の開発を意味するかもしれません。将来のブレインコンピューターインターフェース。
AI に人間の言語を直接スキップさせ、人間の脳で考えていることを認識させます。
# その頃には、マスク氏が開発した Neuralink もこの AI の上限に追いつくことになるでしょう。微調整不要、AI で思考をダイレクトに再現
では、AI はどのようにして脳の読み取りを実現しているのでしょうか?最新の研究は、日本の大阪大学の研究チームによるものです。
紙のアドレス: https://www.php.cn/link/0424d20160a6a558e5bf86a7bc9b67f0
大阪大学大学院生命機能研究科とNICTのCiNetの研究者らは、潜在拡散モデル(LDM)、より具体的には安定拡散を介して、fMRIデータから視覚体験を再構築しました。
全体の操作プロセスのフレームワークも非常にシンプルです: 1 つの画像エンコーダー、1 つの画像デコーダー、および 1 つのセマンティック デコーダー。
# これにより、チームは複雑な AI モデルをトレーニングして微調整する必要がなくなりました。
トレーニングする必要があるのは、下部視覚脳領域と上部視覚脳領域からの fMRI 信号を単一の安定拡散コンポーネントにマッピングする単純な線形モデルだけです。
具体的には、研究者らは脳領域を画像およびテキストエンコーダーへの入力としてマッピングしました。下位脳領域は画像エンコーダにマッピングされ、上位脳領域はテキスト エンコーダにマッピングされます。これにより、システムは再構成に画像構成と意味論的なコンテンツを使用できるようになります。
最初はデコード分析です。研究で使用された LDM モデルは、画像エンコーダー ε、画像デコーダー D、およびテキスト エンコーダー τ で構成されます。
研究者らは、それぞれ初期視覚野と高レベル視覚野の fMRI 信号から再構成画像 z の潜在表現と関連テキスト c を解読し、それらを入力として使用して、オートエンコーダ。
研究者らは、LDM のさまざまなコンポーネントからの fMRI 信号を予測するためのコーディング モデルを確立しました。 LDMの仕組み。
研究者らは、自然風景データセット (NSD) の fMRI 画像を使用して実験を行い、安定した拡散が可能かどうかをテストしました。被験者が見たものを再構成します。
符号化モデルと LDM に関連する潜像の予測精度は、最後のモデルが脳の後部の視覚野で最も高い予測精度を生み出すことがわかります。 。
被験者の視覚的再構成の結果は、z のみを使用して再構成された画像が元の画像と視覚的に一致していることを示しています。ただし、意味的な内容をキャプチャすることはできません。
c のみを使用して再構成された画像は意味的忠実度が高くなりますが、視覚的な一貫性が劣りますが、zc を使用して再構成された画像は意味的忠実度が高く、視覚的な一貫性が低い可能性があります。
#同じ画像上のすべての被写体からの再構成結果は、再構成の効果が被写体ごとに異なることを示しています。安定しています。比較的正確です。
特定の詳細の違いは、再構成プロセスのエラーではなく、個人の知覚経験やデータ品質の違いに起因する可能性があります。
#最後に、定量的評価の結果をグラフ化しました。
さまざまな結果は、研究で使用された方法が低レベルの視覚的外観をキャプチャできるだけでなく、元の刺激の高レベルの意味内容もキャプチャできることを示しています。
#この観点から、実験は画像とテキストのデコードを組み合わせることで正確な再構成が可能であることを示しています。被験者間で精度には差があったが、これらの違いはfMRI画像の品質に関係していた、と研究者らは述べた。チームによると、再構成の品質は現在のSOTA手法と同等ですが、そこで使用されるAIモデルのトレーニングは必要ありません。
同時に、チームは fMRI データから派生したモデルを使用して、逆拡散プロセス中にセマンティック コンテンツがどのように生成されるかなど、安定拡散のさまざまな構成要素を研究しました。 U-Net でどのようなプロセスが行われるか。
ノイズ除去プロセスの初期段階では、U-Net のボトルネック レイヤー (オレンジ) が最高の予測パフォーマンスを生み出し、ノイズ除去プロセスが進むにつれて、初期レイヤー (青) が予測用に生成されます。初期の視覚野の活動のボトルネック層は、より高いレベルの視覚野に移行します。
これは、拡散プロセスの開始時に画像情報がボトルネック層で圧縮され、ノイズ除去により視覚野に U-Net 層間の分離が現れることを意味します。
# さらに、チームは普及のさまざまな段階での画像変換の定量的な説明を開発中です。このようにして、研究者らは、広く使用されているものの理解がまだ限られている拡散モデルを生物学的な観点からより深く理解することに貢献することを目指しています。
人間の脳画像はAIによって解読されたのでしょうか?
研究者たちは長年にわたり、人工知能モデルを使用して人間の脳からの情報を解読してきました。
ほとんどの手法の中核では、事前に記録された fMRI 画像がテキストまたは画像の生成 AI モデルへの入力として使用されます。
たとえば、2018 年の初めに、日本の研究者チームは、ニューラル ネットワークが fMRI 記録から画像を再構成する方法を示しました。
2019年、グループはサルのニューロンから画像を再構成し、ジャン・レミ・キング率いるメタの研究グループはテキストを取得するためのfMRIデータなどの新しい研究を発表した。
2022 年 10 月、テキサス大学オースティン校のチームは、GPT モデルが fMRI からデータを生成できることを示しました。スキャン ビデオ内で見られる意味論的なコンテンツを説明するテキストが推測されます。
2022 年 11 月、シンガポール国立大学、香港中文大学、スタンフォード大学の研究者は、MinD-Vis 拡散モデルを使用して、fMRI スキャンからの画像を大幅に再構成しました。当時利用可能な方法よりも正確です。
さらに遡ると、一部のネチズンは「脳波に基づいた画像の生成は少なくとも 2008 年から存在していた」と指摘しました。はい、安定拡散が何らかの方法で人々の心を読み取ることができるとほのめかすのはまったくばかげています。」
カリフォルニア大学バークレー校が Nature に掲載したこの論文では、次のように述べられています。脳波活動は、ビジュアル デコーダを使用して画像に変換できます。
# 歴史をたどるとなると、まだ人がいます彼は、大脳皮質からの画像の再構成に関するスタンフォード大学リー・フェイフェイによる 1999 年の研究を直接取り出しました。 ############################# リー・フェイフェイさんもこの投稿にコメントして転送し、当時はまだ大学のインターンだったと述べた。同じく 2011 年、カリフォルニア大学バークレー校の研究では、機能的磁気共鳴画像法 (fMRI) と計算モデルを使用して予備的な再構成を行いました。脳の「動的視覚イメージ」。
言い換えれば、人々が見たクリップを再作成したのです。
しかし、最新の研究と比較すると、この再構成はまったく「高精細」とは言えず、ほとんど認識できません。 #########著者について###
高木 裕
高木 裕は、大阪大学の助教授です。彼の研究対象は、計算神経科学と人工知能の交差点にあります。
博士課程では、ATR 脳情報通信研究室で機能的磁気共鳴画像法 (fMRI) を使用して脳全体の機能的接続から個人差を予測する技術を研究しました。
最近では、オックスフォード大学の人間の脳活動に関するオックスフォード センターと、オックスフォード大学の心理学部で、機械学習技術を使用して、複雑な意思決定タスクにおける動的計算を理解しています。東京大学。
#西本真司
西本真司は大阪大学教授。彼の研究は、脳内の視覚および認知処理の定量的な理解に焦点を当てています。
より具体的には、西本教授のチームの研究の焦点は、自然な知覚および認知条件下で誘発される脳活動の予測モデルを構築することです。そして表現。
一部のネチズンは、この研究が夢の解釈に使用できるかどうかを著者に尋ねました。
「同じ技術を睡眠中の脳活動に適用することは可能ですが、そのような適用の精度は不明です。」
この研究を読んだ後: 合法性は完全に確立されています。
参考:
https: / /www.php.cn/link/0424d20160a6a558e5bf86a7bc9b67f0
https://www.php.cn/link/ 02d72b702eed900577b953ef7a9c1182
以上がAI読書脳が爆発!脳画像をスキャンし、安定拡散により画像をリアルに再現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。