この NeurIPS23 論文では、ルーヴェン大学、シンガポール国立大学、中国科学院自動化研究所の研究者が、以下から学ぶことができる視覚的な「脳読み取り技術」を提案しました。人間の脳の活動 人間の目で見える画像の高解像度。
認知神経科学の分野では、人間の知覚は客観的な刺激だけでなく、過去の経験にも深く影響されることがわかっています。これらの要因が連携して脳内に複雑な活動を生み出します。したがって、脳活動から視覚情報を解読することが重要な課題となります。その中でも、機能的磁気共鳴画像法 (fMRI) は、効率的な非侵襲技術として、視覚情報、特に画像カテゴリーの回復と分析において重要な役割を果たしています。
しかし、fMRI 信号のノイズにより、脳の特性と視覚的表現の複雑さにより、このタスクはかなりの課題に直面しています。この問題に対処するために、この論文は、脳活動のノイズを特定して除去することを目的とした 2 段階の fMRI 表現学習フレームワークを提案し、視覚再構築に重要な神経活性化パターンの解析に焦点を当て、脳から高レベルの画像を再構築することに成功しました。アクティビティ、解像度、および意味的に正確な画像。
論文リンク: https://arxiv.org/abs/2305.17214
プロジェクトリンク: https://github.com/soinx0629/vis_dec_neurips/
論文で提案された手法は、デュアルコントラスト学習、クロスモーダル情報交差モデル、および拡散モデルに基づいており、これまでの最良のモデルと比較して、関連する fMRI データセットの評価指標が 40% 近く向上しました。画像の生成において、既存の方法と比較して、品質、可読性、意味的関連性が肉眼で認識できるほど向上しました。この研究は人間の脳の視覚認識メカニズムを理解するのに役立ち、視覚的な脳とコンピュータのインターフェース技術の研究を促進するのに有益です。関連するコードはオープンソースになっています。
機能的磁気共鳴画像法 (fMRI) は神経反応の分析に広く使用されていますが、主に fMRI データには複数の発生源からのノイズが含まれており、神経活性化モードがわかりにくくなる可能性があるため、そのデータから視覚画像を正確に再構成することは依然として困難です。デコードの難しさ。さらに、視覚刺激によって引き起こされる神経反応プロセスは複雑かつ多段階であるため、fMRI 信号は反転してデコードすることが困難な非線形の複雑な重ね合わせを示します。
リッジ回帰などの従来の神経復号法は、fMRI 信号と対応する刺激を関連付けるために使用されますが、多くの場合、刺激と神経反応の間の非線形関係を効果的に捉えることができません。最近では、敵対的生成ネットワーク (GAN) や潜在拡散モデル (LDM) などの深層学習技術が、この複雑な関係をより正確にモデル化するために採用されています。しかし、視覚関連の脳活動をノイズから分離し、それを正確に解読することは、依然としてこの分野における主要な課題の 1 つです。
これらの課題に対処するために、この研究では、脳活動のノイズを効果的に特定して除去し、視覚の再構築に重要な神経活性化パターンの解析に焦点を当てることができる、2 段階の fMRI 表現学習フレームワークを提案します。この方法は、既存の最先端技術を超える、50 カテゴリで 39.34% のトップ 1 精度を備えた高解像度で意味的に正確な画像を生成します。
メソッドの概要は、一連のステップまたはプロセスの簡単な説明です。特定の目標を達成する方法、または特定のタスクを完了する方法を説明するために使用されます。メソッドの概要の目的は、読者またはユーザーがプロセス全体の全体的な理解を提供し、プロセス内のステップをよりよく理解して実行できるようにすることです。方法の概要には通常、一連のステップ、必要な材料やツール、遭遇する可能性のある問題や課題が含まれます。手法の概要を明確かつ簡潔に説明することで、読者またはユーザーは、必要なタスクをより簡単に理解し、正常に完了できるようになります
#fMRI 表現学習 (FRL)
第一段階: デュアル コントラスト マスク オートエンコーダー (DC-MAE) の事前トレーニング
異なる人々のグループ間で共有される脳活動パターンと個々のノイズを区別するために、この論文では、ラベルなしのデータを使用して fMRI 表現を事前トレーニングする DC-MAE テクノロジーを紹介します。 DC-MAE はエンコーダ とデコーダ
で構成されます。
はマスクされた fMRI 信号を入力として受け取り、
はマスクされていない fMRI 信号を予測するようにトレーニングされます。いわゆる「ダブル コントラスト」とは、モデルが fMRI 表現学習におけるコントラスト損失を最適化し、2 つの異なるコントラスト プロセスに参加することを意味します。
対比学習の最初の段階では、n 個の fMRI サンプル v を含む各バッチのサンプル がランダムに 2 回マスクされ、2 つの異なるマスクされたバージョン
および
が陽性サンプルのペアとして生成されます。比較用に。その後、1D 畳み込み層がこれら 2 つのバージョンを埋め込み表現に変換し、それぞれ fMRI エンコーダー
に供給されます。デコーダ
は、これらのエンコードされた潜在表現を受け取り、予測
および
を生成します。 InfoNCE 損失関数によって計算される最初のコントラスト損失、つまりクロスコントラスト損失を通じてモデルを最適化します:
対比学習の第 2 段階では、マスクされていない元の画像 とそれに対応するマスクされた画像
が、自然な陽性サンプルのペアを形成します。ここでの
は、デコーダ
によって予測された画像を表します。 2 番目のコントラスト損失である自己コントラスト損失は、次の式に従って計算されます。
自己コントラスト損失を最適化することで、オクルージョンの再構築を実現できます。 であっても
であっても、負のサンプル
はインスタンスの同じバッチからのものです。
と
は次のように共同で最適化されます:
。ハイパーパラメータ
と
は各損失項目の重みを調整するために使用されます。
- フェーズ 2: クロスモーダル ガイダンスを使用した調整
事前トレーニングの第 1 段階の後、fMRI オートエンコーダーは画像支援を使用して調整され、fMRI 再構成が実現されます。第 2 段階もこのプロセスに従います。具体的には、サンプル とそれに対応する fMRI で記録された神経反応
が n 個のサンプルのバッチから選択されます。
と
は、ブロッキング処理とランダム マスキング処理の後、それぞれ
と
に変換され、それぞれ画像エンコーダ
と fMRI エンコーダ
に入力されて、
と # が生成されます。 ##。 fMRI
を再構成するには、クロス アテンション モジュールを使用して
と
をマージします。
W と b は、それぞれ対応する線形層の重みとバイアスを表します。 はスケーリング係数、
はキー ベクトルの次元です。 CAとはクロスアテンションの略称です。
を
に追加した後、それを fMRI デコーダに入力して
を再構成し、
を取得します。
画像オートエンコーダは次のとおりです。同様の計算も実行され、画像エンコーダ の出力
は、クロスアテンション モジュール
を介して
の出力とマージされ、画像
のデコードに使用され、結果として ## が得られます。 #:
画像生成時、潜在拡散モデル (LDM) を使用できます
FRL トレーニングの第 1 段階と第 2 段階が完了したら、fMRI 特徴学習器エンコーダー を使用して潜在拡散モデル (LDM) を駆動し、脳活動から画像を生成します。図に示すように、拡散モデルには順拡散処理と逆ノイズ除去処理が含まれます。順方向プロセスでは、さまざまな分散を持つガウス ノイズを徐々に導入することにより、画像を通常のガウス ノイズに徐々に劣化させます。
この研究では、事前にトレーニングされたラベルから画像への潜在拡散モデル (LDM) から視覚的知識を抽出し、条件として fMRI データを使用することで画像を生成します。ここでは、安定拡散研究からの推奨に従って、クロスアテンション メカニズムを使用して fMRI 情報を LDM に組み込んでいます。条件付き情報の役割を強化するために、ここではクロスアテンションとタイムステップ条件付けの方法が使用されます。トレーニング フェーズでは、FRL の第 1 段階と第 2 段階でトレーニングされた VQGAN エンコーダー と fMRI エンコーダー
を使用して画像 u と fMRI v を処理し、LDM を維持しながら fMRI エンコーダーが微調整されます。関数は次のとおりです。
ここで、 は拡散モデルのノイズ プランです。推論フェーズでは、プロセスはタイム ステップ T の標準ガウス ノイズから始まり、LDM は逆プロセスを順次実行して、指定された fMRI 情報を条件として隠れた表現のノイズを徐々に除去します。タイム ステップ 0 に到達すると、VQGAN デコーダを使用して、隠れた表現がイメージに変換されます。
#実験
再構成結果
#DC-LDM、IC-との連携によるGAN や SS-AE などの先行研究との比較、および GOD および BOLD5000 データセットの評価により、この研究で提案されたモデルは精度においてこれらのモデルを大幅に上回り、それぞれ DC-LDM および IC-GAN と比較して向上していることが示されています。 39.34% および 66.7%
GOD データセットの他の 4 つの被験者の評価では、DC-LDM がテスト セットで調整できる場合でも、この場合、また、本研究で提案したモデルは、50通りのTop-1分類精度においてDC-LDMよりも大幅に優れており、さまざまな被験者の脳活動を再構成する上で提案モデルの信頼性と優位性が証明されています。
研究結果は、提案された fMRI 表現学習フレームワークと事前トレーニングされた LDM を使用すると、現在のベースライン レベルをはるかに超えて、脳の視覚活動をより適切に再構築できることを示しています。この研究は、ニューラル デコーディング モデルの可能性をさらに探求するのに役立ちます
以上がNeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。
