ホームページ >テクノロジー周辺機器 >AI >NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築します
この NeurIPS23 論文では、ルーヴェン大学、シンガポール国立大学、中国科学院自動化研究所の研究者が、以下から学ぶことができる視覚的な「脳読み取り技術」を提案しました。人間の脳の活動 人間の目で見える画像の高解像度。
認知神経科学の分野では、人間の知覚は客観的な刺激だけでなく、過去の経験にも深く影響されることがわかっています。これらの要因が連携して脳内に複雑な活動を生み出します。したがって、脳活動から視覚情報を解読することが重要な課題となります。その中でも、機能的磁気共鳴画像法 (fMRI) は、効率的な非侵襲技術として、視覚情報、特に画像カテゴリーの回復と分析において重要な役割を果たしています。
しかし、fMRI 信号のノイズにより、脳の特性と視覚的表現の複雑さにより、このタスクはかなりの課題に直面しています。この問題に対処するために、この論文は、脳活動のノイズを特定して除去することを目的とした 2 段階の fMRI 表現学習フレームワークを提案し、視覚再構築に重要な神経活性化パターンの解析に焦点を当て、脳から高レベルの画像を再構築することに成功しました。アクティビティ、解像度、および意味的に正確な画像。
論文リンク: https://arxiv.org/abs/2305.17214
プロジェクトリンク: https://github.com/soinx0629/vis_dec_neurips/
論文で提案された手法は、デュアルコントラスト学習、クロスモーダル情報交差モデル、および拡散モデルに基づいており、これまでの最良のモデルと比較して、関連する fMRI データセットの評価指標が 40% 近く向上しました。画像の生成において、既存の方法と比較して、品質、可読性、意味的関連性が肉眼で認識できるほど向上しました。この研究は人間の脳の視覚認識メカニズムを理解するのに役立ち、視覚的な脳とコンピュータのインターフェース技術の研究を促進するのに有益です。関連するコードはオープンソースになっています。
機能的磁気共鳴画像法 (fMRI) は神経反応の分析に広く使用されていますが、主に fMRI データには複数の発生源からのノイズが含まれており、神経活性化モードがわかりにくくなる可能性があるため、そのデータから視覚画像を正確に再構成することは依然として困難です。デコードの難しさ。さらに、視覚刺激によって引き起こされる神経反応プロセスは複雑かつ多段階であるため、fMRI 信号は反転してデコードすることが困難な非線形の複雑な重ね合わせを示します。
リッジ回帰などの従来の神経復号法は、fMRI 信号と対応する刺激を関連付けるために使用されますが、多くの場合、刺激と神経反応の間の非線形関係を効果的に捉えることができません。最近では、敵対的生成ネットワーク (GAN) や潜在拡散モデル (LDM) などの深層学習技術が、この複雑な関係をより正確にモデル化するために採用されています。しかし、視覚関連の脳活動をノイズから分離し、それを正確に解読することは、依然としてこの分野における主要な課題の 1 つです。
これらの課題に対処するために、この研究では、脳活動のノイズを効果的に特定して除去し、視覚の再構築に重要な神経活性化パターンの解析に焦点を当てることができる、2 段階の fMRI 表現学習フレームワークを提案します。この方法は、既存の最先端技術を超える、50 カテゴリで 39.34% のトップ 1 精度を備えた高解像度で意味的に正確な画像を生成します。
メソッドの概要は、一連のステップまたはプロセスの簡単な説明です。特定の目標を達成する方法、または特定のタスクを完了する方法を説明するために使用されます。メソッドの概要の目的は、読者またはユーザーがプロセス全体の全体的な理解を提供し、プロセス内のステップをよりよく理解して実行できるようにすることです。方法の概要には通常、一連のステップ、必要な材料やツール、遭遇する可能性のある問題や課題が含まれます。手法の概要を明確かつ簡潔に説明することで、読者またはユーザーは、必要なタスクをより簡単に理解し、正常に完了できるようになります
#fMRI 表現学習 (FRL)
第一段階: デュアル コントラスト マスク オートエンコーダー (DC-MAE) の事前トレーニング
異なる人々のグループ間で共有される脳活動パターンと個々のノイズを区別するために、この論文では、ラベルなしのデータを使用して fMRI 表現を事前トレーニングする DC-MAE テクノロジーを紹介します。 DC-MAE はエンコーダ とデコーダ で構成されます。 はマスクされた fMRI 信号を入力として受け取り、 はマスクされていない fMRI 信号を予測するようにトレーニングされます。いわゆる「ダブル コントラスト」とは、モデルが fMRI 表現学習におけるコントラスト損失を最適化し、2 つの異なるコントラスト プロセスに参加することを意味します。
対比学習の最初の段階では、n 個の fMRI サンプル v を含む各バッチのサンプル がランダムに 2 回マスクされ、2 つの異なるマスクされたバージョン および が陽性サンプルのペアとして生成されます。比較用に。その後、1D 畳み込み層がこれら 2 つのバージョンを埋め込み表現に変換し、それぞれ fMRI エンコーダー に供給されます。デコーダ は、これらのエンコードされた潜在表現を受け取り、予測 および を生成します。 InfoNCE 損失関数によって計算される最初のコントラスト損失、つまりクロスコントラスト損失を通じてモデルを最適化します:
対比学習の第 2 段階では、マスクされていない元の画像 とそれに対応するマスクされた画像 が、自然な陽性サンプルのペアを形成します。ここでの は、デコーダ によって予測された画像を表します。 2 番目のコントラスト損失である自己コントラスト損失は、次の式に従って計算されます。
自己コントラスト損失を最適化することで、オクルージョンの再構築を実現できます。 であっても であっても、負のサンプル はインスタンスの同じバッチからのものです。 と は次のように共同で最適化されます: 。ハイパーパラメータ と は各損失項目の重みを調整するために使用されます。
事前トレーニングの第 1 段階の後、fMRI オートエンコーダーは画像支援を使用して調整され、fMRI 再構成が実現されます。第 2 段階もこのプロセスに従います。具体的には、サンプル とそれに対応する fMRI で記録された神経反応 が n 個のサンプルのバッチから選択されます。 と は、ブロッキング処理とランダム マスキング処理の後、それぞれ と に変換され、それぞれ画像エンコーダ と fMRI エンコーダ に入力されて、 と # が生成されます。 ##。 fMRI を再構成するには、クロス アテンション モジュールを使用して と をマージします。
W と b は、それぞれ対応する線形層の重みとバイアスを表します。 はスケーリング係数、 はキー ベクトルの次元です。 CAとはクロスアテンションの略称です。 を に追加した後、それを fMRI デコーダに入力して を再構成し、 を取得します。
画像オートエンコーダは次のとおりです。同様の計算も実行され、画像エンコーダ の出力 は、クロスアテンション モジュール を介して の出力とマージされ、画像 のデコードに使用され、結果として ## が得られます。 #:
fMRI と画像オートエンコーダーは、次の損失関数を最適化することで一緒にトレーニングされます:画像生成時、潜在拡散モデル (LDM) を使用できます
FRL トレーニングの第 1 段階と第 2 段階が完了したら、fMRI 特徴学習器エンコーダー を使用して潜在拡散モデル (LDM) を駆動し、脳活動から画像を生成します。図に示すように、拡散モデルには順拡散処理と逆ノイズ除去処理が含まれます。順方向プロセスでは、さまざまな分散を持つガウス ノイズを徐々に導入することにより、画像を通常のガウス ノイズに徐々に劣化させます。
この研究では、事前にトレーニングされたラベルから画像への潜在拡散モデル (LDM) から視覚的知識を抽出し、条件として fMRI データを使用することで画像を生成します。ここでは、安定拡散研究からの推奨に従って、クロスアテンション メカニズムを使用して fMRI 情報を LDM に組み込んでいます。条件付き情報の役割を強化するために、ここではクロスアテンションとタイムステップ条件付けの方法が使用されます。トレーニング フェーズでは、FRL の第 1 段階と第 2 段階でトレーニングされた VQGAN エンコーダー と fMRI エンコーダー を使用して画像 u と fMRI v を処理し、LDM を維持しながら fMRI エンコーダーが微調整されます。関数は次のとおりです。
ここで、 は拡散モデルのノイズ プランです。推論フェーズでは、プロセスはタイム ステップ T の標準ガウス ノイズから始まり、LDM は逆プロセスを順次実行して、指定された fMRI 情報を条件として隠れた表現のノイズを徐々に除去します。タイム ステップ 0 に到達すると、VQGAN デコーダを使用して、隠れた表現がイメージに変換されます。
#実験
再構成結果
#DC-LDM、IC-との連携によるGAN や SS-AE などの先行研究との比較、および GOD および BOLD5000 データセットの評価により、この研究で提案されたモデルは精度においてこれらのモデルを大幅に上回り、それぞれ DC-LDM および IC-GAN と比較して向上していることが示されています。 39.34% および 66.7%
GOD データセットの他の 4 つの被験者の評価では、DC-LDM がテスト セットで調整できる場合でも、この場合、また、本研究で提案したモデルは、50通りのTop-1分類精度においてDC-LDMよりも大幅に優れており、さまざまな被験者の脳活動を再構成する上で提案モデルの信頼性と優位性が証明されています。
研究結果は、提案された fMRI 表現学習フレームワークと事前トレーニングされた LDM を使用すると、現在のベースライン レベルをはるかに超えて、脳の視覚活動をより適切に再構築できることを示しています。この研究は、ニューラル デコーディング モデルの可能性をさらに探求するのに役立ちます
以上がNeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。