- 紙のアドレス: https://ieeexplore.ieee.org/document/10089190
- #コード アドレス: https://github.com/ChangdeDu/BraVL ##データ アドレス: https:// figshare。 com/articles/dataset/BraVL/17024591
- ##長すぎてバージョンを読むことができません
を解読することが可能です。この記事は、3 つの「脳-絵-テキスト」3 モーダル マッチング データ セット にも貢献します。 実験結果は、いくつかの興味深い結論と認知的洞察を示しています: 1) 人間の脳活動から新しい視覚カテゴリを解読することは高精度で達成可能; 2) 視覚的特徴と言語的特徴を組み合わせた解読モデルを使用する1 つだけを使用したモデルよりも優れたパフォーマンスを発揮する; 3) 視覚知覚には、視覚刺激の意味論を表すための言語的影響が伴う可能性があります。これらの発見は、人間の視覚システムの理解を明らかにするだけでなく、将来の脳とコンピューターのインターフェース技術に新しいアイデアを提供します。この研究のコードとデータセットはオープンソースです。
研究の背景
人間の視覚神経表現の解読は、視覚処理メカニズムを解明し、脳科学と人工知能の発展を促進できる重要な科学的意義を持つ課題です。 。ただし、現在のニューラル デコード方法は、トレーニング データを超えて新しいカテゴリに一般化することが困難です。. 主な理由は 2 つあります: まず、既存の方法では、ニューラルの背後にある多くの機能が十分に活用されていません。第二に、利用可能なペアリング (刺激と脳の反応) のトレーニング データがほとんどありません。 研究によると、人間の視覚刺激の知覚と認識は、視覚的特徴と人間の過去の経験の影響を受けることがわかっています。たとえば、見慣れた物体を見ると、私たちの脳は自然にその物体に関連する知識を検索します。以下の図 1 に示すように、二重コーディング理論に関する認知神経科学研究 [9] では、特定の概念が視覚と言語の両方で脳内にエンコードされており、効果的な事前経験としての言語が視覚によって生成される表現を形成するのに役立つと考えられています。
したがって、著者は、記録された脳信号をより適切に解読するには、実際に提示された視覚的意味論的特徴を使用するだけでなく、視覚的対象オブジェクトに関連するより豊富な特徴も使用する必要があると考えています。デコードは、言語的な意味論的特徴の組み合わせによって実行されます。
以下の図 2 に示すように、さまざまな視覚カテゴリの人間の脳活動を収集するのは非常にコストがかかるため、研究者は通常、視覚に関する非常に限られた脳活動のみを収集しています。カテゴリー。ただし、画像やテキスト データは豊富にあり、追加の有用な情報を提供できます。
この記事の方法では、あらゆる種類のデータ (三峰性、二峰性、単峰性) を最大限に活用して、ニューラル デコーディングの汎化能力を向上させることができます。
図 2. 画像刺激、誘発された脳活動、およびそれらに対応するテキスト データ。脳活動データはいくつかのカテゴリについてしか収集できませんが、画像やテキスト データはほぼすべてのカテゴリについて簡単に収集できます。したがって、既知のカテゴリの場合は、脳活動、視覚的画像、および対応するテキストの説明がすべてトレーニングに利用できると想定しますが、新しいカテゴリの場合は、視覚的画像とテキストの説明のみがトレーニングに利用できます。テストデータは、新しいカテゴリの脳活動データです。
「脳-絵-テキスト」マルチモーダル学習
以下の図 3A に示すように、この方法の鍵は以下を組み合わせることです。各モデル 学習された分布は、新しいカテゴリに関連する重要なマルチモーダル情報を含む共有潜在空間に整列されます。
#具体的には、著者は、#マルチモーダル自動エンコーディング変分ベイジアン学習フレームワーク## を提案します。 -Products-of-Experts (MoPoE) モデルを使用して潜在エンコーディングを推論し、3 つすべてのモダリティの共同生成を実現します。脳活動データが限られている場合に、より関連性の高い結合表現を学習し、データ効率を向上させるために、著者らはさらに、モーダル内およびモーダル間の相互情報量正則化項を導入しています。さらに、BraVL モデルは、さまざまな半教師あり学習シナリオの下でトレーニングして、大規模な画像カテゴリの追加の視覚的およびテキスト的特徴を組み込むことができます。 #図 3B では、著者らは
#新しいカテゴリの視覚的およびテキスト的特徴の潜在表現から SVM 分類器をトレーニングしています#。このステップではエンコーダ E_v と E_t がフリーズされ、SVM 分類器 (グレー モジュール) のみが最適化されることに注意してください。 図 3C に示すように、このアプリケーションでは、このメソッドの 入力は新しいカテゴリの脳信号のみであり、他のデータ は必要ありません。大規模なほとんどのニューラル デコーディング シナリオに簡単に適用できます。これら 3 つのモダリティの基礎となる表現が A ですでに調整されているため、SVM 分類器は (B) から (C) まで一般化できます。
図 3 この記事で提案する「脳・絵・テキスト」の 3 モーダル共同学習フレームワーク、BraVLと呼ばれます。
さらに、同じ視覚刺激であっても、脳信号は試行ごとに変化します。ニューラル デコーディングの安定性を向上させるために、著者らは安定性選択法を使用して fMRI データを処理しました。すべてのボクセルの安定性スコアを以下の図 4 に示します。著者は、ニューラル デコード プロセスに参加するために、最も安定性の高いボクセルの上位 15% を選択しました。この操作により、脳の特徴の識別能力に重大な影響を与えることなく、fMRI データの次元を効果的に削減し、ノイズの多いボクセルによって引き起こされる干渉を抑制できます。
# 図 4. 脳の視覚野のボクセル活動安定性スコア マップ。
# 既存のニューラル エンコードおよびデコード データ セットには、多くの場合、画像刺激と脳反応のみが含まれています。視覚的概念に対応する言語的記述を取得するために、著者は半自動の Wikipedia 記事抽出方法 # を採用しました。
具体的には、作成者はまず、ImageNet クラスとそれに対応する Wikipedia ページの自動マッチングを作成します。このマッチングは、ImageNet クラスと Wikipedia タイトルの構文単語間の類似性に基づいています。それらの親カテゴリ。以下の図 5 に示すように、残念ながら、同じ名前のクラスが非常に異なる概念を表す可能性があるため、この種のマッチングでは誤検知が発生する場合があります。三峰性データセットを構築する際、視覚的特徴と言語的特徴の間の高品質な一致を保証するために、著者は一致しない記事を手動で削除しました。
#図 5. 半自動の視覚的概念説明の取得
実験結果著者「脳-画像-テキスト」の 3 モーダル マッチング データ セットに対して、広範なゼロショット ニューラル デコード実験が複数回行われ、実験結果が以下の表に示されています。ご覧のとおり、ビジュアル機能とテキスト機能 (V&T) を組み合わせて使用する モデルは、どちらか一方を単独で使用するモデルよりもはるかに優れたパフォーマンスを発揮します。特に、V&T 機能に基づく BraVL は、両方のデータセットのトップ 5 の平均精度を大幅に向上させます。これらの結果は、被験者に提示された刺激には視覚情報のみが含まれているにもかかわらず、被験者は無意識のうちに適切な言語表現を呼び出し、それによって視覚処理に影響を与えていると考えられることを示唆しています。 各ビジュアル コンセプト カテゴリについて、著者らは、以下の図 6 に示すように、テキスト機能を追加した後のニューラル デコード精度の向上も示しています。ほとんどのテスト クラスでは、テキスト機能の追加がプラスの影響を及ぼし、トップ 1 の平均デコード精度が約 6% 向上していることがわかります。
#著者らは、ニューラル デコーディング分析に加えて、ボクセル レベルのニューラル エンコーディング (視覚的または視覚的情報に基づいて対応する脳を予測する) における テキスト特徴の寄与も分析しました。テキスト フィーチャー ボクセル アクティビティ)
、結果を図 7 に示します。ほとんどの高レベル視覚野 (FFA、LOC、IT などの HVC) では、視覚特徴に基づいてテキスト特徴を融合することで脳活動の予測精度が向上することがわかりますが、ほとんどの低レベル視覚野では(LVC、V1、V2、V3 など)、テキスト機能の融合は有益ではなく、有害ですらあります。 認知神経科学の観点から見ると、HVC はオブジェクトのカテゴリ情報や運動情報などのより高次の意味情報の処理を担当していると一般に考えられているため、今回の結果は合理的です。 LVC は、方向や概要などの低レベルの情報の処理を担当します。さらに、最近の神経科学的研究では、視覚的および言語的意味表現が人間の視覚野の境界で整列していることが判明しており(すなわち、「意味的整列仮説」)[10]、著者の実験結果もこの仮説を裏付けています
その他の実験結果については、原文を参照してください。
全体として、この論文はいくつかの興味深い結論と認知的洞察を導き出します: 1) 人間の脳活動から新しい視覚カテゴリーを解読することは高精度で達成可能です; 2) 視覚と視覚の組み合わせを使用してモデルを解読します。言語特徴は、どちらか一方を単独で使用したモデルのデコードよりもはるかに優れたパフォーマンスを発揮します; 3) 視覚刺激の意味論を表すために、視覚認識には言語の影響が伴う可能性があります; 4) 概念の説明として自然言語を使用すると、クラス名を使用するよりも高いニューラル デコード パフォーマンスが得られます; 5 ) 単峰性と双峰性の両方でデータを追加すると、デコード精度が大幅に向上します。
議論と展望この論文の筆頭著者であり、中国科学院オートメーション研究所の特別研究助手であるDu Changde氏は次のように述べています。研究では、脳活動、視覚的画像、およびテキストが説明で抽出された特徴が神経信号の解読に有効であることが確認されています。ただし、抽出された視覚的特徴は人間の視覚処理のすべての段階を正確に反映しているとは限らず、より優れた特徴セットが完成に役立ちます。たとえば、より大きな事前トレーニング済み言語モデル (GPT-3 など) は、ゼロショット汎化の能力がより高いテキスト特徴を抽出するために使用されます。さらに、ウィキペディアの記事には豊富な視覚情報が含まれていますが、この情報はこの問題は、視覚的な文章を抽出したり、ChatGPT や GPT-4 などのモデルを使用してより正確で豊富な視覚的な説明を収集したりすることで解決できます。 「比較的多くの三峰性データを使用しました。より大規模でより多様なデータセットはより有益です。これらの側面は将来の研究に任せます。」
この論文の責任著者である中国科学院オートメーション研究所の研究員He Huiguang氏は、「この論文で提案されている方法には、3つの潜在的な用途がある。1) ニューラル意味解読ツールとして」と指摘した。 , この方法は、人間の脳の新しいタイプの意味情報の読み取りに使用されます。神経補綴装置の開発において重要な役割を果たします。このアプリケーションはまだ成熟していませんが、この記事の方法はその技術的基盤を提供します。 2) モダリティ全体で脳活動を推測することにより、この記事の方法は、人間の大脳皮質で視覚および言語の特徴がどのように表現されるかを研究するために使用され、どの脳領域がマルチモーダルな特性を持っているかを明らかにする、ニューラルコーディングツールとしても使用できます。 3) AI モデルの内部表現の神経解読可能性は、モデルの脳のようなレベルの指標とみなすことができるため、本稿の方法も使用できます。どのモデル (視覚的または言語) 表現が人間の脳の活動に近いかをテストする脳のような特性評価ツールとして、研究者がより脳に似たコンピューティング モデルを設計する動機になります。神経情報のエンコードとデコードは、ブレインコンピューターインターフェースの分野の中核課題であり、人間の脳の複雑な機能の背後にある原理を探求し、脳のような知能の発達を促進する効果的な方法でもあります。 Institute of Automation のニューラル コンピューティングおよびブレイン コンピューター インタラクション研究チームは、この分野で長年取り組んできており、一連の研究成果を発表しており、それらは TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、 Info. Fusion 2021、AAAI 2020などこの予備研究は MIT Technology Review の見出しで報道され、ICME 2019 Best Paper 次点賞を受賞しました。
この研究は、科学技術イノベーション 2030 - 「新世代の人工知能」主要プロジェクト、国家財団プロジェクト、自動化研究所 2035 プロジェクト、および中国人工知能の支援を受けました。 Intelligence Society-Huawei MindSpore Academic Award Fund およびペデスタルおよびその他のプロジェクトに対するインテリジェンス サポート。
著者について
筆頭著者: Du Changde、中国科学院オートメーション研究所特別研究助手、脳認知と人工知能の研究に従事、視覚的な神経情報において彼は、TPAMI/TNNLS/AAAI/KDD/ACMMM などを含む、エンコードとデコード、マルチモーダル ニューラル コンピューティングなどに関する 40 以上の論文を発表しています。彼は、2019 IEEE ICME Best Paper Run-up Award と 2021 Top 100 Chinese AI Rising Stars を受賞しています。彼は科学技術省、国立科学技術財団、中国科学院で数々の科学研究任務を次々と引き受け、その研究結果は MIT Technology Review の見出しで報告されました。##個人ホームページ: https://changdedu.github.io/
担当著者: 何恵光、中国科学院オートメーション研究所研究員、博士指導教員、中国科学院大学助教授、上海科学技術大学特別教授、青少年促進協会優秀会員中国科学院の博士号を取得し、中華人民共和国建国70周年記念メダルを受賞した。彼は、7 つの国家自然基金プロジェクト (主要基金および国際協力プロジェクトを含む)、2 863 プロジェクト、および国家重点研究計画プロジェクトを次々と実施してきました。彼は、第二級国家科学技術進歩賞を2回(それぞれ第2位と第3位)、北京科学技術進歩賞を2回、教育省第一級科学技術進歩賞、第一回優秀博士論文賞を受賞している。中国科学院、北京科学技術新星、中国科学院「陸家西若手才能賞」、福建省「閩江学者」主席教授。研究分野は人工知能、ブレイン・コンピュータ・インターフェース、医用画像解析など。過去 5 年間で、IEEE TPAMI/TNNLS や ICML などのジャーナルや会議に 80 以上の論文を発表しました。彼は、IEEEE TCDS、Journal of Automation、およびその他のジャーナルの編集委員、CCF の著名なメンバー、および CSIG の著名なメンバーです。
#
以上がInstitute of Automationが開発した非侵襲的なマルチモーダル学習モデルは、脳信号のデコードと意味解析を実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ホットトピック









