ホームページ > 記事 > テクノロジー周辺機器 > メタ: 気管挿管の必要はありません。 AIは脳波を見ることであなたが何を考えているかを知ることができます
毎年、世界中で 6,900 万人以上の人々が外傷性脳損傷に苦しんでおり、その多くは音声、タイピング、またはジェスチャーによるコミュニケーションが困難です。研究者が非侵襲的な方法で脳の活動から直接言語を解読できる技術を開発すれば、これらの人々の生活は大幅に改善されるでしょう。今回、メタ社はこの問題を解決するために新たな研究を実施しました。
先ほど、Meta AI 公式ブログに、AI を利用して脳活動から音声を直接解読できる新技術を紹介する記事が掲載されました。
この AI は、3 秒間の脳活動から人々の日常生活から学習できます。 793 語の語彙を使用すると、対応する音声セグメントが 73% の精度でデコードされます。
歴史的に、脳活動から音声を解読することは神経科学者や臨床医にとって長年の目標でしたが、その進歩のほとんどは定位脳波検査や皮質電気検査などの侵襲的な脳記録技術に依存していました。
これらのデバイスは、非侵襲的方法よりも明確な信号を提供できますが、神経外科的介入が必要です。
この研究の結果は、脳活動の記録から音声を解読することが実現可能であることを示唆していますが、非侵襲的な方法を使用して音声を解読することは、より安全で拡張性の高いソリューションを提供し、最終的にはより多くの利益を得ることができるでしょう。人々。
ただし、非侵襲的録音はノイズが多いことで知られ、各人の脳の性質やセンサーの配置場所などさまざまな理由から、これは非常に困難です。録音セッションや個人によって大きく異なります。 Meta は、対照学習でトレーニングされた深層学習モデルを作成し、それを使用して非侵襲的な脳記録と音声の調整を最大化することで、これらの課題に対処します。
この目的を達成するために、Meta は 2020 年に FAIR チームによって開発されたオープンソースの自己教師あり学習モデル wave2vec 2.0 を使用します。 . オーディオブックを聞いているボランティアの脳内で音声の複雑な表現を特定します。 Meta は、脳波検査と脳磁気検査 (略して EEG と MEG) という 2 つの非侵襲的技術に焦点を当てています。これらの技術は、それぞれニューロンの活動によって引き起こされる電場と磁場の変動を測定します。
実際には、この 2 つのシステムは、数百のセンサーを使用して、巨視的な脳活動のスナップショットを 1 秒あたり約 1,000 枚取得できます。 Meta は、学術機関からの 4 つのオープンソース EEG データセットと MEG データセットを活用し、169 人の健康なボランティアがオーディオブックや英語とオランダ語の単独の文章を聞いた 150 時間以上の録音を活用しています。
Meta は、これらの EEG および MEG 記録を、残りの接続を備えた標準的な深層畳み込みネットワークで構成される「脳」モデルにフィードします。
個人の脳の解剖学的構造、脳領域における神経機能の位置とタイミング、および脳波測定中のセンサーの位置の違いにより、EEG と MEG の記録は個人間で大きく異なることがよく知られています。録音。
これは、実際には、脳データの分析には、テンプレート脳上の脳信号を再調整するための複雑なエンジニアリング パイプラインが必要になることが多いことを意味します。これまでの研究では、脳デコーダは少数の録音でトレーニングされ、品詞カテゴリや小さな語彙の単語など、限られた音声特徴セットを予測していました。
研究を促進するために、Meta は新しいトピック埋め込みレイヤーを設計しました。このレイヤーは、すべての脳の記録を共通のスペースに配置するようにエンドツーエンドでトレーニングされています。
非侵襲的な脳信号から音声を解読するために、Meta は対照学習を使用してモデルをトレーニングし、音声とそれに対応する脳活動を調整しました。このアーキテクチャは、脳モデルの出力を、参加者に提示された音声の深い表現と一致させることを学習しました。
Meta の以前の研究では、wav2vec 2.0 を使用し、この音声アルゴリズムが自動的に学習して脳と一致する音声表現を生成することを示しました。
wav2vec 2.0 における音声の「脳のような」表現の出現により、Meta の研究者が脳信号から何を抽出すべきかを知らせるのに役立つため、Meta の研究者が独自のデコーダを構築するのは自然な選択となりました。 。
Meta は最近、同じ音声に反応して脳 (右) にマッピングされた wav2vec 2.0 (左) が活性化することを実証しました。アルゴリズムの最初の層の表現 (寒色) は初期聴覚皮質にマッピングされ、最も深い層は高次脳領域 (前頭前野や頭頂葉皮質など) にマッピングされます。メタ システムは、ゼロショット分類と呼ばれるものを実行します。脳活動のクリップが与えられると、新しいオーディオ クリップの大きなプールから、その人が実際に聞いたクリップを判断できます。
アルゴリズムは、その人が聞く可能性が最も高い単語を推測します。これは、人工知能が音声を知覚する際の脳活動のノイズが多く変動する非侵襲的記録をデコードする方法を首尾よく学習できることを示しているため、興味深いステップです。
次のステップは、研究者がこのモデルを拡張して、オーディオ クリップのプールを必要とせずに、脳の活動から直接音声をデコードできるかどうかを確認することです。つまり、安全で多用途な音声に移行できるかどうかを確認することです。デコード装置。研究者らの分析はさらに、wav2vec 2.0 やトピック レイヤーの使用を含むアルゴリズムのいくつかのコンポーネントがデコード パフォーマンスに有益であることを示しています。
さらに、Meta のアルゴリズムは、EEG および MEG 記録の数に応じて改善されます。実際的に言えば、これは、メタ研究者の手法が大量の異種データの抽出から恩恵を受け、原理的には小規模なデータセットのデコードを改善するのに役立つ可能性があることを意味します。
多くの場合、特定の参加者から大量のデータを収集するのは難しいため、これは重要です。たとえば、システムが自分に適しているかどうかを確認するためにスキャナーで何十時間も費やすように患者に求めるのは非現実的です。代わりに、多くの個人や条件を含む大規模なデータセットでアルゴリズムを事前トレーニングし、少ないデータで新しい患者の脳活動の解読サポートを提供できます。
Meta の研究は、自己監視によって訓練された人工知能が、固有のノイズと変動性があるにもかかわらず、脳活動の非侵襲的記録から知覚された音声を首尾よく解読できることを示しているため、心強いものです。データの中で。もちろん、これらの結果は最初のステップにすぎません。この研究活動では、Meta は音声認識の解読に焦点を当てましたが、患者のコミュニケーションという最終目標を達成するには、この研究を音声生成まで拡張する必要があります。
この研究分野は、患者の支援を超えて、コンピュータと対話する新しい方法の実現を含む可能性があります。
広い視野で見ると、メタの研究は、人工知能を使用して人間の脳をより深く理解する科学コミュニティの取り組みの一部です。メタは、将来の課題の進展を加速するために、この研究を公に共有したいと考えています。
論文分析
論文リンク: https://arxiv.org/pdf/2208.12266.pdf
この論文では、自然音声の自己教師あり表現を予測するために、大規模な個人グループに対する対照学習でトレーニングされた単一のエンドツーエンド アーキテクチャを提案します。
私たちは、自然音声を聞きながら脳磁図または脳波図 (M/EEG) で記録された 169 人のボランティアから構成される 4 つの公開データセットでモデルを評価しました。
これは、非侵襲的な脳活動記録から自然言語処理をリアルタイムにデコードするための新しいアイデアを提供します。
方法とアーキテクチャ
まず、ニューラル デコーディングの一般的なタスクを形式化し、対照的な損失を使用してトレーニングを奨励します。脳デコードのための深層学習アーキテクチャを紹介する前に、事前トレーニングされた自己教師ありモジュール wav2vec 2.0 によって提供される豊かな音声表現を紹介します。私たちは、健康なボランティアが音声文を受動的に聞きながら、非侵襲的脳磁図 (MEG) または脳波検査 (EEG) で記録された高次元脳スキャンから高次元データを取得することを目的としました。母国語の脳信号の時系列から音声を解読します。
話し言葉が脳内でどのように表現されるかはほとんどわかっていないため、デコーダーは通常、既知の音声の潜在的な表現を予測するために教師付きの方法でトレーニングされます。脳と関係があること。
経験的に、この直接回帰アプローチはいくつかの課題に直面していることがわかります。音声が存在する場合、デコード予測は区別できない広帯域成分によって支配されているように見えます (図 2.A-B)。
この課題により、私たちは 3 つの主要な貢献を行うことになりました。それは、コントラスト損失、事前トレーニングされた深い音声表現、および特殊な脳デコーダーの導入です。
1. 対照的な損失
まず、回帰は私たちの注意をそらすため、無効な損失である可能性があると推測します。目標: 脳活動から音声を解読する。したがって、これを対照的な損失である「CLIP」損失に置き換えます。この損失は、もともとテキストと画像の両方のモダリティの潜在表現と一致するように設計されました。
2. 事前トレーニングされた深い音声表現
第二に、メル スペクトルは、次の低レベル表現です。音声なので、豊富な皮質表現と一致する可能性は低いです。したがって、メル スペクトル Y を、エンドツーエンドで学習された (「ディープ メル」モデル)、または独立した自己教師あり音声モデルで学習された音声の潜在表現で置き換えます。実際には、53 の異なる言語で 56,000 時間の音声で事前トレーニングされた wav2vec2-large-xlsr-531 を使用します。
3. 特化した「ブレイン デコーダー」
最後に、ブレイン モジュールでは、ディープ ニューラル ネットワークを使用します。 fclip は、生の M/EEG 時系列 X と、それに対応する被験者 s のシングルショット エンコーディングを入力として受け取り、X と同じレートでサンプリングされた潜在脳表現 Z を出力します。
このアーキテクチャには、(1) M/EEG センサー上の空間注意層、次に、被験者間の変動性を利用するように設計された被験者固有の 1x1 畳み込みで構成され、その入力は畳み込みブロックのスタックです。
結果は、wav2vec 2.0 モデルが 3 秒の EEG 信号から対応する音声断片を識別できることを示しています。精度は 1,594 個の異なるクリップで 72.5%、2,604 個の EEG 記録クリップで 19.1% と高く、トレーニング セットにないフレーズもデコードできました。
以上がメタ: 気管挿管の必要はありません。 AIは脳波を見ることであなたが何を考えているかを知ることができますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。