AI がブレインコンピューターインターフェイス研究を支援、ニューヨーク大学の画期的なニューラル音声デコード技術が Nature サブジャーナルに掲載

AI がブレインコンピューターインターフェイス研究を支援、ニューヨーク大学の画期的なニューラル音声デコード技術が Nature サブジャーナルに掲載

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 17, 2024 am 08:40 AM

gitiis理論

著者 | Chen Xupeng

編集者 | ScienceAI

神経系の欠陥による失語症は、重大な生活障害を引き起こす可能性があり、生活に支障をきたす可能性があります。人々の職業生活と社会生活。

近年、ディープラーニングとブレイン・コンピューター・インターフェース（BCI）技術の急速な発展により、失語症者のコミュニケーションを助ける神経音声補綴物の開発が可能になりました。しかし、神経信号の音声デコードは課題に直面しています。

最近、ヨルダン大学の VideoLab と Flinker Lab の研究者は、軽量の畳み込みニューラルネットワークを使用して音声を一連の解釈可能な音声パラメータ (ピッチなど) にエンコードできる、新しいタイプの微分可能な音声合成装置を開発しました。、ラウドネス、フォルマント周波数など）、これらのパラメータは微分可能なニューラルネットワークを通じて音声に合成されます。このシンセサイザーは、軽量の畳み込みニューラルネットワークを通じて音声パラメーター (ピッチ、ラウドネス、フォルマント周波数など) を解析し、微分可能な音声シンセサイザーを通じて音声を再合成することもできます。

研究者らは、元の内容の意味を変えることなく神経信号をこれらの音声パラメータにマッピングすることにより、解釈可能性が高く、データ量が少ない状況にも適用できる神経信号復号システムを確立しました。

この研究のタイトルは「深層学習と音声合成を活用したニューラル音声デコードフレームワーク」で、雑誌「Nature Machine Intelligence 2024 年 4 月 8 日号」に掲載されました。。

論文リンク: https://www.nature.com/articles/s42256-024-00824-8

研究の背景

神経音声デコーダーを開発するほとんどの試みは、てんかん手術を受けた患者からの皮質電気記録法 (ECoG) 記録という特殊な種類のデータに依存しています。てんかん患者に埋め込まれた電極を使用して音声生成中に大脳皮質データを収集すると、これらのデータは高い時空間分解能を持ち、研究者が音声解読の分野で一連の顕著な成果を達成するのに役立ち、脳とコンピューターのインターフェースの開発を促進するのに役立ちました。分野。

神経信号の音声デコードは 2 つの大きな課題に直面しています。

まず第一に、パーソナライズされたニューラル音声デコーディングモデルのトレーニングに使用されるデータの時間は非常に限られており、通常はわずか約 10 分ですが、ディープラーニングモデルの駆動には大量のトレーニングデータが必要になることがよくあります。

第二に、人間の発音は非常に多様で、同じ人が同じ単語を繰り返し話す場合でも、話速、イントネーション、ピッチが変化するため、モデルによって構築される表現空間が複雑になります。

神経信号を音声にデコードする初期の試みは、主に線形モデルに依存していました。モデルは通常、巨大なトレーニングデータセットを必要とせず、解釈可能性が高かったですが、精度は低かったです。

最近のディープニューラルネットワーク、特に畳み込みニューラルネットワークアーキテクチャとリカレントニューラルネットワークアーキテクチャの使用は、シミュレートされた音声の中間潜在表現と合成音声の品質という 2 つの重要な次元で開発されています。たとえば、大脳皮質の活動を口の動きの空間にデコードして音声に変換する研究がありますが、デコード性能は強力ですが、再構成された音声は不自然に聞こえます。

一方、ウェーブネットボコーダーや敵対的生成ネットワーク (GAN) などを使用して、自然な音声の再構築に成功する方法もありますが、その精度には限界があります。最近、埋め込み型デバイスを装着した患者を対象とした研究で、量子化された HuBERT 特徴を中間表現空間として使用し、これらの特徴を音声に変換する事前学習済みの音声合成装置を使用することにより、正確かつ自然な音声波形が実現されました。

ただし、HuBERT の機能は話者固有の音響情報を表すことができず、固定された統一された話者の音声しか生成できないため、この普遍的な音声を特定の患者の音声に変換するには追加のモデルが必要です。さらに、この研究とこれまでのほとんどの試みは非因果的アーキテクチャを採用しているため、時間的因果的操作を必要とする実際のブレインコンピュータインターフェイスアプリケーションでの使用が制限される可能性があります。

メインモデルフレームワーク

図 1: 提案されたニューラル音声デコードフレームワーク。 (出典: 論文)

研究者らは、これらの課題に対処するために、脳波 (ECoG) 信号から音声への新しいデコードフレームワークを導入し、低次元の中間表現 (低次元の潜在表現) を構築します。これは、音声信号のみを使用する音声エンコードおよびデコードモデルによって生成されます (図 1)。

研究で提案されているフレームワークは 2 つの部分で構成されています。1 つは ECoG デコーダで、ECoG 信号を私たちが理解できる音響音声パラメータ (ピッチ、音が発声されているかどうか、音量、音量など) に変換します。フォルマント周波数など）; もう 1 つの部分は音声合成装置で、これらの音声パラメータをスペクトログラムに変換します。

研究人員建構了一個可微分語音合成器，這使得在訓練ECoG解碼器的過程中，語音合成器也可以參與訓練，共同優化以減少頻譜圖重建的誤差。這個低維度的潛在空間具有很強的可解釋性，加上輕量級的預訓練語音編碼器產生參考用的語音參數，幫助研究者建立了一個高效的神經語音解碼框架，克服了數據稀缺的問題。

該框架能產生非常接近說話者自己聲音的自然語音，並且ECoG解碼器部分可以插入不同的深度學習模型架構，也支援因果操作(causal operations)。研究人員共收集並處理了48名神經外科病人的ECoG數據，使用多種深度學習架構（包括卷積、循環神經網路和Transformer）作為ECoG解碼器。

該框架在各種模型上都展現出了高準確度，其中以卷積（ResNet）架構獲得的性能最好，原始與解碼頻譜圖之間的皮爾森相關係數（PCC）達到了0.806。研究者提出的框架僅透過因果操作和相對較低的採樣率（low-density, 10mm spacing）就能達到高準確度。

研究者也展示了能夠從大腦的左右半球都進行有效的語音解碼，將神經語音解碼的應用擴展到了右腦。

研究相關程式碼開源：https://github.com/flinkerlab/neural_speech_decoding

更多產生的語音範例：https://xc1490. github.io/nsd/

圖：可微分語音合成器架構。（資料來源：論文）

該研究的重要創新是提出了一個可微分的語音合成器（speech synthesizer），這使得語音的重合成任務變得非常高效，可以用很小的語音合成高保真的貼合原聲的音訊。

可微分語音合成器的原理借鑒了人的發生系統原理，將語音分為Voice（用於建模元音）和Unvoice（用於建模輔音）兩部分：

Voice部分可以先用基頻訊號產生諧波，由F1-F6的共振峰組成的濾波器濾波得到母音部分的頻譜特徵；對於Unvoice部分，研究者則是將白噪聲用對應的濾波器濾波得到對應的頻譜，一個可學習的參數可以調控兩部分在每個時刻的混合比例；在此之後透過響度訊號放大，加入背景雜訊來得到最終的語音頻譜。基於此語音合成器，本文設計了一個高效率的語音重合成框架以及神經-語音解碼框架。

研究結果

具有時序因果性的語音解碼結果

圖2：比較非因果和因果模型的原始頻譜圖和解碼頻譜圖的解碼性能。（資料來源：論文）

首先，研究者直接比較不同模型架構（卷積（ResNet）、循環（LSTM）和Transformer（3D Swin）在語音解碼性能上的差異。值得注意的是，這些模型都可以執行時間上的非因果（non-causal）或因果操作。森相關係數（PCC），非因果和因果的平均PCC分別為0.806和0.797，緊接而來的是Swin模型（非因果和因果的平均PCC分別為0.792和0.798）（圖2a）。

透過STOI 指標的評估也得到了相似的發現。也會使用未來的神經訊號。 #研究發現，即使是因果版本的ResNet模型也能與非因果版本媲美，二者之間沒有顯著差異。非因果版本，因此研究者後續主要關注ResNet和Swin模型。交叉驗證，這意味著相同單字的不同試驗不會同時出現在訓練集和測試集中。在訓練期間未見過的單詞，模型也能夠很好地進行解碼，這主要得益於本文構建的模型在進行音素（phoneme）或類似水平的語音解碼。

進一步，研究者展示了ResNet因果解碼器在單字層級的表現，展示了兩位參與者（低密度取樣率ECoG）的數據。解碼後的頻譜圖準確地保留了原始語音的頻譜-時間結構（圖2c,d）。

研究人員也比較了神經解碼器預測的語音參數與語音編碼器編碼的參數（作為參考值），研究者展示了幾個關鍵語音參數的平均PCC值（N=48），包括聲音權重（用於區分母音和子音）、響度、音高f0、第一共振峰f1和第二共振峰f2。準確地重建這些語音參數，尤其是音高、聲音權重和前兩個共振峰，對於實現精確的語音解碼和自然地模仿參與者聲音的重建至關重要。

研究發現表明，無論是非因果或因果模型，都能得到合理的解碼結果，這為未來的研究和應用提供了積極的指引。

對左右大腦神經訊號語音解碼以及空間取樣率的研究

#圖3：3D ResNet 和3D Swin 模型不同設定下的解碼效能比較。（資料來源：論文）

研究者進一步對左右大腦半球的語音解碼結果進行了比較。多數研究集中關注主導語音和語言功能的左腦半球。然而，我們對於如何從右腦半球解碼語言訊息所知甚少。針對這一點，研究者比較了參與者左右大腦半球的解碼表現，以驗證使用右腦半球進行語音恢復的可能性。

在研究收集的48位受試者中，有16位受試者的ECoG訊號是從右腦中擷取。透過比較ResNet 與Swin 解碼器的表現，研究者發現右腦半球也能夠穩定地進行語音解碼（ResNet 的PCC值為0.790，Swin 的PCC值為0.798），與左腦半球的解碼效果相差較小（如圖3a 所示）。

這項發現同樣適用於 STOI 的評估。這意味著，對於左腦半球受損、失去語言能力的患者來說，利用右腦半球的神經訊號恢復語言也許是可行的方案。

接著，研究者探討了電極取樣密度對語音解碼效果的影響。先前的研究多採用較高密度的電極網格（0.4 mm），而臨床上通常使用的電極網格密度較低（LD 1 cm）。

有五位參與者使用了混合類型（HB）的電極網格（見圖 3b），這類網格雖然主要是低密度採樣，但其中加入了額外的電極。剩餘的四十三位參與者都採用低密度採樣。這些混合取樣（HB）的解碼表現與傳統的低密度取樣（LD）相似，但在 STOI 上表現稍好。

研究者比較了僅利用低密度電極與使用所有混合電極進行解碼的效果，發現兩者之間的差異並不顯著（參見圖3d），這表明模型能夠從不同空間採樣密度的大腦皮層中學習到語音訊息，這也暗示臨床通常使用的採樣密度對於未來的腦機介面應用也許是足夠的。

對於左右腦不同腦區對語音解碼貢獻度的研究

AI がブレインコンピューターインターフェイス研究を支援、ニューヨーク大学の画期的なニューラル音声デコード技術が Nature サブジャーナルに掲載

圖4：貢獻度分析。（資料來源：論文）

最後，研究者檢視了大腦的語音相關區域在語音解碼過程中的貢獻程度，這對於未來在左右腦半球植入語音恢復設備提供了重要的參考。研究者採用了遮蔽技術（occlusion analysis）來評估不同腦區對語音解碼的貢獻度。

簡而言之，如果某個區域對解碼至關重要，那麼遮蔽該區域的電極訊號（即將訊號設為零）會降低重構語音的準確率（PCC值）。

透過這種方法，研究者測量了遮蔽每個區域時，PCC值的減少情況。透過對比ResNet 和Swin 解碼器的因果與非因果模型發現，聽覺皮層在非因果模型中的貢獻更大；這強調了在即時語音解碼應用中，必須使用因果模型；因為在即時語音解碼中，我們無法利用神經回饋訊號。

此外，無論是在右腦或左腦半球，感測運動皮質尤其是腹部區域的貢獻度相似，這暗示在右半球植入神經義肢也許是可行的。

結論&啟發展望

研究者開發了一個新型的可微分語音合成器，可以利用一個輕型的捲積神經網路將語音編碼為一系列可解釋的語音參數（如音高，響度，共振峰頻率等）並透過可微分語音合成器重新合成語音。

透過將神經訊號映射到這些語音參數，研究者建構了一個高度可解釋且可應用於小數據量情形的神經語音解碼系統，可產生聽起來自然的語音。此方法在參與者間高度可重複（共48人），研究者成功展示了利用卷積和Transformer（3D Swin）架構進行因果解碼的有效性，均優於循環架構（LSTM）。

該框架能夠處理高低不同空間取樣密度，並且可以處理左、右半球的腦電訊號，顯示出了強大的語音解碼潛力。

大多數先前的研究沒有考慮到即時腦機介面應用中解碼操作的時序因果性。許多非因果模型依賴聽覺感覺回饋訊號。研究者的分析顯示，非因果模型主要依賴顳上回（superior temporal gyrus）的貢獻，而因果模型則基本上消除了這一點。研究者認為，由於過度依賴回饋訊號，非因果模型在即時BCI應用中的通用性受限。

有些方法嘗試避免訓練中的回饋，如解碼受試者想像中的語音。儘管如此，大多數研究仍採用非因果模型，無法排除訓練和推論過程中的回饋影響。此外，文獻中廣泛使用的循環神經網路通常是雙向的，導致非因果行為和預測延遲，而研究者的實驗表明，單向訓練的循環網路表現最差。

儘管研究並沒有測試即時解碼，但研究者實現了從神經訊號合成語音小於50毫秒的延遲，幾乎不影響聽覺延遲，允許正常語音產出。

研究中探討了是否更高密度的覆蓋能改善解碼性能。研究者發現低密度和高（混合）密度網格覆蓋都能達到高解碼效能（見圖 3c）。此外，研究者發現使用所有電極的解碼性能與僅使用低密度電極的性能沒有顯著差異（圖3d）。

這證明了只要圍顳覆蓋足夠，即使在低密度參與者中，研究者提出的ECoG解碼器也能夠從神經訊號中提取語音參數用於重建語音。另一個顯著的發現是右半球皮質結構以及右圍顳皮質對語音解碼的貢獻。儘管先前的一些研究展示了對元音和句子的解碼中，右半球可能提供貢獻，研究者的結果提供了右半球中魯棒的語音表示的證據。

研究者也提到了目前模型的一些限制，例如解碼流程需要有與ECoG記錄配對的語音訓練數據，這對失語症患者可能不適用。未來，研究者也希望開發能處理非網格資料的模型架構，以及更好地利用多病人、多模態腦電資料。

本文第一作者：Xupeng Chen, Ran Wang，通訊作者：Adeen Flinker。

基金支持：National Science Foundation under Grant No. IIS-1912286, 2309057 (Y.W., A.F.) and National Institute of Health R01NS109367, R01NS115929, R01DC018805 (A.F.)##。

更多關於神經語音解碼中的因果性討論，可以參考作者們的另一篇論文《

Distributed feedforward and feedback cortical processing supports human speech production 》：https ://www.pnas.org/doi/10.1073/pnas.2300255120

來源：腦機介面社群

以上がAI がブレインコンピューターインターフェイス研究を支援、ニューヨーク大学の画期的なニューラル音声デコード技術が Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、