ホームページ >テクノロジー周辺機器 >AI >AI がブレイン コンピューター インターフェイス研究を支援、ニューヨーク大学の画期的なニューラル音声デコード技術が Nature サブジャーナルに掲載
著者 | Chen Xupeng
神経系の欠陥による失語症は、重大な生活障害を引き起こす可能性があり、生活に支障をきたす可能性があります。人々の職業生活と社会生活。
近年、ディープラーニングとブレイン・コンピューター・インターフェース(BCI)技術の急速な発展により、失語症者のコミュニケーションを助ける神経音声補綴物の開発が可能になりました。しかし、神経信号の音声デコードは課題に直面しています。
最近、ヨルダン大学の VideoLab と Flinker Lab の研究者は、軽量の畳み込みニューラル ネットワークを使用して音声を一連の解釈可能な音声パラメータ (ピッチなど) にエンコードできる、新しいタイプの微分可能な音声合成装置を開発しました。 、ラウドネス、フォルマント周波数など)、これらのパラメータは微分可能なニューラル ネットワークを通じて音声に合成されます。このシンセサイザーは、軽量の畳み込みニューラル ネットワークを通じて音声パラメーター (ピッチ、ラウドネス、フォルマント周波数など) を解析し、微分可能な音声シンセサイザーを通じて音声を再合成することもできます。
研究者らは、元の内容の意味を変えることなく神経信号をこれらの音声パラメータにマッピングすることにより、解釈可能性が高く、データ量が少ない状況にも適用できる神経信号復号システムを確立しました。
この研究のタイトルは「深層学習と音声合成を活用したニューラル音声デコード フレームワーク」で、雑誌「Nature Machine Intelligence 2024 年 4 月 8 日号」に掲載されました。 。
論文リンク: https://www.nature.com/articles/s42256-024-00824-8
研究の背景
神経音声デコーダーを開発するほとんどの試みは、てんかん手術を受けた患者からの皮質電気記録法 (ECoG) 記録という特殊な種類のデータに依存しています。てんかん患者に埋め込まれた電極を使用して音声生成中に大脳皮質データを収集すると、これらのデータは高い時空間分解能を持ち、研究者が音声解読の分野で一連の顕著な成果を達成するのに役立ち、脳とコンピューターのインターフェースの開発を促進するのに役立ちました。分野。
神経信号の音声デコードは 2 つの大きな課題に直面しています。
まず第一に、パーソナライズされたニューラル音声デコーディング モデルのトレーニングに使用されるデータの時間は非常に限られており、通常はわずか約 10 分ですが、ディープ ラーニング モデルの駆動には大量のトレーニング データが必要になることがよくあります。
第二に、人間の発音は非常に多様で、同じ人が同じ単語を繰り返し話す場合でも、話速、イントネーション、ピッチが変化するため、モデルによって構築される表現空間が複雑になります。
神経信号を音声にデコードする初期の試みは、主に線形モデルに依存していました。モデルは通常、巨大なトレーニング データ セットを必要とせず、解釈可能性が高かったですが、精度は低かったです。
最近のディープ ニューラル ネットワーク、特に畳み込みニューラル ネットワーク アーキテクチャとリカレント ニューラル ネットワーク アーキテクチャの使用は、シミュレートされた音声の中間潜在表現と合成音声の品質という 2 つの重要な次元で開発されています。たとえば、大脳皮質の活動を口の動きの空間にデコードして音声に変換する研究がありますが、デコード性能は強力ですが、再構成された音声は不自然に聞こえます。
一方、ウェーブネットボコーダーや敵対的生成ネットワーク (GAN) などを使用して、自然な音声の再構築に成功する方法もありますが、その精度には限界があります。最近、埋め込み型デバイスを装着した患者を対象とした研究で、量子化された HuBERT 特徴を中間表現空間として使用し、これらの特徴を音声に変換する事前学習済みの音声合成装置を使用することにより、正確かつ自然な音声波形が実現されました。
ただし、HuBERT の機能は話者固有の音響情報を表すことができず、固定された統一された話者の音声しか生成できないため、この普遍的な音声を特定の患者の音声に変換するには追加のモデルが必要です。さらに、この研究とこれまでのほとんどの試みは非因果的アーキテクチャを採用しているため、時間的因果的操作を必要とする実際のブレインコンピュータインターフェイスアプリケーションでの使用が制限される可能性があります。
メイン モデル フレームワーク
研究者らは、これらの課題に対処するために、脳波 (ECoG) 信号から音声への新しいデコード フレームワークを導入し、低次元の中間表現 (低次元の潜在表現) を構築します。これは、音声信号のみを使用する音声エンコードおよびデコード モデルによって生成されます (図 1)。
研究で提案されているフレームワークは 2 つの部分で構成されています。1 つは ECoG デコーダで、ECoG 信号を私たちが理解できる音響音声パラメータ (ピッチ、音が発声されているかどうか、音量、音量など) に変換します。フォルマント周波数など); もう 1 つの部分は音声合成装置で、これらの音声パラメータをスペクトログラムに変換します。
研究人員建構了一個可微分語音合成器,這使得在訓練ECoG解碼器的過程中,語音合成器也可以參與訓練,共同優化以減少頻譜圖重建的誤差。這個低維度的潛在空間具有很強的可解釋性,加上輕量級的預訓練語音編碼器產生參考用的語音參數,幫助研究者建立了一個高效的神經語音解碼框架,克服了數據稀缺的問題。
該框架能產生非常接近說話者自己聲音的自然語音,並且ECoG解碼器部分可以插入不同的深度學習模型架構,也支援因果操作(causal operations)。研究人員共收集並處理了48名神經外科病人的ECoG數據,使用多種深度學習架構(包括卷積、循環神經網路和Transformer)作為ECoG解碼器。
該框架在各種模型上都展現出了高準確度,其中以卷積(ResNet)架構獲得的性能最好,原始與解碼頻譜圖之間的皮爾森相關係數(PCC)達到了0.806。研究者提出的框架僅透過因果操作和相對較低的採樣率(low-density, 10mm spacing)就能達到高準確度。
研究者也展示了能夠從大腦的左右半球都進行有效的語音解碼,將神經語音解碼的應用擴展到了右腦。
研究相關程式碼開源:https://github.com/flinkerlab/neural_speech_decoding
該研究的重要創新是提出了一個可微分的語音合成器(speech synthesizer),這使得語音的重合成任務變得非常高效,可以用很小的語音合成高保真的貼合原聲的音訊。
可微分語音合成器的原理借鑒了人的發生系統原理,將語音分為Voice(用於建模元音)和Unvoice(用於建模輔音)兩部分:
Voice部分可以先用基頻訊號產生諧波,由F1-F6的共振峰組成的濾波器濾波得到母音部分的頻譜特徵;對於Unvoice部分,研究者則是將白噪聲用對應的濾波器濾波得到對應的頻譜,一個可學習的參數可以調控兩部分在每個時刻的混合比例;在此之後透過響度訊號放大,加入背景雜訊來得到最終的語音頻譜。基於此語音合成器,本文設計了一個高效率的語音重合成框架以及神經-語音解碼框架。
研究結果
具有時序因果性的語音解碼結果
首先,研究者直接比較不同模型架構(卷積(ResNet)、循環(LSTM)和Transformer(3D Swin)在語音解碼性能上的差異。值得注意的是,這些模型都可以執行時間上的非因果(non-causal)或因果操作。森相關係數(PCC),非因果和因果的平均PCC分別為0.806和0.797,緊接而來的是Swin模型(非因果和因果的平均PCC分別為0.792和0.798)(圖2a)。
透過STOI 指標的評估也得到了相似的發現。也會使用未來的神經訊號。 #研究發現,即使是因果版本的ResNet模型也能與非因果版本媲美,二者之間沒有顯著差異。非因果版本,因此研究者後續主要關注ResNet和Swin模型。交叉驗證,這意味著相同單字的不同試驗不會同時出現在訓練集和測試集中。在訓練期間未見過的單詞,模型也能夠很好地進行解碼,這主要得益於本文構建的模型在進行音素(phoneme)或類似水平的語音解碼。進一步,研究者展示了ResNet因果解碼器在單字層級的表現,展示了兩位參與者(低密度取樣率ECoG)的數據。解碼後的頻譜圖準確地保留了原始語音的頻譜-時間結構(圖2c,d)。
研究人員也比較了神經解碼器預測的語音參數與語音編碼器編碼的參數(作為參考值),研究者展示了幾個關鍵語音參數的平均PCC值(N=48),包括聲音權重(用於區分母音和子音)、響度、音高f0、第一共振峰f1和第二共振峰f2。準確地重建這些語音參數,尤其是音高、聲音權重和前兩個共振峰,對於實現精確的語音解碼和自然地模仿參與者聲音的重建至關重要。
研究發現表明,無論是非因果或因果模型,都能得到合理的解碼結果,這為未來的研究和應用提供了積極的指引。
對左右大腦神經訊號語音解碼以及空間取樣率的研究
研究者進一步對左右大腦半球的語音解碼結果進行了比較。多數研究集中關注主導語音和語言功能的左腦半球。然而,我們對於如何從右腦半球解碼語言訊息所知甚少。針對這一點,研究者比較了參與者左右大腦半球的解碼表現,以驗證使用右腦半球進行語音恢復的可能性。
在研究收集的48位受試者中,有16位受試者的ECoG訊號是從右腦中擷取。透過比較ResNet 與Swin 解碼器的表現,研究者發現右腦半球也能夠穩定地進行語音解碼(ResNet 的PCC值為0.790,Swin 的PCC值為0.798),與左腦半球的解碼效果相差較小(如圖3a 所示)。
這項發現同樣適用於 STOI 的評估。這意味著,對於左腦半球受損、失去語言能力的患者來說,利用右腦半球的神經訊號恢復語言也許是可行的方案。
接著,研究者探討了電極取樣密度對語音解碼效果的影響。先前的研究多採用較高密度的電極網格(0.4 mm),而臨床上通常使用的電極網格密度較低(LD 1 cm)。
有五位參與者使用了混合類型(HB)的電極網格(見圖 3b),這類網格雖然主要是低密度採樣,但其中加入了額外的電極。剩餘的四十三位參與者都採用低密度採樣。這些混合取樣(HB)的解碼表現與傳統的低密度取樣(LD)相似,但在 STOI 上表現稍好。
研究者比較了僅利用低密度電極與使用所有混合電極進行解碼的效果,發現兩者之間的差異並不顯著(參見圖3d),這表明模型能夠從不同空間採樣密度的大腦皮層中學習到語音訊息,這也暗示臨床通常使用的採樣密度對於未來的腦機介面應用也許是足夠的。
對於左右腦不同腦區對語音解碼貢獻度的研究
最後,研究者檢視了大腦的語音相關區域在語音解碼過程中的貢獻程度,這對於未來在左右腦半球植入語音恢復設備提供了重要的參考。研究者採用了遮蔽技術(occlusion analysis)來評估不同腦區對語音解碼的貢獻度。
簡而言之,如果某個區域對解碼至關重要,那麼遮蔽該區域的電極訊號(即將訊號設為零)會降低重構語音的準確率(PCC值)。
透過這種方法,研究者測量了遮蔽每個區域時,PCC值的減少情況。透過對比ResNet 和Swin 解碼器的因果與非因果模型發現,聽覺皮層在非因果模型中的貢獻更大;這強調了在即時語音解碼應用中,必須使用因果模型;因為在即時語音解碼中,我們無法利用神經回饋訊號。
此外,無論是在右腦或左腦半球,感測運動皮質尤其是腹部區域的貢獻度相似,這暗示在右半球植入神經義肢也許是可行的。
結論&啟發展望
研究者開發了一個新型的可微分語音合成器,可以利用一個輕型的捲積神經網路將語音編碼為一系列可解釋的語音參數(如音高,響度,共振峰頻率等)並透過可微分語音合成器重新合成語音。
透過將神經訊號映射到這些語音參數,研究者建構了一個高度可解釋且可應用於小數據量情形的神經語音解碼系統,可產生聽起來自然的語音。此方法在參與者間高度可重複(共48人),研究者成功展示了利用卷積和Transformer(3D Swin)架構進行因果解碼的有效性,均優於循環架構(LSTM)。
該框架能夠處理高低不同空間取樣密度,並且可以處理左、右半球的腦電訊號,顯示出了強大的語音解碼潛力。
大多數先前的研究沒有考慮到即時腦機介面應用中解碼操作的時序因果性。許多非因果模型依賴聽覺感覺回饋訊號。研究者的分析顯示,非因果模型主要依賴顳上回(superior temporal gyrus)的貢獻,而因果模型則基本上消除了這一點。研究者認為,由於過度依賴回饋訊號,非因果模型在即時BCI應用中的通用性受限。
有些方法嘗試避免訓練中的回饋,如解碼受試者想像中的語音。儘管如此,大多數研究仍採用非因果模型,無法排除訓練和推論過程中的回饋影響。此外,文獻中廣泛使用的循環神經網路通常是雙向的,導致非因果行為和預測延遲,而研究者的實驗表明,單向訓練的循環網路表現最差。
儘管研究並沒有測試即時解碼,但研究者實現了從神經訊號合成語音小於50毫秒的延遲,幾乎不影響聽覺延遲,允許正常語音產出。
研究中探討了是否更高密度的覆蓋能改善解碼性能。研究者發現低密度和高(混合)密度網格覆蓋都能達到高解碼效能(見圖 3c)。此外,研究者發現使用所有電極的解碼性能與僅使用低密度電極的性能沒有顯著差異(圖3d)。
這證明了只要圍顳覆蓋足夠,即使在低密度參與者中,研究者提出的ECoG解碼器也能夠從神經訊號中提取語音參數用於重建語音。另一個顯著的發現是右半球皮質結構以及右圍顳皮質對語音解碼的貢獻。儘管先前的一些研究展示了對元音和句子的解碼中,右半球可能提供貢獻,研究者的結果提供了右半球中魯棒的語音表示的證據。
研究者也提到了目前模型的一些限制,例如解碼流程需要有與ECoG記錄配對的語音訓練數據,這對失語症患者可能不適用。未來,研究者也希望開發能處理非網格資料的模型架構,以及更好地利用多病人、多模態腦電資料。
本文第一作者:Xupeng Chen, Ran Wang,通訊作者:Adeen Flinker。
基金支持:National Science Foundation under Grant No. IIS-1912286, 2309057 (Y.W., A.F.) and National Institute of Health R01NS109367, R01NS115929, R01DC018805 (A.F.)##。
更多關於神經語音解碼中的因果性討論,可以參考作者們的另一篇論文《Distributed feedforward and feedback cortical processing supports human speech production 》:https ://www.pnas.org/doi/10.1073/pnas.2300255120
來源:腦機介面社群以上がAI がブレイン コンピューター インターフェイス研究を支援、ニューヨーク大学の画期的なニューラル音声デコード技術が Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。