>  기사  >  기술 주변기기  >  AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.

AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.

WBOY
WBOY앞으로
2024-04-17 08:40:051171검색

AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.

저자 | Chen Xupeng

편집자 | ScienceAI

신경계 결함으로 인한 실어증은 심각한 생활 장애로 이어질 수 있으며, 이는 사람들의 직업적, 사회적 생활을 제한할 수 있습니다.

최근에는 딥러닝과 뇌-컴퓨터 인터페이스(BCI) 기술의 급속한 발전으로 실어증 환자의 의사소통에 도움이 될 수 있는 신경언어 보철물 개발의 타당성이 확보되었습니다. 그러나 신경 신호의 음성 디코딩은 문제에 직면해 있습니다.

최근 VideoLab과 요르단 대학 Flinker Lab의 연구원들은 경량 컨볼루셔널 신경망을 사용하여 음성을 일련의 해석 가능한 음성 매개변수(예: 음높이, 음량, 포먼트)로 인코딩할 수 있는 새로운 유형의 차별화 가능한 음성 합성기를 개발했습니다. 주파수 등), 이러한 매개변수는 미분 가능한 신경망을 통해 음성으로 합성됩니다. 이 합성기는 또한 경량 컨벌루션 신경망을 통해 음성 매개변수(예: 음높이, 음량, 포먼트 주파수 등)를 구문 분석하고 미분 가능한 음성 합성기를 통해 음성을 재합성할 수 있습니다.

연구원들은 원래 내용의 의미를 변경하지 않고 신경 신호를 이러한 음성 매개변수에 매핑하여 데이터 양이 적은 상황에 해석성이 뛰어나고 적용 가능한 신경 신호 디코딩 시스템을 구축했습니다.

연구 제목은 "딥 러닝과 음성 합성을 활용한 신경 음성 디코딩 프레임워크"이며, 2024년 4월 8일 "Nature Machine Intelligence" 잡지에 게재되었습니다.

AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.

논문 링크: https://www.nature.com/articles/s42256-024-00824-8

연구 배경

신경 음성 디코더를 개발하려는 대부분의 시도는 A 스페셜에 의존합니다. 데이터 종류: 뇌전증 수술을 받은 환자로부터 전기피질검사(ECoG) 기록을 통해 얻은 데이터. 간질 환자에게 이식된 전극을 사용하여 음성 생성 중 대뇌 피질 데이터를 수집하면 이러한 데이터는 시공간 해상도가 높으며 연구자가 음성 디코딩 분야에서 일련의 놀라운 결과를 달성하는 데 도움이 되어 뇌-컴퓨터 인터페이스 개발을 촉진하는 데 도움이 됩니다. 필드.

신경 신호의 음성 디코딩은 두 가지 주요 과제에 직면해 있습니다.

우선, 개인화된 신경-음성 디코딩 모델을 훈련하는 데 사용되는 데이터는 시간이 매우 제한되어 일반적으로 약 10분에 불과한 반면, 딥 러닝 모델은 구동하는 데 많은 양의 훈련 데이터가 필요한 경우가 많습니다.

둘째, 인간의 발음은 매우 다양합니다. 같은 사람이 같은 단어를 반복해서 말하더라도 발화 속도, 억양, 음조가 바뀌므로 모델이 구축한 표현 공간이 복잡해집니다.

신경 신호를 음성으로 디코딩하려는 초기 시도는 주로 선형 모델에 의존했습니다. 모델은 일반적으로 대규모 교육 데이터 세트가 필요하지 않았고 해석 가능성이 높았지만 정확도는 매우 낮았습니다.

심층 신경망, 특히 컨벌루션 및 순환 신경망 아키텍처를 기반으로 한 최근 연구는 시뮬레이션된 음성의 중간 잠재 표현과 합성된 음성의 품질이라는 두 가지 주요 차원에서 개발되었습니다. 예를 들어, 대뇌 피질 활동을 입 움직임 공간으로 디코딩한 다음 이를 음성으로 변환하는 연구가 있습니다. 디코딩 성능은 강력하지만 재구성된 음성은 부자연스럽게 들립니다.

반면, 웨이브넷 보코더, GAN(Generative Adversarial Network) 등을 사용하여 자연스러운 음성을 성공적으로 재구성하는 방법도 있지만 정확도가 제한됩니다. 최근 이식 장치를 사용하는 환자를 대상으로 한 연구에서 양자화된 HuBERT 특징을 중간 표현 공간으로 사용하고 사전 훈련된 음성 합성기를 사용하여 이러한 특징을 음성으로 변환함으로써 정확하고 자연스러운 음성 파형을 얻었습니다.

그러나 HuBERT 기능은 스피커별 음향 정보를 표현할 수 없으며 고정되고 통일된 스피커 사운드만 생성할 수 있으므로 이 보편적인 사운드를 특정 환자의 음성으로 변환하려면 추가 모델이 필요합니다. 또한, 이 연구와 대부분의 이전 시도는 비인과적 아키텍처를 채택했기 때문에 시간적 인과적 작업이 필요한 뇌-컴퓨터 인터페이스의 실제 적용에 사용이 제한될 수 있습니다.

메인 모델 프레임워크

AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.

그림 1: 제안된 신경 음성 디코딩 프레임워크. (출처: 논문)

이러한 문제를 해결하기 위해 연구원들은 이 기사에서 뇌전도(ECoG) 신호에서 음성까지의 새로운 디코딩 프레임워크를 소개합니다. 음성 신호만 사용하는 음성 인코딩 및 디코딩 모델(그림 1)

연구에서 제안한 프레임워크는 두 부분으로 구성됩니다. 하나는 ECoG 신호를 우리가 이해할 수 있는 음향 음성 매개변수(예: 피치, 발음 여부, 크기, 포먼트 주파수 등)로 변환하는 ECoG 디코더입니다. ) 다른 부분은 이러한 음성 매개변수를 스펙트로그램으로 변환하는 음성 합성기입니다.

연구원들은 ECoG 디코더 훈련 중에 음성 합성기가 훈련에 참여하고 공동으로 최적화하여 스펙트로그램 재구성 오류를 줄일 수 있는 미분 음성 합성기를 구축했습니다. 이 저차원 잠재 공간은 참조 음성 매개변수를 생성하기 위한 경량의 사전 훈련된 음성 인코더와 결합되어 강력한 해석성을 갖추고 있어 연구자가 효율적인 신경 음성 디코딩 프레임워크를 구축하고 데이터 부족 문제를 극복하는 데 도움이 됩니다.

이 프레임워크는 화자 자신의 목소리에 매우 가까운 자연스러운 음성을 생성할 수 있으며, ECoG 디코더 부분은 다양한 딥 러닝 모델 아키텍처에 연결될 수 있으며 인과 연산도 지원합니다. 연구원들은 ECoG 디코더로 다중 딥 러닝 아키텍처(컨볼루션, 순환 신경망 및 Transformer 포함)를 사용하여 48명의 신경외과 환자로부터 ECoG 데이터를 수집하고 처리했습니다.

프레임워크는 다양한 모델에서 높은 정확도를 입증했으며, 그 중 컨벌루션(ResNet) 아키텍처가 원본 스펙트로그램과 디코딩된 스펙트로그램 간의 PCC(Pearson Correlation Coefficient)가 0.806에 도달하여 최고의 성능을 달성했습니다. 연구진이 제안한 프레임워크는 인과적 연산과 상대적으로 낮은 샘플링 속도(저밀도, 10mm 간격)를 통해서만 높은 정확도를 달성할 수 있습니다.

연구원들은 또한 효과적인 음성 해독이 뇌의 왼쪽 반구와 오른쪽 반구 모두에서 수행될 수 있음을 입증하여 신경 음성 해독의 적용 범위를 오른쪽 뇌로 확장했습니다.

연구 관련 코드 오픈 소스: https://github.com/flinkerlab/neural_speech_decoding

더 많은 생성된 음성 예제: https://xc1490.github.io/nsd/

AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.

사진: 미분 가능 음성 합성기 아키텍처. (출처: 논문)

이 연구의 중요한 혁신은 음성 재합성 작업을 매우 효율적으로 만들고 매우 작은 음성으로 고품질 스티커를 합성할 수 있는 미분 음성 합성기(음성 합성기)를 제안하는 것입니다. 오디오.

미분 음성 합성기의 원리는 인간 생성 시스템의 원리를 활용하고 음성을 음성(모음 모델링에 사용됨)과 Unvoice(자음 모델링에 사용됨)의 두 부분으로 나눕니다.

음성 부분은 먼저 다음과 함께 사용할 수 있습니다. 베이스 주파수 신호는 고조파를 생성하고, F1-F6의 포먼트 피크로 구성된 필터를 필터링하여 Unvoice 부분에 대한 모음 부분의 스펙트럼 특성을 얻고, 연구원은 해당 필터로 백색 잡음을 필터링하여 해당 필터를 얻습니다. 학습된 매개변수는 매 순간 두 부분의 혼합 비율을 제어할 수 있으며, 그 후 음량 신호가 증폭되고 배경 소음이 추가되어 최종 음성 스펙트럼을 얻습니다. 본 논문에서는 이러한 음성 합성기를 기반으로 효율적인 음성 재합성 프레임워크와 신경 음성 디코딩 프레임워크를 설계한다.

연구 결과

시간적 인과성을 고려한 음성 디코딩 결과

AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.

그림 2: 원래 스펙트로그램과 비인과 및 인과 모델의 디코딩된 스펙트로그램의 디코딩 성능 비교. (출처: 논문)

먼저 연구원들은 다양한 모델 아키텍처(Convolution(ResNet), Recurrent(LSTM) 및 Transformer(3D Swin))의 음성 디코딩 성능 차이를 직접 비교했습니다. - 인과관계 또는 인과관계 작업

결과는 ResNet 모델이 모든 모델 중에서 가장 잘 수행되어 48명의 참가자 중에서 가장 높은 Pearson 상관 계수(PCC)를 달성한 것으로 나타났습니다. 인과 관계와 인과 관계에 대한 평균 PCC는 각각 0.806과 0.797입니다. Swin 모델이 뒤따릅니다(비인과 및 인과에 대한 평균 PCC는 각각 0.792 및 0.798입니다)(그림 2a)

STOI+ 지표 평가에서도 유사한 결과가 얻어졌습니다. 결과는 다음과 같습니다. 뇌-컴퓨터 인터페이스(BCI) 애플리케이션에 대한 중요한 의미: 인과 모델은 과거 및 현재 신경 신호만 사용하여 음성을 생성하는 반면, 인과 모델은 미래의 신경 신호도 사용하므로 실시간 애플리케이션에서는 실현 가능하지 않습니다. 따라서 연구자들은 비인과적 연산과 인과적 연산을 수행할 때 동일한 모델의 성능을 비교하는 데 중점을 두었습니다.

연구에 따르면 ResNet 모델의 인과적 버전도 비인과적 버전보다 더 나은 성능을 발휘하는 것으로 나타났습니다. 마찬가지로 Swin 모델의 인과 버전과 비인과 버전의 성능은 유사하지만 LSTM 모델의 인과 버전의 성능은 비인과 버전에 비해 현저히 낮습니다.

이 기사에서 제안한 프레임워크가 보이지 않는 단어에 잘 일반화될 수 있는지 확인하기 위해 연구원들은 보다 엄격한 단어 수준 교차 검증을 수행했습니다. 동일한 단어는 훈련 세트에 나타나지 않고 동시에 테스트됩니다.

그림 2b에서 볼 수 있듯이, 보이지 않는 단어에 대한 성능은 기사의 표준 실험 방법과 비슷하며, 이는 모델이 잘 디코딩될 수 있음을 나타냅니다. 훈련 중에 본 적이 없더라도 이는 주로 이 기사 때문입니다. 구축된 모델은 음소 또는 유사한 수준의 음성 디코딩

을 수행합니다.

또한 연구원들은 단일 단어 수준에서 ResNet 인과 디코더의 성능을 시연하여 두 참가자(저밀도 샘플링 속도 ECoG)의 데이터를 보여줍니다. 디코딩된 스펙트로그램은 원래 음성의 스펙트럼-시간적 구조를 정확하게 유지합니다(그림 2c, d).

또한 연구원들은 신경 디코더가 예측한 음성 매개변수를 음성 인코더가 인코딩한 매개변수(참조 값)와 비교했습니다. 연구원들은 소리 가중치( 모음과 자음), 음량, 음높이 f0, 제1 포먼트 f1, 제2 포먼트 f2를 구별하는 데 사용됩니다. 이러한 음성 매개변수, 특히 피치, 사운드 무게 및 처음 두 개의 포먼트를 정확하게 재구성하는 것은 참가자의 음성을 자연스럽게 모방하는 정확한 음성 디코딩 및 재구성을 달성하는 데 중요합니다.

연구 결과에 따르면 비인과 모델과 인과 모델 모두 합리적인 해석 결과를 얻을 수 있으며 이는 향후 연구 및 적용에 긍정적인 지침을 제공합니다.

좌뇌 및 우뇌 신경 신호 음성 디코딩 및 공간 샘플링 속도에 대한 연구

AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.

그림 3: 다양한 설정에서 3D ResNet 및 3D Swin 모델의 디코딩 성능 비교. (출처: 논문)

연구원들은 왼쪽 대뇌 반구와 오른쪽 대뇌 반구의 음성 해독 결과를 추가로 비교했습니다. 대부분의 연구는 말하기와 언어 기능을 담당하는 뇌의 좌반구에 중점을 둡니다. 그러나 우뇌 반구에서 언어 정보가 어떻게 해독되는지에 대해서는 알려진 바가 거의 없습니다. 이에 대해 연구진은 참가자들의 왼쪽 대뇌반구와 오른쪽 대뇌반구의 해독 성능을 비교하여 우대뇌반구를 언어회복에 활용할 수 있는 가능성을 검증했다.

연구에서 수집된 48명의 피험자 중 16명의 피험자의 ECoG 신호가 우뇌에서 수집되었습니다. 연구원들은 ResNet과 Swin 디코더의 성능을 비교함으로써 우반구에서도 안정적으로 음성을 디코딩할 수 있음을 발견했습니다(ResNet의 PCC 값은 0.790, Swin의 PCC 값은 0.798). 이는 좌반구의 디코딩 효과와 약간 다릅니다( 그림 3a에 나와 있습니다.

이 결과는 STOI+ 평가에도 적용됩니다. 이는 좌반구가 손상되고 언어 능력이 상실된 환자의 경우 우반구의 신경 신호를 사용하여 언어를 복원하는 것이 실현 가능한 해결책이 될 수 있음을 의미합니다.

그런 다음 연구원들은 전극 샘플링 밀도가 음성 디코딩 효과에 미치는 영향을 조사했습니다. 이전 연구에서는 주로 고밀도 전극 그리드(0.4mm)를 사용했지만 임상 실습에서 일반적으로 사용되는 전극 그리드 밀도는 더 낮습니다(LD 1cm).

5명의 참가자는 주로 저밀도 샘플링이지만 ​​추가 전극이 통합된 하이브리드 유형(HB) 전극 그리드(그림 3b 참조)를 사용했습니다. 나머지 43명의 참가자는 낮은 밀도로 샘플링되었습니다. 이러한 하이브리드 샘플(HB)의 디코딩 성능은 기존 저밀도 샘플(LD)과 유사하지만 STOI+에서 약간 더 나은 성능을 발휘합니다.

연구원들은 저밀도 전극만 사용하는 것과 모든 혼합 전극을 사용하여 디코딩하는 효과를 비교한 결과 둘 사이의 차이가 크지 않은 것으로 나타났습니다(그림 3d 참조). 이는 모델이 대뇌 피질을 샘플링할 수 있음을 나타냅니다. 이는 또한 임상 실습에서 일반적으로 사용되는 샘플링 밀도가 미래의 뇌-컴퓨터 인터페이스 애플리케이션에 충분할 수 있음을 의미합니다.

좌뇌와 우뇌의 서로 다른 뇌 영역이 음성 디코딩에 미치는 영향에 대한 연구

AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.
그림 4: 기여 분석. (출처: 논문)

마지막으로 연구자들은 음성 디코딩 과정에서 뇌의 음성 관련 영역의 기여도를 조사했습니다. 이는 향후 뇌의 왼쪽 및 오른쪽 반구에 음성 복구 장치를 이식하는 데 중요한 참고 자료를 제공합니다. . 연구자들은 음성 해독에 대한 다양한 뇌 영역의 기여도를 평가하기 위해 폐색 분석을 사용했습니다.

요컨대, 특정 영역이 디코딩에 중요한 경우 해당 영역에서 전극 신호를 차단하면(즉, 신호를 0으로 설정) 재구성된 음성의 정확도(PCC 값)가 감소합니다.

이 방법으로 연구원들은 각 영역이 가려졌을 때 PCC 값의 감소를 측정했습니다. ResNet 및 Swin 디코더의 인과 모델과 비인과 모델을 비교함으로써 청각 피질이 비인과 모델에 더 많이 기여하는 것으로 나타났습니다. 이는 실시간 음성 디코딩 애플리케이션에서 인과 모델을 사용해야 한다는 점을 강조합니다. 실시간 음성 디코딩에서는 뉴로피드백 신호를 활용할 수 없습니다.

또한, 감각운동 피질, 특히 복부 영역의 기여는 우반구나 좌반구에서 유사하며, 이는 우반구에 신경 보철물을 이식하는 것이 가능할 수 있음을 시사합니다.

결론 및 영감을 주는 전망

연구원들은 경량 컨볼루션 신경망을 사용하여 음성을 일련의 해석 가능한 음성 매개변수(예: 음높이, 음량, 포먼트 주파수 등)로 인코딩할 수 있는 새로운 유형의 차별화 가능한 음성 합성기를 개발했습니다. ) 미분 가능한 음성 합성기를 통해 음성을 재합성합니다.

신경 신호를 이러한 음성 매개변수에 매핑함으로써 연구원들은 해석 가능성이 높고 작은 데이터 볼륨 상황에 적용 가능하며 자연스러운 음성을 생성할 수 있는 신경 음성 디코딩 시스템을 구축했습니다. 이 방법은 참가자(총 48명)에서 재현성이 뛰어나며 연구원들은 LSTM(Recurrent Architecture)보다 우수한 Convolution 및 Transformer(3D Swin) 아키텍처를 사용하여 인과 디코딩의 효율성을 성공적으로 입증했습니다.

이 프레임워크는 높고 낮은 공간 샘플링 밀도를 처리할 수 있으며 왼쪽 및 오른쪽 반구의 EEG 신호를 처리할 수 있어 강력한 음성 디코딩 잠재력을 보여줍니다.

대부분의 이전 연구는 실시간 뇌-컴퓨터 인터페이스 응용 프로그램에서 디코딩 작업의 시간적 인과성을 고려하지 않았습니다. 많은 비인과 모델은 청각 감각 피드백 신호에 의존합니다. 연구진의 분석에 따르면 비인과 모델은 주로 상측두회 기여에 의존한 반면, 인과 모델은 기본적으로 이를 제거한 것으로 나타났습니다. 연구자들은 피드백 신호에 대한 과도한 의존으로 인해 실시간 BCI 애플리케이션에서 비인과 모델의 다양성이 제한된다고 믿습니다.

피험자의 상상 속 말을 해독하는 등 일부 방법은 훈련 시 피드백을 피하려고 합니다. 그럼에도 불구하고 대부분의 연구는 여전히 인과 모델을 채택하고 있으며 훈련 및 추론 중 피드백 효과를 배제할 수 없습니다. 또한 문헌에서 널리 사용되는 순환 신경망은 일반적으로 양방향이므로 인과 관계가 없는 행동과 예측 지연을 초래하는 반면, 우리의 실험에서는 단방향으로 훈련된 순환 신경망이 최악의 성능을 발휘하는 것으로 나타났습니다.

연구에서 실시간 디코딩을 테스트하지는 않았지만 연구원들은 신경 신호에서 음성을 합성할 때 50밀리초 미만의 대기 시간을 달성하여 청각 지연에 거의 영향을 주지 않고 정상적인 음성 생성을 가능하게 했습니다.

이 연구에서는 더 높은 밀도의 적용 범위가 디코딩 성능을 향상시킬 수 있는지 여부를 조사했습니다. 연구원들은 저밀도 및 고밀도 그리드 커버리지 모두 높은 디코딩 성능을 달성했음을 발견했습니다(그림 3c 참조). 또한 연구원들은 모든 전극을 사용한 디코딩 성능이 저밀도 전극만 사용한 성능과 크게 다르지 않다는 것을 발견했습니다(그림 3d).

이는 저밀도 참가자라도 주변시간 범위가 충분하다면 연구진이 제안한 ECoG 디코더가 음성 재구성을 위해 신경 신호에서 음성 매개변수를 추출할 수 있음을 증명합니다. 또 다른 주목할만한 발견은 우반구의 피질 구조와 음성 해독에 대한 우측 주변 피질의 기여였습니다. 일부 이전 연구에서는 모음과 문장의 해독에 우반구가 기여할 수 있음을 보여 주었지만, 우리의 결과는 우반구에서 강력한 음운론적 표현의 증거를 제공합니다.

연구원들은 또한 ECoG 녹음과 결합된 음성 훈련 데이터가 필요한 디코딩 프로세스와 같은 현재 모델의 몇 가지 제한 사항을 언급했는데, 이는 실어증 환자에게 적용되지 않을 수 있습니다. 앞으로 연구원들은 비그리드 데이터를 처리하고 다중 환자, 다중 모드 EEG 데이터를 더 잘 활용할 수 있는 모델 아키텍처를 개발하기를 희망합니다.

이 기사의 첫 번째 저자: Xupeng Chen, Ran Wang, 교신 저자: Adeen Flinker.

자금 지원: 보조금 번호 IIS-1912286, 2309057(Y.W., A.F.) 및 국립 보건원 R01NS109367, R01NS115929, R01DC018805(A.F.)에 따른 국립과학재단.

신경 음성 디코딩의 인과성에 대한 자세한 내용은 저자의 다른 논문 "분산 피드포워드 및 피드백 피질 처리가 인간 음성 생성을 지원합니다": https://www.pnas.org/doi /10.1073을 참조하세요. /pnas.2300255120

출처: 뇌컴퓨터 인터페이스 커뮤니티

위 내용은 AI는 뇌-컴퓨터 인터페이스 연구를 돕습니다. 뉴욕 대학교의 획기적인 신경 음성 디코딩 기술이 Nature 하위 저널에 게재되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제