>기술 주변기기 >일체 포함 >자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.

자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.

王林
王林앞으로
2024-04-17 19:01:27654검색

뇌-컴퓨터 인터페이스의 최신 진전 사항은 네이처(Nature) 하위 저널에 게재되었으며, 딥 러닝의 3대 거인 중 하나인 LeCun이 이를 발표했습니다.

자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.

이번에는 신경학적 결함으로 인해 실어증이 있는 사람들이 의사소통 능력을 회복할 수 있도록 신경 신호를 음성 합성에 사용합니다.

뉴욕 대학교 연구팀이 경량 컨볼루셔널 신경망을 사용하여 음성을 일련의 해석 가능한 음성 매개변수(예: 피치, 음량, 포먼트 주파수, 등) 미분 가능한 음성 합성기를 통해 음성을 재합성합니다.

신경 신호를 이러한 음성 매개변수에 매핑함으로써 연구원들은 해석 가능성이 높고 작은 데이터 볼륨 상황에 적용 가능하며 자연스러운 음성을 생성할 수 있는 신경 음성 디코딩 시스템을 구축했습니다.

총 48명의 연구자가 피험자로부터 데이터를 수집하고 미래의 고정밀 뇌-컴퓨터 인터페이스를 평가하기 위해 음성 디코딩에 대한 검증을 제공하는 실험을 수행했습니다.

결과에 따르면 프레임워크는 높고 낮은 공간 샘플링 밀도를 처리할 수 있고 왼쪽 및 오른쪽 반구의 EEG 신호를 처리할 수 있어 강력한 음성 디코딩 기능을 보여줍니다.

자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.

신경 신호의 음성 디코딩은 어렵습니다!

이전에 머스크의 뉴럴링크(Neuralink) 회사는 피험자의 뇌에 전극을 이식하는 데 성공했는데, 이를 통해 간단한 커서 조작을 완료하여 타이핑과 같은 기능을 수행할 수 있습니다.

그러나 신경 음성 디코딩은 일반적으로 더 복잡한 것으로 간주됩니다.

신경 음성 디코더 및 기타 고정밀 뇌-컴퓨터 인터페이스 모델을 개발하려는 대부분의 시도는 특별한 종류의 데이터에 의존합니다. 즉, 일반적으로 치료 중인 간질 환자로부터 수집된 피험자 데이터를 전기피질검사(ECoG)로 기록합니다.

간질 환자에게 이식된 전극을 사용하여 말하는 동안 대뇌 피질 데이터를 수집합니다. 이러한 데이터는 공간적, 시간적 해상도가 높으며 연구자가 음성 해독 분야에서 일련의 놀라운 결과를 얻는 데 도움이 되었습니다.

그러나 신경 신호의 음성 디코딩은 여전히 ​​두 가지 주요 과제에 직면해 있습니다.

  • 개인화된 신경-음성 디코딩 모델을 훈련하는 데 사용되는 데이터는 시간이 매우 제한되어 일반적으로 약 10분에 불과한 반면, 딥 러닝 모델은 구동하는 데 많은 양의 훈련 데이터가 필요한 경우가 많습니다.
  • 인간의 발음은 매우 다양합니다. 같은 사람이 같은 단어를 반복해서 말하더라도 발화 속도, 억양, 음조가 달라지므로 모델이 구축한 표현 공간이 복잡해집니다.

신경 신호를 음성으로 디코딩하려는 초기 시도는 주로 선형 모델에 의존했습니다. 모델은 일반적으로 대규모 교육 데이터 세트가 필요하지 않았고 해석 가능성이 높았지만 정확도는 매우 낮았습니다.

최근 심층 신경망, 특히 컨벌루션 및 순환 신경망 아키텍처를 기반으로 음성의 중간 잠재 표현과 합성 음성의 품질을 시뮬레이션하는 두 가지 주요 차원에서 많은 시도가 이루어졌습니다. 예를 들어, 대뇌 피질 활동을 입 움직임 공간으로 디코딩한 다음 이를 음성으로 변환하는 연구가 있습니다. 디코딩 성능은 강력하지만 재구성된 음성은 부자연스럽게 들립니다.

반면, 웨이브넷 보코더, 생성적 적대 신경망 (GAN) 등을 사용하여 자연스러운 음성을 성공적으로 재구성하는 방법도 있지만 정확도에는 제한이 있습니다.

Nature에 발표된 최근 연구에서는 양자화된 HuBERT 기능을 중간 표현 공간으로 사용하고 사전 훈련된 음성 합성기를 사용하여 자연 음성 파형이 이식된 환자의 음성으로 이러한 기능을 변환함으로써 정확도와 정확도를 모두 달성했습니다.

그러나 HuBERT 기능은 스피커별 음향 정보를 표현할 수 없으며 고정되고 통일된 스피커 사운드만 생성할 수 있으므로 이 보편적인 사운드를 특정 환자의 음성으로 변환하려면 추가 모델이 필요합니다. 더욱이, 이 연구와 대부분의 이전 시도는 비인과적 아키텍처를 채택했기 때문에 시간적 인과적 작업이 필요한 실제 뇌-컴퓨터 인터페이스 응용 프로그램에서의 사용이 제한될 수 있습니다. Building a Differentiable Speech SynthesizerNYU Video Lab과 Flinker Lab의 연구팀은 뇌파

(ECoG)

신호 대 음성의 새로운 디코딩 프레임워크를 도입하여 저차원 중간 표현

(낮은 차원 잠재 표현)을 구성합니다

는 음성 신호만을 이용한 음성 인코딩 및 디코딩 모델에 의해 생성됩니다.

Δ신경 음성 디코딩 프레임워크
자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.구체적으로 프레임워크는 두 부분으로 구성됩니다.

한 부분은 ECoG 신호를 우리가 이해할 수 있는 음향 음성 매개변수(예: 음높이, 소리 여부 등)로 변환하는 ECoG 디코더입니다. 제작, 음량, 포먼트 주파수 등)

다른 부분은 이러한 음성 매개변수를 스펙트로그램으로 변환하는 음성 합성기입니다.

연구원들은 ECoG 디코더 훈련 중에 음성 합성기도 훈련에 참여하고 스펙트로그램 재구성 오류를 줄이기 위해 공동으로 최적화할 수 있는 미분 음성 합성기를 구축했습니다.

이 저차원 잠재 공간은 참조 음성 매개변수를 생성하기 위해 경량의 사전 훈련된 음성 인코더와 결합되어 해석 가능성이 높습니다. 이를 통해 연구자는 효율적인 신경 음성 디코딩 프레임워크를 구축하고 신경 문제를 극복할 수 있습니다. 음성 디코딩 분야.

이 프레임워크는 화자 자신의 목소리에 매우 가까운 자연스러운 음성을 생성할 수 있으며, ECoG 디코더 부분은 다양한 딥 러닝 모델 아키텍처에 연결될 수 있으며 인과 연산도 지원합니다.

연구원들은 ECoG 디코더로 다중 딥 러닝 아키텍처(컨볼루션, 순환 신경망 및 Transformer 포함)를 사용하여 48명의 신경외과 환자로부터 ECoG 데이터를 수집하고 처리했습니다.

프레임워크는 컨벌루션(ResNet) 아키텍처를 통해 최고의 성능을 달성하여 다양한 모델에서 높은 정확도를 입증했습니다. 본 논문에서 연구진이 제안한 프레임워크는 인과적 연산과 상대적으로 낮은 샘플링 속도(저밀도, 10mm 간격)를 통해서만 높은 정확도를 달성할 수 있습니다. 또한 그들은 뇌의 왼쪽 반구와 오른쪽 반구 모두에서 효과적인 음성 해독을 수행하는 능력을 보여주었고, 신경 음성 해독의 적용을 우반구로 확장했습니다.

자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.Δ 미분 가능한 음성 합성기 아키텍처

미분 가능한 음성 합성기

(음성 합성기)

는 음성 재합성 작업을 매우 효율적으로 만들고 매우 작은 음성 합성을 사용하여 원본 사운드를 충실도가 높은 오디오와 일치시킬 수 있습니다. 미분 음성 합성기의 원리는 인간 생성 시스템의 원리를 활용하고 음성을 Voice

(모음 모델링에 사용)

및 Unvoice(자음 모델링에 사용) 의 두 부분으로 나눕니다. 음성 부분은 먼저 기본 주파수 신호를 사용하여 고조파를 생성한 후 F1-F6의 포먼트 피크로 구성된 필터로 필터링하여 모음 부분의 스펙트럼 특성을 얻을 수 있습니다.

Unvoice 부분의 경우 연구원들은 해당 필터로 백색 잡음을 필터링하여 해당 스펙트럼을 얻었습니다. 학습 가능한 매개 변수는 매 순간 두 부분의 혼합 비율을 제어할 수 있으며 그 후 음량 신호가 증폭되고 배경 잡음이 추가됩니다. 최종 음성 스펙트럼을 얻으려면

자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.Δ 음성 인코더 및 ECoG 디코더

연구 결과

1. 시간적 인과성을 갖는 음성 디코딩 결과

먼저 연구자들이 서로 다른 모델 아키텍처의 컨볼루션

(ResNet)

및 루프 을 직접 비교했습니다. 음성 디코딩의 차이점 (LSTM) 과 Transformer (3D Swin) 간의 성능. 이러한 모델은 시간에 따라 비인과적

(비인과적)

또는 인과적 작업을 수행할 수 있다는 점에 주목할 가치가 있습니다. 디코딩 모델의 인과적 특성은 뇌-컴퓨터 인터페이스

(BCI)에 큰 영향을 미칩니다.

응용: 인과 모델은 과거와 현재의 신경 신호만 사용하여 음성을 생성하는 반면, 인과 모델은 미래의 신경 신호도 사용합니다. 적용 가능합니다. 따라서 인과적 연산과 인과적 연산을 수행할 때 동일한 모델의 성능을 비교하는 데 중점을 두었습니다.

자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.ResNet 모델의 인과 버전도 비인과 버전과 비슷하며 둘 사이에 큰 차이가 없는 것으로 나타났습니다. 마찬가지로 Swin 모델의 인과 버전과 비인과 버전의 성능은 비슷하지만, LSTM 모델의 인과 버전의 성능은 비인과 버전에 비해 현저히 낮습니다.

연구원들은 음량(모음을 자음과 구별하는 데 사용됨), 크기, 음조 f0, 첫 번째 포먼트 f1, 두 번째 포먼트 피크 f2를 포함한 여러 주요 음성 매개변수에 대해 평균 디코딩 정확도(N=48)를 보여줍니다. 이러한 음성 매개변수, 특히 피치, 사운드 무게 및 처음 두 개의 포먼트를 정확하게 재구성하는 것은 참가자의 음성을 자연스럽게 모방하는 정확한 음성 디코딩 및 재구성을 달성하는 데 중요합니다.

결과에 따르면 비인과 모델과 인과 모델 모두 합리적인 해석 결과를 얻을 수 있으며 이는 향후 연구 및 적용에 긍정적인 지침을 제공합니다.

2. 좌뇌와 우뇌의 신경 신호의 음성 디코딩 및 공간 샘플링 속도에 대한 연구

연구원들은 좌뇌와 우뇌 반구의 음성 디코딩 결과를 추가로 비교했습니다. 대부분의 연구는 음성 및 언어 기능을 지배하는 좌반구에 초점을 맞춘 반면, 우반구의 언어 정보를 해독하는 데는 관심이 덜 쏠렸습니다.

이를 고려하여 참가자의 왼쪽 대뇌 반구와 오른쪽 대뇌 반구의 디코딩 성능을 비교하여 오른쪽 대뇌 반구를 언어 회복에 사용할 가능성을 검증했습니다.

연구에서 수집된 48명의 피험자 중 16명의 피험자의 ECoG 신호가 우뇌에서 수집되었습니다.

자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.

ResNet과 Swin 디코더의 성능을 비교하여 우뇌 반구에서도 안정적으로 음성 디코딩을 수행할 수 있으며 좌뇌 반구와 디코딩 효과에 약간의 차이가 있음을 발견했습니다.

이는 좌반구가 손상되어 언어 능력이 상실된 환자의 경우 우반구의 신경 신호를 사용하여 언어를 복원하는 것이 실현 가능한 해결책이 될 수 있음을 의미합니다.

그런 다음 전극 샘플링 밀도가 음성 디코딩 효과에 미치는 영향도 조사했습니다.

이전 연구에서는 주로 고밀도 전극 그리드(0.4mm)를 사용한 반면, 임상에서 일반적으로 사용되는 전극 그리드의 밀도는 더 낮습니다(LD 1cm). 5명의 참가자는 주로 저밀도 샘플링이지만 ​​추가 전극을 통합하는 하이브리드 유형 (HB) 전극 그리드를 사용했습니다. 나머지 43명의 참가자는 낮은 밀도로 샘플링되었습니다. 이러한 하이브리드 샘플 (HB) 의 디코딩 성능은 기존 저밀도 샘플 (LD) 과 유사합니다.

이는 모델이 다양한 공간 샘플링 밀도를 사용하여 대뇌 피질에서 음성 정보를 학습할 수 있음을 보여주며, 이는 또한 임상 실습에서 일반적으로 사용되는 샘플링 밀도가 향후 뇌-컴퓨터 인터페이스 애플리케이션에 충분할 수 있음을 의미합니다.

3. 좌뇌와 우뇌의 서로 다른 뇌 영역이 음성 해독에 미치는 영향에 대한 연구

연구원들은 또한 음성 해독 과정에서 뇌의 음성 관련 영역이 미치는 영향을 조사했는데, 이는 미래에 도움이 될 것입니다. 뇌의 좌반구와 우반구에 언어 이식이 이루어졌습니다. 회복 장비는 중요한 참고 자료가 됩니다.

폐색 기술(폐색 분석)을 사용하여 다양한 뇌 영역이 음성 디코딩에 미치는 영향을 평가합니다.

자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.

ResNet 및 Swin 디코더의 인과 모델과 비인과 모델을 비교하면 청각 피질이 비인과 모델에 더 많이 기여하는 것으로 나타났습니다. 이는 실시간 음성 디코딩 애플리케이션에서 인과 모델이 반드시 필요하다는 것을 뒷받침합니다. 실시간 음성 디코딩에서는 뉴로피드백 신호를 활용할 수 없기 때문에 사용됩니다.

또한, 오른쪽 반구와 왼쪽 반구 모두 감각운동 피질, 특히 복부 영역의 기여도가 유사하므로, 우반구에 신경 보철물을 이식하는 것이 실현 가능한 해결책이 될 수 있음을 시사합니다.

결론적으로 이 연구는 뇌-컴퓨터 인터페이스에서 일련의 진전을 이루었지만 연구원들은 현재 모델의 몇 가지 한계도 언급했습니다. 예를 들어 디코딩 프로세스에는 ECoG 녹음과 쌍을 이루는 음성 훈련 데이터가 필요하며 이는 매우 중요합니다. 실어증 환자는 자격이 없을 수 있습니다.

향후에는 비그리드 데이터를 처리하고 다중 환자 및 다중 모드 EEG 데이터를 더 잘 활용할 수 있는 모델 아키텍처를 개발하기를 희망합니다.

뇌-컴퓨터 인터페이스 분야의 경우, 현재 연구는 아직 초기 단계에 있습니다. 하드웨어 기술의 반복과 딥러닝 기술의 급속한 발전으로 인해 SF 영화에 등장하는 뇌-컴퓨터 인터페이스 아이디어는 앞으로 더욱 발전하게 될 것입니다. 현실에 가까워지다.

논문 링크: https://www.nature.com/articles/s42256-024-00824-8.
GitHub 링크: https://github.com/flinkerlab/neural_speech_decoding.
더 많은 생성된 음성 예제: https://xc1490.github.io/nsd/.

위 내용은 자연스러운 음성의 EEG 합성! LeCun은 Nature 하위 저널의 새로운 결과를 전달하며 코드는 오픈 소스입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제