AI가 참여하는 음성 세계는 정말 마술적입니다. 한 사람의 목소리를 다른 사람의 목소리로 바꿀 수 있을 뿐만 아니라 동물과도 목소리를 교환할 수 있습니다.
음성 변환의 목표는 내용을 변경하지 않고 소스 음성을 대상 음성으로 변환하는 것임을 알고 있습니다. 최근의 다대다 음성 변환 방법은 자연스러움과 화자 유사성을 향상시키지만 복잡성을 크게 증가시킵니다. 이는 훈련 및 추론 비용이 더 비싸지고 개선 사항을 평가하고 확립하기가 어려워진다는 것을 의미합니다.
질문은 고품질 음성 변환에 복잡성이 필요합니까?입니다. 남아프리카 Stellenbosch 대학의 최근 논문에서 여러 연구자들이 이 문제를 조사했습니다.
연구 하이라이트는 다음과 같습니다. 간단하고 강력한 모든 음성 변환 방법인 K-Nearest Neighbor Speech Conversion(kNN-VC)을 도입했습니다 . 명시적인 변환 모델을 훈련하는 대신 K-최근접 이웃 회귀가 간단히 사용됩니다.
구체적으로 연구원들은 먼저 자기 지도 음성 표현 모델을 사용하여 소스 발화와 참조 발화의 특징 시퀀스를 추출한 다음 소스 표현의 각 프레임을 가장 가까운 이웃으로 대체하여 대상 화자로 변환했습니다. 참조 에서 마지막으로 신경 보코더를 사용하여 변환된 특징을 합성하여 변환된 음성을 얻습니다.
결과에 따르면 KNN-VC는 단순함에도 불구하고 여러 기본 음성 변환 시스템과 비교하여 주관적 평가와 객관적 평가 모두에서 유사하거나 향상된 명료도 및 화자 유사성을 달성합니다.
KNN-VC 음성 변환 효과를 감상해 보세요. 먼저 사람의 음성 변환을 살펴보면 KNN-VC는 LibriSpeech 데이터 세트에서 볼 수 없는 소스 및 타겟 화자에 적용됩니다.
소스 음성00:11
합성 음성 100:11
합성 음성 200:11
KNN- VC는 또한 언어 간 음성 변환을 지원합니다. 예를 들어 스페인어에서 독일어로, 독일어에서 일본어로, 중국어에서 스페인어로 변환됩니다.
소스 중국어 00:08
타겟 스페인어 00:05
합성음성 300:08
Even 더 놀랍게도 KNN-VC는 여전히 사람의 목소리를 교환할 수 있습니다. 그리고 개가 짖는 소리.
원본 개 짖는 소리00:09
원본 사람 목소리00:05
합성 음성400:08
S 합성 음성 5 00:05
KNN-VC가 어떻게 실행되고 다른 jixian 방법과 비교되는지 살펴보겠습니다.
kNN-VC의 아키텍처 다이어그램은 인코더-컨버터-보코더 구조를 따라 아래와 같습니다. 먼저 인코더는 소스 및 참조 음성의 자체 감독 표현을 추출한 다음 변환기는 각 소스 프레임을 참조의 가장 가까운 이웃에 매핑하고 마지막으로 보코더는 변환된 특징을 기반으로 오디오 파형을 생성합니다.
인코더는 WavLM을 사용하고, 변환기는 K 최근접 이웃 회귀를 사용하고, 보코더는 HiFiGAN을 사용합니다. 훈련이 필요한 유일한 구성 요소는 보코더입니다.
WavLM 인코더의 경우 연구원은 사전 훈련된 WavLM-Large 모델만 사용했으며 기사에서는 이에 대한 어떠한 훈련도 수행하지 않았습니다. kNN 변환 모델의 경우 kNN은 비모수적이며 교육이 필요하지 않습니다. HiFiGAN 보코더의 경우 원본 HiFiGAN 작성자의 저장소가 WavLM 기능을 보코딩하는 데 사용되어 교육이 필요한 유일한 부분이 되었습니다.
Pictures
실험에서 연구원들은 먼저 KNN-VC를 다른 기본 방법과 비교하여 사용 가능한 가장 큰 대상 데이터(화자당 약 8분의 오디오)를 사용하여 음성 변환 시스템을 테스트했습니다.
KNN-VC의 경우 연구원은 모든 대상 데이터를 매칭 세트로 사용합니다. 기본 방법의 경우 각 대상 발화에 대한 화자 임베딩의 평균을 냅니다.
아래 표 1은 명료도, 자연성 및 화자 유사성에 대한 각 모델의 결과를 보고합니다. 볼 수 있듯이 kNN-VC는 최고의 기본 FreeVC와 비슷한 자연스러움과 명확성을 달성하지만 스피커 유사성은 크게 향상되었습니다. 이는 또한 고품질 음성 변환에는 복잡성이 증가할 필요가 없다는 이 기사의 주장을 확인시켜 줍니다.
또한 연구원들은 사전 일치된 데이터로 훈련된 HiFi-GAN으로 인해 얼마나 많은 개선이 이루어졌는지, 그리고 대상 화자 데이터 크기가 명료도 및 화자 유사성에 얼마나 영향을 미치는지 이해하고 싶었습니다.
아래 그림 2는 서로 다른 대상 스피커 크기의 두 가지 HiFi-GAN 변형에 대한 WER(작을수록 좋음)과 EER(높을수록 좋음) 간의 관계를 보여줍니다.
Pictures
"가장 가까운 이웃만 사용하는" 새로운 음성 변환 방법 kNN-VC에 대해 일부 사람들은 사전 훈련된 음성 모델이 기사에 사용되었다고 생각합니다. 이므로 "only"가 사용됩니다. 정확하지 않습니다. 하지만 kNN-VC가 여전히 다른 모델에 비해 단순하다는 점은 부인할 수 없습니다.
결과는 또한 kNN-VC가 매우 복잡한 모든 음성 변환 방법에 비해 최고는 아니지만 동등하게 효과적이라는 것을 증명합니다.
Pictures
어떤 사람들은 사람의 목소리와 개 짖는 소리가 서로 바뀌는 예가 매우 흥미롭다고도 했습니다.
사진
위 내용은 언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!