언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?
AI가 참여하는 음성 세계는 정말 마술적입니다. 한 사람의 목소리를 다른 사람의 목소리로 바꿀 수 있을 뿐만 아니라 동물과도 목소리를 교환할 수 있습니다.
음성 변환의 목표는 내용을 변경하지 않고 소스 음성을 대상 음성으로 변환하는 것임을 알고 있습니다. 최근의 다대다 음성 변환 방법은 자연스러움과 화자 유사성을 향상시키지만 복잡성을 크게 증가시킵니다. 이는 훈련 및 추론 비용이 더 비싸지고 개선 사항을 평가하고 확립하기가 어려워진다는 것을 의미합니다.
질문은 고품질 음성 변환에 복잡성이 필요합니까?입니다. 남아프리카 Stellenbosch 대학의 최근 논문에서 여러 연구자들이 이 문제를 조사했습니다.
- 문서 주소: https://arxiv.org/pdf/2305.18975.pdf
- GitHub 주소: https://bshall.github.io/knn-vc/
연구 하이라이트는 다음과 같습니다. 간단하고 강력한 모든 음성 변환 방법인 K-Nearest Neighbor Speech Conversion(kNN-VC)을 도입했습니다 . 명시적인 변환 모델을 훈련하는 대신 K-최근접 이웃 회귀가 간단히 사용됩니다.
구체적으로 연구원들은 먼저 자기 지도 음성 표현 모델을 사용하여 소스 발화와 참조 발화의 특징 시퀀스를 추출한 다음 소스 표현의 각 프레임을 가장 가까운 이웃으로 대체하여 대상 화자로 변환했습니다. 참조 에서 마지막으로 신경 보코더를 사용하여 변환된 특징을 합성하여 변환된 음성을 얻습니다.
결과에 따르면 KNN-VC는 단순함에도 불구하고 여러 기본 음성 변환 시스템과 비교하여 주관적 평가와 객관적 평가 모두에서 유사하거나 향상된 명료도 및 화자 유사성을 달성합니다.
KNN-VC 음성 변환 효과를 감상해 보세요. 먼저 사람의 음성 변환을 살펴보면 KNN-VC는 LibriSpeech 데이터 세트에서 볼 수 없는 소스 및 타겟 화자에 적용됩니다.
소스 음성00:11
합성 음성 100:11
합성 음성 200:11
KNN- VC는 또한 언어 간 음성 변환을 지원합니다. 예를 들어 스페인어에서 독일어로, 독일어에서 일본어로, 중국어에서 스페인어로 변환됩니다.
소스 중국어 00:08
타겟 스페인어 00:05
합성음성 300:08
Even 더 놀랍게도 KNN-VC는 여전히 사람의 목소리를 교환할 수 있습니다. 그리고 개가 짖는 소리.
원본 개 짖는 소리00:09
원본 사람 목소리00:05
합성 음성400:08
S 합성 음성 5 00:05
KNN-VC가 어떻게 실행되고 다른 jixian 방법과 비교되는지 살펴보겠습니다.
방법 개요 및 실험 결과
kNN-VC의 아키텍처 다이어그램은 인코더-컨버터-보코더 구조를 따라 아래와 같습니다. 먼저 인코더는 소스 및 참조 음성의 자체 감독 표현을 추출한 다음 변환기는 각 소스 프레임을 참조의 가장 가까운 이웃에 매핑하고 마지막으로 보코더는 변환된 특징을 기반으로 오디오 파형을 생성합니다.
인코더는 WavLM을 사용하고, 변환기는 K 최근접 이웃 회귀를 사용하고, 보코더는 HiFiGAN을 사용합니다. 훈련이 필요한 유일한 구성 요소는 보코더입니다.
WavLM 인코더의 경우 연구원은 사전 훈련된 WavLM-Large 모델만 사용했으며 기사에서는 이에 대한 어떠한 훈련도 수행하지 않았습니다. kNN 변환 모델의 경우 kNN은 비모수적이며 교육이 필요하지 않습니다. HiFiGAN 보코더의 경우 원본 HiFiGAN 작성자의 저장소가 WavLM 기능을 보코딩하는 데 사용되어 교육이 필요한 유일한 부분이 되었습니다.
Pictures
실험에서 연구원들은 먼저 KNN-VC를 다른 기본 방법과 비교하여 사용 가능한 가장 큰 대상 데이터(화자당 약 8분의 오디오)를 사용하여 음성 변환 시스템을 테스트했습니다.
KNN-VC의 경우 연구원은 모든 대상 데이터를 매칭 세트로 사용합니다. 기본 방법의 경우 각 대상 발화에 대한 화자 임베딩의 평균을 냅니다.
아래 표 1은 명료도, 자연성 및 화자 유사성에 대한 각 모델의 결과를 보고합니다. 볼 수 있듯이 kNN-VC는 최고의 기본 FreeVC와 비슷한 자연스러움과 명확성을 달성하지만 스피커 유사성은 크게 향상되었습니다. 이는 또한 고품질 음성 변환에는 복잡성이 증가할 필요가 없다는 이 기사의 주장을 확인시켜 줍니다.
또한 연구원들은 사전 일치된 데이터로 훈련된 HiFi-GAN으로 인해 얼마나 많은 개선이 이루어졌는지, 그리고 대상 화자 데이터 크기가 명료도 및 화자 유사성에 얼마나 영향을 미치는지 이해하고 싶었습니다.
아래 그림 2는 서로 다른 대상 스피커 크기의 두 가지 HiFi-GAN 변형에 대한 WER(작을수록 좋음)과 EER(높을수록 좋음) 간의 관계를 보여줍니다.
Pictures
네티즌들의 뜨거운 댓글
"가장 가까운 이웃만 사용하는" 새로운 음성 변환 방법 kNN-VC에 대해 일부 사람들은 사전 훈련된 음성 모델이 기사에 사용되었다고 생각합니다. 이므로 "only"가 사용됩니다. 정확하지 않습니다. 하지만 kNN-VC가 여전히 다른 모델에 비해 단순하다는 점은 부인할 수 없습니다.
결과는 또한 kNN-VC가 매우 복잡한 모든 음성 변환 방법에 비해 최고는 아니지만 동등하게 효과적이라는 것을 증명합니다.
Pictures
어떤 사람들은 사람의 목소리와 개 짖는 소리가 서로 바뀌는 예가 매우 흥미롭다고도 했습니다.
사진
위 내용은 언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Microsoft Power BI 차트로 데이터 시각화의 힘을 활용 오늘날의 데이터 중심 세계에서는 복잡한 정보를 비 기술적 인 청중에게 효과적으로 전달하는 것이 중요합니다. 데이터 시각화는이 차이를 연결하여 원시 데이터를 변환합니다. i

전문가 시스템 : AI의 의사 결정 능력에 대한 깊은 다이빙 의료 진단에서 재무 계획에 이르기까지 모든 것에 대한 전문가의 조언에 접근 할 수 있다고 상상해보십시오. 그것이 인공 지능 분야의 전문가 시스템의 힘입니다. 이 시스템은 프로를 모방합니다

우선, 이것이 빠르게 일어나고 있음이 분명합니다. 다양한 회사들이 현재 AI가 작성한 코드의 비율에 대해 이야기하고 있으며 빠른 클립에서 증가하고 있습니다. 이미 주변에 많은 작업 변위가 있습니다

디지털 마케팅에서 소셜 미디어에 이르기까지 모든 창의적 부문과 함께 영화 산업은 기술 교차로에 있습니다. 인공 지능이 시각적 스토리 텔링의 모든 측면을 재구성하고 엔터테인먼트의 풍경을 바꾸기 시작함에 따라

ISRO의 무료 AI/ML 온라인 코스 : 지리 공간 기술 혁신의 관문 IIRS (Indian Institute of Remote Sensing)를 통해 Indian Space Research Organization (ISRO)은 학생과 전문가에게 환상적인 기회를 제공하고 있습니다.

로컬 검색 알고리즘 : 포괄적 인 가이드 대규모 이벤트를 계획하려면 효율적인 작업량 배포가 필요합니다. 전통적인 접근 방식이 실패하면 로컬 검색 알고리즘은 강력한 솔루션을 제공합니다. 이 기사는 언덕 등반과 Simul을 탐구합니다

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

Chip Giant Nvidia는 월요일에 AI SuperComputers를 제조하기 시작할 것이라고 말했다. 이 발표는 트럼프 SI 대통령 이후에 나온다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경
