언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?-일체 포함-php.cn

집

기술 주변기기

일체 포함

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?

王林

Jul 04, 2023 pm 05:57 PM

ai목소리

AI가 참여하는 음성 세계는 정말 마술적입니다. 한 사람의 목소리를 다른 사람의 목소리로 바꿀 수 있을 뿐만 아니라 동물과도 목소리를 교환할 수 있습니다.

음성 변환의 목표는 내용을 변경하지 않고 소스 음성을 대상 음성으로 변환하는 것임을 알고 있습니다. 최근의 다대다 음성 변환 방법은 자연스러움과 화자 유사성을 향상시키지만 복잡성을 크게 증가시킵니다. 이는 훈련 및 추론 비용이 더 비싸지고 개선 사항을 평가하고 확립하기가 어려워진다는 것을 의미합니다.

질문은 고품질 음성 변환에 복잡성이 필요합니까?입니다. 남아프리카 Stellenbosch 대학의 최근 논문에서 여러 연구자들이 이 문제를 조사했습니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?

문서 주소: https://arxiv.org/pdf/2305.18975.pdf
GitHub 주소: https://bshall.github.io/knn-vc/

연구 하이라이트는 다음과 같습니다. 간단하고 강력한 모든 음성 변환 방법인 K-Nearest Neighbor Speech Conversion(kNN-VC)을 도입했습니다 . 명시적인 변환 모델을 훈련하는 대신 K-최근접 이웃 회귀가 간단히 사용됩니다.

구체적으로 연구원들은 먼저 자기 지도 음성 표현 모델을 사용하여 소스 발화와 참조 발화의 특징 시퀀스를 추출한 다음 소스 표현의 각 프레임을 가장 가까운 이웃으로 대체하여 대상 화자로 변환했습니다. 참조 에서 마지막으로 신경 보코더를 사용하여 변환된 특징을 합성하여 변환된 음성을 얻습니다.

결과에 따르면 KNN-VC는 단순함에도 불구하고 여러 기본 음성 변환 시스템과 비교하여 주관적 평가와 객관적 평가 모두에서 유사하거나 향상된 명료도 및 화자 유사성을 달성합니다.

KNN-VC 음성 변환 효과를 감상해 보세요. 먼저 사람의 음성 변환을 살펴보면 KNN-VC는 LibriSpeech 데이터 세트에서 볼 수 없는 소스 및 타겟 화자에 적용됩니다.

소스 음성00:11

합성 음성 100:11

합성 음성 200:11

KNN- VC는 또한 언어 간 음성 변환을 지원합니다. 예를 들어 스페인어에서 독일어로, 독일어에서 일본어로, 중국어에서 스페인어로 변환됩니다.

소스 중국어 00:08

타겟 스페인어 00:05

합성음성 300:08

Even 더 놀랍게도 KNN-VC는 여전히 사람의 목소리를 교환할 수 있습니다. 그리고 개가 짖는 소리.

원본 개 짖는 소리00:09

원본 사람 목소리00:05

합성 음성400:08

S 합성 음성 5 00:05

KNN-VC가 어떻게 실행되고 다른 jixian 방법과 비교되는지 살펴보겠습니다.

방법 개요 및 실험 결과

kNN-VC의 아키텍처 다이어그램은 인코더-컨버터-보코더 구조를 따라 아래와 같습니다. 먼저 인코더는 소스 및 참조 음성의 자체 감독 표현을 추출한 다음 변환기는 각 소스 프레임을 참조의 가장 가까운 이웃에 매핑하고 마지막으로 보코더는 변환된 특징을 기반으로 오디오 파형을 생성합니다.

인코더는 WavLM을 사용하고, 변환기는 K 최근접 이웃 회귀를 사용하고, 보코더는 HiFiGAN을 사용합니다. 훈련이 필요한 유일한 구성 요소는 보코더입니다.

WavLM 인코더의 경우 연구원은 사전 훈련된 WavLM-Large 모델만 사용했으며 기사에서는 이에 대한 어떠한 훈련도 수행하지 않았습니다. kNN 변환 모델의 경우 kNN은 비모수적이며 교육이 필요하지 않습니다. HiFiGAN 보코더의 경우 원본 HiFiGAN 작성자의 저장소가 WavLM 기능을 보코딩하는 데 사용되어 교육이 필요한 유일한 부분이 되었습니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요? Pictures

실험에서 연구원들은 먼저 KNN-VC를 다른 기본 방법과 비교하여 사용 가능한 가장 큰 대상 데이터(화자당 약 8분의 오디오)를 사용하여 음성 변환 시스템을 테스트했습니다.

KNN-VC의 경우 연구원은 모든 대상 데이터를 매칭 세트로 사용합니다. 기본 방법의 경우 각 대상 발화에 대한 화자 임베딩의 평균을 냅니다.

아래 표 1은 명료도, 자연성 및 화자 유사성에 대한 각 모델의 결과를 보고합니다. 볼 수 있듯이 kNN-VC는 최고의 기본 FreeVC와 비슷한 자연스러움과 명확성을 달성하지만 스피커 유사성은 크게 향상되었습니다. 이는 또한 고품질 음성 변환에는 복잡성이 증가할 필요가 없다는 이 기사의 주장을 확인시켜 줍니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?

또한 연구원들은 사전 일치된 데이터로 훈련된 HiFi-GAN으로 인해 얼마나 많은 개선이 이루어졌는지, 그리고 대상 화자 데이터 크기가 명료도 및 화자 유사성에 얼마나 영향을 미치는지 이해하고 싶었습니다.

아래 그림 2는 서로 다른 대상 스피커 크기의 두 가지 HiFi-GAN 변형에 대한 WER(작을수록 좋음)과 EER(높을수록 좋음) 간의 관계를 보여줍니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요? Pictures

네티즌들의 뜨거운 댓글

"가장 가까운 이웃만 사용하는" 새로운 음성 변환 방법 kNN-VC에 대해 일부 사람들은 사전 훈련된 음성 모델이 기사에 사용되었다고 생각합니다. 이므로 "only"가 사용됩니다. 정확하지 않습니다. 하지만 kNN-VC가 여전히 다른 모델에 비해 단순하다는 점은 부인할 수 없습니다.

결과는 또한 kNN-VC가 매우 복잡한 모든 음성 변환 방법에 비해 최고는 아니지만 동등하게 효과적이라는 것을 증명합니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요? Pictures

어떤 사람들은 사람의 목소리와 개 짖는 소리가 서로 바뀌는 예가 매우 흥미롭다고도 했습니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요? 사진

위 내용은 언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Chrome은 AI와 함께 여기에 있습니다 : 매일 새로운 것을 경험하고 있습니다 !!Apr 17, 2025 am 11:29 AM

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

AI '의 인간 측면 : 웰빙과 4 배의 결론Apr 17, 2025 am 11:28 AM

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

5 게임 변화 양자 컴퓨팅 사용 사례에 대해 알아야합니다.Apr 17, 2025 am 11:24 AM

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.

직장에서 경쟁 우위를위한 AI 프롬프트를 미세 조정하는 방법Apr 17, 2025 am 11:23 AM

마감일을 맞이하고 Chatgpt를 사용하여 마케팅 이메일을 만들기로 결정합니다. AI 프롬프트에 "전문 100 단어 마케팅 이메일을 작성하십시오." 결과는 톤이나 struc가없는 일반적인 전문 용어로 가득 찬 문서입니다.

SQL에서 기능 순위Apr 17, 2025 am 11:20 AM

소개 수천 건의 거래 및 수많은 기여 요인에서 회사의 최고 영업 담당자를 식별해야한다고 상상해보십시오. 전통적인 방법은 번거 롭습니다. SQL의 순위 기능은 소집을위한 효율적인 솔루션을 제공합니다

잠재적 인 Medicaid는 모성 건강 관리를 위협합니다Apr 17, 2025 am 11:18 AM

하원과 상원은 주말 동안 예산 프레임 워크에 동의했습니다. 이 프레임 워크는 부자에게 불균형 적으로 이동하는 세금 감면 비용을 지불하기 위해 지출 삭감을 요구합니다.

눈송이 CEO는 AI ROI가 데이터를 올바르게 얻는 것으로 시작한다고 말합니다.Apr 17, 2025 am 11:13 AM

눈송이 CEO는 "AI는 빅뱅이되어서는 안됩니다." "그것은 모든 단계의 가치를 보여주는 일련의 작은 프로젝트 여야합니다." 그러나 Ramaswamy가 지적했듯이, 그것은주의처럼 들릴지 모르지만 실제로는 전략입니다. 인터에서

매일 20,000 개의 AI 생성 된 노래가 Deezer에 업로드되었습니다Apr 17, 2025 am 11:11 AM

Deezer의 최고 혁신 책임자 인 Aurelien Herault는 성명서에서“AI 생성 콘텐츠는 Deezer와 같은 스트리밍 플랫폼을 계속 홍수로 만들고 있습니다. 홍수의 조짐은 없지만 Deezer는

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

WebStorm Mac 버전

유용한 JavaScript 개발 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는