언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?
AI가 참여하는 음성 세계는 정말 마술적입니다. 한 사람의 목소리를 다른 사람의 목소리로 바꿀 수 있을 뿐만 아니라 동물과도 목소리를 교환할 수 있습니다.
음성 변환의 목표는 내용을 변경하지 않고 소스 음성을 대상 음성으로 변환하는 것임을 알고 있습니다. 최근의 다대다 음성 변환 방법은 자연스러움과 화자 유사성을 향상시키지만 복잡성을 크게 증가시킵니다. 이는 훈련 및 추론 비용이 더 비싸지고 개선 사항을 평가하고 확립하기가 어려워진다는 것을 의미합니다.
질문은 고품질 음성 변환에 복잡성이 필요합니까?입니다. 남아프리카 Stellenbosch 대학의 최근 논문에서 여러 연구자들이 이 문제를 조사했습니다.
- 문서 주소: https://arxiv.org/pdf/2305.18975.pdf
- GitHub 주소: https://bshall.github.io/knn-vc/
연구 하이라이트는 다음과 같습니다. 간단하고 강력한 모든 음성 변환 방법인 K-Nearest Neighbor Speech Conversion(kNN-VC)을 도입했습니다 . 명시적인 변환 모델을 훈련하는 대신 K-최근접 이웃 회귀가 간단히 사용됩니다.
구체적으로 연구원들은 먼저 자기 지도 음성 표현 모델을 사용하여 소스 발화와 참조 발화의 특징 시퀀스를 추출한 다음 소스 표현의 각 프레임을 가장 가까운 이웃으로 대체하여 대상 화자로 변환했습니다. 참조 에서 마지막으로 신경 보코더를 사용하여 변환된 특징을 합성하여 변환된 음성을 얻습니다.
결과에 따르면 KNN-VC는 단순함에도 불구하고 여러 기본 음성 변환 시스템과 비교하여 주관적 평가와 객관적 평가 모두에서 유사하거나 향상된 명료도 및 화자 유사성을 달성합니다.
KNN-VC 음성 변환 효과를 감상해 보세요. 먼저 사람의 음성 변환을 살펴보면 KNN-VC는 LibriSpeech 데이터 세트에서 볼 수 없는 소스 및 타겟 화자에 적용됩니다.
소스 음성00:11
합성 음성 100:11
합성 음성 200:11
KNN- VC는 또한 언어 간 음성 변환을 지원합니다. 예를 들어 스페인어에서 독일어로, 독일어에서 일본어로, 중국어에서 스페인어로 변환됩니다.
소스 중국어 00:08
타겟 스페인어 00:05
합성음성 300:08
Even 더 놀랍게도 KNN-VC는 여전히 사람의 목소리를 교환할 수 있습니다. 그리고 개가 짖는 소리.
원본 개 짖는 소리00:09
원본 사람 목소리00:05
합성 음성400:08
S 합성 음성 5 00:05
KNN-VC가 어떻게 실행되고 다른 jixian 방법과 비교되는지 살펴보겠습니다.
방법 개요 및 실험 결과
kNN-VC의 아키텍처 다이어그램은 인코더-컨버터-보코더 구조를 따라 아래와 같습니다. 먼저 인코더는 소스 및 참조 음성의 자체 감독 표현을 추출한 다음 변환기는 각 소스 프레임을 참조의 가장 가까운 이웃에 매핑하고 마지막으로 보코더는 변환된 특징을 기반으로 오디오 파형을 생성합니다.
인코더는 WavLM을 사용하고, 변환기는 K 최근접 이웃 회귀를 사용하고, 보코더는 HiFiGAN을 사용합니다. 훈련이 필요한 유일한 구성 요소는 보코더입니다.
WavLM 인코더의 경우 연구원은 사전 훈련된 WavLM-Large 모델만 사용했으며 기사에서는 이에 대한 어떠한 훈련도 수행하지 않았습니다. kNN 변환 모델의 경우 kNN은 비모수적이며 교육이 필요하지 않습니다. HiFiGAN 보코더의 경우 원본 HiFiGAN 작성자의 저장소가 WavLM 기능을 보코딩하는 데 사용되어 교육이 필요한 유일한 부분이 되었습니다.
Pictures
실험에서 연구원들은 먼저 KNN-VC를 다른 기본 방법과 비교하여 사용 가능한 가장 큰 대상 데이터(화자당 약 8분의 오디오)를 사용하여 음성 변환 시스템을 테스트했습니다.
KNN-VC의 경우 연구원은 모든 대상 데이터를 매칭 세트로 사용합니다. 기본 방법의 경우 각 대상 발화에 대한 화자 임베딩의 평균을 냅니다.
아래 표 1은 명료도, 자연성 및 화자 유사성에 대한 각 모델의 결과를 보고합니다. 볼 수 있듯이 kNN-VC는 최고의 기본 FreeVC와 비슷한 자연스러움과 명확성을 달성하지만 스피커 유사성은 크게 향상되었습니다. 이는 또한 고품질 음성 변환에는 복잡성이 증가할 필요가 없다는 이 기사의 주장을 확인시켜 줍니다.
또한 연구원들은 사전 일치된 데이터로 훈련된 HiFi-GAN으로 인해 얼마나 많은 개선이 이루어졌는지, 그리고 대상 화자 데이터 크기가 명료도 및 화자 유사성에 얼마나 영향을 미치는지 이해하고 싶었습니다.
아래 그림 2는 서로 다른 대상 스피커 크기의 두 가지 HiFi-GAN 변형에 대한 WER(작을수록 좋음)과 EER(높을수록 좋음) 간의 관계를 보여줍니다.
Pictures
네티즌들의 뜨거운 댓글
"가장 가까운 이웃만 사용하는" 새로운 음성 변환 방법 kNN-VC에 대해 일부 사람들은 사전 훈련된 음성 모델이 기사에 사용되었다고 생각합니다. 이므로 "only"가 사용됩니다. 정확하지 않습니다. 하지만 kNN-VC가 여전히 다른 모델에 비해 단순하다는 점은 부인할 수 없습니다.
결과는 또한 kNN-VC가 매우 복잡한 모든 음성 변환 방법에 비해 최고는 아니지만 동등하게 효과적이라는 것을 증명합니다.
Pictures
어떤 사람들은 사람의 목소리와 개 짖는 소리가 서로 바뀌는 예가 매우 흥미롭다고도 했습니다.
사진
위 내용은 언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.

마감일을 맞이하고 Chatgpt를 사용하여 마케팅 이메일을 만들기로 결정합니다. AI 프롬프트에 "전문 100 단어 마케팅 이메일을 작성하십시오." 결과는 톤이나 struc가없는 일반적인 전문 용어로 가득 찬 문서입니다.

소개 수천 건의 거래 및 수많은 기여 요인에서 회사의 최고 영업 담당자를 식별해야한다고 상상해보십시오. 전통적인 방법은 번거 롭습니다. SQL의 순위 기능은 소집을위한 효율적인 솔루션을 제공합니다

하원과 상원은 주말 동안 예산 프레임 워크에 동의했습니다. 이 프레임 워크는 부자에게 불균형 적으로 이동하는 세금 감면 비용을 지불하기 위해 지출 삭감을 요구합니다.

눈송이 CEO는 "AI는 빅뱅이되어서는 안됩니다." "그것은 모든 단계의 가치를 보여주는 일련의 작은 프로젝트 여야합니다." 그러나 Ramaswamy가 지적했듯이, 그것은주의처럼 들릴지 모르지만 실제로는 전략입니다. 인터에서

Deezer의 최고 혁신 책임자 인 Aurelien Herault는 성명서에서“AI 생성 콘텐츠는 Deezer와 같은 스트리밍 플랫폼을 계속 홍수로 만들고 있습니다. 홍수의 조짐은 없지만 Deezer는


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

WebStorm Mac 버전
유용한 JavaScript 개발 도구

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는
