ChatGPT에서 스크립트 작성을 돕고 Stable Diffusion에서 일러스트레이션을 생성할 수 있습니다. 비디오를 만들려면 성우가 필요합니까? 그것은오고!
최근 Microsoft 연구원은 입력된 인간 음성을 시뮬레이션하고 해당 오디오를 기반으로 합성하기 위해 3초의 오디오 샘플만 제공하면 되는 새로운 TTS(텍스트 음성 변환) 모델을 출시했습니다. 화자의 감성적인 톤을 유지하면서 제작됩니다.
논문 링크: https://www.php.cn/link/402cac3dacf2ef35050ca72743ae6ca7
프로젝트 링크: https://valle-demo.github.io/
코드 링크: https://github.com /microsoft/unilm
먼저 효과를 살펴보겠습니다. 3초짜리 녹음이 있다고 가정해 보겠습니다.
diversity_speaker audio: 00:0000:03
그런 다음 "Because we not need it"이라는 텍스트를 입력하면 합성된 음성을 얻을 수 있습니다.
diversity_s1 오디오: 00:0000:01
다양한 무작위 시드를 사용해도 맞춤형 음성 합성을 수행할 수도 있습니다.
diversity_s2 Audio: 00:0000:02
VALL-E는 이 음성을 입력하는 등 스피커의 주변 소리도 유지할 수 있습니다.
env_speaker audio: 00:0000:03
그러면 "음 더 편리하다는 걸 아시는 것 같네요."라는 텍스트에 따라 주변 소리를 유지하면서 합성된 음성을 출력할 수 있습니다.
env_vall_e Audio: 00:0000:02
그리고 VALL-E는 화난 목소리를 입력하는 등 말하는 사람의 감정을 유지할 수도 있습니다.
anger_pt 오디오: 00:0000:03
"비닐봉지 개수를 줄여야 합니다."라는 문구에 따라 분노를 표현할 수도 있습니다.
anger_ours 오디오: 00:0000:02
프로젝트 웹사이트에 더 많은 예시가 있습니다.
방법론적으로 말하면, 연구원들은 기성 신경 오디오 코덱 모델에서 추출한 개별 인코딩으로 언어 모델 VALL-E를 훈련했으며 TTS를 연속 신호 회귀가 아닌 조건부 언어 모델링 작업으로 처리했습니다.
사전 훈련 단계에서 VALL-E가 수신한 TTS 훈련 데이터는 영어 음성 60,000시간에 도달했는데, 이는 기존 시스템에서 사용하는 데이터보다 수백 배 더 많은 수치입니다.
그리고 VALL-E는 상황 내 학습 능력도 보여줍니다. 보이지 않는 화자의 3초 등록 녹음을 사운드 프롬프트로 사용하여 고품질 맞춤형 음성을 합성하면 됩니다.
실험 결과에 따르면 VALL-E는 음성 자연성 및 화자 유사성 측면에서 최첨단 제로 샷 TTS 시스템보다 훨씬 우수하며 화자의 감정과 사운드 큐의 음향 환경을 보존할 수도 있습니다. 합성에서.
지난 10년 동안 음성 합성은 신경망 개발과 엔드투엔드 모델링을 통해 엄청난 발전을 이루었습니다.
그러나 현재 계단식 텍스트 음성 변환(TTS) 시스템은 일반적으로 중간 표현으로 멜 스펙트로그램을 사용하는 음향 모델과 보코더가 있는 파이프라인을 활용합니다.
일부 고성능 TTS 시스템은 단일 또는 다중 스피커의 고품질 음성을 합성할 수 있지만 여전히 녹음 스튜디오의 고품질 깨끗한 데이터가 필요합니다. 인터넷에서 크롤링된 대규모 데이터는 데이터 요구 사항을 충족할 수 없습니다. 모델의 성능이 저하될 수 있습니다.
훈련 데이터의 양이 상대적으로 적기 때문에 현재 TTS 시스템은 여전히 일반화 능력이 떨어지는 문제를 안고 있습니다.
제로샷 작업 설정에서 훈련 데이터에 나타나지 않은 화자의 경우 음성의 유사성과 자연성이 급격히 떨어집니다.
제로샷 TTS 문제를 해결하기 위해 기존 작업에서는 일반적으로 추가적인 미세 조정, 복잡한 사전 설계 기능 또는 무거운 구조 엔지니어링이 필요한 스피커 적응 및 스피커 인코딩과 같은 방법을 활용합니다.
텍스트 합성 분야의 성공을 고려하면 이 문제에 대해 복잡하고 전문적인 네트워크를 설계하는 대신, 연구원들은 궁극적인 해결책은 최대한 다양한 데이터로 모델을 훈련시키는 것이라고 믿습니다.
텍스트 합성 분야에서는 레이블이 지정되지 않은 인터넷의 대규모 데이터가 모델에 직접 입력됩니다. 훈련 데이터의 양이 증가함에 따라 모델 성능도 지속적으로 향상됩니다.
연구원들은 이 아이디어를 음성 합성 분야로 옮겼습니다. VALL-E 모델은 방대하고 다양한 다중 화자 음성 데이터를 활용하는 언어 모델을 기반으로 한 최초의 TTS 프레임워크입니다.
개인화된 음성을 합성하기 위해 VALL-E 모델은 3초 등록 녹음의 음향 토큰과 음소 프롬프트를 기반으로 해당 음향 토큰을 생성합니다. 이 정보는 화자와 내용 정보를 제한할 수 있습니다.
마지막으로 생성된 음향 토큰은 해당 신경 코덱으로 최종 파형을 합성하는 데 사용됩니다.
오디오 코덱 모델의 개별 음향 토큰을 사용하면 TTS를 조건부 코덱 언어 모델링으로 간주할 수 있으므로 일부 고급 힌트 기반 대형 모델 기술(예: GPT)을 TTS 작업에 사용할 수 있습니다.
음향 토큰은 추론 과정에서 다양한 샘플링 전략을 사용하여 TTS에서 다양한 합성 결과를 생성할 수도 있습니다.
연구원들은 LibriLight 데이터 세트를 사용하여 VALL-E를 훈련시켰습니다. 이 데이터 세트는 7,000명 이상의 고유한 화자가 사용하는 60,000시간의 영어 음성으로 구성되어 있습니다. 원시 데이터는 오디오 전용이므로 음성 인식 모델만 사용하여 대화 내용을 생성합니다.
LibriTTS와 같은 이전 TTS 훈련 데이터 세트와 비교하여, 논문에서 제공되는 새로운 데이터 세트는 더 시끄러운 음성과 부정확한 필사본을 포함하지만 다른 화자와 운율을 제공합니다.
연구원들은 기사에서 제안한 방법이 노이즈에 강하고 빅데이터를 활용하여 좋은 일반성을 달성할 수 있다고 믿습니다.
기존 TTS 시스템은 항상 수십 시간의 단일 언어 화자 데이터 또는 수백 시간의 다국어 화자 데이터를 훈련에 사용한다는 점에 주목할 가치가 있습니다. 이는 VALL-E보다 수백 배 이상 작습니다.
간단히 말하면, VALL-E는 오디오 인코딩 및 디코딩 코드를 중간 표현으로 사용하고 대량의 다양한 데이터를 사용하여 모델에 강력한 상황별 학습 기능을 제공하는 TTS를 위한 새로운 언어 모델 방법입니다.
추론: 프롬프트를 통한 상황 내 학습
상황 내 학습은 추가 매개변수 업데이트 없이 보이지 않는 입력의 레이블을 예측할 수 있는 텍스트 기반 언어 모델의 놀라운 능력입니다.
TTS의 경우 모델이 미세 조정 없이 보이지 않는 화자에 대한 고품질 음성을 합성할 수 있다면 해당 모델은 상황별 학습 능력을 갖춘 것으로 간주됩니다.
그러나 기존 TTS 시스템은 추가적인 미세 조정이 필요하거나 보이지 않는 화자에 대한 상당한 성능 저하를 겪기 때문에 강력한 상황 내 학습 기능을 갖추고 있지 않습니다.
언어 모델이 제로샷 상황에서 상황별 학습을 달성하려면 프롬프트가 필요합니다.
연구원이 설계한 단서와 추론은 다음과 같습니다.
먼저 텍스트를 음소 시퀀스로 변환하고 등록된 녹음을 음향 행렬로 인코딩하여 음소 단서와 음향 단서를 형성합니다. 둘 다 AR 및 NAR 모델에서 사용됩니다.
AR 모델의 경우 힌트에 따라 샘플링 기반 디코딩을 사용합니다. 빔 검색으로 인해 LM이 무한 루프에 들어갈 수 있기 때문입니다. 또한 샘플링 기반 방법은 출력의 다양성을 크게 높일 수 있습니다.
NAR 모델의 경우 탐욕스러운 디코딩을 사용하여 확률이 가장 높은 토큰을 선택합니다.
마지막으로 신경 코덱을 사용하여 8개의 인코딩 시퀀스에 따라 조정된 파형을 생성합니다.
음향 단서는 합성할 음성과 반드시 의미론적 관계를 가질 필요는 없으므로 두 가지 경우로 나눌 수 있습니다.
VALL-E: 주요 목표는 보이지 않는 화자에게 주어진 콘텐츠를 생성하는 것입니다.
이 모델의 입력은 텍스트 문장, 등록된 음성 및 해당 전사입니다. 등록된 음성의 전사된 음소를 주어진 문장의 음소 시퀀스에 음소 단서로 추가하고 등록된 음성의 첫 번째 수준 음향 토큰을 음향 접두사로 사용합니다. VALL-E는 음소 단서와 음향 접두어를 사용하여 주어진 텍스트에 대한 음향 토큰을 생성하여 화자의 음성을 복제합니다.
VALL-E-continual: 전체 기록과 발화의 처음 3초를 각각 음소 및 음향 단서로 사용하고 모델에 연속 콘텐츠를 생성하도록 요청합니다.
추론 과정은 등록된 음성과 생성된 음성이 의미상 연속적이라는 점을 제외하면 VALL-E 설정과 동일합니다.
연구원들은 LibriSpeech 및 VCTK 데이터 세트에서 VALL-E를 평가했는데, 여기서 테스트된 모든 화자는 훈련 코퍼스에 나타나지 않았습니다.
VALL-E는 +0.12 비교 평균 옵션 점수(CMOS) 및 +0.93 LibriSpeech(SMOS) 유사성 평균 옵션 점수로 음성 자연성과 화자 유사성 측면에서 최첨단 제로샷 TTS 시스템보다 훨씬 뛰어난 성능을 발휘합니다. .
VALL-E는 또한 VCTK에서 +0.11 SMOS 및 +0.23 CMOS의 성능 향상으로 기본 시스템을 능가하고 심지어 지상 진실에 대해 +0.04 CMOS 점수에 도달하여 VCTK에서 보이지 않는 음성을 보여줍니다. 화자의 합성된 음성은 자연스럽습니다. 인간의 녹음으로.
또한 정성적 분석에 따르면 VALL-E는 2개의 동일한 텍스트와 대상 화자로 다양한 출력을 합성할 수 있으며 이는 음성 인식 작업을 위한 의사 데이터 생성에 도움이 될 수 있습니다.
VALL-E가 소리 환경(예: 잔향)과 소리가 유발하는 감정(예: 분노 등)을 유지할 수 있다는 것도 실험에서 확인할 수 있습니다.
보안 위험
강력한 기술이 오용되면 사회에 해를 끼칠 수 있습니다. 예를 들어 전화 사기의 기준이 다시 낮아졌습니다!
VALL-E의 장난과 속임수 가능성으로 인해 Microsoft는 테스트를 위해 VALL-E의 코드나 인터페이스를 열지 않았습니다.
일부 네티즌 공유: 시스템 관리자에게 전화하면 그들이 "안녕하세요"라고 말하는 몇 마디를 녹음한 다음 "안녕하세요, 저는 시스템 관리자입니다. 내 사운드는 고유 식별자이며 "저는 항상 이것이 불가능하다고 생각했습니다. 너무 적은 데이터로는 이 작업을 수행할 수 없습니다. 이제 제가 틀렸을지도 모르겠네요...
프로젝트의 마지막 윤리성명서에서 연구원은 "본 글의 실험은 모델 사용자가 타겟 화자이고 화자의 승인을 받은 상태에서 진행되었습니다. 그러나 모델을 보이지 않는 화자로 일반화하는 경우 해당 부분에는 화자가 수정을 수행하는 데 동의하는지 확인하는 프로토콜과 편집된 음성을 감지하는 시스템을 포함하여 음성 편집 모델이 수반되어야 합니다. 또한 논문에서는 VALL-E가 화자의 정체성을 유지하는 음성을 합성할 수 있기 때문에 음성 인식을 속이거나 특정 화자를 모방하는 등 모델을 오용할 가능성이 있는 위험이 있다고 명시하고 있습니다.
이 위험을 줄이기 위해 오디오 클립이 VALL-E에 의해 합성되었는지 구별하는 감지 모델을 구축할 수 있습니다. 이러한 모델을 더욱 발전시키면서 Microsoft AI 원칙도 실제로 적용할 것입니다.
참조: https://www.php.cn/link/402cac3dacf2ef35050ca72743ae6ca7
위 내용은 당신의 목소리를 훔치는 데 걸리는 시간은 단 3초! 마이크로소프트, 음성 합성 모델 VALL-E 출시 : 네티즌들은 '전화 사기' 기준이 다시 낮아졌다고 감탄의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!