집 >기술 주변기기 >일체 포함 >Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.

Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.

PHPz원래의: 2024-06-07 17:10:54662검색

사람 간 소통의 미래는 이런 모습일까요?

최근에는 ChatTTS라는 텍스트 음성 변환 프로젝트가 인기를 끌면서 모두의 큰 관심을 받고 있습니다. 단 3일 만에 GitHub에서 별 9.2,000개를 얻었습니다.

프로젝트 주소: https://github.com/2noise/ChatTTS/tree/main

저자 자신도 x에서 ChatTTS가 오픈 소스 한계를 돌파했다고 말했습니다. 그러나 현재 오픈 소스인 것은 SFT가 감독하고 미세 조정하지 않은 기본 모델일 뿐입니다.

Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.

이 프로젝트는 텍스트를 음성으로 변환합니다. ChatTTS는 중국어뿐만 아니라 영어도 사용할 수 있으므로 세밀한 제어도 지원합니다. 말하기 일시 정지와 모달 입자는 매우 재생 가능합니다. 절판된 사람들의 목소리를 재현할 수 있습니다. 스티브 잡스의 개발 컨퍼런스를 다시 듣고 싶다면 언제든지 들으실 수 있습니다. 스위프트의 목소리를 흉내내서 들어보면 억양이나 톤의 변화 모두 스위프트에 가깝고, AI의 느낌은 거의 전혀 없습니다. 당신은 중국어와 영어도 잘 구사할 수 있습니다. 이 반은 영어이고 반은 중국어인 억양으로 ChatTTS의 언어 능력이 다음 단계에 도달했습니다.站 위의 오디오는 스테이션 B에서 나온 것입니다: https://www.bilibili.com/video/bv1zn4y1o7iv/?share_source=copy_web&vd_source=983EC32A3036B1CF2699E4FDBCE3C28 디스플레이 중에 Chattts가 자연스러운 부드러움을 얻을 수 있음을 알 수 있습니다. 음성 합성은 동시에 여러 스피커를 지원합니다. 시간, 웃음, 일시정지, 삽입된 단어 등 세밀한 운율 기능을 예측하고 제어할 수 있습니다. ChatTTS는 운율 측면에서 대부분의 오픈 소스 TTS 모델을 능가합니다. Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다. 현재 ChatTTS는 중국어와 영어를 지원합니다. 가장 큰 모델은 100,000시간이 넘는 중국어 및 영어 데이터를 사용하여 학습되었습니다. HuggingFace의 오픈 소스 버전은 40,000시간 동안 학습되었지만 아직 SFT가 되지 않은 버전입니다.

위에 표시된 오디오는 모두 음성 합성 기술을 기반으로 제작되었으며 기술적 성과를 선보일 목적으로 제작되었으며 타인의 권리를 침해하거나 침해할 의도가 없음을 언급할 가치가 있습니다.

프로젝트가 공개되자마자 각계 네티즌들이 사용해 보았는데, 그 소리는 참으로 진품과 가짜를 구별하기 어렵다는 것을 알게 되었습니다.

어떤 사람들은 GPT를 사용하여 텍스트를 생성하고 ChatTTS가 이를 "읽도록" 합니다. 실제 사람들의 어조와 억양의 차이는 매우 작습니다.

Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.

효과가 너무 좋습니다. , 당연히 해보고 싶어요. ChatTTS를 입 대체품으로 사용하는 방법은 다음과 같은 방법을 참조하여 작동할 수 있습니다.

Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다. 온라인 체험 주소 : https://huggingface.co/spaces/Dzkaka/ChatTTS

ChatTTS에는 주로 두 가지 핵심 기능이 있습니다. 첫 번째는 텍스트 음성 변환이고, 두 번째는 대규모 언어 모델을 사용한 실시간 음성 대화입니다. 이러한 기능 외에도 "Audio Seed"에서 디지털로 지정된 스피커의 음색을 조정하거나 주사위를 굴려 무작위로 생성할 수 있습니다. 그러나 많은 테스터들은 매번 동일한 매개 변수를 사용하면 생성되는 톤이 반드시 고정되지는 않는다고 말했습니다.

Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.

2Noise에서는 현재 사운드 복제를 지원하지만 더 많은 양의 데이터가 필요하다고 합니다.

Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.

텍스트 상자에 텍스트를 입력하면 ChatTTS가 자동으로 운율과 일시정지를 생성하고 "then"과 같은 모달 입자도 추가합니다. 입력할 때 텍스트에 [laugh] 및 [uv_break]를 추가하면 ChatTTS를 수동으로 제어하여 말할 때 약간의 "웃음"을 생성할 수 있습니다.

Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.

ChatTTS는 아직 상대적으로 긴 텍스트를 처리할 수 없습니다. 일부 네티즌들이 오디오북에 도전해 달라고 요청했는데 초기 버전에서는 30초 이상의 오디오를 생성할 수 없어 수동으로 복구해야 한다는 사실을 발견했습니다. 상대적으로 긴 텍스트를 접할 때 ChatTTS의 단어 분할에도 문제가 있습니다.

Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.

위 내용은 Hot ChatTTS는 오픈소스 음성 상한선을 돌파하고 3일 만에 별 9,000개를 획득했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

github https gpt

성명：

이전 기사：획기적인 CVM 알고리즘으로 40년 이상의 계산 문제를 해결합니다! 컴퓨터 과학자가 동전을 던져 '햄릿'이라는 고유한 단어를 알아냈습니다.다음 기사：획기적인 CVM 알고리즘으로 40년 이상의 계산 문제를 해결합니다! 컴퓨터 과학자가 동전을 던져 '햄릿'이라는 고유한 단어를 알아냈습니다.