Seed-TTS는 ByteDance Doubao 모델 팀이 최근 출시한 대규모 음성 생성 모델입니다.
, 이것이 생성하는 음성은 실제 사람과 거의 **차이가 없습니다**. 심지어 발음 **결함**도 발생할 수 있습니다. 특히 인간의 음성을 모방하는 학습, **충실성** 및 ** 측면에서 그렇습니다. 유창성 **모두 **뛰어난** 성능을 가지고 있습니다.
예를 들어 Seed-TTS에 연설문을 제공하면, 텍스트를 기반으로 새로운 연설을 생성하고 원본 자료의 사운드 특성을 가져올 수 있습니다.
원본 자료(프롬프트): Seed-TTS 생성 중국어 음성:
갑자기 주위에 웃음이 터졌습니다. 나는 그들을 바라보며 의기양양하게 가슴을 펴고 살찐 팔을 흔들며 웃었다. "내 몸에 있는 살은 나의 압도적인 매력을 가리기 위한 것이지 그렇지 않으면 너희 모두를 놀라게 하지 않을까? ?"
영어 음성도 생성될 수 있으며 여전히 중국어 사용자의 특성을 "재현"할 수 있습니다. Seed-TTS 생성 영어 스피치: 갑자기 옆에서 웃음이 터졌습니다. 나는 그들을 바라보며 의기양양하게 일어서서 살짝 살찐 두 팔을 흔들며 웃었습니다. "내 몸에 있는 살은 터지는 매력을 감추기 위한 것. 그렇지 않으면 겁이 나지 않을까?"
또 다른 예로 톤 커스터마이징, Seed-TTS도 실현 가능합니다 야, 너도 달콤한 사랑을 하고 싶니? '작은 미소는 사랑스럽다'는 최고의 선택이었죠. 남주인공과 여주인공이 게임을 통해 알게 됐고, 만났을 때 모든 과정에서 오해가 하나도 없을 정도로 달콤했어요. 생각만 해도 '아줌마'라고 할 수 밖에 없더라고요." 조금 궁금한데요, 왜 저를 위해 이 별명을 선택하셨나요?
Seed-TTS는 소설의 줄거리와 다양한 캐릭터 특성을 바탕으로 캐릭터와 감정에 상응하는 "스토리텔러"를 제시할 수도 있습니다.
"이 알약은...약도 아니고 최음제도 아닌거겠죠? 왜 내 향기는 두 자매가 말한 냄새와 비슷하지 않나요... 나한테 음모를 꾸미고 있는 거야?" 한리는 이 말을 듣고 오랫동안 어안이 벙벙했다. 갑자기 피를 토하는 것 같은 느낌이 들었다. 이 소녀의 생각은 너무 파악하기 어려웠다. 그녀는 영향약을 최음제와 연관시킬 수 있었다. 아아, 한리는 상대방의 주의에 감탄해야 할지, 이유 없이 억울한 일을 당했기 때문에 세 번 비명을 지를지 몰랐다. "네 말이 맞는 것 같군. 그래도 둘째 누나한테 가져가서 테스트를 해봐야지. 결국 우리 딸네 식구들은 조심해야지." "한리는 말을 할 수 없었고 얼굴에 떠오른 부끄러움을 감추기 위해 기침을 몇 번밖에 할 수 없었습니다. 이제 그는 이 작은 도깨비에게서 멀어지는 것이 낫다고 느꼈습니다. 그렇지 않으면 어느 시점에서 그녀 때문에 우울해 죽을 것입니다. . "흠, 그런데 이 약이 당신 말대로 효과가 있다면 당신은 시험에 합격한 것입니다! 앞으로 형님이 모 저택에서 어려움을 겪으시면 채환에 오셔서 도움을 청하시면 됩니다. 나는 단지 작은 As를 모아야 합니다. "알겠습니다, 후배님, 형님이 일이 있으시면 꼭 도움을 청하겠습니다." 그는 얼굴에는 미소를 지었지만 마음속으로는 악랄하게 생각했습니다. "내가 당신 같은 작은 돈 팬을 찾고 있다는 게 이상해요."더 많은 시연 및 원칙은 원본 용지 및 효과 디스플레이를 참조하십시오 : Paper 링크 : https://arxiv.org/abs/2406.02430 effect 디스플레이 :https://bytedancespeech.github.io/seedtts_tech_report/
- 기술 보고서가 공개되기 전에 Seed-TTS 기술의 일부가 C 측 제품에서 일정 기간 온라인 상태가 되었으며, 사용자들로부터 많은 호평을 받았으며, 외부 세계에서도 널리 호평을 받았습니다. 기술 상용화 서비스를 위해 음성 합성 모델과 빈백 사운드 재생 모델을 제공합니다.
- 기술적 하이라이트, 연구 가치에 대한 팀의 공유를 시청하세요.
Q: Seed-TTS는 어떤 내부자들에게 주목을 받았나요? A: 음성인식 분야에 종사하다가 나중에 회사에 다니시는 교수님이 계십니다. 제가 정말 존경하는 업계 관계자이십니다. 얼마 전 한 학회에서 데모를 시연한 적이 있습니다. Seed-TTS.를 보고 최근에 보고 싶다는 피드백을 주셨는데, 스피치 생성 방향에서 할 수 있는 일을 보면 이 부분에서는 할 게 없다는 생각이 듭니다. 아직 개선의 여지가 있다고 느껴지네요. 듣고 보니 너무 기쁘네요. Q: 왜 만족하시나요? A:
잘 지내고 있다는 말이 더 많을 것 같은데요. 당시 교수님께서 관련 연구 주제를 찾고 계셨는데, 그 동안 우리의 결과를 보고 긍정적인 의견을 주셨는데, 우리의 결과가 이미 매우 좋다고 느꼈고, 다른 질문을 찾아야 할 것 같습니다. Q: 이전 결과와 비교했을 때 Seed-TTS의 차이점은 무엇인가요?
A: 음성 생성을 위한 기본 모델로, 대부분의 음성과 약간 다릅니다. 특히 기존 TTS는 단일 작업 모델이지만 기본 모델의 경우 모든 작업을 수행하고, 소리를 내고, 방언과 같은 여러 차원을 동시에 제어할 수 있기를 바랍니다. , 실제 사람들의 구술 습관, 심지어 단어 삼키기 등의 발음 결함까지
세상에 화법이 있는 한 영어와 일본어, 심지어 산시 사투리와 방언까지 다양한 언어로. 중국어 허난 사투리... 혹은 기쁘다, 슬프다, 울다, 화난다, 인간이 존재하는 한 우리 모두는 그것이 나오길 원합니다 Q: 위의 아이디어가 모두 달성되었나요아직도 달성할 수 없는 부분이 있지만, 기술이 발전해 온 것은 현재의 언어 모델입니다. , 텍스트 수준에서 깊은 이해를 갖고 있는 것이기도 합니다.
Q: "기본 모델"을 만드는 도전은 어디입니까? A: 먼저 디테일한 모델링이 좋다는 점입니다. 과거에는 TTS를 방송 시스템으로 구현하기가 쉬웠지만 "기계 소리"처럼 들리기 때문에 모델링하고 사람처럼 들리게 하려면 많은 세부 사항. 특히, 인간은 자신의 소리에 매우 민감하므로, 강아지나 새끼 고양이의 야옹거리는 소리가 자연스럽지 않더라도 들리지 않을 수 있습니다. 그러나 인간의 말에는 매우 '기계적으로' 들리는 문제가 있습니다.
둘째, 높은 자연성과 높은 안정성이 요구됩니다. 지난 2년 동안 주류 TTS의 대부분은 각 휴대폰별로 정의된 사전 지식 및 지속 시간 모델을 기반으로 했지만 바닥에서부터 표현력이 제한되었습니다. 이를 제거하면 안정성과 자연성 문제가 발생하는데 이는 또 다른 과제입니다.
세 번째는 데이터 커버리지(Data Coverage)가 매우 크다는 점입니다. 우리는 단어 삼키기, 비표준 발음 등 인간 발음의 불완전성을 복제하는 것을 포함하여 누구의 목소리와 다양한 언어 방언을 복제하고 싶습니다. 이러한 특징을 재구성하고 "불완전함"을 복원하려면 데이터 커버리지(Data Coverage)가 높아야 합니다. 이전에는 업계에서 사용하는 데이터가 수백, 수천 시간 정도였고, Seed-TTS에서 사용하는 데이터는 이전보다 훨씬 컸습니다. 이렇게 많은 양의 데이터는 질과 양의 균형을 가져오는데, 이는 또한 어려운 일입니다.넷째 , 모델 디자인. 이런 대규모 상황에서는 모든 측면에서 더 나은 효과를 얻을 수 있도록 모델을 어떻게 설계하는지도 큰 과제입니다. 마지막으로 엔지니어링 과제가 있습니다. 위에서 언급했듯이 우리의 데이터는 규모가 크고 모델 복잡성이 높기 때문에 이전에는 소수의 사람들이 해결했던 엔지니어링 문제가 자연스럽게 발생합니다. Q: 기술적인 관점에서 이러한 문제를 해결하는 것의 가치는 무엇입니까? A 텍스트와 이미지를 선호하는 스피치는 텍스트와 이미지의 속성을 모두 갖고 있습니다. 둘 중 어느 것이 음성 모델링에 더 적합한지는 우리가 대답해야 할 질문입니다. 말과 텍스트는 유사점이 많습니다. 언어 모델 모델링에 더 적합하도록 음성 표현을 디자인하는 방법도 해결해야 할 문제입니다.
강화학습을 활용하여 다양한 주관적, 객관적 선호 정보를 생성 시스템에 통합하는 방법도 문제 중 하나입니다.
자동회귀 음성 생성 모델의 안정성 문제를 포함하여 다른 많은 주요 사항이 있습니다. 또한, 본 연구를 통해 TTS 분야 이외의 관점에서 TTS 문제를 살펴보려고 노력하고 있습니다.
Q: 언어 모델과 확산 모델에 대한 연구를 언급했는데, 이들로부터 어떤 결론을 이끌어낼 수 있나요?
A: Seed-TTS는 언어 모델 기반의 기술 솔루션을 제공할 뿐만 아니라 업계 최초로 기간 모델과 완전히 분리된 또 다른 Diffusion 기술 솔루션을 제공합니다. . 또한 두 시스템을 광범위하게 비교한 결과 스트리밍 처리에는 언어 모델이 상대적으로 적합하고 편집 처리에는 확산 모델이 더 적합하다는 사실을 발견했습니다. 계속해서 병합하세요.
Q: 이 두 시스템의 경우 Seed-TTS는 구체적으로 어떤 기술적 어려움을 해결하나요? A: 언어 모델 시스템의 경우 주로 토크나이저 및 음성 안정성을 해결합니다. 언어 모델 모델링에서는 음성 토큰화가 핵심 부분입니다. 현재 시장에는 연속형 토크나이저와 개별형 토크나이저가 모두 있으며 팀에서는 많은 탐색을 수행했습니다. 우리는 토큰에 포함된 정보의 설계가 모든 측면에서 전체 모델의 성능과 안정성에 매우 중요한 영향을 미친다는 것을 발견했습니다. 여기에는 토큰의 정보, 프레임 속도 등뿐만 아니라 방법도 포함됩니다. 토큰화하고 이를 다시 소리로 바꾸는 방법. 현재 업계에서는 이러한 것들이 많이 연구되지 않습니다.
언어 모델의 안정성 측면에서 우리는 토큰, 모델 설계, 디코딩 전략 및 데이터 준비에 대한 다양한 탐색을 수행했으며 업계 및 애플리케이션의 요구 사항을 실제로 충족했습니다. 순수 확산 시스템의 경우 추가 지속 시간 모델이 제거되므로 난이도도 안정성에 중점을 둡니다. 많은 시도 끝에 우리는 이 링크에서도 매우 좋은 지표를 얻었습니다. Q: "음성 모델과 텍스트 모델에는 많은 유사점이 있습니다"와 관련하여 이것이 우리에게 어떤 영감을 주나요? A: 대형 텍스트 모델의 관점에서 음성 생성 모델은 Pretrain, Instruct Fine-Tuning 및 Post Training으로 나눌 수도 있습니다. 그 중 Pretrain은 모델의 기본 기능을 향상시킬 수 있으며 이는 특히 음색 지속, 음성 복제 및 기타 기능과 같은 Incontext Learning 기능에 반영됩니다.
Instruct Fine-Tuning의 주요 목적은 Instruct를 사용하여 음성 생성 프로세스를 보다 쉽게 제어할 수 있도록 하는 것입니다. 마치 감독과 배우가 요청하는 것처럼 더 빠르게, 느리게 말하고, 사람들에게 감동을 주는 방법 등이 모두 있습니다. 우리에 의해 통합되었습니다. 마지막으로 우리는 강화 학습이 안정성, 제어, 표현성, 자연스러움 등 다양한 주관적, 객관적 선호 정보를 생성 시스템에 통합하여 모델을 여러 측면에서 개선할 수 있다는 사실도 발견했습니다. 업계에서는 이 측면을 연구하는 사람이 많지 않습니다. 위의 내용을 바탕으로 자가 증류를 위한 합성 데이터를 활용하는 방법도 모색했고, 또한 매우 좋은 이점을 얻었습니다. 이는 텍스트 LLM에서 상대적으로 일반적으로 사용되며 이전에는 음성 산업에서 상대적으로 거의 탐색되지 않았습니다.Q: "업계에서 일부 문제가 덜 탐구되고 있다"고 세 번 언급하셨는데요. 이러한 현상의 원인은 무엇입니까? A:한편으로 음성 생성 분야의 이전 연구는 상대적으로 독립적이었고 업계에는 많은 전통적인 경험이 있었으며 이러한 AIGC 추세에서는 더 이상 적용되지 않을 수 있습니다. 더 넓은 관점에서 보면 음성 생성은 텍스트 및 이미지 생성과 공통점이 많습니다. 대형 텍스트 모델과 이미지 생성의 급속한 발전은 우리에게 많은 새로운 사고를 가져왔습니다. 새로운 아이디어를 홍보하는 데는 시간이 걸리기 때문에 업계에서는 아직 탐색이 상대적으로 적습니다. 한편, 많은 연구자들이 학교에서 일하며 관련 자원이 없습니다. 여기에는 우리가 할 수 있는 체계적인 프로젝트가 많이 있을 뿐 아니라, 세부적으로 탐구하고 안정성, 표현력, 계산의 복잡성을 고려할 수 있는 몇 가지 모델을 찾았습니다. 하지만 이것이 우리가 할 수 있는 최선일까요? 아직 계속 탐색해야 할 수도 있습니다. Q: 전체 연구 과정에서 획기적인 순간이 있나요? A: 기본 효과는 작년에 출시되었습니다. 이후 실제 사례 찾기, 다양한 사후 교육, 구현 문제 해결(예: 이 시나리오에서는 다양한 안정성, 첫 번째 패킷 지연, 동시성 수, 계산량 등)이 포함됩니다. 그때와 비교하면 지금은 효과가 많이 좋아졌습니다. Q: 지금 돌아보면 전체 연구의 가치는 무엇인가요? A: Seed-TTS 자체의 가치 측면에서 볼 때 음성은 완전한 도구가 아니라 인간 상호 작용의 가장 직접적인 형태입니다. 예를 들어 무성영화부터 유성영화까지 작은 변화가 업계의 큰 도약을 이룬다. 예를 들어, 아이가 아빠라고 부를 때, 그것이 주는 감정적 연결은 문자를 읽는 것과는 완전히 다릅니다. 진정한 AI를 향해 나아가고 싶다면 음성의 자연스러움이 핵심 구성 요소입니다. 과거에 우리가 상상했던 기계는 모두 기계 목소리였습니다. 예를 들어 의 모스처럼 AI가 정말로 당신의 조수이자 파트너와 같을 수 있다면 목소리를 통한 감정적 연결이 필수적입니다. '아이언맨' 속 자비스는 실존인물의 목소리로 많은 사람들에게 기억되고 있다. 이외에도 소설이나 전자책, 캐릭터 디자인, 영상 번역, 가상 캐릭터, 방송, 배우 표현 등 음성 응용을 위한 시나리오가 많이 있는데, 다 용도가 있어요. 말더듬과 소리 발음 불능을 포함하여 사람들은 여전히 음성 기술의 도움으로 자신을 표현할 수 있습니다. 음성 시나리오가 순전히 정보 매체가 아닌 한 적용 여지는 있습니다. 이는 기본 모델을 좋게 만드는 동기이기도 합니다. Q: 일부 실무자들은 스케일링 법칙을 "믿음"으로 간주해 왔습니다. 음성 생성 모델의 경우 데이터와 모델을 스케일링한 후의 결과는 무엇입니까? A: 아주 큰 규모라 할지라도 계속해서 규모를 확장하면 항상 이점을 볼 수 있습니다. 일반적으로 규모의 크기를 증가시키면 모델이 계속해서 새로운 기능을 획득하는 것을 보고 우리는 기분 좋게 놀랐습니다. Q: 관찰한 바에 따르면 이 한계는 어디입니까? A: 현재 우리는 여전히 매번 혜택을 볼 수 있으며 계속 탐색해야 합니다. 그러나 우리는 올바른 모델 설계를 통해 TTS의 전통적인 사고 방식을 깨뜨릴 수 있음을 입증했습니다. 과거에는 소량의 고품질 데이터에 의존했지만 이제는 규모를 계속 늘려 더 높은 이점을 얻을 수 있습니다. Q: GPT4-o는 우리에게 어떤 깨달음을 주나요? A:생성과 이해를 위한 통합 모델입니다. 음성 기술에 대한 요구 사항이 더 높으며 동시에 듣고 말하고 생각하는 능력을 갖춘 모델이 필요합니다. 이는 우리 작업에 대한 많은 새로운 요구 사항을 제시합니다. Q: 스피치 분야 대형 모델의 현재 개발 단계는 어떻습니까? A:모델이 한편으로는 전문 배우의 표현력과 컨트롤을 갖기를 바랍니다. 대부분 모델이 내는 발화는 실제 사람의 발화와 크게 다르지 않다. 그러나 영화나 드라마에서는 배우들이 감정을 매우 강렬하게 표현하고, 정보 밀도가 상대적으로 높아 완전히 일치하지 않는다. 우리 모두는 코너케이스를 완성하고 싶어합니다.한편에는 Bad Case 처리 및 최적화를 포함하여 흔하지 않은 롱테일 상황을 해결하는 등 세부적인 처리 작업이 있습니다. 대규모 모델 작업에는 뛰어난 인재들이 대거 참여해야 합니다Q: 이번 Seed-TTS에는 전 세계 동료들이 참여했습니다. 많은 사람들이 참여하고 있나요? A:산업이 발전함에 따라 여러 사람의 협력은 불가피합니다. 산업화의 요구를 충족시키면서 대형 모델이라는 궁극적인 목표를 달성하기 위해서는 1~2개의 아이디어만으로 뒷받침될 수 없고 많은 사람들이 참여해야 한다. 모든 참가자는 매우 전문적이었습니다. 예를 들어, 우리의 데이터는 전문적인 학생들이 처리에 참여하도록 요구합니다. 또 다른 예는 구현 프로세스에 많은 세부 사항이 포함되며 평가 및 엔지니어링 지원을 전문으로 하는 학생들의 협력이 필요하다는 것입니다. 그들은 모두 큰 공헌을 했습니다. AI 첨단 연구의 주류 플레이어 중 프로젝트 참여자가 매우 많고 전문 학생들이 모든 링크를 책임지고 있음을 알 수 있습니다. 협업과 정확한 조정, 조직 기술에 대한 요구 사항도 매우 높습니다. A: '드라이브'와 '디테일' 때문인 것 같아요. "중요성"은 모든 사람이 주도적으로 일을 하는 데 반영됩니다. 그것은 호기심과 업계를 바꾸겠다는 생각에서 탄생한 그 자체로 자율적인 과정이기도 했다. 이런 분위기는 대기업이 적은 스타트업에 가깝다. Q: 팀이 "세부 사항을 골라낼 것"이라고 언급하셨는데요, 어떻게 이해하시나요? A:이것은 실제 장면에서 세부 사항을 선택하는 것입니다. 생성 작업의 경우 데모에서는 아름다운 데모를 수행하기 쉽지만 실제 응용 프로그램에서는 시스템이 다양한 세부적인 문제에 직면하게 됩니다. 모델이 항상 고품질로 생성되고 사용자 요구를 충족하도록 보장하기 위해 시스템 안정성과 견고성에 대한 매우 엄격한 요구 사항이 있으며, 모든 세부 사항이 고품질인지 확인하기 위해 반복적인 연마가 필요합니다. 반대로 Demo의 경우 최적화를 많이 하지 않았습니다. Q: "데모 최적화를 너무 많이 하지 않는 것"에 대해 내부적으로 논의가 있나요? A: 특히 어린 학생들은 모두 더 나은 모습을 보여주고 싶어하지만, 사용자가 실제로 사용하지 못하도록 구현할 수 있는 결과를 얻기를 바랍니다. 그 과정에서 제품과 데모 사이에 큰 격차가 있다는 사실이 발견되었고, 이는 업계를 진정으로 변화시켰습니다. Q: 현재 Doubao 앱에 관련 기술이 적용되어 있나요? A: 일부 관련 기술은 실제 시나리오에서 사용자의 승인을 받은 후에만 외부 세계에 표시됩니다. 마지막 온라인 작업. Q: 우리 팀을 요약할 수 있는 키워드는 무엇인가요? A: 첫 번째는 전문입니다. 이는 데이터, 인프라, 모델 설계 등 다양한 측면에 반영됩니다. 우리는 매우 전문적으로 모든 링크의 세부 사항에 주의를 기울일 것이며 산업 구현의 관점에서 궁극적인 성과를 달성하기 위해 노력할 것입니다. 두 번째 단어는 집중과 추진력입니다. 목표를 달성하기 위해서는 집중력과 추진력이 필수입니다. 그래서 실제로 결과를 얻었을 때 모두가 열심히 노력하고 성취감을 느끼며 자신감을 갖게 됩니다. 세 번째 단어는 화합입니다. 팀으로 일하다 보면 다들 영역의식이 없고 협업이 원활해서 대기업에서는 보기 드문 편안함을 느낍니다. Q: 우리 팀은 어떤 자질의 사람들을 계속해서 끌어들이기를 희망합니까? A: 우선 값이 일관될 수 있는지 살펴보세요. 능력도 물론 하나의 측면이지만, 더 중요한 것은 모두가 자아실현을 이룰 수 있도록 같은 배를 탄 파트너를 찾는 것입니다. 이런 가치 아래의 협력은 자연스럽게 원활해질 것입니다. 두 번째는 배경의 다양성입니다. 현재 AI의 다양한 분야에서 사용되는 방법은 유사하며 모두가 점차 같은 방향으로 통합되고 있습니다. 따라서 강화 학습, 시각 인식, 오디오 인식 및 기타 분야의 경험이 세대에 중요한 역할을 합니다.다양한 직업적 배경을 가진 학생들의 참여를 바랍니다. 저는 음성을 이해하는 사람이고 TTS로 전환했습니다. 마지막으로 주관적인 주도성과 학습능력, 그리고 높은 업무추구력입니다. 생성적 과제에도 고유한 특징이 많이 있습니다. 후보자가 과제와 자신의 경험의 조합을 찾을 수 있기를 바랍니다. 그와 동시에 업계 최고의 기술과 제품을 만들 수 있기를 바랍니다. 학생들은 또한 매일 이 비전을 염두에 두고 계속 전진해야 합니다.
위 내용은 Seed-TTS팀 학생들이 공유한 내용입니다. 팀은 지금도 우수한 인재를 계속 모집하고 있습니다. 대형 모델 기술에 대한 이상과 열정도 있고, 두바오 대형 모델팀의 분위기를 인지하고 계시다면 두바오 대형 모델팀 공식 홈페이지(team.doubao.com)에 로그인해주세요. 또는 팀의 공식 공개 계정을 팔로우하세요. 기술 진행 상황, 팀 스토리 및 채용 정보에 대해 자세히 알아보세요. ByteDance Top Seed Talent Plan은 야심찬 목표와 야망을 가진 최고의 인재를 계속해서 유치하고 채용하기를 희망합니다. 기술을 사용하여 세상을 바꾸세요." 우리와 함께하면 최고의 과학자 및 엔지니어와 협력하여 업계 최고의 기술 과제에 참여하고 어려운 문제를 해결할 수 있습니다. 아래 QR코드를 길게 누르시거나, 클릭하셔서 원문을 읽어보시고 이력서를 제출해주세요. 위 내용은 내 귀가 맞아 소리가 너무 리얼하다 바이트빈바오 음성합성의 Seed-TTS 기술이 공개됐다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!