>  기사  >  기술 주변기기  >  표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.

표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.

王林
王林원래의
2024-08-13 16:34:03935검색
표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


2024년 GPT-4o가 등장한 이후 업계 기업들은 TTS 대형 모델의 연구 개발에 막대한 자원을 투자했습니다. 최근 몇 달 동안 chattts, seetts, cosyvoice 등과 같은 대규모 중국어 음성 합성 모델이 생겨났습니다.

현재의 대규모 음성 합성 모델은 중국어 표준어의 실제 사람과 거의 구별할 수 없지만, 중국의 복잡한 방언에 직면하여 TTS 대규모 모델은 다양한 중국어의 통일된 음성 합성 훈련에 거의 참여하지 않았습니다. 대형 모델은 매우 어려운 작업입니다.

업계 문제점 및 기술적 병목 현상

현재 표준 중국어 분야에서는 음성 합성 대형 모델 기술이 상당한 진전을 이루었지만 방언 분야에서는 발전이 매우 느립니다. 중국에는 수십 개의 주요 방언이 있으며 각 방언은 고유한 음성학적 특징과 문법 구조를 갖고 있어 다양한 방언을 포괄하는 대규모 TTS 모델을 훈련하는 것이 매우 복잡합니다.

기존 대형 TTS 모델의 대부분은 중국어에 중점을 두고 있어 다양한 음성 합성 요구를 충족할 수 없습니다. 또한, 방언 말뭉치의 부족과 고품질 주석 데이터의 부족으로 인해 기술적 어려움이 더욱 가중됩니다.

Giant Network AI Lab의 기술 혁신과 돌파구

위의 문제를 해결하기 위해 Giant Network AI Lab 팀의 알고리즘 전문가와 언어학자가 협력하여 중국어 방언 시스템. 20개 방언, 200,000시간 이상의 표준 중국어 및 방언 데이터 세트. 이 거대한 데이터 세트를 통해 우리는 여러 중국어 방언을 지원하는 최초의 대규모 TTS 모델인 Bailing-TTS를 훈련했습니다. Bailing-TTS는 고품질의 표준 중국어 음성을 생성할 수 있을 뿐만 아니라 허난어, 상하이어, 광둥어 등을 포함한 다양한 방언 음성도 생성할 수 있습니다.

표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.

  • ArXiv: https://arxiv.org/pdf/2408.00284
  • 홈페이지: https://giantailab.github.io/bailingtts_tech_report/index.html
  • 논문 제목: Bailing- TTS: 인간과 유사한 자발적 표현을 위한 중국어 방언 음성 합성

Bailing-TTS 허난 방언의 합성 효과는 다음과 같습니다.

텍스트 1:

Bianshui 흐름 동쪽으로 무한한 봄, 수이 가문의 궁전은 먼지가 되었습니다. 보행자는 밖을 내다보기 위해 긴 제방에 올라가서는 안됩니다. 바람이 불고 꽃과 꽃이 사람을 죽일 염려가 있습니다.

음성 생성 1:
표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.
텍스트 2:

나도 허난 오페라 듣는 게 좋고, 억양도 듣기에 아주 신난다. . 할 일이 없을 때는 산책을 나가서 허난의 아름다운 풍경을 감상할 수 있습니다. 다행히 국수나 매운탕 같은 재미있는 걸 만들 수 있어요. 말하지 마세요. 제가 직접 만들어도 괜찮습니다.


생성된 음성 2: 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.
중국어로 제로 샘플 복제의 효과를 들어보겠습니다.

프롬프트 1: 젊은 남성 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.생성 1: 이 질문 , 흠 , 다른 관점에서 보면 우리에게도 좋은 일인가요? 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.제2호 : 남학생 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.제2호 : 야 내일 또 주말이구나 같이 영화 보러 가자. 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.제3문 : 노인-여성 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.
3세대 : 옛날 얘기를 하면 아, 사흘 밤낮으로 못 끝냈어요. 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.4세대: 유아-여아 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.4세대: 아, 이게 바로 해변에 갔을 때 주운 거예요. 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.
이 목표를 달성하기 위해 여러 가지 혁신적인 기술을 채택했습니다.

1 통합 방언 토큰 사양: 다양한 방언의 토큰 사양을 통합하고 중국어 및 다양한 방언의 토큰을 통합했습니다. 중국어를 사용하여 기본적인 발음 능력을 제공하기 위해 부분적으로 중복되어 있습니다. 이를 통해 제한된 데이터 조건에서 고품질 방언 음성 합성을 달성할 수 있습니다.

2. 정제된 토큰 정렬 기술: 대규모 다중 모드 사전 학습을 기반으로 개선된 토큰 정렬 기술을 제안합니다.

3. 계층적 혼합 전문가 아키텍처: 여러 중국어 방언에 대한 통합 표현과 각 방언에 대한 특정 표현을 학습하기 위한 계층적 하이브리드 전문가 아키텍처를 설계합니다.

4. 계층적 강화학습 강화 전략: 기본 훈련 전략과 고급 훈련 전략을 결합하여 TTS 모델의 방언 표현 능력을 더욱 향상시키는 계층적 강화학습 전략을 제안합니다.

구현 세부정보

표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.

ㅋㅋ 그림 1 Bailing-TTS의 전체 아키텍처

1. 다중 모달 사전 훈련
텍스트와 텍스트의 세련된 정렬을 달성하기 위해 음성 토큰, 우리는 다단계, 다중 모드 사전 학습 학습 프레임워크를 제안합니다.
첫 번째 단계에서는 비지도 샘플링 전략을 사용하여 대규모 데이터 세트에 대해 대략적인 학습을 수행합니다. 두 번째 단계에서는 고품질 방언 데이터 세트에 대해 세분화된 교육을 수행하기 위해 세련된 샘플링 전략을 채택합니다. 이 방법은 텍스트와 음성 간의 세밀한 상관관계를 효과적으로 포착하고 두 양식의 정렬을 촉진할 수 있습니다.

2. 계층적 혼합 전문가 Transformer 네트워크 구조를 기반으로
다중 중국어 방언에 적합한 통합 TTS 모델을 학습시키기 위해 계층적 혼합 전문가 네트워크 구조와 다단계 멀티를 설계했습니다. - 방언 토큰 학습 전략.
먼저, 여러 중국어 방언에 대한 통합 표현과 각 방언에 대한 특정 표현을 학습하기 위해 특별히 설계된 하이브리드 전문 아키텍처를 제안합니다. 그런 다음 모델의 다중 방언 표현 기능을 향상시키기 위해 Cross-Attention 기반의 융합 메커니즘을 통해 TTS 모델의 다양한 수준에 방언 토큰을 주입합니다.

3. 계층적 강화학습 강화 전략
기본 전략 훈련과 고급 훈련 전략을 결합하여 TTS 모델을 더욱 향상시키는 계층적 강화 학습 전략을 제안합니다. 기본 훈련 전략은 고품질 방언 음성 표현 탐색을 지원하고, 고급 훈련 전략은 이를 기반으로 다양한 방언의 발화 특성을 강화함으로써 다방언에서 고품질 음성 합성을 달성합니다.

표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.

                                                  
Bailing-TTS는 견고성 측면에서 실제 사람들에 가까운 수준에 도달했습니다. 중국어와 다양한 방언의 품질과 자연스러움. 표 1에서 Bailing-TTS의 중국어 일반 통화 및 방언 테스트 결과

실제 적용 시나리오 평가에서 Baling-TTS는 좋은 결과를 얻었습니다. 표 2에서는 중국어 일반 통화, 방언 및 방언 화자의 테스트 결과에 대한 Bailing-TTS 테스트 결과를 다국어 TTS 대형 모델이 많은 실제 시나리오에 적용했습니다. 예를 들어 게임에서 NPC를 더빙하거나, 영상 제작에서 사투리를 더빙하는 등의 작업이 가능합니다. 이 기술을 통해 게임과 영상 콘텐츠가 지역 문화에 더 가까워지고 사용자의 몰입감과 경험이 향상될 수 있습니다.

향후 엔드 투 엔드 음성 인터랙션 대형 모델이 더욱 발전함에 따라 이 기술은 방언 문화 보호, 게임 AI NPC 방언 상호 작용 등의 분야에서 더 큰 잠재력을 발휘할 것입니다. 방언 보호 시나리오에서는 여러 방언의 음성 상호 작용을 지원함으로써 차세대가 쉽게 중국어 방언을 학습하고 계승하며 보호할 수 있어 중국어 방언 문화가 오랜 역사를 가질 수 있도록 합니다. 게임 현장에서는 사투리를 구사하고 음성으로 상호 작용할 수 있는 지능형 NPC가 게임 콘텐츠의 표현력을 더욱 높여줄 것입니다.

표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.

Giant Network AI Lab은 이 기술의 혁신과 적용을 촉진하여 사용자에게 더욱 스마트하고 편리한 음성 ​​상호 작용 경험을 제공하기 위해 계속해서 노력할 것입니다. 팀 소개

Giant AI Laboratory는 2022년에 설립되었습니다. Giant Network 산하 인공지능 기술 응용 및 연구 기관입니다. AIGC 콘텐츠(이미지/텍스트/오디오/비디오/3D 모델 등) 생성 분야에 전념하여 포괄적인 지능형 콘텐츠 제작 및 생성을 실현하고 게임 플레이 혁신을 촉진합니다. 현재 연구소는 Giant 내에 풀링크 AI 산업 생산 파이프라인을 구축함과 동시에 게임 업계 최초의 대형 수직형 모델(GiantGPT) 등록을 완료했으며 최초로 상용화에 돌입했습니다. 애플리케이션.

위 내용은 표준 중국어와 방언 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난어, 상하이어, 광둥어를 원활하게 구사할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.