>  기사  >  기술 주변기기  >  Huoshan Voice TTS의 기술력은 국가검사검역센터로부터 MOS 점수 4.64점으로 인증받았습니다.

Huoshan Voice TTS의 기술력은 국가검사검역센터로부터 MOS 점수 4.64점으로 인증받았습니다.

王林
王林앞으로
2023-04-12 10:40:051247검색

최근 볼케이노엔진 음성합성 제품은 국가음성영상인식제품품질검사시험센터(이하 'AI 국가검사원')로부터 음성합성 강화검사 및 시험인증서를 획득했으며, 음성 합성의 기본 요구 사항과 확장을 다루는 요구 사항은 AI 국가 검사 센터의 최고 수준 표준에 도달했습니다. 이 평가는 중국어, 다국어, 다국어, 혼합 언어, 다음색 및 개인화 측면에서 수행됩니다. 제품 기술 지원 팀인 Volcano Voice 팀은 평가 후 풍부한 사운드 라이브러리를 제공합니다. MOS 등급은 업계 최고 수준인 4.64점에 도달할 수 있습니다.

Huoshan Voice TTS의 기술력은 국가검사검역센터로부터 MOS 점수 4.64점으로 인증받았습니다.

인공지능 분야 국내 최초의 품질 검사 시스템이자 국내 유일의 음성·영상 제품 품질 검사 및 시험 기관으로 AI 국가검사원은 국민건강증진에 최선을 다해 왔습니다. 지능형 음성 산업이 발전합니다. 이번에 AI 국가검사센터로부터 권위 있는 인증을 획득한 것은 Huoshan Voice의 음성 합성 기술 역량이 업계 최고 수준에 도달했음을 충분히 입증합니다.

화산 음성 합성 효과를 느껴보세요: https://www.php.cn/link/8e0ce414531179ae9b7f60e20351ee8b

더 많은 사운드 경험: https://www.php.cn/link/a1ada9947e0d683b4625f94c74104d73

오랫동안 Huoshan Voice는 ByteDance의 주요 비즈니스 라인과 Volcano Engine ToB 산업 및 혁신을 위한 산업 서비스를 제공해 왔습니다. 최고의 AI 음성 기술 역량과 탁월한 풀스택 음성 제품 솔루션을 제공합니다. 현재 팀의 음성 인식 및 음성 합성은 오디오 및 비디오, 오디오 읽기, 음성 상호 작용, 게임, 광고 및 기타 응용 시나리오를 포함하여 여러 언어와 방언을 다루며 Douyin, Jianying, Feishu, Tomato Novels, Pico 등 핵심 사업은 선도적인 음성 기능을 제공합니다.

본 리뷰에 참여한 Volcano Engine 음성 합성 제품

은 Volcano Voice 팀이 독자적으로 개발한 것으로 업계 최고의 생성 신경망 기술을 사용한 것으로 파악됩니다. 주로 프론트엔드 텍스트 분석, 음향 분석으로 구성됩니다. 모델 및 보코더 모듈 구성, ​​자세한 소개는 다음과 같습니다.

    프런트 엔드 텍스트 분석: 주로 텍스트 정규화(예: 숫자를 연도 읽기로 변환, 숫자 읽기 등) 등의 명료성을 담당합니다. 음성 변환(예: 중국어 음성 표기법, 특히 다성 단어 문제 해결을 위한), 단어 분할 및 운율 예측 등
  • 현재 Huoshan Voice 팀은 다중 작업 모델과 신경망 정규화를 사용하여 동시에 12개의 주요 소수 언어를 지원하고 놀라운 결과를 얻었습니다.
  • 음향모델 : 언어적 특징부터 음향적 특징까지 모델링을 주로 담당합니다. 데이터에 따르면 Huoshan Voice TTS의 백엔드 정확도는 99.90%에 달할 수 있습니다. 동시에, 모델은 다양한 감정과 스타일의 세련된 제어, 서로 다른 음색 간의 스타일 전송, 단일 언어의 훈련 데이터만을 사용하여 다국어 합성 효과를 달성할 수도 있습니다.
  • 보코더 모듈: 주로 음향 특징을 오디오 신호로 모델링하는 역할을 담당합니다. 이제 Volcano Voice 팀은 적대적 신경망 모델링을 기반으로 최대 99.95%의 정확도를 갖춘 보코더를 자체 개발했습니다. 경량 모델 설계 및 엔지니어링 최적화를 통해 클라우드의 실시간 속도는 백 번.
  • Volcano Engine 음성 합성 제품은 실제적이고 자연스러운 소리를 내며 생생한 해석과 다양한 스타일을 가지고 있으며 동시에 실제 사람의 리듬을 세밀하게 복원하고 웃음과 같은 다양한 보조 언어 현상을 구현합니다. , 사람들에게 몰입형 청취 경험을 제공합니다. 최근 볼케이노 보이스팀이 공개한 초자연적 대화 음성 합성 기술이 기존 TTS에 비해 모달 입자, 흡입음, 머뭇거림 중 멈춤, 발음 연장 등 세세한 부분까지 완벽하게 재현할 수 있으며, 1/1만 있으면 된다. 기존 사운드 라이브러리 4개.
  • 또한, 이전에 인터넷에서 유행했던
"소리 재생 기술"도 Volcano Voice 팀에서 개발했습니다.

데이터에 대한 기존 음성 합성 기술의 높은 임계값 요구 사항과 달리 Volcano 음성 음색 재현 기술은 기존 방식의 데이터 양의 0.3%만 필요합니다. 일반인은 비교적 조용한 개방형 환경에서 2분 이상 녹음할 수 있습니다. 즉, 음색 공간 모델링의 표준을 충족하고 편리하고 효율적인 독점적인 음색 AI 모델을 생성할 수 있습니다.

현재 Huoshan Voice는 수년간 연마한 음성 기술 역량을 Volcano 엔진을 통해 시장에 출시하고 외부 기업에 공개할 예정입니다. 자동차, 금융, 오디오 읽기, 비디오 등 다양한 응용 시나리오를 다루었습니다. 더빙 등을 진행하며 Hezhong Automobile 및 Book Chasing Artifact를 지원해 왔습니다. 업계의 많은 선두 기업이 AI 음성 기능의 적용 및 확장을 실현했습니다 앞으로도 Huoshan Voice는 최첨단 기술의 효율적인 조합을 계속해서 모색할 것입니다. 기술 및 비즈니스 시나리오를 연구하고 사용자 경험과 비즈니스 성장에 혁신적인 에너지를 지속적으로 주입하여 더 큰 가치를 달성합니다.

위 내용은 Huoshan Voice TTS의 기술력은 국가검사검역센터로부터 MOS 점수 4.64점으로 인증받았습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제