>  기사  >  백엔드 개발  >  음성 합성에 XML 적용

음성 합성에 XML 적용

黄舟
黄舟원래의
2017-03-03 17:10:121935검색

요즘에는 인터넷과 그에 관련된 모든 것이 어디에나 있는 것 같습니다. 심야 텔레마케터로부터 음성 통화를 받았을 수도 있고, 동네 약국으로부터 처방전 알림을 받았을 수도 있습니다. 이제 음성합성을 XML 기술과 결합하여 음성정보를 전송할 수 있는 새로운 기술이 등장했습니다.


음성으로 정보를 전달하는 방식은 새로운 것이 아니다. 그것은 우리가 수천 년 동안 사용해 온 의사소통 방법입니다. 그리고 컴퓨터에서 전화를 받는 것은 새로운 것이 아닙니다. 이제 팩스기, 자동 다이얼러부터 통합 음성 응답 시스템(IVR)까지 다양한 음성 기술이 대중화되었습니다. 물론 전화는 가장 일반적인 응용 프로그램입니다.

전통적인 음성 시스템은 미리 녹음된 샘플, 사전 및 음소를 사용하여 우리가 듣는 소리를 생성합니다. 그러나 이러한 미리 녹음된 접근 방식을 사용하는 데에는 많은 문제가 있습니다. 가장 일반적인 문제 중 하나는 일관성과 다양성이 부족하다는 것입니다. 각 단어나 소리의 샘플이 하나만 있고 녹음된 음성 버전이 하나만 있는 경우 컴퓨터가 일반 선언문과 다른 억양으로 질문을 생성하도록 하는 것이 어렵습니다. 마찬가지로 어려운 것은 언제 특정 억양을 사용해야 하는지, 어떤 억양을 발음해야 하는지 컴퓨터가 알게 하는 것입니다.

음성 합성 문제를 해결하는 데 도움을 주기 위해 W3C는 음성 합성 마크업 언어에 대한 새로운 작업 초안을 만들었습니다. 이 새로운 XML 어휘를 사용하면 음성 브라우저 개발자가 음성 합성기가 생성되는 방식을 제어할 수 있습니다. 예를 들어 개발자는 명령을 볼륨에 포함하고 음성 패턴을 합성할 때 이를 사용할 수 있습니다.

SSML 사양은 JSML(jspeeck Markup Language)이라는 Sun의 초기 연구 작업을 기반으로 합니다. JSML은 Java Speech API 마크업 언어를 기반으로 합니다. SSML은 이제 W3C Speech Research Working Group의 작업 문서입니다.

SSML 언어의 기본 목표는 텍스트 음성 변환(짧은 TTS의 경우 Text-To-Speech) 프로세서입니다. TTS 엔진은 텍스트 모음을 가져와 음성으로 변환합니다. 전화 음성 합성 응답 시스템과 시각 장애인을 위해 설계된 고급 시스템 등 이미 여러 가지 TTS 애플리케이션이 있습니다. 특정 텍스트 모음의 발음에 내재된 불확실성은 기존 TTS 시스템이 직면한 주요 어려움 중 하나입니다. 다른 일반적인 문제는 단어 약어(예: HTML) 및 철자와 발음이 다른 단어(예: 소환장)와 같은 품사의 발음에 중점을 둡니다.

SSML 언어의 기본 요소는 텍스트 형식을 지정합니다. 예를 들어 HTML과 비교하여 SSML 언어는 단락 요소를 제공하고 더 나아갑니다. 문장 요소도 제공하기 때문입니다. 문단과 같은 문장의 주소를 시작 주소와 끝 주소를 포함하여 지정함으로써 TTS 엔진은 음성을 보다 정확하게 생성할 수 있습니다.

SSML은 기본 형식 외에도 미리 정해진 단어 또는 단어 집합을 보내는 방법을 지정하는 기능도 제공합니다. 이 기능은 "say-as" 요소에 의해 구현됩니다. SSML에서 매우 유용한 구성 요소입니다. 단어 또는 단어 집합을 발음하는 방법을 설명하는 템플릿을 지정할 수 있습니다. "say-as"를 사용하면 약어를 발음하는 방법을 지정할 수 있을 뿐만 아니라 발음되는 것과 철자가 다른 단어의 발음을 지정할 수도 있습니다. 숫자와 날짜의 차이점도 나열할 수 있습니다. "say-as" 요소에는 이메일 주소, 통화, 전화번호 등에 대한 지원이 포함됩니다.

텍스트에 음성 표현을 제공할 수도 있습니다. 예를 들어, 이 방법을 사용하여 미국 영어와 영국 영어 사이에서 감자라는 단어의 발음 차이를 지적할 수 있습니다.

SSML 언어의 여러 고급 속성은 TTS 시스템이 더욱 인간적인 소리를 생성하도록 도와줍니다. "voice" 요소를 사용하여 남성, 여성 또는 중립적인 목소리를 지정할 수 있으며, 목소리가 속한 연령도 지정할 수 있습니다. 이 요소를 사용하면 4세 소년부터 75세 여성까지 모든 소리를 지정할 수 있습니다.

"강조" 요소를 사용하여 강조해야 하거나 덜 중요한 텍스트를 둘러쌀 수도 있습니다. 또한 "break" 요소를 사용하여 음성이 일시 중지되어야 하는 위치를 시스템에 알릴 수도 있습니다.

SSML 언어의 가장 발전된 기능 중 하나는 "PROsody" 요소에 반영되어 있습니다. 이를 통해 특정 텍스트 모음의 음성을 지정된 방식으로 생성할 수 있습니다. 음성의 억양, 범위, 말하는 속도(분당 단어 수)를 지정할 수 있습니다. "contour" 요소를 사용하면 더 자세한 내용을 지정할 수도 있습니다. "윤곽" 요소는 억양과 말하기 속도를 통합합니다. 텍스트 컬렉션의 "윤곽" 요소 값을 지정함으로써 음성 생성 방법을 보다 정확하게 정의할 수 있습니다.

위 내용은 음성합성에 XML을 적용한 내용입니다. 더 많은 관련 내용은 PHP 중국어 홈페이지(www.php.cn)를 참고해주세요!


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.