H 논문 링크: https://arxiv.org/pdf/2306.02207.pdf
텍스트 기반 언어 모델에 비해 음성 언어 모델은 아직 초기 단계이지만 음성 데이터에는 텍스트보다 풍부한 정보가 포함되어 있기 때문에 잠재력이 크고 기대가 가득합니다.
연구원들은 사전 훈련된 언어 모델의 힘을 발휘하기 위해 프롬프트 패러다임의 잠재력을 적극적으로 탐구하고 있습니다. 이 프롬프트는 사전 훈련된 언어 모델이 소수의 매개변수를 미세 조정하여 특정 다운스트림 작업을 수행하도록 안내합니다. 이 기술은 효율성과 효율성으로 인해 NLP 분야에서 널리 사용됩니다. 음성 처리 분야에서 SpeechPrompt는 매개변수 효율성이 크게 향상되었으며 다양한 음성 분류 작업에서 경쟁력 있는 성능을 달성했습니다.
그러나 힌트가 음성 언어 모델이 생성 작업을 완료하는 데 도움이 될 수 있는지 여부는 여전히 열려 있는 질문입니다. 본 논문에서는 생성 작업을 위한 음성 언어 모델의 잠재력을 최대한 활용하는 것을 목표로 하는 혁신적인 통합 프레임워크인 SpeechGen을 제안합니다. 아래 그림과 같이 음성 LM에 음성 조각과 특정 프롬프트(프롬프트)가 입력으로 공급되고 음성 LM은 특정 작업을 수행할 수 있습니다. 예를 들어 빨간색 프롬프트를 입력으로 사용하면 음성 LM이 음성 번역 작업을 수행할 수 있습니다.
우리가 제안하는 프레임워크에는 다음과 같은 장점이 있습니다.
1. Textless: 우리의 프레임워크와 그것이 사용하는 음성 언어 모델은 텍스트 데이터와 독립적이며 헤아릴 수 없는 가치를 가지고 있습니다. 결국 태그된 텍스트-음성 쌍을 얻는 과정은 시간이 많이 걸리고 지루하며 일부 언어에서는 올바른 텍스트를 찾지 못할 수도 있습니다. 텍스트 없는 기능을 통해 강력한 음성 생성 기능을 통해 다양한 언어 요구 사항을 충족하고 모든 인류에게 혜택을 줄 수 있습니다.
2. 다양성: 우리가 개발한 프레임워크는 매우 다양하며 다양한 음성 생성 작업에 적용될 수 있습니다. 논문에서는 음성 번역, 음성 복원, 음성 연속성을 실험의 예로 사용합니다.
3. 따라하기 쉬움: 제안된 프레임워크는 다양한 음성 생성 작업에 대한 일반적인 솔루션을 제공하여 다운스트림 모델 및 손실 함수를 쉽게 설계할 수 있습니다.
4. 전송 가능성: 우리의 프레임워크는 향후 고급 음성 언어 모델에 쉽게 적응할 수 있을 뿐만 아니라 효율성과 효과를 더욱 향상시킬 수 있는 엄청난 잠재력을 담고 있습니다. 특히 흥미로운 점은 고급 음성 언어 모델의 출현으로 우리의 프레임워크가 훨씬 더 강력한 개발을 가져올 것이라는 점입니다.
5. 경제성: 우리 프레임워크는 거대한 언어 모델 전체가 아닌 소수의 매개변수만 훈련하면 되도록 신중하게 설계되었습니다. 이를 통해 계산 부담이 크게 줄어들고 GTX 2080 GPU에서 훈련 프로세스를 수행할 수 있습니다. 대학 연구실에서도 이러한 계산 오버헤드를 감당할 수 있습니다.
SpeechGen 소개
우리의 연구 방법은 주로 음성 언어 모델(Spoken Language Models, SLM)을 사용하여 다양한 다운스트림 음성 생성 작업을 미세 조정하는 새로운 프레임워크 SpeechGen을 구축하는 것입니다. 훈련 중에 SLM의 매개변수는 일정하게 유지되며 우리의 방법은 작업별 프롬프트 벡터 학습에 중점을 둡니다. SLM은 큐 벡터와 입력 장치를 동시에 조절하여 특정 음성 생성 작업에 필요한 출력을 효율적으로 생성합니다. 이러한 개별 단위 출력은 해당 파형을 생성하는 단위 기반 음성 합성기에 입력됩니다.
우리의 SpeechGen 프레임워크는 Speech Encoder, SLM 및 Speech Decoder의 세 가지 요소로 구성됩니다.
먼저 음성 인코더는 파형을 입력으로 사용하여 이를 제한된 어휘에서 파생된 일련의 단위로 변환합니다. 시퀀스 길이를 줄이기 위해 반복되는 연속 단위를 제거하여 압축된 단위 시퀀스를 생성합니다. 그런 다음 SLM은 단위 시퀀스의 언어 모델 역할을 하며 이전 단위와 단위 시퀀스의 후속 단위를 예측하여 가능성을 최적화합니다. 우리는 작업에 적합한 단위를 생성하도록 안내하기 위해 SLM을 즉시 조정합니다. 마지막으로 SLM에서 생성된 토큰은 음성 디코더에 의해 처리되어 다시 파형으로 변환됩니다. 큐 튜닝 전략에서 큐 벡터는 입력 시퀀스의 시작 부분에 삽입되어 생성 중에 SLM의 방향을 안내합니다. 삽입되는 힌트의 정확한 수는 SLM의 아키텍처에 따라 다릅니다. 시퀀스-시퀀스 모델에서는 인코더 입력과 디코더 입력 모두에 큐가 추가되지만 인코더 전용 또는 디코더 전용 아키텍처에서는 힌트만 입력 시퀀스 앞에 추가됩니다.
mBART 등의 시퀀스 간 SLM에서는 자기 지도 학습 모델(HuBERT 등)을 사용하여 입력 및 대상 음성을 처리합니다. 이렇게 하면 입력에 대한 개별 단위와 대상에 대한 해당 개별 단위가 생성됩니다. 입력 시퀀스를 구성하기 위해 인코더와 디코더 입력 앞에 힌트 벡터를 추가합니다. 또한 어텐션 메커니즘의 키-값 쌍을 대체하여 단서의 안내 능력을 더욱 향상시킵니다.
모델 학습에서는 모든 생성 작업에 대해 교차 엔트로피 손실을 목적 함수로 사용하고 모델의 예측 결과와 목표 이산 단위 레이블을 비교하여 손실을 계산합니다. 이 프로세스에서 큐 벡터는 훈련이 필요한 모델의 유일한 매개변수인 반면 SLM의 매개변수는 훈련 프로세스 동안 변경되지 않고 유지되므로 모델 동작의 일관성이 보장됩니다. 큐 벡터를 삽입함으로써 SLM이 입력에서 작업별 정보를 추출하고 특정 음성 생성 작업과 일치하는 출력을 생성할 가능성을 높이도록 안내합니다. 이 접근 방식을 사용하면 기본 매개변수를 수정하지 않고도 SLM의 동작을 미세 조정하고 조정할 수 있습니다.
일반적으로 우리의 연구 방법은 큐 벡터를 훈련하여 모델의 생성 프로세스를 안내하고 특정 음성 생성 작업을 충족하는 출력을 효과적으로 생성할 수 있는 새로운 프레임워크 SpeechGen을 기반으로 합니다.
우리 프레임워크는 모든 음성 LM 및 다양한 생성 작업에 사용할 수 있으며 큰 잠재력을 가지고 있습니다. 우리 실험에서는 VALL-E와 AudioLM이 오픈 소스가 아니기 때문에 사례 연구를 위해 단위 mBART를 음성 LM으로 사용하기로 선택했습니다. 우리는 프레임워크의 기능을 보여주기 위해 음성 번역, 음성 인페인팅 및 음성 연속을 예로 사용합니다. 이 세 가지 작업의 개략도는 다음과 같습니다. 모든 작업은 음성 입력, 음성 출력이며 텍스트 도움말이 필요하지 않습니다.
음성 번역
음성 번역(음성 번역)을 훈련할 때 스페인어를 영어로 변환하는 작업을 사용합니다. 우리는 스페인어 음성을 모델에 입력하고 모델이 전체 과정에서 텍스트 도움말 없이 영어 음성을 생성하기를 바랍니다. 다음은 정답(실측 진실)과 모델 예측(모델 예측)을 보여주는 음성 번역의 몇 가지 예입니다. 이러한 데모 예는 모델의 예측이 정답의 핵심 의미를 포착한다는 것을 보여줍니다.
Speech inpainting
Speech inpainting 실험에서 특별히 2.5초보다 긴 오디오 클립을 후속 처리의 대상 음성으로 선택하고 무작위 선택 과정을 통해 세그먼트를 선택했습니다. 0.8 사이의 음성 클립 길이는 1.2초입니다. 그런 다음 선택한 세그먼트를 마스크하여 음성 인페인팅 작업에서 누락되거나 손상된 부분을 시뮬레이션합니다. 손상된 세그먼트의 복구 정도를 평가하기 위한 지표로 단어 오류율(WER)과 문자 오류율(CER)을 사용했습니다.
SpeechGen에서 생성된 출력과 손상된 음성을 비교 분석한 결과, 우리 모델은 아래 표에 표시된 것처럼 WER을 41.68%에서 28.61%로, CER을 25.10%에서 10.75%로 줄여 음성 어휘를 크게 재구성할 수 있습니다. 이는 우리가 제안한 방법이 음성 재구성 능력을 크게 향상시켜 궁극적으로 음성 출력의 정확성과 이해성을 향상시킬 수 있음을 의미합니다.
아래 사진은 디스플레이 예시입니다. 위쪽 하위 사진은 SpeechGen에서 생성된 음성입니다. 아주 잘.
Speech Continuation
LJSpeech를 통해 Speech Continuation의 실제 적용 사례를 보여드리겠습니다. 훈련 프롬프트(프롬프트) 동안 우리의 전략은 모델이 조각의 시드 세그먼트만 볼 수 있도록 하는 것입니다. 이 시드 세그먼트는 음성의 전체 길이의 일부를 차지합니다. 이를 조건 비율(조건 비율, r)이라고 합니다. , 모델이 계속해서 후속 음성을 생성하도록 합니다.
다음은 몇 가지 예입니다. 검은색 텍스트는 시드 세그먼트를 나타내고 빨간색 텍스트는 SpeechGen에서 생성된 문장입니다(여기서 텍스트는 먼저 음성 인식을 통해 획득됩니다. 훈련 및 추론 과정에서 모델은 완전히 처리된 것은 음성 대 음성 작업이며 텍스트 정보를 전혀 수신하지 않습니다. 다양한 조건 비율을 통해 SpeechGen은 일관성을 달성하고 완전한 문장을 완성하기 위해 다양한 길이의 문장을 생성할 수 있습니다. 품질 관점에서 볼 때 생성된 문장은 기본적으로 시드 조각과 구문적으로 일치하고 의미론적으로 관련되어 있습니다. 하지만 생성된 음성은 여전히 완전한 의미를 완벽하게 전달할 수 없습니다. 이 문제는 향후 더욱 강력한 음성 모델에서 해결될 것으로 예상됩니다.
음성 언어 모델 및 음성 생성은 호황 단계에 있으며 우리 프레임워크는 음성 생성을 위해 강력한 언어 모델을 영리하게 활용할 수 있는 가능성을 제공합니다. 그러나 이 프레임워크에는 여전히 개선의 여지가 있으며 추가 연구할 가치가 있는 문제도 많이 있습니다.
1. 텍스트 기반 언어 모델에 비해 음성 언어 모델은 아직 개발 초기 단계입니다. 우리가 제안한 신호 프레임워크는 음성 언어 모델이 음성 생성 작업을 수행하도록 영감을 줄 수 있지만 뛰어난 성능을 달성할 수는 없습니다. 그러나 GSLM에서 Unit mBART로의 대대적인 전환과 같은 음성 언어 모델의 지속적인 발전으로 프롬프트 성능이 크게 향상되었습니다. 특히, 이전에 GSLM이 어려웠던 작업은 이제 Unit mBART에서 더 나은 성능을 보여줍니다. 우리는 앞으로 더욱 발전된 음성 언어 모델이 등장할 것으로 기대합니다.
2. 콘텐츠 정보 너머: 현재 음성 언어 모델은 화자와 감정 정보를 완전히 캡처할 수 없으므로 이 정보를 효과적으로 처리하는 데 있어 현재 음성 프롬프트 프레임워크에 문제가 됩니다. 이러한 한계를 극복하기 위해 화자와 감정 정보를 프레임워크에 특별히 주입하는 플러그 앤 플레이 모듈을 도입합니다. 앞으로 우리는 미래의 음성 언어 모델이 성능을 향상하고 음성 생성 작업의 화자 및 감정 관련 측면을 더 잘 처리하기 위해 이러한 정보를 통합하고 활용할 것으로 예상합니다.
3. 프롬프트 생성 가능성: 프롬프트 생성을 위해 텍스트 및 이미지 지침을 포함한 다양한 유형의 지침을 통합할 수 있는 유연한 옵션이 있습니다. 이 기사에서처럼 훈련된 임베딩을 힌트로 사용하는 대신 이미지나 텍스트를 입력으로 사용하도록 신경망을 훈련할 수 있다고 상상해 보세요. 이 훈련된 네트워크는 힌트 생성기가 되어 프레임워크에 다양성을 추가합니다. 이 접근 방식은 프롬프트 생성을 더욱 흥미롭고 다채롭게 만들 것입니다.
이 문서에서는 다양한 생성 작업에서 음성 언어 모델의 성능을 잠금 해제하기 위해 힌트를 사용하는 방법을 살펴보았습니다. 우리는 훈련 가능한 매개변수가 1천만 개에 불과한 SpeechGen이라는 통합 프레임워크를 제안합니다. 우리가 제안한 프레임워크는 텍스트 프리성, 다양성, 효율성, 전송 가능성 및 경제성을 포함한 몇 가지 주요 속성을 가지고 있습니다. SpeechGen 프레임워크의 기능을 입증하기 위해 단위 mBART를 사례 연구로 사용하고 음성 번역, 음성 복구 및 음성 지속이라는 세 가지 음성 생성 작업에 대한 실험을 수행합니다.
이 논문이 arXiv에 제출되었을 때 Google은 보다 발전된 음성 언어 모델인 SPECTRON을 제안했습니다. 이는 화자 및 감정과 같은 정보 모델링에서 음성 언어 모델의 가능성을 보여주었습니다. 이는 의심할 여지 없이 흥미로운 소식입니다. 고급 음성 언어 모델이 계속 제안됨에 따라 우리의 통합 프레임워크는 큰 잠재력을 가지고 있습니다.
위 내용은 Prompt는 음성 언어 모델 생성 기능을 잠금 해제하고 SpeechGen은 음성 번역 및 여러 작업 패치를 구현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!