음성 측면에서 Meta는 또 다른 LLaMA 수준의 이정표에 도달했습니다.
오늘 메타는 음성 기술에 혁명을 일으킬 MMS라는 대규모 다국어 음성 프로젝트를 시작합니다.
MMS는 1000개 이상의 언어를 지원하고 성경으로 훈련되었으며 오류율은 Whisper 데이터 세트의 절반에 불과합니다.
메타는 단 하나의 모델로 바벨탑을 쌓았습니다.
또한 Meta는 세계 언어의 다양성을 보호하는 데 기여하고자 모든 모델과 코드를 오픈 소스로 만들기로 결정했습니다.
이전 모델에서는 약 100개 언어를 지원할 수 있었지만 이번에는 MMS가 직접 이 숫자를 10~40배 늘렸습니다!
구체적으로 Meta는 1,100개 이상의 언어로 다국어 음성 인식/합성 모델, 4,000개 이상의 언어로 음성 인식 모델을 오픈했습니다.
다국어 ASR 모델은 OpenAI Whisper에 비해 11배 더 많은 언어를 지원하지만 54개 언어의 평균 오류율은 FLEURS의 절반 미만입니다.
그리고 ASR을 너무 많은 언어로 확장한 후에도 성능 저하가 매우 적습니다.
논문 주소: https://research.facebook.com/publications/scaling-speech-technology-to-1000-언어s/
음성을 인식하고 생성하는 능력을 갖춘 기계를 사용하면 더 많은 사람들이 정보에 접근할 수 있습니다.
그러나 이러한 작업을 위한 고품질 기계 학습 모델을 생성하려면 수천 시간의 오디오 및 필사본과 같은 엄청난 양의 레이블이 지정된 데이터가 필요합니다. 이는 대부분의 언어에 존재하지 않는 데이터입니다.
기존 음성 인식 모델은 약 100개 언어만 지원하며 이는 지구상에 알려진 7,000개 이상의 언어 중 극히 일부에 불과합니다. 걱정스럽게도 이들 언어 중 절반이 우리 생애 안에 사라질 위험에 처해 있습니다.
MMS(대규모 다국어 음성) 프로젝트에서 연구자들은 wav2vec 2.0(Meta의 자기 지도 학습 분야 선구적인 작업)과 새로운 데이터 세트를 결합하여 몇 가지 과제를 극복했습니다.
이 데이터 세트는 1,100개 이상의 언어로 레이블이 지정된 데이터를 제공하고 거의 4,000개 언어로 레이블이 지정되지 않은 데이터를 제공합니다.
wav2vec 2.0은 교차 언어 교육을 통해 여러 언어에서 사용되는 음성 단위를 학습합니다.
Tatuyo와 같은 일부 언어는 수백 명의 사용자만 사용하지만 대부분의 언어에 대해 , 음성 기술은 이전에는 존재하지 않았습니다.
결과를 보면 MMS 모델의 성능이 기존 모델보다 우수하고, 지원되는 언어 수도 기존 모델의 10배에 달하는 것으로 나타났습니다.
Meta는 항상 다국어 작업에 중점을 두었습니다. 텍스트 측면에서 Meta의 NLLB 프로젝트는 다국어 번역을 200개 언어로 확장했으며 MMS 프로젝트는 음성 기술을 더 많은 언어로 확장했습니다.
수천개 언어의 오디오 데이터를 수집하는 것은 간단한 문제가 아니며, 이는 메타 연구원들이 직면한 첫 번째 과제이기도 했습니다.
기존 최대 규모의 음성 데이터 세트에는 최대 100개 언어만 포함된다는 점을 아셔야 합니다. 이 문제를 극복하기 위해 연구자들은 성서와 같은 종교 문헌에 눈을 돌렸습니다.
이러한 유형의 텍스트는 다양한 언어로 번역되어 광범위한 연구에 사용되었으며 다양한 공개 녹음이 이루어졌습니다.
이를 위해 메타 연구진은 특별히 1,100개 이상의 언어로 된 신약성경 읽기 데이터 세트를 제작하여 언어당 평균 32시간의 데이터를 제공합니다.
다양한 종교 독서의 태그 없는 녹음과 결합하여 연구원들은 사용 가능한 언어 수를 4,000개 이상으로 늘렸습니다.
FLEURS 벤치마크에서 남성과 여성 화자의 오류율이 비슷한 MMS 데이터로 훈련된 자동 음성 인식 모델입니다.
이 데이터는 일반적으로 남성이 사용하지만 모델의 성능은 동일합니다. 남성과 여성의 목소리에.
그리고 녹음 내용이 종교적이었음에도 불구하고 모델이 더 종교적인 언어를 생산하는 쪽으로 지나치게 편향되지는 않았습니다.
연구원들은 이것이 음성 인식에 사용되는 대규모 언어 모델이나 시퀀스-시퀀스 모델보다 훨씬 더 제한적인 연결주의 시간 분류 방법을 사용했기 때문이라고 믿습니다.
연구원들은 먼저 데이터의 품질을 향상하고 기계 학습 알고리즘에 활용할 수 있도록 데이터를 전처리했습니다.
이를 위해 연구진은 100개 이상의 언어로 작성된 기존 데이터에 대한 정렬 모델을 훈련했으며 이 모델을 약 20분 이상 처리할 수 있는 효율적인 강제 정렬 알고리즘과 함께 사용하여 시간을 기록했습니다.
연구원들은 이 과정을 여러 번 반복하고 모델의 정확성을 기반으로 최종 교차 검증 필터링 단계를 수행하여 잠재적으로 잘못 정렬된 데이터를 제거했습니다.
다른 연구자들이 새로운 음성 데이터세트를 생성할 수 있도록 연구진은 PyTorch에 정렬 알고리즘을 추가하고 정렬 모델을 출시했습니다.
현재 각 언어별로 32시간의 데이터가 있지만 이는 전통적인 지도 음성 인식 모델을 훈련시키기에는 충분하지 않습니다.
이것이 바로 연구자들이 wav2vec 2.0에서 모델을 훈련하는 이유입니다. 이는 모델을 훈련하는 데 필요한 주석이 달린 데이터의 양을 크게 줄일 수 있습니다.
특히 연구원들은 1,400개 이상의 언어로 된 약 500,000시간의 음성 데이터에 대해 자기 지도 모델을 훈련시켰습니다. 이는 과거보다 거의 5배 더 많은 수치입니다.
그런 다음 연구자는 다국어 음성 인식이나 언어 인식과 같은 특정 음성 작업에 맞게 모델을 미세 조정할 수 있습니다.
대규모 다국어 음성 데이터에 대해 훈련된 모델의 성능을 더 잘 이해하기 위해 연구원들은 기존 벤치마크 데이터 세트에서 모델을 평가했습니다.
연구원들은 1B 매개변수 wav2vec 2.0 모델을 사용하여 1100개 이상의 언어에 대한 다국어 음성 인식 모델을 훈련했습니다.
언어 수가 증가할수록 성능은 감소하지만 이러한 감소는 미미합니다. 61개 언어에서 1107개 언어로 문자 오류율은 약 0.4%만 증가하지만 언어 적용 범위는 18개 이상 증가합니다. 타임스.
각 시스템에서 지원하는 언어 수를 61개에서 1,107개로 늘릴 때 MMS 데이터를 사용하여 훈련된 다국어 인식 시스템의 61개 FLEURS 언어에 대한 오류율. 오류율이 높을수록 성능이 저하됨을 나타냅니다
OpenAI의 Whisper와의 일대일 비교에서 연구자들은 대규모 다중 언어 음성 데이터로 훈련된 모델의 단어 오류율이 거의 절반에 달했지만 대규모 다중 언어 음성은 11배 더 많은 것을 포괄한다는 사실을 발견했습니다. 속삭임보다 언어.
데이터에서 현재 최고의 음성 모델과 비교할 때 Meta의 모델이 정말 잘 수행된다는 것을 알 수 있습니다.
54개 FLEURS 언어에 대한 OpenAI Whisper와 Massively Multilingual Speech의 단어 오류율 비교
다음으로 연구원들은 FLEURS 및 CommonVoice와 같은 기존 데이터 세트는 물론 자체 데이터 세트도 사용했습니다. LID(언어 식별) 모델은 4000개 언어에 대해 학습되고 FLEURS LID 작업에 대해 평가됩니다.
40배에 가까운 언어를 지원하더라도 성능이 매우 좋다는 사실이 입증되었습니다.
기존 작업의 VoxLingua-107 벤치마크에서 언어 인식 정확도는 100개 이상의 언어를 지원하는 반면 MMS는 4000개 이상의 언어를 지원합니다.
연구원들은 또한 1,100개 이상의 언어에 대한 텍스트 음성 변환 시스템을 구축했습니다.
대규모 다국어 음성 데이터의 한 가지 제한 사항은 많은 언어에 대해 상대적으로 적은 수의 화자가 포함되어 있으며 종종 단 한 명의 화자가 포함된다는 것입니다.
그러나 이 기능은 텍스트 음성 변환 시스템을 구축하는 데 이점이 있으므로 연구자들은 1,100개 이상의 언어에 대해 유사한 시스템을 훈련했습니다.
결과는 이러한 시스템에서 생성된 음성 품질이 나쁘지 않은 것으로 나타났습니다.
Meta의 연구원들은 결과에 만족하지만 모든 신흥 AI 기술과 마찬가지로 Meta의 현재 모델은 완벽하지 않습니다.
예를 들어, 음성-텍스트 모델은 선택한 단어나 문구를 잘못 쓸 수 있어 잠재적으로 불쾌하거나 부정확한 출력 결과를 초래할 수 있습니다.
동시에 메타는 책임 있는 AI 기술 개발을 위해서는 AI 거대 기업들의 협력이 중요하다고 믿습니다.
세계의 많은 언어가 사라질 위기에 처해 있으며, 현재 음성 인식 및 음성 생성 기술의 한계로 인해 이러한 추세는 더욱 가속화될 것입니다.
연구원들은 기술이 반대 효과를 가져오는 세상을 상상합니다. 즉, 사람들이 선호하는 언어를 사용하여 정보에 접근하고 기술을 사용할 수 있기 때문에 자신의 언어를 계속 유지하도록 장려하는 것입니다.
대규모 다국어 연설 프로젝트는 이러한 방향으로 나아가는 중요한 단계입니다.
앞으로 연구자들은 언어 적용 범위를 더욱 늘리고, 더 많은 언어를 지원하며, 심지어 방언을 처리하는 방법도 찾기를 희망합니다. 아시다시피 방언은 기존 음성 기술에 비해 단순하지 않습니다.
Meta의 궁극적인 목표는 사람들이 선호하는 언어로 더 쉽게 정보에 접근하고 기기를 사용할 수 있도록 하는 것입니다.
마지막으로 Meta 연구자들은 단일 모델이 모든 언어의 여러 음성 작업을 해결할 수 있는 미래 시나리오도 구상했습니다.
현재 Meta는 음성 인식, 음성 합성, 언어 인식을 위한 별도의 모델을 훈련하지만, 연구원들은 미래에는 단 하나의 모델만이 이러한 모든 작업 등을 완료할 수 있을 것이라고 믿습니다.
위 내용은 규모와 성능 면에서 OpenAI를 두 배로 죽이는 Meta Voice가 LLaMA 수준의 이정표에 도달했습니다! 오픈 소스 MMS 모델은 1100개 이상의 언어를 인식합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!