텍스트/첸겐
당신은 얼마나 많은 언어를 알고 있나요? 관련 정보에 따르면 전 세계에는 7,000개 이상의 언어가 있습니다. 그러나 우리는 그 중 몇 개 또는 수십 개만 알고 있을 수도 있습니다. 현재 컴퓨터 음성 인식 기술은 100가지 이상의 유형을 다룰 수 있습니다. 많은 사람들에게 이것은 천문학적인 수치입니다. 그러나 Meta의 새로운 오픈 소스 언어 모델은 훨씬 더 큰 발전을 이루었습니다.
OpenAI와 Google과 결별한 이후 Meta는 오픈소스 대형 모델의 방향으로 점점 더 깊이 나아갔습니다. 최근 GitHub에 있는 Meta의 새로운 오픈 소스 AI 언어 모델인 대규모 다국어 음성(MMS, Massively Multilingual Speech)은 현재 알려진 기술보다 40배 더 많은 4,000개 이상의 음성 언어를 인식할 수 있으며 텍스트 및 음성-음성 변환 기술도 확장합니다. 약 100개 언어부터 1,100개 이상의 언어까지 다양합니다. 그뿐만 아니라 Meta의 오픈소스 MMS의 가장 뛰어난 특징은 ASR뿐만 아니라 TTS도 지원한다는 점입니다. 즉, 음성을 텍스트로 변환할 수 있을 뿐만 아니라 텍스트를 음성으로 변환할 수도 있습니다.
Meta의 공식 웹사이트 블로그에는 수백 명만이 사용하는 작은 언어인 Tatuyo가 구체적으로 언급되어 있습니다. 일상적인 사용에는 거의 사용되지 않지만 연구를 위한 좋은 보조 도구입니다. 그렇다면 수백 명만이 사용하는 이 작은 언어에 대한 데이터 세트를 어떻게 찾고 효과적으로 개선할 수 있을까요?
메타는 수천개 언어로 된 오디오 데이터를 수집하는 과정에서 파격적인 방법, 즉 종교적 텍스트 녹음을 사용했다고 말했습니다. "우리는 다양한 언어로 번역되었으며 텍스트 기반 언어 번역 연구를 위해 그 번역이 널리 연구된 종교 텍스트(성경 등)에 의존합니다. 더욱이 이러한 번역에는 사람들이 다양한 언어를 채택한 기록이 공개적으로 이용 가능합니다. 언어 읽기의 맥락.”
동시에 Meta는 MMS 모델 교육에 회사의 "자기 감독 음성 표현 학습" 모델 wav2vec 2.0을 사용하여 기계가 레이블이 지정된 교육 데이터에 의존하지 않고 학습할 수 있도록 하며 더 적은 훈련 시간으로 학습할 수 있습니다. 데이터에 대한 음성 인식 모델.
이 접근 방식으로 인해 발생할 수 있는 모델 편향에 대해 Meta는 다음과 같이 주장했습니다. “이러한 데이터는 특정 영역에서 왔으며 일반적으로 남성이 읽는 반면, 우리의 분석에 따르면 우리 모델은 남성과 여성의 목소리에서 똑같이 잘 작동합니다. 녹음은 종교적이지만 우리의 분석에 따르면 이것이 모델을 더 종교적인 언어로 만드는 쪽으로 편향되지는 않습니다.”
1B 매개변수 wav2vec 2.0 모델을 사용하여 1,100개 이상의 언어에 대한 다국어 음성 인식 모델을 훈련할 때 개발자는 언어 수가 증가함에 따라 성능이 약간 감소하지만 61개 언어에서 1107개 언어에서 문자 오류율은 약 0.4% 증가에 그쳤지만 언어 적용 범위는 17배 이상 증가했습니다. ”
이번 이슈에 대해 Meta는 OpenAI의 Whisper와도 자세히 비교했습니다. 데이터로 훈련된 모델은 단어 오류율이 절반에 달했고 훈련 데이터는 더 적었습니다. Meta의 훈련 데이터에는 주석이 달린 데이터가 45,000시간에 불과했는데, 이는 그보다 높은 수치입니다. Whisper는 10배 더 적은 언어 지원과 10배 더 많은 언어 지원을 제공합니다. 이는 큰 개선입니다. 그러나 Meta는 또한 새로운 모델이 완벽하지 않다고 말했습니다. "예를 들어 음성-텍스트 모델이 선택한 단어나 문구를 잘못 표기할 수 있는 위험이 있습니다. 그러나 우리는 여전히 전체 AI 커뮤니티의 협력이 중요하다고 믿습니다. "AI 기술을 독립적으로 개발하는 것이 중요합니다." Meta는 이제 연구 커뮤니티의 다른 사람들이 이 작업을 기반으로 구축할 수 있도록 관련 모델과 코드를 오픈 소스화했습니다.
Meta는 대규모 음성 모델의 미래를 완전히 구상하지는 않았지만 그렇게 할 수 있기를 바라며 하나의 모델이 모든 언어의 여러 음성 작업을 해결할 수 있기를 바랍니다. Meta는 "우리는 음성 인식, 음성 합성 및 언어 인식을 위해 다양한 모델을 훈련했지만 앞으로는 하나의 모델이 이러한 모든 작업과 그 이상을 수행할 수 있어 전반적인 성능이 향상될 것이라고 믿을 이유가 있습니다"라고 말했습니다.
앞으로 Meta는 MMS의 적용 범위를 확장하여 더 많은 언어를 지원하고 방언 처리를 개선하기를 희망합니다. 전 세계 사람들 사이의 언어 장벽을 더욱 허물어 세계 각지의 사람들이 소리를 통해 정상적으로 의사소통할 수 있도록 합니다. 이것은 아름다운 비전이지만, 우리는 이런 날이 조만간 올 것이라고 믿습니다.
위 내용은 Chen Gen: Meta가 주도하여 AI 대형 모델 MMS 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!