Volcano Engine은 오랫동안 인기 동영상 플랫폼에 음성 인식 기술을 기반으로 한 지능형 동영상 자막 솔루션을 제공해 왔습니다. 쉽게 말하면 AI 기술을 이용해 영상 속 음성과 가사를 자동으로 텍스트로 변환해 영상 제작을 돕는 기능이다. 그러나 플랫폼 사용자의 급속한 성장과 더욱 풍부하고 다양한 언어 유형에 대한 요구 사항으로 인해 전통적으로 사용되는 지도 학습 기술은 점점 병목 현상에 도달하여 팀에 큰 어려움을 안겨주었습니다.
우리 모두 알고 있듯이 전통적인 지도 학습은 특히 대규모 언어의 지속적인 최적화와 작은 언어의 콜드 스타트에서 수동으로 주석이 달린 지도 데이터에 크게 의존합니다. 중국어, 중국어, 영어와 같은 주요 언어를 예로 들면, 비디오 플랫폼은 비즈니스 시나리오에 충분한 음성 데이터를 제공하지만 감독된 데이터가 일정 규모에 도달한 후에는 지속적인 주석의 ROI가 매우 낮을 것입니다. 기술 인력은 대용량 언어 음성 인식 성능을 더욱 향상시키기 위해 수백 개의 지도 데이터를 효과적으로 활용하는 방법을 필연적으로 고려해야 합니다.
상대적으로 틈새 언어나 방언의 경우 자원, 인력 및 기타 이유로 인해 데이터 라벨링 비용이 높습니다. 레이블이 지정된 데이터가 거의 없는 경우(10시간 정도) 지도 교육의 효과가 매우 낮고 심지어 제대로 수렴하지 못할 수도 있으며, 구매한 데이터가 목표 시나리오와 일치하지 않고 요구 사항을 충족할 수 없는 경우도 있습니다. 사업.
따라서 화산엔진 스피치팀에서는 최대한 저렴한 라벨링 비용으로 대량의 비라벨 데이터를 최대한 활용할 수 있는 방법과, 적은 양의 라벨링 데이터로 인식 효과를 향상시키고, 이를 구현하는 방법에 대한 연구가 시급히 필요합니다. 실제 사업. 그래서 비지도 사전 훈련 기술은 비디오 플랫폼 ASR(자동 음성 인식/자동 음성 인식) 기능을 소규모 언어로 홍보하는 핵심이 되었습니다.
Wav2vec2.0[1], HuBERT[2] 등을 포함하여 최근 몇 년간 학계에서는 음성 비지도 사전 훈련 분야에서 많은 중요한 진전을 이루었지만 구현된 사례는 거의 없습니다. 업계 사례는 참고 자료로 활용될 수 있습니다. 전반적으로 Volcano Voice 팀은 다음 세 가지 이유가 비지도 사전 학습 기술의 구현을 방해한다고 믿습니다.
위의 세 가지 주요 문제점을 고려하여 알고리즘 개선 및 엔지니어링 최적화를 수행하여 완전하고 추진하기 쉬운 구현 계획을 수립했습니다. 이번 글에서는 구현 과정, 알고리즘 최적화, 엔지니어링 최적화까지 솔루션을 자세히 소개하겠습니다.
다음 그림은 저자원 언어 ASR의 비지도 사전 학습 구현 프로세스를 보여줍니다. 이는 대략 데이터 수집, 시드 모델 교육 및 모델 마이그레이션의 세 단계로 나눌 수 있습니다.
비지도 사전 훈련 기반 ASR 구현 프로세스
구체적으로 데이터 수집의 첫 번째 단계에서는 언어 전환, 조달 등을 통해 대상 언어의 레이블 없는 음성을 수집할 수 있습니다. 텍스트 전용 데이터.
시드 모델 훈련의 두 번째 단계는 전형적인 "비지도 사전 훈련 + 감독 미세 조정" 프로세스입니다. 이 단계에서는 일반적으로 연결주의 시간 분류(CTC[3]) 손실 함수를 기반으로 미세 조정되는 음향 모델을 얻습니다. 순수 텍스트에 대해 훈련된 언어 모델과 결합된 음향 모델은 완전한 음성 인식 시스템을 형성하여 좋은 인식 결과를 얻을 수 있습니다. 시드 모델이라고 불리는 이유는 이 모델이 바로 사업에 착수하기에는 적합하지 않기 때문입니다. Volcano 엔진은 LAS(Listen, Attend and Spell[4]) 또는 RNN-T(Recurrent Neural)를 선호합니다. 네트워크 변환기[ 5]) 이러한 유형의 엔드투엔드 모델은 온라인으로 배포됩니다.
가장 큰 이유는 LAS/RNN-T가 뛰어난 엔드투엔드 모델링 기능을 보유하는 동시에 최근 몇 년간 기존 CTC 모델보다 더 나은 결과를 얻었으며 업계에서 점점 더 많은 인정을 받고 있기 때문입니다. 산업. Volcano Engine은 엔드투엔드 음성 인식 모델의 추론 및 배포에 대해 많은 최적화 작업을 수행했으며 많은 비즈니스를 지원하는 비교적 성숙한 솔루션을 형성했습니다. 손실 없이 효과를 유지한다는 전제하에, 엔드 투 엔드 추론 엔진을 사용할 수 있다면 엔진의 운영 및 유지 비용을 크게 줄일 수 있다.
이를 바탕으로 팀은 모델 마이그레이션 단계인 세 번째 단계를 설계했습니다. 주로 지식 증류 아이디어를 활용하고, 시드 모델을 사용하여 레이블이 지정되지 않은 데이터에 의사 레이블을 붙인 다음 훈련용 매개 변수 수가 더 적은 LAS 모델을 제공하여 모델 구조 마이그레이션을 동시에 실현합니다. 추론 계산의 압축. 전체 프로세스의 효율성은 광동어 ASR에서 검증되었습니다. 구체적인 실험 결과는 다음 표에 나와 있습니다.
먼저, 실험 비교를 위해 팀에서는 완제품 데이터 1kh를 구입했습니다. LAS 모델의 성능을 직접 훈련시켜 문자 오류율(Character Error Rate, CER)이 44.2%에 달합니다. 분석 결과 Volcano Engine은 조달 데이터(대화)와 비즈니스 테스트 세트(비디오) 필드 간의 불일치가 주된 원인이라고 생각합니다. wav2vec2.0에 대한 예비 실험에서도 유사한 현상이 발견되었습니다.
사전 훈련을 위해 조달 데이터를 사용하는 것과 비교하여 Volcano 엔진은 사전 훈련을 위해 대상 필드와 일치하는 데이터를 사용합니다. 레이블이 없는 비즈니스의 CER은 42.0%에서 29.4%로 감소할 수 있습니다. 시나리오 데이터가 50kh로 누적되면 모델 매개변수가 100M에서 300M로 증가하고 CER은 23.1%로 더욱 감소합니다.
마지막으로 Volcano 엔진은 광동어 모델을 결합하여 레이블이 없는 50kh 데이터를 디코딩하여 의사 레이블을 얻고 LAS 모델을 훈련했습니다. Pseudo-label training을 기반으로 한 LAS 모델은 기본적으로 CTC 시드 모델의 인식 효과를 유지할 수 있으며, 모델 매개변수 수가 1/3로 줄어들고, 직접 배포 및 출시가 가능함을 알 수 있습니다. 성숙한 엔드투엔드 추론 엔진.
모델 매개변수 양과 CER의 비교
결국 모델 구조와 매개변수 양이 변하지 않는다는 전제 하에 팀은 레이블이 지정되지 않은 비즈니스 데이터 50kh와 10h를 사용하여 23.0%를 달성했습니다. 레이블이 지정된 비즈니스 데이터의 CER은 기준 모델에 비해 48% 감소합니다. 온라인 계산 및 호환성 문제를 해결한 후 전체 프로세스에서 핵심적인 비지도 사전 학습 기술에 집중했습니다. wav2vec2.0의 경우 Volcano 엔진은 알고리즘과 엔지니어링이라는 두 가지 차원에서 최적화되었습니다.
wav2vec2.0은 Meta AI가 2020년에 제안한 자기지도 사전 학습 모델로 비지도 표현 음성 표현 학습의 새로운 장을 엽니다. 핵심 아이디어는 양자화 모듈을 사용하여 입력 특징을 이산화하는 것이며, 비교 학습 최적화를 통해 모델 본체는 BERT와 유사한 랜덤 마스크 부분 입력 특징을 구현합니다.
wav2vec2.0 모델 구조 다이어그램 (출처: wav2vec 2.0 그림 1 [1])
또한 비즈니스 데이터에 대해 wav2vec 2.0 모델을 교육할 때 두 가지 까다로운 문제에 직면했습니다. 하나는 낮은 교육 효율성, 300M 규모입니다. 64개 카드 모델의 훈련을 완료하는 데 10일이 넘게 걸리며, 다른 하나는 훈련이 불안정하고 갈라지기 쉽다는 것입니다. 위의 두 가지 문제를 완화하기 위해 이 Volcano 엔진에 효율적인 wav2vec이 제안되었습니다.
낮은 훈련 효율성 문제를 해결하기 위해 팀에서는 모델의 프레임 속도를 줄이고, 입력 기능을 파형에서 필터뱅크로 교체하고, 프레임 속도를 원래 20ms에서 40ms로 변경하여 훈련 속도를 높였습니다. 이는 특징 추출 컨볼루션의 계산량을 크게 줄일 뿐만 아니라 Transformer의 내부 인코딩 길이를 크게 줄여 훈련 효율성을 향상시킵니다. 불안정한 훈련의 문제는 비지도 사전 훈련의 학습 방법과 비즈니스 데이터의 실제 상황을 결합한 종합적 판단을 통해 해결합니다. 비교 학습 손실은 다음 공식으로 표현됩니다.
각 프레임 t에 대해c
t 는 프레임의 인코더 출력을 나타내고, qt 는 프레임의 양자화 출력을 나타냅니다. 또한 여러 다른 프레임을 네거티브 샘플로 샘플링해야 하므로 현재 프레임과 네거티브 샘플 프레임의 집합은 동적으로 구성된 어휘 Qt와 동일합니다. 대조 학습의 최적화 목표는 현재 프레임 인코딩과 프레임의 양자화 결과 간의 유사성을 최대화하는 동시에 현재 프레임 인코딩과 다른 프레임의 양자화 결과 간의 유사성을 최소화하는 것입니다. Negative 샘플과 Positive 샘플 간의 유사성과 Negative 샘플의 수가 대조 학습의 효과를 직접적으로 결정한다는 것을 찾는 것은 어렵지 않습니다. 실제 운영에서 비즈니스 데이터의 평균 길이는 짧고, 한 문장에 50개의 네거티브 샘플만 제공하기에는 턱없이 부족합니다. 인접한 음성 프레임 간의 유사성이 매우 높다는 점을 고려하면 마스크 영역의 연속성을 보장해야 하므로 표현 재구성의 어려움이 높아집니다.
위의 두 가지 문제를 해결하기 위해 Volcano Engine은 두 가지 개선 사항을 제안했습니다. 세트는 문장의 시작과 끝으로 구성된 각 오디오 조각으로 구성된 것으로 간주되며, 각 훈련 샘플은 고정된 길이로 잘립니다. 이는 음성 샘플의 수가 충분하고 컨텍스트 인코딩 네트워크 내의 길이가 다양한 프레임 속도에서 일관되도록 하여 훈련의 견고성을 보장하기 위해 수행됩니다.
적응형 연속 마스크:
팀이 제안한 Efficient wav2vec은 알고리즘 수준에서 훈련 효율성을 거의 두 배로 높였지만 300M 모델의 큰 통신량으로 인해 훈련 통신이 여전히 변동적이고 다중 기계 확장 효율성이 낮습니다. 이에 볼케이노 엔진 보이스팀은 “동기 경사 시나리오에서 모델 사전 훈련의 통신 효율성을 높이기 위해 BytePS 분산 훈련 프레임워크를 기반으로 통신 백엔드에서 버킷 그룹 통신 최적화 기술을 완성했으며, 데이터 병렬 효율성은 동시에 10% 향상될 수 있습니다. 모델 매개변수 정의 및 그라데이션 업데이트 순서의 서로 다른 순서로 인해 발생하는 대기 문제를 해결하기 위해 적응형 매개변수 재정렬(매개변수 재정렬) 전략도 구현됩니다. . "이러한 최적화를 바탕으로 그래디언트 누적 등과 더욱 결합됩니다. 기술로 300M 모델의 단일 카드 확장 효율이 55.42%에서 81.83%로 증가했으며, 다중 머신 확장 효율이 에서 증가했습니다. 원래 학습하는 데 6.5일이 걸렸던 모델을 이제 단 4일 만에 학습할 수 있어 시간이 40% 단축됩니다.
또한 향후 탐사를 위한 대형 모델 빅데이터 시나리오를 지원하기 위해 Volcano Engine 음성 팀은 일련의 초대형 모델에 대한 원자 성능 구축을 더욱 완료했습니다. 첫째, 옵티마이저가 차지하는 중복 메모리를 대부분 제거하면서 머신 간 확장 효율성 문제를 해결하는 로컬 OSS 기술을 구현했습니다. 이후 동기식 그래디언트 통신에서 버킷 지연 초기화를 지원하여 매개변수를 두 배로 늘렸습니다. 많은 양의 비디오 메모리를 소비하여 최대 비디오 메모리를 크게 줄이고 비디오 메모리 리소스가 부족한 매우 큰 모델 시나리오에 적응합니다. 마지막으로 데이터 병렬성을 기반으로 모델 병렬성과 파이프라인 병렬성을 지원하고 검증 및 맞춤형 지원을 제공합니다. 1B 및 10B 모델에서 완성되었습니다. 이러한 일련의 최적화는 대규모 모델 및 빅 데이터 교육을 위한 견고한 기반을 마련합니다.
현재 저자원 ASR 구현 프로세스를 채택하여 두 가지 저자원 언어가 비디오 자막 및 콘텐츠 보안 서비스를 성공적으로 구현했습니다. 음성 인식 외에도 wav2vec2.0을 기반으로 한 사전 훈련 모델은 오디오 이벤트 감지, 언어 인식, 감정 감지 등을 포함한 다른 많은 다운스트림 작업에서도 상당한 이점을 얻었으며 점차 비디오 콘텐츠 보안에 구현될 예정입니다. , 추천 및 분석, 오디오 오프로딩, 전자상거래 고객 서비스 감정 분석 및 기타 관련 사업을 수행합니다. 비지도 사전 학습 기술을 구현하면 다양한 유형의 오디오 데이터에 레이블을 지정하는 비용을 크게 줄이고 레이블 지정 주기를 단축하며 비즈니스 요구에 대한 신속한 대응을 달성할 수 있습니다.
실제로 Volcano 엔진은 wav2vec2.0 기반의 저자원 언어 ASR 구현 솔루션을 탐색했습니다. 이는 높은 추론 오버헤드 문제를 해결하고 엔드투와 원활한 통합을 달성합니다. -끝 엔진. wav2vec2.0의 낮은 훈련 효율성과 불안정성의 핵심 문제를 해결하기 위해 Efficient wav2vec이 제안되었습니다. wav2vec2.0과 비교하여 다운스트림 작업에 대한 효과가 5% 향상되고 사전 학습 시간이 절반으로 단축되었으며 엔지니어링 최적화와 결합되어 최종 사전 학습 시간이 원래 버전에 비해 70% 단축되었습니다. 향후에도 볼케이노 엔진은 다음 세 가지 방향으로 계속 탐색해 나갈 것입니다.
ByteDance의 다양한 비즈니스 라인에서 오랫동안 사용되어 온 최첨단 음성 기술인 Volcano Voice는 Volcano Engine을 통해 개방되어 업계 최고의 AI 음성 기술 기능과 오디오 이해를 포함한 우수한 풀 스택 음성 제품 솔루션을 제공합니다. 오디오 합성, 가상 디지털 사람, 대화 상호 작용, 음악 검색, 지능형 하드웨어 등 현재 Volcano Engine의 음성 인식 및 음성 합성은 다양한 언어와 방언을 다루고 있으며 Douyin, Jianying, Feishu, Tomato Novels, Pico 및 기타 비즈니스에 선도적인 음성 기능을 제공하고 있습니다. 단편 영상, 라이브 방송, 영상 제작, 사무실, 웨어러블 기기 등 다양한 시나리오에 적합합니다.
참고자료
[1] Baevski, A., Zhou, Y., Mohamed, A. 및 Auli, M., 2020. wav2vec 2.0: 음성 표현의 자기 지도 학습을 위한 프레임워크가 발전합니다. 신경 정보 처리 시스템, 33, pp.12449-12460.
[2] Hsu, W.N., Bolte, B., Tsai, Y.H.H., Lakhotia, K., Salakhutdinov, R. 및 Mohamed, A . , 2021. Hubert: 숨겨진 단위의 마스크 예측을 통한 자기 지도 음성 표현 학습. 오디오, 음성 및 언어 처리에 대한 IEEE/ACM 트랜잭션, 29, pp.3451-3460.
[3] Graves , A., Fernández, S., Gomez, F. 및 Schmidhuber, J., 2006년 6월. 연결주의적 시간 분류: 순환 신경망을 사용하여 분할되지 않은 시퀀스 데이터에 라벨 지정 기계 학습에 관한 제23차 국제 컨퍼런스 진행 중(pp. 369 - 376).
[4] Chan, W., Jaitly, N., Le, Q. and Vinyals, O., 2016, 3월: 대규모 어휘 대화 연설을 위한 신경망. 2016년 IEEE 음향, 음성 및 신호 처리에 관한 국제 컨퍼런스(ICASSP)(pp. 4960-4964) IEEE.
[5] Graves, A., 2012. 순환 신경망을 사용한 서열 변환. arXiv 사전 인쇄 arXiv:1211.3711.
[6] He, K., Chen, X., Xie, S., Li, Y., Dollár, P. and Girshick, R., 2022. 마스크 자동 인코더는 다음과 같습니다. 확장 가능한 비전 학습자. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 간행물(pp. 16000-16009).
[7] Baevski, A., Hsu, W.N., Xu, Q., Babu, A., Gu, J. 및 Auli, M., 2022. Data2vec: 말하기, 시각 및 언어 분야의 자기 지도 학습을 위한 일반적인 프레임워크입니다. arXiv 사전 인쇄 arXiv:2202.03555.
[8] Conneau, A., Baevski, A., Collobert, R., Mohamed, A. and Auli, M., 2020. 비지도 언어 표현 학습 인식. arXiv 사전 인쇄 arXiv:2006.13979.
[9] Lu, Y., Huang, M., Qu, X., Wei, P. and Ma, Z., 2022, May. 희소 공유 하위 네트워크를 통한 언어 적응형 교차 언어 음성 표현 학습. ICASSP 2022-2022 IEEE 음향, 음성 및 신호 처리에 관한 국제 컨퍼런스(ICASSP)(pp. 6882-6886). IEEE.
[10] Park, D.S., Zhang, Y., Jia, Y., Han, W., Chiu, C.C., Li, B., Wu, Y. and Le, Q.V., 2020. 자동 음성 인식을 위한 시끄러운 학생 교육이 개선되었습니다. arXiv 사전 인쇄 arXiv:2005.09629.
위 내용은 Huoshan Voice의 비지도 사전 학습 기술 구현 및 '알고리즘 최적화 + 엔지니어링 혁신'에 대한 심층 탐구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!