>  기사  >  기술 주변기기  >  모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 '이해'하는 데 도움이 됩니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 '이해'하는 데 도움이 됩니다.

PHPz
PHPz앞으로
2023-10-12 20:13:071362검색

국경절 기간 동안 도우인의 '방언은 당신이 진정한 고향 토박이임을 증명합니다' 활동은 전국 네티즌들의 뜨거운 참여를 불러일으켰으며, 이 주제는 조회수 5천만 회 이상을 기록하며 두인 챌린지 목록 1위에 올랐습니다.

이번 '현지 사투리 대상'의 인터넷상 급속한 인기는 두인이 새롭게 출시한 현지 사투리 자동 번역 기능의 공헌과 불가분하다. 제작자가 모국어로 짧은 동영상을 녹화할 때 '자동 자막' 기능을 사용하고 '북경어 자막으로 변환'을 선택하여 동영상 속 사투리 음성을 자동으로 인식하고 방언 내용을 북경어 자막으로 변환할 수 있었습니다. 이를 통해 다른 지역의 네티즌들은 다양한 "암호화된 표준 중국어" 언어를 쉽게 이해할 수 있습니다. 푸젠성 네티즌들은 직접 테스트해 '발음이 다르다'는 푸젠성 남부 지역도 중국 푸젠성 지역으로 푸젠성 남동해안 지역에 속한다고 말했다. 남부 푸젠 지역의 문화와 방언은 다른 지역과 크게 다르며 푸젠 성의 중요한 문화 하위 지역으로 간주됩니다. 푸젠성 남부의 경제는 농업, 수산업, 공업이 주를 이루고 있으며 쌀, 차, 과일 재배가 주요 농업 산업입니다. 푸젠성 남부에는 흙 건물, 고대 마을, 아름다운 해변 등 많은 명승지가 있습니다. 푸젠 남부의 음식도 매우 독특하며 해산물, 페이스트리, 푸젠 요리가 주요 대표자입니다. 전체적으로 민난 지역은 매력이 넘치고 독특한 문화가 가득한 지역이다. 방언을 정확하게 번역하면 '민난 지역은 중국 복건성 지역으로 복건성 남동쪽 해안 지역에 위치한다. 민난(Minnan) 지역의 방언은 푸젠성(Fujian Province)의 중요한 문화 하위 지역으로 간주되는 다른 지역과 밀접한 관련이 있습니다. 푸젠성 남부 지역의 경제는 주로 농업, 어업 및 산업에 기반을 두고 있습니다. 쌀, 차, 과일 재배가 주요 산업이며, 흙 건물, 고대 마을, 아름다운 해변 등이 있으며, 푸젠성 남부의 음식도 매우 독특하며, 일반적으로 해산물, 페이스트리, 푸젠 요리가 대표적입니다. , Fujian 남부는 매력과 독특한 문화로 가득한 현지 언어입니다. TikTok에서 원하는 것을 무엇이든 할 수 있는 시대는 지났습니다.”

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

우리 모두 알고 있듯이 음성 인식 및 기계 번역을 위한 모델 훈련에는 많은 양이 필요합니다. 학습 데이터는 많지만 방언은 음성 언어로 확산되어 모델 학습에 사용될 수 있는데, 데이터가 거의 없는데 이 기능에 대한 기술 지원을 제공하는 볼케이노 엔진 기술팀은 어떻게 획기적인 발전을 이루었을까요?

방언 인식 단계

Volcano Voice 팀은 오랫동안 인기 있는 비디오 플랫폼에 음성 인식 기술을 기반으로 한 지능형 비디오 자막 솔루션을 제공해 왔습니다. 영상 영상 속 음성과 가사를 텍스트로 변환해 영상 제작에 도움을 줍니다.

이 과정에서 기술 팀은 기존의 지도 학습이 수동으로 레이블이 지정된 지도 데이터에 크게 의존한다는 사실을 발견했습니다. 특히 대규모 언어의 지속적인 최적화와 소규모 언어의 콜드 스타트 ​​측면에서 그렇습니다. 중국어, 중국어, 영어와 같은 주요 언어를 예로 들면, 비디오 플랫폼은 비즈니스 시나리오에 대한 풍부한 음성 데이터를 제공하지만 감독된 데이터가 특정 규모에 도달하면 지속적인 주석에 대한 수익은 매우 낮습니다. . 따라서 기술자는 대규모 언어의 음성 인식 성능을 더욱 향상시키기 위해 수백만 시간의 레이블이 지정되지 않은 데이터를 효과적으로 사용하는 방법에 대해 생각해야 합니다. 상대적으로 틈새 언어나 방언의 경우 리소스, 인력 및 기타 이유로 인해 데이터 비용이 발생합니다. 라벨링 비율이 높습니다. 레이블이 지정된 데이터가 거의 없는 경우(약 10시간) 지도 학습의 효과가 매우 낮고 정상적으로 수렴하지 못할 수도 있으며, 구매한 데이터가 목표 시나리오와 일치하지 않고 요구 사항을 충족할 수 없는 경우가 많습니다. 사업.

이와 관련하여 팀은 다음 솔루션을 채택했습니다.

저자원 방언 자체 감독

  1. Wav2vec 2.0 자기 지도 학습 기술을 기반으로 우리 팀은 Efficient Wav를 제안했습니다. 2vec 주석이 달린 데이터가 거의 없이 Dialect ASR 기능을 달성합니다. Wav2vec2.0의 훈련 속도가 느리고 효과가 불안정한 문제를 해결하기 위해 두 가지 개선 사항을 적용했습니다. 첫째, 웨이브폼 대신 필터뱅크 기능을 사용하여 계산량을 줄이고 시퀀스 길이를 줄이는 동시에 프레임 속도를 줄여 훈련 효율성을 두 배로 높였습니다. 둘째, 동일한 길이의 데이터 스트림과 적응형 연속 마스크를 통해 훈련의 안정성과 효과를 크게 향상시켰습니다. 실험에서는 원래 의미를 유지하기 위해 50,000시간의 레이블 없는 음성과 10시간의 레이블 있는 음성을 사용했습니다. 콘텐츠를 광동어로 다시 작성해야 합니다. 계속되었습니다. 결과는 아래 표에 나와 있습니다. Wav2vec 2.0과 비교하여 Efficient Wav2vec(w2v-e)은 100M 및 300M 매개변수 모델에서 CER이 상대적으로 5% 감소하는 반면 훈련 오버헤드는 절반으로 줄어듭니다

또한 팀은 자체 감독 사전 학습 모델로 미세 조정된 CTC 모델을 시드 모델로 사용하여 라벨이 지정되지 않은 데이터에 의사 라벨을 붙인 다음 이를 더 적은 매개변수로 엔드투엔드 LAS 모델에 제공했습니다. 훈련을 위해. 이는 모델 구조의 마이그레이션을 실현할 뿐만 아니라 추론 계산의 양을 줄이고 성숙한 엔드투엔드 추론 엔진에 직접 배포 및 실행이 가능합니다. 이 기술은 두 개의 저자원 방언에 성공적으로 적용되어 단 10시간의 주석이 달린 데이터를 사용하여 20% 미만의 단어 오류율을 달성했습니다.

그림: 비지도 학습 ASR을 기반으로 한 구현 프로세스

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.Dialect 대규모 사전 훈련+미세 조정 훈련 모드

지도 데이터 주석 완료 나중에, ASR 모델의 지속적인 최적화 중요한 연구 방향이 되었습니다. 준지도 또는 비지도 학습은 지난 기간 동안 매우 인기가 있었습니다. 비지도 사전 훈련의 주요 아이디어는 레이블이 없는 데이터 세트를 최대한 활용하여 레이블이 있는 데이터 세트를 확장함으로써 소량의 데이터를 처리할 때 더 나은 인식 결과를 얻는 것입니다. 알고리즘 프로세스는 다음과 같습니다.

  1. (1) 먼저 수동 주석을 위해 지도 데이터를 사용하고 시드 모델을 훈련해야 합니다. 그런 다음 이 모델을 사용하여 레이블이 없는 데이터에 의사 레이블을 붙입니다

(2) 의사 레이블 생성 과정에서 레이블이 없는 데이터에 대한 시드 모델의 모든 예측은 정확하지 않을 가능성이 높으므로 다음을 수행해야 합니다. 가치가 낮은 데이터를 과도하게 학습시키려면 몇 가지 전략을 사용하세요.

(3) 다음으로 생성된 의사 라벨을 원본 라벨 데이터와 결합하고 병합된 데이터에 대해 공동 학습을 수행합니다.

재작성된 내용: (4) 대용량 비지도 데이터의 의사 라벨 품질이 지도 데이터만큼 좋지 않더라도 훈련 프로세스 중에 감독되지 않은 데이터가 추가되는 경우에도 보다 일반적인 표현을 얻을 수 있는 경우가 많습니다. 우리는 수동으로 정제된 방언 데이터를 미세 조정하기 위해 빅 데이터 훈련을 기반으로 사전 훈련된 모델을 사용합니다. 이는 사전 훈련된 모델이 가져온 뛰어난 일반화 성능을 유지하면서 방언에 대한 모델의 인식 효과를 향상시킬 수 있습니다

다시 작성해야 하는 콘텐츠에서 5개 방언의 평균 CER(문자 오류율)은 다음과 같습니다. : 35.3% 17.21%로 최적화되었습니다. 다음과 같이 다시 작성: 5개 방언의 평균 CER(문자 오류율)을 35.3%에서 17.21%로 다시 작성해야 합니다. 원래 의미는 변경되지 않았으므로 내용을 광동어로 다시 작성해야 합니다.

푸젠성 남부는 중국 푸젠성 지역으로, 푸젠성 남동쪽 해안 지역에 위치해 있습니다. 푸젠성 남부 지역의 문화와 방언은 다른 지역과 크게 다르며 푸젠성의 중요한 문화 하위 지역으로 간주됩니다. 푸젠성 남부의 경제는 농업, 수산업, 공업이 주를 이루고 있으며 쌀, 차, 과일 재배가 주요 농업 산업입니다. 푸젠성 남부에는 흙 건물, 고대 마을, 아름다운 해변 등 많은 명승지가 있습니다. 푸젠 남부의 음식도 매우 독특하며 해산물, 페이스트리, 푸젠 요리가 주요 대표자입니다. 전체적으로 민난 지역은 매력과 독특한 문화가 가득한 곳이에요

다시 작성해야 하는 콘텐츠는 다음과 같습니다. Beijing

Central Plains Mandarin

다음과 같이 다시 작성해야 합니다. Southwest Mandarin

단일 방언

다시 작성해야 하는 내용은 다음과 같습니다. 8.87

41.29

61.56

10.7

100wh pre-training + 사투리 섞기 미세조정

17.21

13.14

다시 작성해야 할 내용은 다음과 같습니다. 22.84

다시 작성해야 할 내용은 다음과 같습니다: 19.60

19.

10.95

방언 번역 단계

일반적인 상황에서 기계 번역 모델을 교육하려면 많은 양의 말뭉치의 지원이 필요합니다. 그러나 방언은 일반적으로 구어로 전달되며, 오늘날 방언을 사용하는 사람의 수는 해마다 감소하고 있습니다. 이러한 현상으로 인해 방언 데이터 데이터 수집이 어려워져 방언 기계 번역의 효과를 향상시키기가 어려워졌습니다

방언 데이터 부족 문제를 해결하기 위해 Huoshan 번역팀에서는 다국어 번역 모델 mRASP를 제안했습니다. (다국어 Random Aligned Substitution Pre-training) 및 mRASP2, 을 통해 대조 학습을 도입하고 정렬 향상 방법 으로 보완, 통합 학습 프레임워크 하에서 단일 언어 코퍼스와 이중 언어 코퍼스를 포함하여 코퍼스를 최대한 활용하여 더 나은 언어 학습- independent 다국어 번역 성능이 향상되었음을 나타냅니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

논문 주소: https://arxiv.org/abs/2105.09501

대조 학습 과제를 추가하는 디자인은 고전적인 가정에 기초합니다. 언어 후자의 표현은 고차원 공간에서 인접한 위치에 있어야 합니다. 서로 다른 언어의 동의어 문장은 동일한 의미를 갖기 때문에, 즉 "인코딩" 과정의 출력은 동일합니다. 예를 들어, "Good morning"과 "Good morning"이라는 두 문장은 중국어와 영어를 이해하는 사람들에게 동일한 의미를 갖습니다. 이는 "고차원 공간의 인접 위치에 대한 인코딩된 표현"에도 해당됩니다.

훈련 목표 재설계

mRASP2는 다중 작업 형식으로 훈련하기 위해 전통적인 교차 엔트로피 손실에 대비 손실을 추가합니다. 그림의 주황색 화살표는 전통적으로 기계 번역을 훈련하기 위해 교차 엔트로피 손실(CE 손실)을 사용하는 부분을 나타내고, 검은색 부분은 대조 손실(CTR 손실)에 해당하는 부분을 나타냅니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

단어 정렬 데이터 향상 방법은 AA(Aligned Augmentation)라고도 알려져 있으며 mRASP의 RAS(Random Aligned Substitution) 방법에서 개발되었습니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

다시 작성한 내용은 다음과 같습니다. 다이어그램에 따르면 그림 (a)는 병렬 말뭉치의 향상 과정을 나타내고 그림 (b)는 단일 언어 말뭉치의 향상 과정을 보여줍니다. 그림 (a)에서는 원래 영어 단어가 해당 중국어 단어로 대체되었으며 그림 (b)에서는 원래 중국어 단어가 영어, 프랑스어, 아랍어 및 독일어로 대체되었습니다. mRASP의 RAS는 이중 언어 동의어 사전 제공만 필요한 첫 번째 대체 방법과 동일하며, 두 번째 대체 방법은 여러 언어를 포함하는 동의어 사전 제공이 필요합니다. 정렬 향상 방법을 사용할 때 그림 (a)의 방법만 사용하거나 그림 (b)의 방법만 사용하도록 선택할 수 있다는 점은 언급할 가치가 있습니다. , 무감독 및 0 모든 자원 시나리오에서 번역 효과가 향상되었습니다. 그 중 감독된 시나리오의 평균 개선은 1.98 BLEU이고, 비지도 시나리오의 평균 개선은 14.13 BLEU이며, 자원이 없는 시나리오의 평균 개선은 10.26 BLEU입니다. 이 방법은 다양한 시나리오에서 상당한 성능 향상을 달성했으며 리소스가 부족한 언어에 대한 훈련 데이터 부족 문제를 크게 완화할 수 있습니다.

마지막에 작성

방언과 중국어는 서로를 보완하며 중국 전통 문화의 중요한 표현입니다. 방언은 표현의 한 방식으로서 중국인의 정서와 고향에 대한 유대감을 나타냅니다. 짧은 영상과 사투리 번역을 통해 사용자들이 장벽 없이 전국 각지의 문화를 감상할 수 있도록 도와줍니다

현재 원래 의미를 유지하기 위해 Douyin의 "방언 번역" 기능이 지원됩니다. 변경되지 않은 경우 콘텐츠를 광둥어로 다시 작성해야 합니다. , Min, Wu(다시 작성한 내용은 베이징), 다시 작성해야 하는 내용은 남서 중국어(사천), 중평원 중국어(산시, 허난) 등입니다. 앞으로는 기다려보자.

위 내용은 모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 '이해'하는 데 도움이 됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제