지난 10년 동안 학술 및 상업용 기계 번역 시스템(MT)의 품질이 크게 향상되었습니다. 이러한 개선은 주로 기계 학습의 발전과 대규모 웹 마이닝 데이터 세트의 가용성에 기인합니다. 동시에 딥러닝(DL)과 E2E 모델의 출현, 웹 마이닝을 통해 얻은 대규모 병렬 단일 언어 데이터 세트, 역번역, 자가 학습 등의 데이터 강화 방법, 대규모 다중 언어 데이터 세트 등이 등장합니다. 언어 모델링을 통해 100개 이상의 언어에 대한 고품질 기계 번역 시스템을 지원할 수 있게 되었습니다.
그러나 저자원 기계 번역의 엄청난 발전에도 불구하고 광범위하게 사용 가능한 일반 기계 번역 시스템이 구축된 언어는 약 100개로 제한되어 있으며 이는 분명히 7000개가 넘는 언어 중 오늘은 전 세계에서 작은 부분을 이야기합니다. 제한된 언어 수에 더해 현재 기계 번역 시스템이 지원하는 언어 분포도 유럽 언어 쪽으로 크게 기울어져 있습니다.
인구가 많음에도 불구하고 아프리카, 남아시아 및 동남아시아에서 사용되는 언어, 아메리카 원주민 언어와 관련된 서비스가 적은 것을 알 수 있습니다. 예를 들어 Google 번역은 프리지아어, 몰타어, 아이슬란드어, 코르시카어를 지원하며 이들 언어 모두 원어민이 100만 명 미만입니다. 이에 비해 Google 번역이 제공되지 않는 비하르 방언 인구는 약 5,100만 명, 오로모어 인구는 약 2,400만 명, 케추아어 인구는 약 900만 명, 티그리냐어 인구는 약 900만 명입니다(2022년 기준). 이러한 언어를 '롱테일' 언어라고 하는데, 데이터가 부족하기 때문에 충분한 훈련 데이터를 가지고 언어를 넘어 일반화할 수 있는 머신러닝 기술의 적용이 필요합니다.
이러한 롱테일 언어에 대한 기계 번역 시스템을 구축하는 것은 사용 가능한 디지털 데이터 세트와 언어 식별(LangID) 모델과 같은 NLP 도구가 부족하여 크게 제한됩니다. 이는 리소스가 많은 언어에 널리 사용됩니다.
최근 Google 논문 "다음 천 개 언어를 위한 기계 번역 시스템 구축"에서 20명 이상의 연구원이 1,000개 이상의 언어를 지원하는 실용적인 기계 번역 시스템을 구축하려는 노력의 결과를 시연했습니다.
논문 주소: https://arxiv.org/pdf/2205.03983.pdf
특히, 연구자들은 다음 세 가지 연구 분야의 결과를 설명했습니다.
먼저, 언어 인식 및 데이터 기반 필터링 기술을 위한 준지도 사전 학습을 통해 1500개 이상의 언어에 대한 깔끔한 웹 마이닝 데이터 세트를 만듭니다.
두 번째, 100개 이상의 고자원 언어에 대한 감독 병렬 데이터와 1000개 이상의 기타 언어에 대한 단일 언어 데이터세트로 훈련된 대규모 다국어 모델을 사용하여 서비스가 부족한 언어를 위한 새로운 모델을 만듭니다. 실용적이고 효과적인 기계 번역 모델.
셋째, 이러한 언어에 대한 평가 지표의 한계를 연구하고 해당 모델의 몇 가지 일반적인 오류 패턴에 초점을 맞춰 기계 번역 모델의 출력에 대한 정성 분석을 수행합니다.
이 작업이 현재 연구가 부족한 언어에 대한 기계 번역 시스템을 구축하는 실무자에게 유용한 통찰력을 제공할 수 있기를 바랍니다. 또한 연구진은 이번 연구가 데이터가 희박한 환경에서 대규모 다국어 모델의 약점을 해결하는 연구 방향으로 이어질 수 있기를 바라고 있습니다.
5월 12일 I/O 컨퍼런스에서 Google은 위에서 언급한 비하르어, 오로모어, 케추아어 및 티그리냐어와 같은 일부 틈새 아메리카 원주민 언어를 포함하여 24개의 새로운 언어를 번역 시스템에 추가했다고 발표했습니다.
이 작업은 크게 4개의 장으로 구성되어 있으며 각 장의 내용에 대해 간략하게 소개합니다.
이 장에서는 연구자가 1500개 이상의 언어에 대한 단일 언어 텍스트 데이터세트를 크롤링하는 데 사용하는 방법을 자세히 설명합니다. 이러한 방법은 고정밀 데이터(예: 깨끗한 언어 텍스트의 높은 비율)를 복구하는 데 중점을 두므로 다양한 필터링 방법이 큰 부분을 차지합니다.
일반적으로 연구자들이 사용하는 방법은 다음과 같습니다.
챕터 디렉터리는 다음과 같습니다.
롱테일 언어용 기계 번역 모델 구축
웹에서 마이닝한 단일 언어 데이터의 경우 다음 과제는 학습하는 것입니다. 제한된 수의 단일 언어를 사용하여 데이터로부터 고품질의 범용 기계 번역 모델을 만듭니다. 이를 위해 연구진은 단일 언어 데이터만 사용 가능한 롱테일 언어의 품질을 향상시키기 위해 자원이 많은 언어에서 사용 가능한 모든 병렬 데이터를 활용하는 실용적인 접근 방식을 채택했습니다. 롱테일 언어에 대한 직접적인 감독이 없기 때문에 그들은 이 설정을 "제로 리소스"라고 부릅니다.
연구원들은 롱테일 언어의 자원 제로 번역 품질을 향상시키기 위해 지난 몇 년 동안 기계 번역용으로 개발된 여러 기술을 사용합니다. 이러한 기술에는 단일 언어 데이터의 자가 지도 학습, 대규모 다국어 지도 학습, 대규모 역번역 및 자가 훈련, 고용량 모델이 포함됩니다. 그들은 이러한 도구를 활용하여 약 100개 언어를 포괄하는 기존 병렬 말뭉치와 웹에서 구축된 1000개 언어 단일 언어 데이터 세트를 활용하여 1000개 이상의 언어를 번역할 수 있는 기계 번역 모델을 만들었습니다.
또한 연구원들은 자가 학습 및 역번역(3.4)을 통해 대량의 합성 데이터가 포함된 30개 언어의 하위 집합에 대한 생성 모델을 미세 조정했습니다. 또한 환각 및 잘못된 언어 번역에 대한 미세 조정 모델의 견고성을 향상시키기 위해 합성 데이터를 필터링하는 실용적인 방법을 설명합니다(3.5).
연구원들은 또한 시퀀스 수준 증류를 사용하여 이러한 모델을 더 작고 추론하기 쉬운 아키텍처로 개선하고 교사 모델과 학생 모델 간의 성능 격차를 강조했습니다(3.6).
장 목차는 다음과 같습니다.
평가
연구원들은 기계 번역 모델을 평가하기 위해 먼저 영어 문장을 이들 언어로 번역하고 38개 언어에 대한 모델을 구축했습니다. 선택된 롱테일 언어. 평가 세트(4.1). 롱테일 설정에서 BLEU의 한계를 강조하고 CHRF(4.2)를 사용하여 이러한 언어를 평가합니다.
또한 연구원들은 참조 세트를 사용할 수 없는 언어에 대한 모델의 품질을 이해하기 위해 왕복 번역을 기반으로 한 대략적인 참조 없는 메트릭을 제안하고 이 메트릭으로 측정된 모델을 보고했습니다(. 4.3). 그들은 28개 언어의 하위 집합에 대해 모델에 대한 인간 평가를 수행하고 결과를 보고하여 논문(4.4)에 설명된 접근 방식에 따라 유용한 기계 번역 시스템을 구축할 수 있음을 확인했습니다.
대규모 다국어 제로 리소스 모델의 약점을 이해하기 위해 연구자들은 여러 언어에 대한 정성적 오류 분석을 실시했습니다. 모델은 "호랑이"가 "작은 악어"(4.5)가 되는 등 분포가 유사한 단어와 개념을 혼동하는 경우가 많은 것으로 나타났습니다. 그리고 낮은 리소스 설정(4.6)에서는 모델의 토큰 번역 능력이 덜 자주 나타나는 토큰에서 감소합니다.
연구원들은 또한 이러한 모델이 짧은 또는 단일 단어 입력(4.7)을 정확하게 번역하지 못하는 경우가 많다는 사실을 발견했습니다. 정제된 모델에 대한 연구에 따르면 모든 모델은 훈련 데이터에 존재하는 편향이나 노이즈를 증폭시킬 가능성이 더 높습니다(4.8).
챕터 목차는 다음과 같습니다.
연구원들은 위 모델에 대해 몇 가지 추가 실험을 수행한 결과 일반적으로 유사한 언어 간에 직접 번역할 때 더 나은 성능을 보이는 것으로 나타났습니다. , 영어를 피벗으로 사용하지 않고(5.1), 서로 다른 스크립트 간의 제로샷 음역에 사용할 수 있습니다(5.2).
번역 품질을 향상시키는 데 사용할 수 있는 "마침표 트릭"이라고 하는 모든 입력에 터미널 구두점을 추가하는 실용적인 트릭을 설명합니다(5.3).
또한 이러한 모델이 모든 언어가 아닌 일부 언어(5.4)에서 비표준 유니코드 문자 모양을 사용하는 데 강력하다는 것을 보여주고 여러 가지 비 유니코드 글꼴(5.5)을 탐색합니다.
장 목차는 다음과 같습니다.
자세한 연구 내용은 원문을 참조하시기 바랍니다.
위 내용은 Google은 1,000개 이상의 "롱테일" 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!