Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.
지난 10년 동안 학술 및 상업용 기계 번역 시스템(MT)의 품질이 크게 향상되었습니다. 이러한 개선은 주로 기계 학습의 발전과 대규모 웹 마이닝 데이터 세트의 가용성에 기인합니다. 동시에 딥러닝(DL)과 E2E 모델의 출현, 웹 마이닝을 통해 얻은 대규모 병렬 단일 언어 데이터 세트, 역번역, 자가 학습 등의 데이터 강화 방법, 대규모 다중 언어 데이터 세트 등이 등장합니다. 언어 모델링을 통해 100개 이상의 언어에 대한 고품질 기계 번역 시스템을 지원할 수 있게 되었습니다.
그러나 저자원 기계 번역의 엄청난 발전에도 불구하고 광범위하게 사용 가능한 일반 기계 번역 시스템이 구축된 언어는 약 100개로 제한되어 있으며 이는 분명히 7000개가 넘는 언어 중 오늘은 전 세계에서 작은 부분을 이야기합니다. 제한된 언어 수에 더해 현재 기계 번역 시스템이 지원하는 언어 분포도 유럽 언어 쪽으로 크게 기울어져 있습니다.
인구가 많음에도 불구하고 아프리카, 남아시아 및 동남아시아에서 사용되는 언어, 아메리카 원주민 언어와 관련된 서비스가 적은 것을 알 수 있습니다. 예를 들어 Google 번역은 프리지아어, 몰타어, 아이슬란드어, 코르시카어를 지원하며 이들 언어 모두 원어민이 100만 명 미만입니다. 이에 비해 Google 번역이 제공되지 않는 비하르 방언 인구는 약 5,100만 명, 오로모어 인구는 약 2,400만 명, 케추아어 인구는 약 900만 명, 티그리냐어 인구는 약 900만 명입니다(2022년 기준). 이러한 언어를 '롱테일' 언어라고 하는데, 데이터가 부족하기 때문에 충분한 훈련 데이터를 가지고 언어를 넘어 일반화할 수 있는 머신러닝 기술의 적용이 필요합니다.
이러한 롱테일 언어에 대한 기계 번역 시스템을 구축하는 것은 사용 가능한 디지털 데이터 세트와 언어 식별(LangID) 모델과 같은 NLP 도구가 부족하여 크게 제한됩니다. 이는 리소스가 많은 언어에 널리 사용됩니다.
최근 Google 논문 "다음 천 개 언어를 위한 기계 번역 시스템 구축"에서 20명 이상의 연구원이 1,000개 이상의 언어를 지원하는 실용적인 기계 번역 시스템을 구축하려는 노력의 결과를 시연했습니다.
논문 주소: https://arxiv.org/pdf/2205.03983.pdf
특히, 연구자들은 다음 세 가지 연구 분야의 결과를 설명했습니다.
먼저, 언어 인식 및 데이터 기반 필터링 기술을 위한 준지도 사전 학습을 통해 1500개 이상의 언어에 대한 깔끔한 웹 마이닝 데이터 세트를 만듭니다.
두 번째, 100개 이상의 고자원 언어에 대한 감독 병렬 데이터와 1000개 이상의 기타 언어에 대한 단일 언어 데이터세트로 훈련된 대규모 다국어 모델을 사용하여 서비스가 부족한 언어를 위한 새로운 모델을 만듭니다. 실용적이고 효과적인 기계 번역 모델.
셋째, 이러한 언어에 대한 평가 지표의 한계를 연구하고 해당 모델의 몇 가지 일반적인 오류 패턴에 초점을 맞춰 기계 번역 모델의 출력에 대한 정성 분석을 수행합니다.
이 작업이 현재 연구가 부족한 언어에 대한 기계 번역 시스템을 구축하는 실무자에게 유용한 통찰력을 제공할 수 있기를 바랍니다. 또한 연구진은 이번 연구가 데이터가 희박한 환경에서 대규모 다국어 모델의 약점을 해결하는 연구 방향으로 이어질 수 있기를 바라고 있습니다.
5월 12일 I/O 컨퍼런스에서 Google은 위에서 언급한 비하르어, 오로모어, 케추아어 및 티그리냐어와 같은 일부 틈새 아메리카 원주민 언어를 포함하여 24개의 새로운 언어를 번역 시스템에 추가했다고 발표했습니다.
논문 개요
이 작업은 크게 4개의 장으로 구성되어 있으며 각 장의 내용에 대해 간략하게 소개합니다.
1000개 언어 웹 텍스트 데이터세트 만들기
이 장에서는 연구자가 1500개 이상의 언어에 대한 단일 언어 텍스트 데이터세트를 크롤링하는 데 사용하는 방법을 자세히 설명합니다. 이러한 방법은 고정밀 데이터(예: 깨끗한 언어 텍스트의 높은 비율)를 복구하는 데 중점을 두므로 다양한 필터링 방법이 큰 부분을 차지합니다.
일반적으로 연구자들이 사용하는 방법은 다음과 같습니다.
- LangID 모델에서 학습 데이터 품질이 낮고 LangID 성능이 낮은 언어를 제거하고 1629개 언어 CLD3 LangID 모델 및 SSLID(반지도 LangID) 모델을 학습합니다.
- CLD3 모델의 오류율 언어별로 클러스터링 작업을 수행합니다.
- 문서 일관성을 사용하여 첫 번째 웹 크롤링을 수행합니다.
- 백분율 임계값 단어 목록을 사용하여 모든 말뭉치를 필터링합니다. SSLID(Single Supervised LangID)를 사용하여 모든 말뭉치를 필터링합니다.
- 상대 재현율을 사용하여 이상치 언어를 감지하고 TF-IIF(Term-Frequency-Inverse-Internet-Frequency)를 사용하여 필터링합니다. 이상치 언어를 감지하고 해당 언어에 대한 필터를 수동으로 설계하는 빈도 변칙성 점수
- 문장 수준에서 모든 말뭉치를 중복 제거합니다.
- 다음은 웹 텍스트에 1745개 언어 CLD3 LangID 모델을 사용한 문서 일관성 점수 히스토그램입니다.
- 아래 표 2는 모델 학습에 사용된 단일 언어 데이터의 일부인 저자원 언어(LRL)의 전체 데이터 세트 중 단일 언어 데이터를 보여줍니다. 고자원 언어를 포함한 전체 훈련 세트의 데이터 통계입니다.
챕터 디렉터리는 다음과 같습니다.
롱테일 언어용 기계 번역 모델 구축
웹에서 마이닝한 단일 언어 데이터의 경우 다음 과제는 학습하는 것입니다. 제한된 수의 단일 언어를 사용하여 데이터로부터 고품질의 범용 기계 번역 모델을 만듭니다. 이를 위해 연구진은 단일 언어 데이터만 사용 가능한 롱테일 언어의 품질을 향상시키기 위해 자원이 많은 언어에서 사용 가능한 모든 병렬 데이터를 활용하는 실용적인 접근 방식을 채택했습니다. 롱테일 언어에 대한 직접적인 감독이 없기 때문에 그들은 이 설정을 "제로 리소스"라고 부릅니다.
연구원들은 롱테일 언어의 자원 제로 번역 품질을 향상시키기 위해 지난 몇 년 동안 기계 번역용으로 개발된 여러 기술을 사용합니다. 이러한 기술에는 단일 언어 데이터의 자가 지도 학습, 대규모 다국어 지도 학습, 대규모 역번역 및 자가 훈련, 고용량 모델이 포함됩니다. 그들은 이러한 도구를 활용하여 약 100개 언어를 포괄하는 기존 병렬 말뭉치와 웹에서 구축된 1000개 언어 단일 언어 데이터 세트를 활용하여 1000개 이상의 언어를 번역할 수 있는 기계 번역 모델을 만들었습니다.
구체적으로 연구원들은 먼저 제로 리소스 번역(3.2)에서 15억 및 60억 매개변수 변환기의 성능을 비교하여 고도로 다국어 모델에서 모델 용량의 중요성을 강조한 다음, 자체 감독 언어의 수가 증가하고 있습니다. to 1000은 유사한 언어의 더 많은 단일 언어 데이터를 사용할 수 있게 됨에 따라 대부분의 롱테일 언어에 대한 성능이 향상됨을 보여줍니다(3.3). 연구원의 1000개 언어 모델은 합리적인 성능을 보여 주었지만 접근 방식의 강점과 한계를 이해하기 위해 대규모 데이터 확대를 통합했습니다.
또한 연구원들은 자가 학습 및 역번역(3.4)을 통해 대량의 합성 데이터가 포함된 30개 언어의 하위 집합에 대한 생성 모델을 미세 조정했습니다. 또한 환각 및 잘못된 언어 번역에 대한 미세 조정 모델의 견고성을 향상시키기 위해 합성 데이터를 필터링하는 실용적인 방법을 설명합니다(3.5).
연구원들은 또한 시퀀스 수준 증류를 사용하여 이러한 모델을 더 작고 추론하기 쉬운 아키텍처로 개선하고 교사 모델과 학생 모델 간의 성능 격차를 강조했습니다(3.6).
장 목차는 다음과 같습니다.
평가
연구원들은 기계 번역 모델을 평가하기 위해 먼저 영어 문장을 이들 언어로 번역하고 38개 언어에 대한 모델을 구축했습니다. 선택된 롱테일 언어. 평가 세트(4.1). 롱테일 설정에서 BLEU의 한계를 강조하고 CHRF(4.2)를 사용하여 이러한 언어를 평가합니다.
또한 연구원들은 참조 세트를 사용할 수 없는 언어에 대한 모델의 품질을 이해하기 위해 왕복 번역을 기반으로 한 대략적인 참조 없는 메트릭을 제안하고 이 메트릭으로 측정된 모델을 보고했습니다(. 4.3). 그들은 28개 언어의 하위 집합에 대해 모델에 대한 인간 평가를 수행하고 결과를 보고하여 논문(4.4)에 설명된 접근 방식에 따라 유용한 기계 번역 시스템을 구축할 수 있음을 확인했습니다.
대규모 다국어 제로 리소스 모델의 약점을 이해하기 위해 연구자들은 여러 언어에 대한 정성적 오류 분석을 실시했습니다. 모델은 "호랑이"가 "작은 악어"(4.5)가 되는 등 분포가 유사한 단어와 개념을 혼동하는 경우가 많은 것으로 나타났습니다. 그리고 낮은 리소스 설정(4.6)에서는 모델의 토큰 번역 능력이 덜 자주 나타나는 토큰에서 감소합니다.
연구원들은 또한 이러한 모델이 짧은 또는 단일 단어 입력(4.7)을 정확하게 번역하지 못하는 경우가 많다는 사실을 발견했습니다. 정제된 모델에 대한 연구에 따르면 모든 모델은 훈련 데이터에 존재하는 편향이나 노이즈를 증폭시킬 가능성이 더 높습니다(4.8).
챕터 목차는 다음과 같습니다.
추가 실험 및 메모
연구원들은 위 모델에 대해 몇 가지 추가 실험을 수행한 결과 일반적으로 유사한 언어 간에 직접 번역할 때 더 나은 성능을 보이는 것으로 나타났습니다. , 영어를 피벗으로 사용하지 않고(5.1), 서로 다른 스크립트 간의 제로샷 음역에 사용할 수 있습니다(5.2).
번역 품질을 향상시키는 데 사용할 수 있는 "마침표 트릭"이라고 하는 모든 입력에 터미널 구두점을 추가하는 실용적인 트릭을 설명합니다(5.3).
또한 이러한 모델이 모든 언어가 아닌 일부 언어(5.4)에서 비표준 유니코드 문자 모양을 사용하는 데 강력하다는 것을 보여주고 여러 가지 비 유니코드 글꼴(5.5)을 탐색합니다.
장 목차는 다음과 같습니다.
자세한 연구 내용은 원문을 참조하시기 바랍니다.
위 내용은 Google은 1,000개 이상의 '롱테일' 언어에 대한 기계 번역 시스템을 만들었으며 이미 일부 틈새 언어를 지원합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

데이터 품질 보증 : Dagster로 점검 자동화 및 큰 기대치 데이터 품질이 높다는 것은 데이터 중심 비즈니스에 중요합니다. 데이터 볼륨 및 소스가 증가함에 따라 수동 품질 관리는 비효율적이며 오류가 발생하기 쉽습니다.

메인 프레임 : AI 혁명의 이름없는 영웅 서버는 일반 목적 애플리케이션 및 여러 클라이언트를 처리하는 데 탁월하지만 메인 프레임은 대량의 미션 크리티컬 작업을 위해 구축됩니다. 이 강력한 시스템은 자주 무거움에서 발견됩니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.
