>기술 주변기기 >일체 포함 >연구: 인터넷은 낮은 품질의 기계 번역 콘텐츠로 가득 차 있으며 대규모 언어 모델 교육은 데이터 트랩을 조심해야 합니다.

연구: 인터넷은 낮은 품질의 기계 번역 콘텐츠로 가득 차 있으며 대규모 언어 모델 교육은 데이터 트랩을 조심해야 합니다.

王林
王林앞으로
2024-02-04 14:42:031110검색

연구: 인터넷은 낮은 품질의 기계 번역 콘텐츠로 가득 차 있으며 대규모 언어 모델 교육은 데이터 트랩을 조심해야 합니다.

Amazon 클라우드 컴퓨팅 인공 지능 연구소의 연구원들은 최근 웹에 기계 번역으로 생성된 콘텐츠가 상당히 많고, 이러한 번역의 여러 언어에 대한 품질이 일반적으로 낮다는 사실을 발견했습니다. 연구팀은 대규모 언어 모델을 훈련할 때 데이터 품질과 출처의 중요성을 강조했습니다. 이 결과는 고품질 언어 모델을 구축할 때 데이터 품질과 소스 선택에 더 많은 주의를 기울여야 함을 강조합니다.

연구에 따르면 기계 생성 콘텐츠는 자원이 적은 언어 번역에서 널리 퍼져 있으며 웹 콘텐츠의 큰 부분을 차지합니다.

이 사이트에서는 연구팀이 기계 번역 콘텐츠의 특성을 더 잘 이해하기 위해 MWccMatrix라는 거대한 리소스를 개발했다는 ​​사실을 알아냈습니다. 이 리소스에는 90개 언어를 포괄하는 64억 개의 고유 문장이 포함되어 있으며 번역 튜플이라고 알려진 서로 번역되는 문장 조합을 제공합니다.

이 연구에서는 많은 양의 웹 콘텐츠가 종종 기계 번역을 통해 여러 언어로 번역된다는 사실을 발견했습니다. 이러한 현상은 리소스가 적은 언어의 번역에서 널리 퍼져 있으며 이러한 언어의 웹 콘텐츠의 상당 부분을 차지합니다.

연구원들은 또한 광고 수익과 같은 목적으로 여러 언어로 번역되는 콘텐츠에서 선택성 편향을 발견했습니다.

제 연구를 바탕으로 저는 다음과 같은 결론에 도달했습니다. “기계 번역 기술은 지난 10년 동안 상당한 발전을 이루었지만 지난 수년 동안 사람들은 당시 사용 가능한 기계를 여전히 인간의 품질 수준에 도달할 수 없었습니다. 콘텐츠를 번역하는 번역 시스템이 웹에 추가되므로 웹에서 기계 번역된 콘텐츠의 대부분은 상대적으로 낮을 가능성이 높으며 현대 표준을 충족하지 못할 수 있습니다. 이는 LLM 모델에서 더 많은 '환각'을 초래할 수 있습니다. , 선택 편향은 기계 번역 오류도 고려되지 않음을 나타냅니다. LLM 교육의 경우 데이터 품질이 중요하며 서적 및 Wikipedia 기사와 같은 고품질 말뭉치는 일반적으로 여러 업샘플링이 필요합니다. .”

위 내용은 연구: 인터넷은 낮은 품질의 기계 번역 콘텐츠로 가득 차 있으며 대규모 언어 모델 교육은 데이터 트랩을 조심해야 합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제