집 >기술 주변기기 >일체 포함 >ByteDance Wang Mingxuan과의 독점 인터뷰: 기계 번역과 수동 번역은 본질적으로 두 가지 트랙입니다. T Frontline |

ByteDance Wang Mingxuan과의 독점 인터뷰: 기계 번역과 수동 번역은 본질적으로 두 가지 트랙입니다. T Frontline |

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-05-24 21:37:091685검색

기술의 발전은 종종 산업의 발전이 새로운 방향을 찾았음을 의미합니다. 번역업계도 예외는 아니다. 세계화 과정이 계속해서 가속화됨에 따라 사람들은 외국 관련 활동을 수행할 때 언어 간 의사소통 없이는 할 수 없습니다. 기계번역의 출현은 번역의 적용 시나리오를 크게 확장시켰습니다. 비록 완벽함과는 거리가 멀지만 인류가 바벨탑에 도전하는 데는 확고한 발걸음을 내디뎠습니다. 51CTO는 특별히 ByteDance AI Lab의 기계 번역 책임자인 Wang Mingxuan을 초대하여 수년간 기계 번역의 발전에 대해 이야기했습니다.

규칙 기반에서 통계 모델 기반, 신경망 기반으로

기계 번역의 발전은 컴퓨터 기술, 정보 이론, 언어학 및 기타 분야의 발전과 밀접한 관련이 있습니다. 21세기에 들어서면서 기계번역 기술은 하드웨어 성능의 향상과 알고리즘의 최적화로 유례없는 도약을 이루었고 성공적으로 상아탑을 벗어나 포용의 길로 들어섰습니다.

51CTO: 역사를 통틀어 기계 번역이 경험한 중요한 개발 노드는 무엇입니까?

왕밍쉬안: 기계번역은 본질적으로 매우 오래된 문제입니다. 기계번역의 역사는 17세기 데카르트, 라이프니츠 등 철학자들이 제안한 '보편언어'로 거슬러 올라갑니다. 1946년 컴퓨터가 공식적으로 탄생한 후 사람들은 컴퓨터가 한 언어를 다른 언어로 번역할 수 있을 것으로 기대했습니다. 미국 과학자 워렌 위버(Warren Weaver)는 『번역 메모』에서 기계번역의 개념과 사상을 정식으로 정의했다. 이 시기, 냉전 시대의 맥락에서 미국과 소련 역시 정보 수집의 필요성을 바탕으로 기계번역 관련 연구에 많은 돈을 투자했습니다.

처음에는 모두가 이 문제가 곧 해결될 것이라고 생각하면서 상대적으로 낙관적이었습니다. 번역 시스템의 첫 번째 버전은 "sun"을 "sun"으로 번역하는 등 주로 사전을 기반으로 하는 매우 단순했습니다. Bank"는 "은행" 또는 "강둑"을 의미할 수 있습니다. 특정 상황에서는 많은 단어 선택 딜레마에 직면하게 됩니다. 언어학자들이 공식화한 의미 규칙을 결합하면 일부 모호함을 해결할 수 있지만, 개발 후기 단계에서는 규칙이 많아지고 충돌도 많아지며 시스템은 점점 더 복잡해지고 여전히 문제를 해결할 수 없습니다. .

1966년 미국은 기계번역의 타당성을 전면적으로 부정하고 기계번역 프로젝트에 대한 재정적 지원을 중단할 것을 권고한 『언어와 기계』 보고서를 발표했습니다. 이로 인해 기계 번역은 침체에 빠졌습니다.

1990년대까지 IBM은 단어 정렬을 기반으로 한 번역 모델을 제안하여 현대 통계 기계 번역 방법의 탄생을 알렸습니다. 통계를 기반으로 한 기계 번역의 원리는 매우 간단합니다. 예를 들어, 맥락에서 은행을 "은행"으로 번역해야 하는지 "강둑"으로 번역해야 하는지 결정하려는 경우 대량의 관련 코퍼스 통계를 수행하면 됩니다. 문맥에 "돈"과 관련된 것이 있다는 것을 알게 되면 "은행"으로 번역될 가능성이 더 높습니다. 문맥에 "강"이 언급되어 있으면 "강둑"에 해당할 가능성이 더 높습니다. 이런 식으로 는 사전이나 문법 규칙을 사용하지 않고 확률을 기준으로 특정 시나리오의 의미를 판단합니다. 이는 획기적인 변화로, 기계 번역의 품질이 크게 향상되었습니다. 곧 많은 실제 시나리오에서 기계 번역이 구현되기 시작했습니다.

1993년부터 2014년까지의 기간은 기본적으로 통계의 시대에 속했지만, 통계를 기반으로 했지만 여전히 많은 기능과 템플릿 및 추가 디자인 세부 사항을 정의하는 데 수작업이 필요했습니다. 모델의 힘은 그다지 강력하지 않았습니다.

그러면 신경망 시대의 신경망 번역에는 모델 관점에서 주로 인코더와 디코더가 포함됩니다. 인코더는 일련의 신경망 변환을 거쳐 소스 언어를 고차원 벡터로 표현하고, 디코더는 이 고차원 벡터를 대상 언어로 다시 디코딩하는 역할을 합니다. 2014년 Seq2Seq이 도입되면서 신경망 번역이 점차 통계적 기계 번역보다 더 나은 성능을 발휘하기 시작했습니다.

2017년까지 Google은 더 큰 모델, 더 유연한 구조, 더 높은 병렬화 수준을 갖춘 Transformer를 제안하여 번역 품질을 더욱 향상시켰습니다. 같은 해 알파고의 승리는 모두가 인공지능에 대한 자신감을 갖게 만들었습니다. 기계번역의 산업화가 폭발적인 시기를 맞이한 것도 2017년 이후입니다. 지금까지 전체적인 틀은 크게 변하지 않았지만, 작은 부분에서도 많은 혁신이 있었습니다.

"바벨탑"에 도전하세요

사전 매칭부터 언어 전문가의 지식이 결합된 규칙 번역, 코퍼스 기반 통계 기계 번역, 현재 주류인 신경망 기계 번역까지 기계 번역의 품질이 더 좋습니다. 이전보다 큰 발전이 있었지만 여전히 많은 어려움에 직면해 있습니다.

51CTO: 현재 기계 번역이 직면하고 있는 주요 과제는 무엇입니까?

Wang Mingxuan: 실제로 많은 어려움이 있습니다.

먼저, 희귀한 언어를 기계번역하는 방법. 이것은 기계 번역이 처음부터 직면했던 문제입니다. 언어가 작을수록 데이터의 양이 적어지고 말뭉치의 부족은 장기적인 과제가 될 것입니다.

두 번째, 다중 기계 번역 방법. 최근에는 음성 번역과 영상 번역을 해야 하는 경우가 많습니다. 실제로 이런 종류의 번역에는 번역 전에 AI가 일부 사전 처리를 수행해야 합니다. AI 처리가 잘못되면 번역 오류가 발생할 수 있습니다. 또 다른 예를 들면, 동시통역의 경우 일반적으로 말하는 동안 통역이 이루어지며 완전한 문맥 정보를 얻을 수 없습니다. 이는 다중모달 번역에서 흔히 발생하는 문제입니다.

셋째, 가장 본질적인 문제는 현재의 기계번역이 여전히 데이터 기반이고, 이해의 수준이 더 깊어지지 않았다는 점입니다. 모델 학습은 여전히 의미론에 대한 진정한 이해보다는 언어의 기여에 의존합니다. 이는 기계 번역의 상한을 크게 제한합니다.

51CTO: Bytedance 산하의 기계 번역 브랜드인 Huoshan Translation은 희소 코퍼스 문제를 어떻게 해결하나요?

Wang Mingxuan: 직접적인 방법이 두 가지 더 있습니다.

첫 번째는 코퍼스를 확장하고 부족한 코퍼스를 "더 이상 부족하지 않게" 만들기 위해 노력하는 것입니다. 이 아이디어는 가능한 한 인터넷에서 말뭉치를 얻기 위해 일부 모델을 사용하는 것입니다. 예를 들어, 아이슬란드어에서는 대량의 아이슬란드어 단일 언어 말뭉치를 수집할 수 있습니다. 인터넷에서는 단일 언어 말뭉치와 유사한 영어 텍스트를 수집하여 이중 언어 쌍을 형성할 수 있습니다. 물론 수동 주석을 사용하는 경우도 있지만 지능형 방법을 사용하여 직접 추가하는 경우가 더 많습니다.

두 번째는 언어의 공통성을 활용하는 것입니다. 우리는 모두 같은 행성에 살고 있습니다. 비록 서로 다른 언어를 사용하지만 실제로는 같은 세계를 묘사하고 있습니다. 따라서 언어는 높은 수준에서 많은 공통점을 가지고 있습니다. 이러한 유형의 문제를 해결하기 위해 영어 모델이 프랑스 모델을 돕거나 독일 모델이 프랑스 모델을 돕도록 하는 등 일부 전이 학습 또는 사전 훈련 방법을 사용할 것입니다. 주로 이 두 가지 아이디어입니다.

51CTO: 다중 모드 기계 번역에서 소음 간섭을 줄이기 위해 Huoshan Translation은 어떤 전략을 채택했습니까?

Wang Mingxuan: 소음 간섭을 처리하기 위해 우선 여러 모드의 공동 모델링을 수행했습니다. 음성 신호와 문자 신호를 함께 사용하여 다운스트림 작업을 수행하므로 오류 전송이 많이 줄어들 것입니다. 현재 멀티모달 통합 시맨틱을 구축하는 것도 학계에서 매우 뜨거운 주제이므로 다른 분야에서도 많은 것을 흡수할 예정입니다.

두 번째로, 잘못된 입력이 있어도 모델이 올바른 출력을 보장하거나 이러한 오류를 증폭시키지 않도록 텍스트 영역에서도 많은 견고성 훈련을 수행할 것입니다. 이는 자동 오류 수정과 결합하는 것과 같습니다. 기계 번역은 모델에서 구현됩니다. 사람에게는 실제로 이런 종류의 자동 오류 수정 능력이 있기 때문에, 예를 들어 인간 번역가는 잘못된 정보를 들으면 자동으로 수정하므로 모델에서 이 정보도 고려할 것입니다.

51CTO: 동시통역은 지연에 대한 요구사항이 매우 높습니다. 그러나 문맥적 맥락이나 완전한 의미가 없으면 정확성을 보장하기 어렵습니다. 기계 번역은 둘 사이의 모순을 어떻게 균형을 맞추나요?

Wang Mingxuan: 이것은 지연과 정확성의 균형뿐만 아니라 실제로 최적화가 필요하기 때문에 업계에서 매우 어려운 일입니다.

예를 들어 일부 회의 시나리오에서는 번역된 자막을 큰 화면에 표시해야 합니다. 청중이 자막을 받아들이는 속도도 각 자막 표시 길이, 자막 빈도 등 주요 문제 중 하나입니다. 보다 효과적으로 읽는 방법과 관련된 팝업입니다. 전반적인 만족도를 확인하기 위해 제품 관리자와 반복적으로 소통하고 심층적인 사용자 설문조사를 실시해야 하는 세부 사항이 많이 있습니다. 따라서 이것은 단지 정확성의 문제가 아니라 모델을 조정하기 전에 실제 사용자 경험을 고려해야 합니다.

또한 지연 시간은 사용자 만족도를 나타내는 지표 중 하나일 수 있지만 지연 시간은 짧을수록 좋습니다. 보통은 적당한 간격을 두는 것이 좋습니다. 왜냐하면 지연 시간이 매우 짧으면 자막이 매우 빠르게 팝업되어 사용자의 수용 효과가 그다지 좋지 않기 때문입니다. 이와 관련하여 자막 번역 간격을 동적으로 제어하는 등 업계의 많은 성숙한 관행을 통해서도 배울 것입니다. 전반적으로 이는 매우 엔지니어링적이고 제품 지향적인 문제입니다.

미래 동향

기계 번역은 아직 완벽하지 않지만 실무자들은 더 높은 품질, 더 유용하고 더 적용 가능한 번역을 만들기 위해 열심히 노력하고 있습니다. 특히 기계번역이 전문 번역가와 '충돌'할 경우, 번역 서비스 현장에서는 어떤 화학적 반응이 일어날지 그 발전 동향을 살펴보겠습니다.

51CTO: 기술이 발전함에 따라 기계 번역이 더욱 흥미로운 응용 시나리오를 도출하게 될까요?

왕밍쉬안: 저희가 이전에 출시한 화산 번역 AR 안경도 비슷한 시도였어요. 올해 구글 I/O 컨퍼런스 피날레에서 공개된 AR 번역 안경도 착용 후 자막 효과처럼 대화 상대의 번역을 실시간으로 볼 수 있는 매우 흥미로운 애플리케이션이다.

이것은 실제로 비교적 단순한 이상을 반영합니다. 우리는 모든 사람이 장벽 없는 의사소통이 가능한 세상에서 살 수 있기를 바랍니다. 예: 해외 여행 시 안경을 착용하면 어떤 언어로든 텍스트 안내를 이해할 수 있습니다. 보이는 거리 표지판은 독일어이지만 안경에 표시되는 표지판은 중국어입니다. 일상적인 의사소통 중에 누군가가 당신에게 말을 걸면, 대화 내용은 자동으로 당신이 이해할 수 있는 텍스트로 변환되어 안경 아래에 표시됩니다. 이는 모두 정보를 보다 효과적으로 얻을 수 있는 시나리오입니다.

51CTO: 장기적으로 기계번역은 어떻게 발전할까요?

Wang Mingxuan: 애플리케이션 측면에서 기계 번역은 다중 모달 애플리케이션과 더 긴밀하게 통합 할 수 있다고 생각합니다. 예를 들어 비디오 및 오디오 콘텐츠에 대한 번역 요구가 점점 더 많아질 것입니다. 또한 기계번역은 해외 비즈니스 및 문화와 더욱 밀접하게 연관될 수 있습니다. 많은 국내 기업들이 적극적으로 해외 사업을 확장하고 있기 때문에 이 분야가 기계번역 발전에 큰 도움이 될 것이라고 생각합니다.

기술 측면에서 제가 볼 수 있는 트렌드는 다음과 같습니다. 첫째, 빅 데이터 및 대형 모델의 교육. 이 분야에 종사하는 사람이 늘어나고, 모델도 점점 커지고, 데이터의 양도 늘어나고 있습니다. 이러한 변화가 기계번역 능력에 질적인 변화를 가져올 수 있다고 믿는 사람들이 많습니다. 두 번째는 번역과 양식의 결합입니다. 번역 측면에서 뿐만 아니라, 업계의 많은 사람들은 다양한 양식의 통일된 의미 표현을 구축하려고 노력하고 있습니다. 지난 몇 년 동안 서로 다른 양식 간의 경계가 상대적으로 명확했고 의사소통이 상대적으로 적었습니다. 오늘날 모델의 일관성은 점점 더 높아지고 있습니다. 미래에는 텍스트 번역과 음성 번역, 영상 번역까지 모두 할 수 있는 모델이 나올 수도 있다.

51CTO: 미래에는 특정 시나리오에서 기계 번역이 인간 번역을 완전히 대체할 수 있을까요?

Wang Mingxuan: 현재 관행에 따르면 확실히 노동을 대체할 수는 없습니다. 하지만 기계번역과 인간번역은 같은 트랙에 속하지 않을 수도 있다고 생각합니다.

기계번역의 특징은 속도가 매우 빠르고 확장이 가능하기 때문에 적시에 처리해야 하는 대량의 정보를 처리하는 데 적합합니다. 예를 들어, 영어에서 프랑스어로 번역해야 하는 천만 개의 비디오가 있는 경우 순전히 수동으로 번역하는 것은 불가능하지만 기계는 이를 수행할 수 있습니다. 이를 통해 기계는 해당 트랙에서 매우 중요한 역할을 수행할 수 있으며, 이는 전체 시장을 확대하고 언어 간 시장을 더 크게 만들기 때문에 장기적으로 이익이 됩니다.

그러나 매우 정확한 번역 시나리오의 경우 기계 번역이 처리하지 못할 수도 있습니다. 누군가 언급했듯이 기계 번역이 "A Dream of Red Mansions"를 번역할 수 있습니까? 제 생각에는 이것은 기계 번역 작업의 범위에 속하지 않습니다. 소설이나 시의 번역, 이런 번역은 반드시 전문가의 손길을 거쳐야 합니다. 기계 번역이 아닌 전문 번역가가 반드시 필요한 높은 수준의 회의 동시통역도 있습니다. 하지만 그다지 중요하지 않은 일부 회의에서는 기계 번역의 비용 이점이 드러납니다.

기계번역과 전문 번역가는 서로 다른 트랙에 속하며 그 차이는 여전히 매우 명확합니다. 그러나 둘은 어느 정도 서로 돕는 관계이기도 하다. 이는 다음과 같이 반영됩니다. 한편, 기계 번역에 필요한 코퍼스는 전문 번역가가 제작합니다. 전문 번역가는 작업 중에 계속해서 대량의 말뭉치를 생산하며 이러한 말뭉치는 기계 번역의 기능을 향상시키는 데 계속 도움이 될 수 있습니다. 반면에 기계 번역은 사람들의 부담을 줄이고 덜 까다로운 작업을 처리하는 데 도움이 될 수도 있습니다. 요즘에는 번역 후 편집을 하는 번역가가 많습니다. 많은 번역 회사에서는 기계로 번역을 먼저 하고 번역가가 나중에 편집하도록 하므로 효율성이 크게 향상됩니다.

게스트 소개

ByteDance AI-Lab 기계 번역 팀장 Wang Mingxuan의 연구 방향은 주로 기계 번역과 자연어 처리입니다. 기계번역 분야에서는 ACL, EMNLP 등 최고의 학회에서 40편 이상의 논문을 발표했고, WMT 등 국제 번역 평가 대회에서 여러 차례 1위를 차지했습니다. 동시에 그는 EMNLP2022의 후원 의장이자 NeurIPS 2022, NLPCC 2022 및 AACL2022와 같은 컨퍼런스 분야의 의장으로도 활동하고 있습니다.

칼럼 소개

'T 프론트라인'은 51CTO 콘텐츠센터에서 기술인사, 수석설계사, 수석기술전문가 등을 초청해 특별히 개설한 심층인터뷰 칼럼 중 하나입니다. 기술 산업의 현황을 논의하기 위해 기술 핫스팟, 기술 관행 및 기술 동향에 대한 심층적인 해석과 통찰력을 제공하여 최첨단 기술의 보급과 개발을 촉진합니다.

위 내용은 ByteDance Wang Mingxuan과의 독점 인터뷰: 기계 번역과 수동 번역은 본질적으로 두 가지 트랙입니다. T Frontline |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构算法人工智能 transformer ar

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：암호화폐 열풍이 가라앉고, 채굴 회사들이 AI를 위한 고성능 컴퓨팅 서비스 제공에 눈을 돌리고 있습니다.다음 기사：암호화폐 열풍이 가라앉고, 채굴 회사들이 AI를 위한 고성능 컴퓨팅 서비스 제공에 눈을 돌리고 있습니다.