ホームページ  >  記事  >  テクノロジー周辺機器  >  ByteDance 王明軒氏への独占インタビュー: 機械翻訳と手動翻訳は本質的に 2 つのトラック | T Frontline

ByteDance 王明軒氏への独占インタビュー: 機械翻訳と手動翻訳は本質的に 2 つのトラック | T Frontline

WBOY
WBOY転載
2023-05-24 21:37:091491ブラウズ

テクノロジーの進歩は、多くの場合、業界の進化が新しい方向性を見出したことを意味します。翻訳業界も例外ではありません。グローバル化が加速する中、海外と関わる活動をする際には言語を越えたコミュニケーションが欠かせません。機械翻訳の出現により、翻訳の応用シナリオは大幅に拡大し、完璧には程遠いものの、人類のバベルの塔への挑戦に向けて確かな一歩を踏み出しました。 51CTOは、ByteDance AI Labの機械翻訳責任者であるWang Mingxuanを特別に招待し、長年にわたる機械翻訳の開発について話しました。

ルールベースから統計モデルベース、ニューラルネットワークベースへ

機械翻訳の開発は、コンピュータ技術、情報理論、言語学、その他の分野の発展と密接に関連しています。 。 21世紀に入ってから、ハードウェアの性能向上とアルゴリズムの最適化により、機械翻訳技術は前例のない飛躍を遂げ、象牙の塔から抜け出し、包括性への道を歩み始めました。

51CTO: 歴史を通じて、機械翻訳はどのような重要な開発ノードを経験しましたか?

Wang Mingxuan: 機械翻訳は本質的に非常に古い問題です。機械翻訳の歴史は、デカルトやライプニッツなどの哲学者が提唱した「普遍性」にまで遡ることができます。 17世紀の言語」。 1946 年にコンピューターが正式に誕生した後、人々はコンピューターがある言語を別の言語に翻訳できることを期待していました。アメリカの科学者ウォーレン・ウィーバーは、「翻訳メモ」の中で機械翻訳の概念と考え方を正式に定義しました。この時期、冷戦の状況下、米国とソ連も情報収集の必要性から機械翻訳関連の研究に多額の資金を投資しました。

当初、誰もが比較的楽観的で、この問題はすぐに解決されるだろうと考えていました。最初のバージョンの翻訳システムは、「sun」を「sun」に翻訳するなど、主に辞書に基づいた非常にシンプルなものでしたが、この単語対単語の翻訳は、「」などの多義現象が多く、すぐにボトルネックに遭遇しました。 「銀行」は「銀行」または「川岸」のいずれかになります。特定の文脈では、単語選択の多くのジレンマに直面するでしょう。 言語学者によって定式化された意味論的なルールを組み合わせることで、いくつかのあいまいさを解決できますが、開発の後半の段階では、ルールが増えれば増えるほど、競合が増え、システムはますます複雑になりますが、問題は依然として残ります。解決できません。

1966年、米国は「言語と機械」報告書を発表し、機械翻訳の実現可能性を全面的に否定し、機械翻訳プロジェクトへの財政支援を停止するよう勧告した。この影響を受けて、機械翻訳は低迷しています。

1990 年代まで、IBM は単語のアライメントに基づく翻訳モデルを提案し、最新の統計的機械翻訳手法の誕生を告げました。統計に基づく機械翻訳の原理は非常にシンプルです。たとえば、文脈上、bank を「銀行」と訳すべきか「川岸」と訳すべきかを判断したい場合は、関連するコーパス統計を大量に収集する必要があります。文脈に「お金」に関するものがあれば「銀行」と訳される可能性が高く、文脈に「川」が含まれている場合は「川岸」と訳される可能性が高くなります。このように、 は辞書や文法規則を使用せず、特定のシナリオにおける意味を確率に基づいて判断します。これは画期的な変化であり、機械翻訳の品質が大幅に向上しました。 すぐに、機械翻訳は多くの実用的なシナリオに実装され始めました。

1993 年から 2014 年は基本的に統計の時代でしたが、統計に基づいていたとはいえ、多くの機能やテンプレートを定義し、さらに詳細な設計を行うには手作業が必要でした。柔軟性があまり高くなく、モデルの力もそれほど強力ではありませんでした。

ニューラル ネットワークの時代では、ニューラル ネットワークの翻訳には主にモデルの観点からエンコーダーとデコーダーが含まれます。エンコーダーは、一連のニューラル ネットワーク変換後にソース言語を高次元ベクトルに表現し、デコーダーはこの高次元ベクトルをターゲット言語に再デコードする役割を果たします。 2014 年の Seq2Seq の導入により、ニューラル ネットワーク翻訳は徐々に統計的機械翻訳よりも優れたパフォーマンスを発揮し始めました。

2017 年までに、Google は、より大規模なモデル、より柔軟な構造、より高度な並列化を備えた Transformer を提案し、翻訳の品質をさらに向上させました。同年、AlphaGo の勝利により、誰もが人工知能に対する自信を深めました。 機械翻訳の産業化が爆発的な時期を迎えたのも 2017 年以降です これまで、全体の枠組みはあまり変わっていませんが、細部では多くの革新が行われてきました。

「バベルの塔」への挑戦

辞書照合から、言語専門家の知識を組み合わせたルール翻訳、コーパスベースの統計的機械翻訳、そして現在主流のニューラルネットワーク機械翻訳まで, 以前に比べて機械翻訳の品質は飛躍的に向上しましたが、まだまだ課題も多くあります。

51CTO: 現在機械翻訳が直面している主な課題は何ですか?

王明軒: 実際には多くの課題があります。

まず、希少言語を機械翻訳する方法です。これは、機械翻訳がその誕生以来直面している問題です。言語が小さくなるとデータ量も少なくなり、コーパスの不足が長期的な課題となります。

2 番目、マルチモーダル機械翻訳を行う方法。近年、音声翻訳や動画翻訳が必要になることが多くなっていますが、実はこのような翻訳では翻訳前にAIによる前処理が必要になります。 AIの処理が間違っていると翻訳ミスが発生する可能性があります。別の例として、同時通訳のシナリオでは、通常は話しながら行われるため、完全な文脈情報を取得することはできません。これは、マルチモーダル翻訳においてよくある問題です。

3 番目、最も本質的な問題は、現在の機械翻訳が依然としてデータ駆動型であり、理解が深まっていないことです。モデル学習は依然として、意味論の真の理解ではなく、言語の貢献に依存しています。これにより、機械翻訳の上限が大幅に制限されます。

51CTO: Bytedance 傘下の機械翻訳ブランドとして、Huoshan Translation はスパースコーパスの問題にどのように対処していますか?

Wang Mingxuan: あと 2 つの直接的な方法があります。

1 つ目は、コーパスを拡張し、希少なコーパスを「もはや希少ではない」ようにすることです。このアイデアは、いくつかのモデルを使用して、インターネットから可能な限りコーパスを取得するというものです。たとえば、アイスランド語では、大量のアイスランド語の単言語コーパスを収集できます。インターネット上では、単言語コーパスに類似した英語のテキストを収集できます。私たちは、対訳ペアを形成するために位置合わせされている可能性のあるそのようなコーパスを探します。もちろん、手動の注釈を使用することもありますが、多くの場合は、インテリジェントな方法を利用して自分で注釈を追加します。

2 つ目は、言語の共通性を利用することです。私たちは皆同じ地球に住んでおり、言語は異なっていても、実際には同じ世界を表現しているため、言語には高いレベルで多くの共通点があります。この種の問題を解決するには、英語のモデルをフランス語のモデルを支援する、またはドイツ語のモデルをフランス語のモデルを支援するなど、いくつかの転移学習または事前トレーニングの方法を使用します。主にこの2つの考え方です。

51CTO: マルチモーダル機械翻訳におけるノイズ干渉を減らすために、Huoshan Translation ではどのような戦略が採用されていますか?

Wang Mingxuan: ノイズ干渉に対処するために、まず複数のモードの 共同モデリングを実施しました。音声信号とテキスト信号を併用して下流のタスクを実行するため、エラー送信が大幅に削減されます。現在、マルチモーダルな統一セマンティクスの構築は学界でも非常にホットなテーマとなっているので、他の分野からも多くのことを吸収していきます。

2 番目に、テキスト領域で多くの堅牢性トレーニングも行い、間違った入力がある場合でもモデルが正しい出力を保証できること、またはこの誤差が増幅されないことを確認します。これは次のことと同等です。自動エラー修正と機械翻訳が 1 つのモデルに統合されています。なぜなら、人間にはこの種の自動誤り訂正能力が実際に備わっており、たとえば、人間の翻訳者は間違った情報を聞いたときに自動的に訂正するため、この情報もモデルに考慮します。

51CTO: 同時通訳には遅延に関する非常に高い要件があります。ただし、文脈上のコンテキストや完全なセマンティクスが存在しない場合、正確性を保証することは困難です。機械翻訳はこの 2 つの矛盾をどのようにバランスさせているのでしょうか?

Wang Mingxuan: これは、遅延と精度のトレードオフの問題だけでなく、実際にはさらなる最適化が必要なため、産業界では非常に困難です。

たとえば、会議のシナリオによっては、翻訳された字幕を大画面に表示する必要がある場合、各字幕の表示の長さなど、聴衆が字幕を受け入れる速度も重要な問題の 1 つです。字幕ポップアップの頻度、より快適に読む方法。全体的な満足度を確認するために、製品マネージャーと繰り返しコミュニケーションを取り、綿密なユーザー調査を実施する必要がある詳細が数多くあります。したがって、

これは単なる精度の問題ではなく、モデルを調整する前に実際のユーザー エクスペリエンスを考慮する必要があります。

さらに、

遅延はユーザー満足度の指標の 1 つである可能性がありますが、遅延は短いほど優れています。 通常は、適度な隙間を設けた方がよいでしょう。遅延が非常に短いと、字幕がすぐに表示され、ユーザーの受け入れ効果があまり良くないからです。この点で、字幕翻訳の間隔を動的に制御するなど、業界の成熟した多くの実践からも学びます。全体として、これは非常にエンジニアリングおよび製品指向の問題です。

今後の動向

機械翻訳はまだ完璧ではありませんが、専門家は翻訳をより高品質で、より使いやすく、より応用できるものにするために懸命に取り組んでいます。その開発動向、特に機械翻訳がプロの翻訳者と「衝突」したとき、翻訳サービスの現場でどのような化学反応が起こるのかを見てみましょう。

51CTO: テクノロジーの発展に伴い、機械翻訳はより興味深いアプリケーション シナリオを導き出すのでしょうか?

Wang Mingxuan: 以前に発売した火山翻訳 AR メガネも同様の試みでした。今年の Google I/O カンファレンスのフィナーレで発表された AR 翻訳メガネも非常に興味深いアプリケーションで、これを装着すると字幕効果と同様に対話者の翻訳をリアルタイムで見ることができます。

これは実際には比較的単純な理想を反映しています: 私たちは誰もがバリアフリーのコミュニケーションのある世界で暮らせ​​ることを願っています。 例: 海外旅行の際、眼鏡をかけていればどの言語のテキストプロンプトも理解できます。目に入る道路標識はドイツ語ですが、眼鏡に表示されている標識は中国語です。日常のコミュニケーションにおいて、誰かが話しかけると、その会話情報が自動的に理解できるテキストに変換され、メガネの下に表示されます。これらはすべて、情報をより効率的に取得できるシナリオです。

51CTO: 長期的には、機械翻訳はどのように発展するのでしょうか?

Wang Mingxuan: アプリケーションの観点から言えば、機械翻訳は ビデオ コンテンツやオーディオ コンテンツなどのマルチモーダル アプリケーションとより密接に統合される可能性があると思います。増加します。さらに、機械翻訳は海外ビジネスや文化の海外展開とより関連している可能性があります。 国内企業の多くが積極的に海外展開を行っているため、この分野は機械翻訳の発展に大いに役立つと思います。 テクノロジーの観点から見ると、すでに起こっているトレンドは次のとおりです。

第一に、ビッグ データと大規模モデルのトレーニングです。この分野に従事する人が増え、モデルがますます大規模になり、データ量も増大しており、この変化が機械翻訳の能力に質的な変化をもたらすのではないかと多くの人が考えています。

2 つ目は、翻訳とモダリティの組み合わせです。翻訳の観点だけでなく、業界の多くの人々がさまざまなモダリティの統一された意味表現を構築しようとしていますが、ここ数年、さまざまなモダリティ間の境界は比較的明確であり、コミュニケーションは比較的少なかったです。現在、モデルの一貫性はますます高まっています。将来的には、テキスト翻訳、音声翻訳、さらにはビデオ翻訳もできるモデルが登場するかもしれません。 51CTO: 将来的には、特定のシナリオにおいて機械翻訳が人間の翻訳を完全に置き換えることは可能ですか?

Wang Mingxuan: 現在の慣行によれば、労働力に代わることは確かにできません。ただし、機械翻訳と人間による翻訳は同じトラックに属さないのではないかと思います。

機械翻訳の特徴は、非常に高速でスケールアップが可能なため、タイムリーに処理する必要がある大量の情報を処理するのに適しています。たとえば、英語からフランス語に翻訳する必要があるビデオが 1,000 万本ある場合、純粋に手動で翻訳することは不可能ですが、機械なら可能です。これにより、マシンはトラックで非常に重要な役割を果たすことができ、市場全体が広がり、言語を超えた市場が大きくなることから、長期的には有益です。

ただし、非常に正確な翻訳シナリオの場合、機械翻訳では処理できない場合があります。誰かが言っていたように、機械翻訳は「紅楼夢」を翻訳できるでしょうか?私の意見では、これは機械翻訳タスクの範囲内ではありません。小説や詩の翻訳、この種の翻訳は専門家に頼らなければなりません。高水準の会議同時通訳もありますが、これには機械ではなくプロの翻訳者が必ず必要です。しかし、それほど重要ではない一部の会議では、機械翻訳のコスト上の利点が明らかになります。

機械翻訳とプロの翻訳者は異なるトラックに属しており、その区別は依然として非常に明確です。しかし、両者はある程度助け合う関係でもある。

これは以下に反映されています: 一方で、機械翻訳に必要なコーパスはプロの翻訳者によって作成されます。プロの翻訳者は仕事中に大量のコーパスを作成し続けており、これらのコーパスは機械翻訳の機能向上に役立ち続けます。一方で、機械翻訳は人々の負担を軽減し、それほど要求の厳しいタスクを処理するのにも役立ちます。最近では、多くの翻訳会社が翻訳後の編集を行っており、最初に機械に翻訳させ、後で翻訳者が編集することで効率が大幅に向上します。

ゲスト紹介

Wang Mingxuan は ByteDance AI-Lab 機械翻訳チームの責任者であり、彼の研究方向は主に機械翻訳と自然言語処理です。機械翻訳の分野では、ACLやEMNLPなどのトップカンファレンスで40本以上の論文を発表し、WMTなどの国際翻訳評価コンテストで何度も1位を獲得。同時に、EMNLP2022 のスポンサーチェア、NeurIPS 2022、NLPCC 2022、AACL2022 などのカンファレンス分野のチェアも務めています。

コラム紹介

「T Frontline」は、51CTOコンテンツセンターが技術者向けに特別に開設した徹底インタビューコラムのひとつです。テクノロジー業界の人々 リーダー、上級アーキテクト、上級技術専門家などが、現在のテクノロジーのホットスポット、テクノロジーの実践、テクノロジーのトレンドについて深い解釈と洞察を提供し、最先端テクノロジーの普及と開発を促進します。

以上がByteDance 王明軒氏への独占インタビュー: 機械翻訳と手動翻訳は本質的に 2 つのトラック | T Frontlineの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。