ホームページ  >  記事  >  テクノロジー周辺機器  >  Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

PHPz
PHPz転載
2023-04-08 10:51:041020ブラウズ

中国全土の人々は中国語を話しますが、場所によって方言は少し異なります。たとえば、路地という意味もあります。「胡同」と言えば、古い北京であることがわかりますが、実際に行ってみると、南に行くと「胡同」と呼ばれる路地です。

これらの微妙な地域差が「機械翻訳」タスクに反映されると、翻訳結果は十分に「本物」ではないように見えますが、現在のほとんどすべての機械翻訳システムはそうではありません。地域を考慮する 性的言語(つまり方言)の影響。

この現象は世界中にも存在しており、例えばブラジルの公用語はポルトガル語ですが、ヨーロッパのポルトガル語とは地域によって多少の違いがあります。

最近、Google は、主に方言翻訳の問題を解決する、少数ショットの地域認識型機械翻訳に使用できる新しいデータセットと評価ベンチマークFRMTをリリースしました。 TACL (Transactions of the Association for Computational Linguistics) に掲載されました。

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

論文リンク: https://arxiv.org/pdf/2210.00193.pdf

オープンソースリンク: https:/ / github.com/google-research/google-research/tree/master/frmt

このデータセットには、英語からポルトガル語と中国語の 2 つの地域別バージョンへの専門的な翻訳が含まれており、ソース ドキュメントは、語彙的に異なる用語や干渉用語など、対象の現象を詳細に分析します。

研究者らは、FRMT の自動評価指標を調査し、地域の一致および不一致のスコアリング シナリオの下で専門家の手動評価との相関関係を検証しました。

最後に、このタスク用にいくつかのベースライン モデルが提案され、研究者が独自のモデルをトレーニング、評価、比較する方法に関するガイダンスの提案が提供されます。データセットと評価コードはオープンソースです。

少数ショットの一般化

最新の機械翻訳システムは、英語の入力文とそれに対応するポルトガル語の翻訳で構成される入力データを使用して、数百万または数十億の翻訳サンプルでトレーニングされています。

しかし、利用可能なトレーニング データの大部分は、翻訳における地域差を考慮していません。

このデータ不足を考慮して、研究者らは、FRMT を少数ショット翻訳のベンチマークとして位置づけ、言語ごとにラベル付きの例が 100 個以下の場合に機械翻訳モデルが特定の領域をどの程度識別できるかを測定しました。

機械翻訳モデルは、少数のラベル付きサンプル (例) に表示される言語パターンに基づいて、他のラベルなしトレーニング サンプル内の同様のパターンを識別する必要があります。モデル内で明示的に指定されていない領域に対して「慣用的な」翻訳を生成するには、モデルをこの方法で一般化する必要があります。

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

たとえば、次の文を入力します: バスが到着しました。ブラジル系ポルトガル語の例をいくつか挙げると、モデルは「O ônibus chegou」を翻訳できるはずです。与えられたのがヨーロッパ系ポルトガル語の場合、モデルの翻訳結果は「O autocarro chegou」となるはずです。

機械翻訳の数ショット手法は研究価値が高く、非常に簡単な方法で既存のシステムに追加の地域言語のサポートを追加できます。

Google が公開している現在の研究は 2 つの言語の地域別バージョンを対象としていますが、研究者らは、優れたアプローチは他の言語や地域別バージョンにも簡単に適用できると予測しています。

原則として、これらの方法は、エチケットやスタイルなど、他の言語の違い現象にも適用できます。

データ コレクション

FRMT データセットには、Wiki40b データセットから派生した英語のウィキペディア記事がいくつか含まれており、有料のプロ翻訳者によってさまざまな地域に翻訳されています。ポルトガル語と中国語。

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

重要な地域の認識に関する翻訳の課題を強調するために、研究者は 3 つのコンテンツ バケットを使用してデータ セットを設計しました。

1. 語彙語彙

語彙バケットは主に、地域ごとの語彙選択の違いに焦点を当てています。 「bus」という単語はそれぞれブラジル語とヨーロッパのポルトガル語に翻訳されるため、モデルは「ônibus」と「autocarro」の違いを識別できる必要があります。

研究者らは、ブログや教育ウェブサイトに基づいて地域固有の翻訳用語を 20 ~ 30 個手動で収集し、各地域のネイティブスピーカーのボランティアからのフィードバックに基づいて翻訳をフィルタリングしてレビューしました。

取得した英語用語のリストに基づいて、関連する英語版 Wikipedia の記事 (バスなど) から 100 文が抽出されます。中国語の場合は、上記と同じ収集プロセスを繰り返します。

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

2. エンティティ Entity

エンティティ バケットには、同様の方法で人、場所などが入力されます。関係するエンティティ 特定の言語が関係する 2 つの領域のうちの 1 つとの強いつながり。

たとえば、「リスボンでは、よくバスに乗りました。」(リスボンでは、よくバスに乗りました。)のような説明文が与えられた場合、正しく解釈するためには、ブラジル系ポルトガル語に翻訳すると、モデルは 2 つの潜在的な落とし穴を識別できなければなりません:

#1) リスボンとポルトガルの間のより近い地理的つながりは、モデル翻訳の選択に影響を与える可能性があります。モデルは、ブラジル ポルトガル語ではなくヨーロッパ ポルトガル語に翻訳する必要があると判断します。つまり、「ônibus」の代わりに「autocarro」を選択します。

2) 「リスボン」を「ブラジリア」に置き換えることは、より簡単な方法かもしれません。同じパターンの場合、翻訳結果がまだ非常にスムーズであっても、出力をブラジル系ポルトガル語にローカライズします。しかし、不正確なセマンティクスにつながる可能性もあります。

3. ランダム ランダム

ランダム バケットは、モデルが他のさまざまな現象 (Wikipedia の特徴など) を正しく処理しているかどうかを確認するために使用されます。コレクションからランダムに選択された 100 個の記事。

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

#システム パフォーマンス

FRMT データセット用に収集された翻訳が、特定の地域での現象に応じて、研究者はデータ品質の手動評価を実行しました。

それぞれの地域の専門アノテーターが、多次元品質測定 (MQM) フレームワークを使用して翻訳のエラーを特定し、分類します。このフレームワークには、特定されたエラーを組み合わせて翻訳の重み付けスキームが含まれています。文ごとの重大なエラーの数を大まかに表す単一のスコア。つまり、数値が小さいほど翻訳が優れていることを示します。

研究者らは、地域ごとに、MQM 評価者に、その地域の翻訳と他の地域の翻訳をその言語で評価するよう依頼しました。

たとえば、ブラジルのポルトガル語の評価者は、ブラジルとヨーロッパのポルトガル語の両方の翻訳を同時に評価しました。2 つのスコアの差は、言語現象の普遍性、つまり、言語現象の普遍性を示します。別の言語ではなく、さまざまな言語を使用できます。

実験結果では、ポルトガル語と中国語では、評価者が一致した翻訳よりも文ごとに平均で約 2 件多くの重大な誤りを発見したことがわかり、FRMT データセットが実際に特定の地域をキャプチャできることを示しています。言語現象。

手動評価はモデルの品質を保証する最良の方法ですが、多くの場合時間がかかり、コストがかかります。

したがって、研究者らは、ベンチマークでのモデルのパフォーマンスを評価するために使用できる既製の自動メトリクスを見つけたいと考えており、chrF、BLEU、BLEURT の使用を検討しています。

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

いくつかのベースライン モデル変換結果に対する MQM 評価者の評価に基づくと、BLEURT が最も優れた相関関係を持っていることがわかります。この相関の強さ (ピアソン相関係数 ρ 0.65) は、アノテーター間の一致 (クラス内相関 0.70) に匹敵します。

システム パフォーマンス

この記事では、最近リリースされた数ショット制御機能を備えたモデルを評価します。

MQM の人による評価に基づくと、ベースライン手法はすべて、ポルトガル語出力をローカライズする一定の能力を示していますが、中国語北京語の場合、ほとんどのメソッドは対象地域の知識を使用して優れたローカル言語を生成しません。翻訳結果。

評価されたベンチマークの中で、Google の言語モデル PaLM モデルが最も優れたパフォーマンスを示しました。PaLM を使用して地域固有の翻訳を生成するには、最初に説明プロンプトがモデルに入力され、次にテキストが生成されます。隙間を埋めるためのものです。

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

#PaLM は、たった 1 つの例で素晴らしい結果を達成しました。ポルトガル語では、次のような場合に品質がわずかに向上しました。例は 10 個に増加しますが、PaLM が教師なしでトレーニングされることを考慮すると、これはすでに非常に優れています。

この調査結果は、PaLM のような言語モデルが、スムーズな翻訳に必要な地域固有の語彙の選択肢を記憶するのに特に優れている可能性があることも示唆しています。

Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに

ただし、PaLM と人間の間には依然として大きなパフォーマンスの差があります。

参考資料:

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

以上がGoogle、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。