Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに-AI-php.cn

ホームページ

テクノロジー周辺機器

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

PHPz

Apr 08, 2023 am 10:51 AM

グーグルデータセット機械翻訳

中国全土の人々は中国語を話しますが、場所によって方言は少し異なります。たとえば、路地という意味もあります。「胡同」と言えば、古い北京であることがわかりますが、実際に行ってみると、南に行くと「胡同」と呼ばれる路地です。

これらの微妙な地域差が「機械翻訳」タスクに反映されると、翻訳結果は十分に「本物」ではないように見えますが、現在のほとんどすべての機械翻訳システムはそうではありません。地域を考慮する性的言語（つまり方言）の影響。

この現象は世界中にも存在しており、例えばブラジルの公用語はポルトガル語ですが、ヨーロッパのポルトガル語とは地域によって多少の違いがあります。

最近、Google は、主に方言翻訳の問題を解決する、少数ショットの地域認識型機械翻訳に使用できる新しいデータセットと評価ベンチマークFRMTをリリースしました。 TACL (Transactions of the Association for Computational Linguistics) に掲載されました。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

論文リンク: https://arxiv.org/pdf/2210.00193.pdf

オープンソースリンク: https:/ / github.com/google-research/google-research/tree/master/frmt

このデータセットには、英語からポルトガル語と中国語の 2 つの地域別バージョンへの専門的な翻訳が含まれており、ソースドキュメントは、語彙的に異なる用語や干渉用語など、対象の現象を詳細に分析します。

研究者らは、FRMT の自動評価指標を調査し、地域の一致および不一致のスコアリングシナリオの下で専門家の手動評価との相関関係を検証しました。

最後に、このタスク用にいくつかのベースラインモデルが提案され、研究者が独自のモデルをトレーニング、評価、比較する方法に関するガイダンスの提案が提供されます。データセットと評価コードはオープンソースです。

少数ショットの一般化

最新の機械翻訳システムは、英語の入力文とそれに対応するポルトガル語の翻訳で構成される入力データを使用して、数百万または数十億の翻訳サンプルでトレーニングされています。

しかし、利用可能なトレーニングデータの大部分は、翻訳における地域差を考慮していません。

このデータ不足を考慮して、研究者らは、FRMT を少数ショット翻訳のベンチマークとして位置づけ、言語ごとにラベル付きの例が 100 個以下の場合に機械翻訳モデルが特定の領域をどの程度識別できるかを測定しました。

機械翻訳モデルは、少数のラベル付きサンプル (例) に表示される言語パターンに基づいて、他のラベルなしトレーニングサンプル内の同様のパターンを識別する必要があります。モデル内で明示的に指定されていない領域に対して「慣用的な」翻訳を生成するには、モデルをこの方法で一般化する必要があります。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

たとえば、次の文を入力します: バスが到着しました。ブラジル系ポルトガル語の例をいくつか挙げると、モデルは「O ônibus chegou」を翻訳できるはずです。与えられたのがヨーロッパ系ポルトガル語の場合、モデルの翻訳結果は「O autocarro chegou」となるはずです。

機械翻訳の数ショット手法は研究価値が高く、非常に簡単な方法で既存のシステムに追加の地域言語のサポートを追加できます。

Google が公開している現在の研究は 2 つの言語の地域別バージョンを対象としていますが、研究者らは、優れたアプローチは他の言語や地域別バージョンにも簡単に適用できると予測しています。

原則として、これらの方法は、エチケットやスタイルなど、他の言語の違い現象にも適用できます。

データコレクション

FRMT データセットには、Wiki40b データセットから派生した英語のウィキペディア記事がいくつか含まれており、有料のプロ翻訳者によってさまざまな地域に翻訳されています。ポルトガル語と中国語。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

重要な地域の認識に関する翻訳の課題を強調するために、研究者は 3 つのコンテンツバケットを使用してデータセットを設計しました。

1. 語彙語彙

語彙バケットは主に、地域ごとの語彙選択の違いに焦点を当てています。「bus」という単語はそれぞれブラジル語とヨーロッパのポルトガル語に翻訳されるため、モデルは「ônibus」と「autocarro」の違いを識別できる必要があります。

研究者らは、ブログや教育ウェブサイトに基づいて地域固有の翻訳用語を 20 ～ 30 個手動で収集し、各地域のネイティブスピーカーのボランティアからのフィードバックに基づいて翻訳をフィルタリングしてレビューしました。

取得した英語用語のリストに基づいて、関連する英語版 Wikipedia の記事 (バスなど) から 100 文が抽出されます。中国語の場合は、上記と同じ収集プロセスを繰り返します。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

2. エンティティ Entity

エンティティバケットには、同様の方法で人、場所などが入力されます。関係するエンティティ特定の言語が関係する 2 つの領域のうちの 1 つとの強いつながり。

たとえば、「リスボンでは、よくバスに乗りました。」（リスボンでは、よくバスに乗りました。）のような説明文が与えられた場合、正しく解釈するためには、ブラジル系ポルトガル語に翻訳すると、モデルは 2 つの潜在的な落とし穴を識別できなければなりません:

#1) リスボンとポルトガルの間のより近い地理的つながりは、モデル翻訳の選択に影響を与える可能性があります。モデルは、ブラジルポルトガル語ではなくヨーロッパポルトガル語に翻訳する必要があると判断します。つまり、「ônibus」の代わりに「autocarro」を選択します。

2) 「リスボン」を「ブラジリア」に置き換えることは、より簡単な方法かもしれません。同じパターンの場合、翻訳結果がまだ非常にスムーズであっても、出力をブラジル系ポルトガル語にローカライズします。しかし、不正確なセマンティクスにつながる可能性もあります。

3. ランダムランダム

ランダムバケットは、モデルが他のさまざまな現象 (Wikipedia の特徴など) を正しく処理しているかどうかを確認するために使用されます。コレクションからランダムに選択された 100 個の記事。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

#システムパフォーマンス

FRMT データセット用に収集された翻訳が、特定の地域での現象に応じて、研究者はデータ品質の手動評価を実行しました。

それぞれの地域の専門アノテーターが、多次元品質測定 (MQM) フレームワークを使用して翻訳のエラーを特定し、分類します。このフレームワークには、特定されたエラーを組み合わせて翻訳の重み付けスキームが含まれています。文ごとの重大なエラーの数を大まかに表す単一のスコア。つまり、数値が小さいほど翻訳が優れていることを示します。

研究者らは、地域ごとに、MQM 評価者に、その地域の翻訳と他の地域の翻訳をその言語で評価するよう依頼しました。

たとえば、ブラジルのポルトガル語の評価者は、ブラジルとヨーロッパのポルトガル語の両方の翻訳を同時に評価しました。2 つのスコアの差は、言語現象の普遍性、つまり、言語現象の普遍性を示します。別の言語ではなく、さまざまな言語を使用できます。

実験結果では、ポルトガル語と中国語では、評価者が一致した翻訳よりも文ごとに平均で約 2 件多くの重大な誤りを発見したことがわかり、FRMT データセットが実際に特定の地域をキャプチャできることを示しています。言語現象。

手動評価はモデルの品質を保証する最良の方法ですが、多くの場合時間がかかり、コストがかかります。

したがって、研究者らは、ベンチマークでのモデルのパフォーマンスを評価するために使用できる既製の自動メトリクスを見つけたいと考えており、chrF、BLEU、BLEURT の使用を検討しています。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

いくつかのベースラインモデル変換結果に対する MQM 評価者の評価に基づくと、BLEURT が最も優れた相関関係を持っていることがわかります。この相関の強さ (ピアソン相関係数 ρ 0.65) は、アノテーター間の一致 (クラス内相関 0.70) に匹敵します。

システムパフォーマンス

この記事では、最近リリースされた数ショット制御機能を備えたモデルを評価します。

MQM の人による評価に基づくと、ベースライン手法はすべて、ポルトガル語出力をローカライズする一定の能力を示していますが、中国語北京語の場合、ほとんどのメソッドは対象地域の知識を使用して優れたローカル言語を生成しません。翻訳結果。

評価されたベンチマークの中で、Google の言語モデル PaLM モデルが最も優れたパフォーマンスを示しました。PaLM を使用して地域固有の翻訳を生成するには、最初に説明プロンプトがモデルに入力され、次にテキストが生成されます。隙間を埋めるためのものです。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

#PaLM は、たった 1 つの例で素晴らしい結果を達成しました。ポルトガル語では、次のような場合に品質がわずかに向上しました。例は 10 個に増加しますが、PaLM が教師なしでトレーニングされることを考慮すると、これはすでに非常に優れています。

この調査結果は、PaLM のような言語モデルが、スムーズな翻訳に必要な地域固有の語彙の選択肢を記憶するのに特に優れている可能性があることも示唆しています。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

ただし、PaLM と人間の間には依然として大きなパフォーマンスの差があります。

参考資料:

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

以上がGoogle、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

ホットツール

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ホットトピック

Gmailメールのログイン入り口はどこですか？

7554

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

少数ショットの一般化