Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。
学術および商用の機械翻訳システム (MT) の品質は、過去 10 年間で劇的に向上しました。これらの改善は主に、機械学習の進歩と大規模な Web マイニング データセットの利用可能性によるものです。同時に、ディープラーニング(DL)およびE2Eモデル、Webマイニングから得られる大規模な並列単一言語データセット、逆翻訳や自己学習などのデータ拡張手法、および大規模な多言語データセットの出現。言語モデリングは、100 言語を超える高品質の機械翻訳システムをサポートする機能をもたらしました。
しかし、低リソースの機械翻訳は大きく進歩しているにもかかわらず、広く利用可能な一般的な機械翻訳システムが構築されている言語の数は約 100 言語に限られています。それらは明らかに今日最も包括的なものにすぎず、世界で話されている 7,000 以上の言語のうちのいくつかです。言語の数が限られていることに加えて、現在の機械翻訳システムがサポートする言語の分布もヨーロッパ言語に大きく偏っています。
人口が多いにもかかわらず、アフリカ、南アジア、東南アジアで話されている言語、およびアメリカ先住民の言語を対象としたサービスが少ないことがわかります。たとえば、Google 翻訳はフリジア語、マルタ語、アイスランド語、コルシカ語をサポートしていますが、これらの言語の母語話者はいずれも 100 万人未満です。比較すると、Google 翻訳が提供されていないビハール語の人口は約 5,100 万人、オロモ語の人口は約 2,400 万人、ケチュア語の人口は約 900 万人、ティグリニャ語の人口は約 900 万人です (2022 年)。これらの言語は「ロングテール」言語として知られており、データが不足しているため、十分なトレーニング データがあれば言語を超えて一般化できる機械学習技術の適用が必要です。
これらのロングテール言語の機械翻訳システムの構築は、利用可能なデジタル化されたデータ セットや言語識別 (LangID) モデルなどの NLP ツールが不足しているため、大きく制限されています。これらは高リソース言語ではどこにでもあります。
最近の Google の論文「次の 1,000 の言語のための機械翻訳システムの構築」では、20 名を超える研究者が、1,000 を超える言語をサポートする実用的な機械を構築する取り組みを実証しました。結果。
論文アドレス: https://arxiv.org/pdf/2205.03983.pdf
特定の具体的には、研究者らは以下の 3 つの研究分野からの成果について説明します。
まず、言語認識とデータ駆動型フィルタリング技術のための半教師あり事前トレーニングを通じて、1,500 言語用のクリーンなウェブマイニング データセットが作成されます。
2 番目に、100 を超える高リソース言語の教師付き並列データと、さらに 1,000 の追加言語の単言語データセットを使用してトレーニングされた大規模な多言語モデルを通じて、実際に十分なサービスが提供されていない言語でも機能します。
第三に、これらの言語の評価指標の限界を研究し、機械翻訳モデルの出力の定性分析を実施し、そのようなモデルのいくつかの一般的なエラー パターンに焦点を当てます。
この研究が、現在研究が進んでいない言語の機械翻訳システムの構築に取り組む実務者に有益な洞察を提供することを願っています。さらに研究者らは、この研究が、データがまばらな環境における大規模多言語モデルの弱点に対処する研究の方向性につながることを期待している。
5 月 12 日の I/O カンファレンスで、Google は、自社の翻訳システムに、ニッチなアメリカ先住民の言語を含む 24 の新しい言語を追加したと発表しました。前述のケチュア語とティグリニャ語。
論文の概要
この研究は主に 4 つの主要な章に分かれており、ここではそれぞれの章についてのみ説明します。各章の内容を簡単に紹介します。
1000 言語の Web テキスト データ セットを作成する
この章では、1500 言語の単一言語テキスト データをクロールする研究者の取り組みについて詳しく説明します。収集プロセスで使用されます。これらの方法は、高精度データ (つまり、高い割合のきれいな言語内テキスト) を回復することに重点を置いているため、さまざまなフィルタリング方法が大部分を占めます。
一般に、研究者が使用する方法には次のようなものがあります:
- トレーニング データの品質と LangID パフォーマンスが低い言語を LangID モデルから削除し、1629 言語の CLD3 LangID モデルと半教師あり LangID (SSLID) モデルをトレーニングします。
- CLD3 モデルの言語のエラー率に基づいてクラスタリング操作を実行します;
- CLD3 モデルを使用して Web クローリングの最初のラウンドを実行します;
- 文書の一貫性を使用して文をフィルタリングします;
- パーセンテージしきい値の単語リストを使用してすべてのコーパスをフィルタリングします;
- 半教師あり LangID (SSLID) を使用してすべてのコーパスをフィルターします;
- 相対再現率を使用して外れ値言語を検出し、用語周波数逆インターネット周波数 (TF-IIF) を使用してフィルターします;
- トークン頻度の異常性スコアを使用して外れ値言語を検出し、それらのフィルターを手動で設計します;
- 文のすべてのコーパスに直面しますレベル 重複排除操作を実行します。
以下は、1745 言語の CLD3 LangID モデルを使用した Web テキストのドキュメント整合性スコアのヒストグラムです。
#以下の表 2 は、単一言語データの一部である完全な低リソース言語 (LRL) データ セットの単一言語データを示しています。モデルのトレーニングに使用され、高リソース言語を含む完全なトレーニング セットの単一言語統計が含まれます。
章のディレクトリは次のとおりです。
は次のとおりです。ロングテール言語 機械翻訳モデルの構築
Web からマイニングされた単一言語データの場合、次の課題は、限られた量の単一言語データから高品質の一般的な機械翻訳モデルを作成することです。トレーニングデータ。この目的を達成するために、研究者らは、高リソース言語で利用可能なすべての並列データを活用して、単一言語データのみが利用可能なロングテール言語の品質を向上させるという実用的なアプローチを採用しました。ロングテール言語には直接の監視がないため、彼らはこのセットアップを「ゼロリソース」と呼んでいます。
研究者らは、ロングテール言語のゼロリソース翻訳の品質を向上させるために、過去数年間に機械翻訳用に開発されたいくつかの技術を使用してきました。これらの手法には、単言語データからの自己教師あり学習、大規模な多言語教師あり学習、大規模な逆変換、および大容量モデルの自己トレーニングが含まれます。彼らはこれらのツールを使用して、約 100 言語をカバーする既存の対訳コーパスと Web から構築された 1,000 言語の単一言語データセットを利用して、1,000 言語を翻訳できる機械翻訳モデルを作成しました。
具体的には、研究者らはまず、ゼロリソース翻訳 (3.2) における 15 億パラメータと 60 億パラメータのトランスフォーマのパフォーマンスを比較することで、高度な多言語モデルにおけるモデル能力の重要性を強調しました。自己教師あり言語の数を 1000 に増やし、同様の言語からのより多くの単言語データが利用可能になるにつれて、ほとんどのロングテール言語のパフォーマンスが向上することを検証しました (3.3)。研究者の 1,000 言語モデルは妥当なパフォーマンスを示しましたが、アプローチの長所と限界を理解するために大規模なデータ拡張を組み込みました。
さらに、研究者らは、自己学習と逆翻訳を通じて、大量の合成データを含む 30 言語のサブセットで生成モデルを微調整しました (3.4)。彼らはさらに、幻覚や誤った言語翻訳に対するこれらの微調整されたモデルの堅牢性を高めるために、合成データをフィルタリングするための実践的な方法についても説明しています (3.5)。
また、シーケンスレベルの蒸留を使用して、これらのモデルをより小さく、推論しやすいアーキテクチャに改良し、教師モデルと生徒モデル間のパフォーマンスのギャップを強調しました (3.6)。
章のディレクトリは次のとおりです:
Assessment
機械翻訳モデルを評価するために、研究者らはまず英語の文章をこれらの言語に翻訳し、選択した 38 のロングテール言語の評価セット (4.1) を構築しました。彼らは、ロングテール設定における BLEU の制限を強調し、CHRF (4.2) を使用してこれらの言語を評価します。
研究者らはまた、参照セットが利用できない言語でのモデルの品質を理解するために、往復翻訳に基づいた近似の非参照メトリクスを提案しました。このメトリックによって測定されたモデルの結果が報告されます (4.3)。彼らは、28 言語のサブセットに対して人によるモデルの評価を実行し、その結果を報告し、論文 (4.4) で説明されているアプローチに従って有用な機械翻訳システムを構築できることを確認しました。
大規模な多言語ゼロリソースモデルの弱点を理解するために、研究者はいくつかの言語について定性的エラー分析を実施しました。このモデルでは、「トラ」が「小さなワニ」になるなど、分布が似ている単語や概念が混同されることが多いことがわかりました (4.5)。また、より低いリソース設定 (4.6) では、出現頻度が低いトークンのトークンを変換するモデルの能力が低下します。
研究者らは、これらのモデルが短い単語や単一の単語の入力を正確に翻訳できないことが多いことも発見しました (4.7)。洗練されたモデルに関する研究では、すべてのモデルがトレーニング データに存在するバイアスやノイズを増幅する可能性が高いことが示されています (4.8)。
#この章の目次は次のとおりです:
##追加の実験とメモ
研究者らは、上記のモデルに対していくつかの追加実験を実施し、英語をピボットとして使用せずに類似言語間で直接翻訳する方が一般に優れたパフォーマンスを示し (5.1)、異なる言語間で使用できることを示しました。 scripts (5.2) のゼロサンプル音訳。
彼らは、ピリオド トリックと呼ばれる、任意の入力に終端句読点を追加する実用的なテクニックについて説明しています。これは、翻訳品質を向上させるために使用できます (5.3) 。
さらに、これらのモデルがすべてではないが一部の言語 (5.4) での非標準 Unicode グリフの使用に対して堅牢であることを実証し、いくつかの非 Unicode フォントを調査します。 (5.5)。
章リストは次のとおりです:
研究の詳細については、原文を参照してください。紙。
以上がGoogle は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ホットトピック









