ホームページ > 記事 > テクノロジー周辺機器 > メタの言語翻訳に関する大規模研究、結果はすべて「日常的」
今年 7 月初旬、Meta AI は、No Language Left Behind (NLLB) と呼ばれる新しい翻訳モデルをリリースしました。これは、文字通り「言語が取り残されない」と訳せます。
名前が示すように、NLLB は 200 言語間の任意の翻訳をサポートでき、Meta AI によってオープンソース化もされています。ルガンダ語、ウルドゥー語など、これまで見たことのない言語も翻訳できます。
懐疑論者は、翻訳技術に精通した自然言語処理研究科学者のベンジャミン マリーです。彼が疑問に思ったことは、spBLEUとBLEUを並べて比較したメタAIとして要約できます。
この質問に関して、一部の研究者は次のように述べています。テキスト内にスペースがない限り、spBLEU は妥当な指標です (タイ語など)。しかし、spBLEU と BLEU を比較するのは明らかに間違っています。 #############################これは素晴らしい指摘です。また、機械学習の研究においては、確証のない研究には十分に注意しなければならないということも学びました。ここでわかることは、人々が分数の生成方法を制御せずに分数だけを参照する場合、問題が複雑になることを示唆しています。
この論文の著者の一人であるヴェダヌジ・ゴスワミ氏は次のように述べています。 BLEU スコアをさまざまなトークナイザーとの比較に分割することはできません。しかし、論文の結果のほとんどが比較できないという著者の主な主張は真実ではありません。
私たちの論文では、表 30 と表31 同じトークナイザーが spBLEU 評価 (FLORES-101 spm トークナイザー) に特に比較のために使用されています。FLORES-200 spm トークナイザーは使用しません。これについては、表 30 のタイトルとセクション 8.3.1 で詳しく説明します。同様に、表 35、36、37、38 はすべて、適切な比較のために比較可能なメトリクス/トークナイザーを使用しています。論文を更新しました
一般的に、現在の機械翻訳では評価方法がまだ完全ではありません。であり、論文ごとに異なる方法が使用されています。"
## 具体的な内容:
評価方法に欠陥があります
###まず、簡単な例え:############ポールはバナナを 25 個、ビルはトマトを 30 個持っています。ビルはポールよりバナナを5本多く持っていると思いますか? ############BLEU はバナナのようなもの、spBLEU はトマトのようなものです。 Paul を以前の作品に置き換え、Bill を NLLB に置き換えます。次のようなものを書くことができます: ############前の作業は 25 BLEU で実行され、NLLB は 30 spBLEU で実行されました。 NLLB は前作より 5 BLEU ポイント優れていると思いますか? ######
上記の例えで、以下に紹介する内容も理解しやすいかもしれません。
以前、Meta AI は NLLB を包括的に説明および評価した論文を発表しました。論文の要約では、このモデルは以前の SOTA 手法と比較して 44% の BLEU 改善を達成すると主張しています。言い換えれば、NLLB は以前の研究よりも良い結果を生み出すでしょう。
BLEU に関しては、BLEU が以前の SOTA テクノロジーと比較して 44% 向上したことは、機械翻訳研究の歴史の中でもまれです。つまり、論文にあるこの単純な一文は科学の進歩を表しているということになります。一部のメディアはこの声明を直接報道し、さらなる検証も行わずに、メタ AI を言語機械翻訳の頂点に位置づけました。
Meta AI がこのような大規模な技術研究を発表することを選択した場合、非常に信頼できる科学的証拠を提供する必要があります。そうでなければ、何の証拠もないのに、他の研究機関よりも優れているというメタ AI の主張は、他の研究機関がこれまで行ってきた、そして現在も行っている非常に熱心な研究を台無しにするだけです。
マリー NLLB エラーの問題を説明するために、彼はメタ AI が自身の結果によってどのように誤解されるかを実証しようとしました。 NLLB の簡単な例と、彼女自身が見つけた同様の例を使用して、マリーは、NLLB の欠陥のある評価方法を使用すると、SOTA を超えることがいかに簡単かを実証します。最後に、マリーは評価における主な間違いを特定し、具体的に説明します。
Meta AI は、そのモデルを 20 以上の以前の研究のデータと比較し、NLLB が以前の研究を大幅に上回っていると結論付けました。このような多数の比較を実現するために、機械翻訳評価の自動評価メトリクス、主に BLEU と spBLEU に依存しています。
BLEU には欠点があるにもかかわらず、機械翻訳では非常に人気があります。
たとえば、Google 翻訳を使用して、FLORES101 データセットにある次のフランス語のテキストを英語に翻訳したいとします。フランス語を話す人なら、これが非常に質の悪い翻訳であることに気づくでしょう。文法上の間違いや用語の一貫性がなく、自然に読むことができません。実際、データセットは英語から作成されているため、メタ AI は英語に翻訳する場合にのみ機械翻訳を評価します。
Google 翻訳のトークンがこの参照翻訳にも含まれている数を数え、それを参照翻訳と比較することでこれを行うことができます。参考訳 比較してください。ここでのトークンは、スペースで区切られた一連の文字として定義されます。オレンジ色は、上記の Google 翻訳内の、以下の参照翻訳に表示されるすべてのトークン シーケンスを強調表示します。
一致するすべてのトークンのみを考慮すると、BLEU スコアは 50.8 BLEU と計算できます。このスコアだけでは何の意味もありません。別の BLEU スコアと比較した場合にのみ意味を持ちます。
ここで理解すべき重要な点は、スコアはトークンに基づいて計算されますが、ほとんどの機械翻訳研究では無視されるということです。 BLEU スコアは SacreBLEU を使用して計算されます。SacreBLEU は独自の内部トークン化を実行し、基本的に句読点の前にスペースを追加するだけです。これは、BLEU スコアを計算する最も信頼性が高く、再現性のある方法の 1 つです。メタ AI は spBLEU を使用します。
それでは、spBLEU とは何ですか?これは BLEU ですが、異なるトークン化を使用します。以下のように Google 翻訳と参照翻訳をトークン化します。
spBLEU に関連付けられたトークンは、単語をより小さなフラグメントに分割することによってトークンを生成します (トークンに付加されています。これは重要ではありません)ここでは無視してみてください)。 spBLEU トークン化を使用することの直接的な結果として、翻訳と参照の両方でより多くのトークンが生成されることになります。より多くのトークンがあるため、Google 翻訳は参照からより多くのトークンと一致することが期待できます。そうするとスコアが伸びます。実際、ここでの spBLEU スコアは 54.8 です。
SacreBLEU 内部トークン化を使用して上記で計算された BLEU スコアよりも 4 ポイント高いと尋ねざるを得ませんか?では、翻訳はますます良くなっているのでしょうか?
どうやらそうではないようですが、翻訳は同じままです。 BLEUとspBLEUを比較するのは全く意味がありません。 BLEU と spBLEU は、Google 翻訳と参照翻訳の処理方法が異なり、評価目的のみに使用されます。これらは実際には異なる指標です。それらが同じインジケーターであれば、異なる名前を付ける必要はありません。機械翻訳研究コミュニティでよく見聞きするように、異なるトークン、あるいはほぼ同様のトークンに対して計算された BLEU スコアを使用して翻訳の品質を比較するのは公平ではなく、不公平ですらあります。研究が科学的に信頼できるものであることを望む場合は、まったく同じトークン化を使用して BLEU スコアを一貫して計算するだけです。
##Meta AI は、NLLB は以前に公開された BLEU スコアよりも常に優れた spBLEU スコアを達成できるため、以前の研究よりもはるかに優れていると主張していますが、その逆は真実です。なぜなら、特定の翻訳の BLEU スコアよりも低い spBLEU スコアを取得するのは非常に困難な作業だからです。さらに不可解なのは、最高スコアを取得することが目標である場合、なぜ単に chrBLEU メトリクスを使用しないのかということです。
たとえば、Google 翻訳やリファレンス翻訳では、各文字がトークンになります (つまり、文字の間にスペースが追加されます)。
その後、chrBLEU 値は 75.5 と計算され、spBLEU より 20.7 ポイント高くなります。 NLLB の評価によると、これは大幅な改善であり、元の Google 翻訳は変更されていないものの、機械翻訳の新たな最高点となるでしょう。
#論文の誤りの例
次に、NLLB 評価の具体的な例を見てみましょう。 。メタ AI は、その数値を以前に公表された数値と比較することで、以前の研究を上回ったと主張しています。この論文では、以前の研究と比較された表 30、31、32、35、36、37、および 38 から結論が導き出されます。
# は表 32 から始まります。さまざまな種類のエラーが発生する可能性があるため、これは最もわかりやすい例の 1 つです。
#表から、NLLB-200 列を除くすべての数値は、以前に公開された論文 IndicBART および IndicTrans から直接コピーされたものです。読みやすさを考慮して、Meta AI は各言語の最高スコアを太字でマークし、太字の列は対応するシステムが最高であることを示します。
表にはすべて spBLEU と記載されていますが、これは誤解を招きます。 IndicBART と IndicTrans は spBLEU ではなく BLEU を使用するため、実際には、all は NLLB-200 のみを意味します。ただし、比較すると、NLLB の spBLEU スコアが以前の研究の BLEU スコアよりも高いことがわかります。しかし、それはNLLBが優れていることを意味しますか?これはバナナ 25 本よりもトマト 30 個のほうが良いでしょうか?
#結果を説明するテキストでは次のことがわかります。
For例 (c) Google 翻訳、(d) Microsoft 翻訳。 NLLB-200 は、ほとんどの方向ですべてのモデルを大幅に上回ります。 NLLB-200 のトレーニング データセットには、(a) と (b) でカバーされる言語のほぼ 2 倍となる 25 のインド言語が含まれています。パフォーマンスの向上は、多言語送信の増加と、インド言語のマイニングおよび逆翻訳のデータ品質の向上によるものと考えられます。
言い換えれば、NLLB では、以前の研究でバナナが存在したよりも多くのトマトが存在していました。つまり、NLLBにはより多くのバナナがあります。
spBLEU スコアは、より小さく異なるトークンに基づいて計算されるため、BLEU スコアよりも高くなります。しかし、NLLB のほうが翻訳しやすいでしょうか?私たちは単純に答えることができません。さらに悪いことに、IndicBART と IndicTrans はどちらも 2 つの異なるトークン メソッドを使用しているため、比較できません。
上記のテーブルのほとんどには同様の問題があり、多かれ少なかれエラーが発生します。
IndicBART と IndicTrans が発行した論文を見て数値を確認すると、他にも問題があることがわかります。表 32 の列 (a、b) はすべて交換されており、IndicBART の数値は indicatrans の数値であり、その逆も同様です。
表 30 を見ると、問題はさらに大きくなります。 ただし、表 30 は論文で更新されており、Benjamin Marie は記事を更新してくれた Vedanuj に感謝の意を表しました。表 30 には、トークナイザーが同じであることが記載されています。私は自分の間違いを認めます。
# 表 32 に示すように、Meta AI は、さまざまな計算方法を使用して得られた BLEU を比較しながら、NLLB が以前の DeltaLM および Deepnet よりも優れていると主張しています。 。ここで新しいことは、NLLB を、同様に spBLEU を使用して評価した前作の M2M-100 と比較したことです。では、この比較には意味があるのでしょうか?いいえ。どちらも spBLEU を使用していますが、実際には異なるトークナイザーを使用しているため、比較は不可能です。彼らは脚注 28 で次の声明を行っています:
「私たちの分析は、FLORES-101 言語で実行された場合、測定したところ、FLORES-200 の SPM-200 と FLORES-101 の SPM-100 モデルの間には小さな違いがあります。SPM-200 の主な利点は、200 以上の言語をカバーしていることです。」
小さな違いも違いです。この場合、私たちは科学研究を行っているため、これらの違いが重要になります。
M2M-100 での作業と比較した NLLB の進歩の 1 つは、モデルとデータセットにさらに多くの言語が追加されたことです。これにはトークン化モデルが含まれます。技術的に言えば、語彙サイズを一定に保ちながら、このトークナイザーにさまざまな書記体系の言語を追加すると、機械的により小さなトークンの語彙が得られます。上で見たように、より小さいトークンを使用すると、より良いスコアが得られる可能性があります。これを確認してみましょう。
#以下に示すように:
##このトークン化では 95 個のトークンが生成されますが、NLLB は97 個のトークンを生成します。これは微妙な違いにすぎません。spBLEU が M2M-100 トークン化を使用して計算された場合、スコアは 53.8 となり、NLLB トークン化より 1 ポイント低くなります。機械翻訳の研究文献によると、通常は 1 ポイントの差で、システムが大幅に優れていると主張できます。予想通り、NLLB は M2M-100 よりも高いスコアを生成します。
次の表は、この記事の最後の表です: 表 31。
同様に、上記と同じ問題があります:
##1。 M2M-100 と NLLB はスコアリングに 2 つの異なるトークン化を使用するため、比較することはできません。 2. MMTAfrica は論文で M2M-100 トークン化を使用しているようです。 M2M-100 に匹敵しますが、NLLB には匹敵しません。
記事にはまだ問題点がいくつかあるので、ここでは一つ一つ紹介しません。 NLLB の Meta AI が犯した主な間違いは、機械翻訳の評価において非常によくある間違いですが、この作業が本当に素晴らしいものであり、多くの言語でより高い翻訳品質を提供できる可能性があることは認めるべきです。
以上がメタの言語翻訳に関する大規模研究、結果はすべて「日常的」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。