首頁  >  文章  >  科技週邊  >  Meta這篇語言互譯大模型研究,結果對比都是「套路」

Meta這篇語言互譯大模型研究,結果對比都是「套路」

WBOY
WBOY轉載
2023-04-11 23:46:041818瀏覽

今年 7 月初,Meta AI 發布了一個新的翻譯模型,名為 No Language Left behind (NLLB),我們可以將其直譯為「一個語言都不能少」。

顧名思義,NLLB 可以支援 200 語言之間任意互譯,Meta AI 還把它開源了。平常你都沒見到的語言如盧幹達語、烏爾都語等它都能翻譯。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

  • #論文網址:https://research.facebook.com/publications/no- language-left-behind/
  • 開源位址:https://github.com/facebookresearch/fairseq/tree/nllb

#不過,最近這項研究遭到了質疑,有人認為Meta AI 在NLLB 中提出的許多主張是沒有根據的,具有誤導性,並且評估結果有嚴重的缺陷。此外,質疑者也表示根據 Meta AI 的評估方法,很容易獲得比他們報告更高的數字。

質疑者為自然語言處理研究科學家 Benjamin Marie,他精通翻譯技術。他質疑的內容可概括為 Meta AI 將 spBLEU 和 BLEU 放在一起進行比較。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

對於這項質疑,有研究者表示:spBLEU 是一個合理的度量標準,前提是文本沒有空格(泰語等)。但是比較 spBLEU 和 BLEU 絕對是不正確的。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

網友 Arle Lommel 在回覆 Benjamin Marie 時表示:這是一個很棒的觀點。這也教會我,對於機器學習的研究,要非常謹慎地對待缺乏證實的研究。你在這裡的發現確實表明,當人們只引用分數而不控制它們的產生方式時,問題會變得很複雜。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

論文作者之一Vedanuj Goswami 表示:「我們100% 同意作者的觀點,即你不能將BLEU 分數與不同的tokenizer 比較。但作者的主要論點是,我們論文中的大多數結果是不可比較的是不成立的。

在我們的論文中,表30 和表31 使用相同的tokenizer 進行spBLEU 評估(FLORES-101 spm tokenizer),專門用於可比性。我們不使用FLORES-200 spm tokenizer。我們在表30 的標題和第8.3.1 節中對此進行了詳細說明。同樣,表35、36、37、38 都使用可比較的指標/ tokenizer 進行適當比較。我們對論文進行了更新

##總的來說,目前的機器翻譯評估方法還不完善,不同的論文採用了不同的方法。」

Meta這篇語言互譯大模型研究,結果對比都是「套路」

下面我們介紹Benjamin Marie 質疑的具體內容:

評估方法有缺陷

首先讓我們做一個簡單的類比:

Paul 有25根香蕉,Bill 有30 顆西紅柿。你會說 Bill 比 Paul 多 5 根香蕉嗎?

BLEU 好比香蕉,spBLEU 好比番茄。將 Paul 替換為 Previous work,將 Bill 替換為 NLLB。我們現在可以寫下這樣的內容:

之前的工作在 25 BLEU 下執行,NLLB 在 30 spBLEU 下執行。你會說 NLLB 比以前的工作好 5 個 BLEU 點嗎?

Meta這篇語言互譯大模型研究,結果對比都是「套路」

有了上面的類比,以下介紹的內容可能就會更容易理解。

先前,Meta AI 發布了一篇論文,對 NLLB 進行了全面解釋和評估。在論文摘要中,他們聲稱模型相對於先前 SOTA 方法實現了 44% 的 BLEU 提升。換句話說,NLLB 會比以往研究結果更好。

關於 BLEU,在機器翻譯研究史上很少見到 BLEU 比以前的 SOTA 技術提高 44%。所以論文中這簡單的一句話,代表了科學進步。一些媒體直接報導了這一說法,並且沒有進一步的驗證,就將 Meta AI 定位在語言機器翻譯的最高點。

如果 Meta AI 選擇發佈如此大的技術研究,他們就應該提供非常可靠的科學證據。否則,在沒有任何證據的情況下,Meta AI 聲稱自己做得比別人好,這只會破壞其他研究機構已經做過和正在做的非常艱苦的工作。

Marie 為了解釋 NLLB 的錯誤問題,他試圖證明 Meta AI 是如何被它自己的結果誤導的。 Marie 使用 NLLB 中的簡單範例和自己找到的類似範例,證明當使用 NLLB 有缺陷的評估方法時其實很容易超越 SOTA 的水平。最後,Marie 指出並具體解釋他們評估中的主要錯誤。

Meta AI 將其模型和 20 多個先前的研究數據進行比較後得出結論,NLLB 明顯優於先前的研究。為了使如此多的比較具有可行性,他們依賴機器翻譯評估的自動評估指標,這些指標主要是 BLEU 和 spBLEU。

BLEU 在機器翻譯中極受歡迎,儘管其有缺陷。

例如,我們想用Google翻譯將以下來自 FLORES101 的資料集的法文文字翻譯成英文。如果你會說法語,你會注意到,這是一個品質很差的翻譯:語法錯誤、術語不一致、讀起來不自然。事實上,由於資料集是從英文創建的,因此 Meta AI 在翻譯成英文時只評估機器翻譯。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

我們可以透過計算Google翻譯中有多少token 也在這個參考翻譯中,將其與參考翻譯進行比較。在這裡定義一個 token 是由一個空格分隔的字元序列。橘色突出顯示了上面谷歌翻譯中出現在下面參考翻譯中的所有 token 序列。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

只考慮到所有符合的 token,可以計算出 BLEU 分數為 50.8 BLEU。僅僅這個分數是沒有任何意義,只有與另一個 BLEU 分數相比,它才有意義。

這裡需要理解的關鍵點是,分數是基於 token 計算的,這在大多數機器翻譯研究中會被忽略。使用 SacreBLEU 計算 BLEU 分數,SacreBLEU 執行自己的內部 tokenization,基本上只在標點符號之前加上空格。這是計算 BLEU 分數最可靠且可重複的方法之一。而 Meta AI 使用的是 spBLEU。

那麼 spBLEU 是什麼?它是 BLEU,但使用了不同的 tokenization。它將Google翻譯和參考翻譯的 token 化如下。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

與spBLEU 相關的token 透過將單字分解成更小的片段來產生token(附加到token 的在這裡並不重要,請嘗試忽略它)。使用 spBLEU token 化的直接後果是,我們最終得到的翻譯和參考都有更多的 token。由於有更多的 token,我們可以期望Google翻譯從參考中匹配更多的 token。然後分數會增長。事實上,這裡的 spBLEU 分數是 54.8。

我們不禁會問比上面使用 SacreBLEU 內部 tokenization 計算的 BLEU 分數高 4 分?那麼翻譯是不是越來越好了呢?

顯然沒有,翻譯保持不變。比較 BLEU 和 spBLEU 根本沒有意義。 BLEU 和 spBLEU 以不同的方式處理Google翻譯和參考翻譯,僅用於評估目的。它們實際上是不同的指標。如果它們是相同的指標,我們就不必對它們進行不同的命名。正如我們在機器翻譯研究社群中經常讀到和聽到的那樣,使用不同甚至幾乎相似的 token 計算的 BLEU 分數來比較翻譯品質並不是公平的,甚至是不公平的。如果你希望你的研究具有科學可信度,你只需要使用完全相同的 tokenization 一致地計算你的 BLEU 分數。

Meta AI 聲稱 NLLB 比之前的研究好得多,因為他們始終可以獲得比之前公佈的 BLEU 分數更好的 spBLEU 分數,事實相反。因為對於給定的翻譯,讓 spBLEU 分數低於 BLEU 分數是一項極其困難的任務。更讓人無法理解的是,如果他們的目標是獲得最高分數,為什麼不直接使用 chrBLEU 指標。

例如在Google翻譯和參考翻譯中,每個字元都會變成一個 token 換句話說,在字元之間添加了空格)。

然後我們計算 chrBLEU 值為 75.5,比 spBLEU 高 20.7 點。根據 NLLB 的評估,這將是一個重大的改進,這將是機器翻譯的新高點,而原始的谷歌翻譯保持不變。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

論文中的錯誤範例

現在,讓我們來看看NLLB 評估的具體範例。

Meta AI 聲稱,透過將其數字與先前發布的數字進行比較,發現其表現優於先前的工作。在本文中,從表 30、31、32、35、36、37 和 38 中得出結論,這些結論與先前的工作進行了比較。

將從表 32 開始。這是最具說明性的例子之一,因為它存在著各種不同類型的錯誤。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

從表中可得,除NLLB-200 欄位外,所有數字都直接複製自先前發表的論文IndicBART 和IndicTrans。為了方便閱讀,Meta AI 用粗體標出了每種語言的最高分數,粗體列表示對應的系統是最好的。

表格中為 spBLEU for all,這具有誤導性。實際上,all 的意思是只有 NLLB-200,因為 IndicBART 和 IndicTrans 使用的不是 spBLEU,而是 BLEU。然而比較後發現,NLLB 的 spBLEU 分數高於先前工作的 BLEU 分數。但這是否意味著 NLLB 更好?這就好比 30 顆西紅柿比 25 根香蕉好嗎?

在解釋結果的文字中,我們可以看到:

Meta這篇語言互譯大模型研究,結果對比都是「套路」

例如(c)Google翻譯,(d)微軟翻譯。 NLLB-200 在大多數方向上顯著優於所有模型。 NLLB-200 的訓練資料集包括 25 種印度語言,幾乎是(a)和(b)所涵蓋語言的兩倍。性能的提高可以歸因於更多的多語言傳輸,以及印度語系挖掘和反譯數據品質的提高。

換句話說,NLLB 的番茄比之前的研究中的香蕉多。所以 NLLB 有更多的香蕉。

spBLEU 分數高於 BLEU 分數,因為它們是在更小的而且不同的 token 上計算的。然而,NLLB 的翻譯更好嗎?我們根本無法回答。更糟的是,IndicBART 和 IndicTrans 也不具有可比性,因為它們都使用了兩種不同的 token 方法。

上面列出的大多數表格都有類似的問題,或多或少都有錯誤。

如果你看一下 IndicBART 和 IndicTrans 發表的論文來檢查這些數字,你會發現還有其他問題。表 32 中的(a、b)欄位全部交換,IndicBART 數字是 indicatrans 中的數字,反之亦然。

如果你看表​​ 30,問題就更大了。 Meta這篇語言互譯大模型研究,結果對比都是「套路」不過表 30 在論文中更新了,Benjamin Marie 表示非常感謝 Vedanuj 更新了文章。表 30 確實提到了 tokenizer 是相同的。我承認我的錯誤。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

如表32 所示,Meta AI 聲稱NLLB 優於先前的DeltaLM 和Deepnet,同時比較了使用不同計算方法得出的BLEU分數。這裡的新內容是,他們還將 NLLB 與自己先前的研究 M2M-100 進行了比較,也使用 spBLEU 進行了評估。那麼這個比較有意義嗎?沒有。即使他們都使用 spBLEU,但實際上他們使用了不同的 tokenizer,這使得比較變得失去可能性。他們在註腳28 中作出以下聲明:

Meta這篇語言互譯大模型研究,結果對比都是「套路」

「我們的分析表明,當在FLORES-101 語言上進行測量時,FLORES-200 的SPM-200 和FLORES-101 的SPM-100 模型之間存在微小差異。SPM-200 的主要優點是它涵蓋200 多種語言。」

微小的差異也是差異。在這種情況下,這些差異很重要,因為我們正在做科學研究。

與他們在 M2M-100 上的工作相比,NLLB 的一個進步是為模型和資料集添加了更多的語言。它包括 tokenization 模型。從技術上講,如果在這個 tokenizer 添加更多具有不同書寫系統的語言,同時保持詞彙表的大小不變,那麼將機械地獲得具有較小 token 的詞彙表。如在上面看到的,使用較小的 token 可能會獲得更好的分數。讓我們驗證一下。

如下:

Meta這篇語言互譯大模型研究,結果對比都是「套路」

#此tokenization 產生95 個token ,而NLLB 產生97 個token。這只是一個微妙的區別,如果使用 M2M-100 tokenization 計算 spBLEU,則得分為 53.8,比 NLLB tokenization 低 1 分。根據機器翻譯研究文獻,通常 1 分的差異足以聲稱系統明顯更好。正如預期的那樣,NLLB 將產生比 M2M-100 更高的分數。

下一張表是本文的最後一張表:表 31。

Meta這篇語言互譯大模型研究,結果對比都是「套路」

同樣,我們也有上文提到的相同的問題:

1. M2M-100 和NLLB 使用兩種不同的tokenization 進行評分,因此無法進行比較。 2. MMTAfrica 似乎在他們的論文中使用了 M2M-100 tokenization。它可以與 M2M-100 相比,但不能與 NLLB 相比。

文中還有一些問題,在這就不一一介紹了。在 NLLB 中,Meta AI 所犯的主要錯誤是機器翻譯評估中的一個非常常見的錯誤,不過我們應該承認,這項工作確實令人驚嘆,而且可能為許多語言提供了更高的翻譯品質。

以上是Meta這篇語言互譯大模型研究,結果對比都是「套路」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除