過去十年,學術和商業機器翻譯系統(MT)的品質已經得到了大幅的提升。這些提升很大程度上得益於機器學習的進展和可用的大規模 web 挖掘資料集。同時,深度學習(DL)和E2E 模型的出現、從web 挖掘得到的大型並行單語言資料集、回譯和自訓練等資料增強方法以及大規模多語言建模等帶來了能夠支援超過100 種語言的高品質機器翻譯系統。
然而,雖然低資源機器翻譯出現了巨大進展,但已經構建廣泛可用且通用的機器翻譯系統的語言被限制在了大約100 種,顯然它們只是當今全世界使用的7000 多種語言中的一小部分。除了語言數量受限之外,目前機器翻譯系統所支援的語言的分佈也極大地向歐洲語言傾斜。
我們可以看到,儘管人口眾多,非洲、南亞和東南亞所說的語言以及美洲原住民語言相關的服務卻較少。例如,Google翻譯支援弗里西亞語、馬耳他語、冰島語和柯西嘉語,以它們為母語的人口均少於 100 萬。相較之下,Google翻譯沒有提供服務的比哈爾方言人口約為5,100 萬、奧羅莫語人口約2,400 萬、蓋丘亞語人口約900 萬、提格里尼亞語人口約為900 萬(2022 年)。這些語言稱為「長尾」語言,資料缺乏需要應用一些可以泛化到擁有充足訓練資料的語言之外的機器學習技術。
建構這些長尾語言的機器翻譯系統在很大程度上受到可用數位化資料集和語言辨識(LangID)模型等 NLP 工具缺失的限制。這些對高資源語言來說卻是無所不在的。
在近日谷歌一篇論文《Building Machine Translation Systems for the Next Thousand Languages》中,二十幾位研究者展示了他們努力建立支援超過1000 種語言的實用機器翻譯系統的成果。
論文網址:https://arxiv.org/pdf/2205.03983.pdf
具體而言,研究者從以下三個研究領域中描述了他們的成果。
第一,透過用於語言識別的半監督預訓練以及資料驅動的過濾技術,為 1500 語言創建了乾淨、web 挖掘的資料集。
第二,透過用於100 多種高資源語言的、利用監督並行資料訓練的大規模多語言模型以及適用於其他1000 語言的單語言資料集,為服務水平低的語言創建了切實有效的機器翻譯模型。
第三,研究這些語言的評估指標有哪些限制,並對機器翻譯模型的輸出進行定性分析,並重點關注這類模型的幾種常見的誤差模式。
對於致力於為當前研究不足的語言建立機器翻譯系統的從業者,研究者希望這項工作可以為他們提供有用的洞見。此外,研究者也希望這項工作可以引領人們聚焦那些彌補資料稀疏設定下大規模多語言模型弱點的研究方向。
在5 月12 日的I/O 大會上,Google宣布自家的翻譯系統新增了24 種新的語言,其中包括一些小眾的美洲原住民語言,例如前文提到的比哈爾方言、奧羅莫語、蓋丘亞語和提格里尼亞語。
論文概述
#這項工作主要分為四大章節展開,這裡只對每個章節的內容進行簡單介紹。
建立一個1000-language 的web 文字資料集
本章詳細介紹了研究者在為1500 語言爬取單語言文字數據集的過程中所採用的方法。這些方法重點在於恢復高精度資料(即高比例的乾淨、語言內文字),因此很大一部分是各種各樣的過濾方法。
總的來說,研究者採用的方法包含如下:
- 從LangID 模型中刪除訓練資料品質和LangID 效能差的語言,並訓練一個1629-language 的CLD3 LangID 模型和半監督LangID(SSLID)模型;
- 依語言在CLD3 模型中的誤差率進行聚類操作;
- #使用CLD3 模型執行第一輪web 爬取;
- 使用文件一致性過濾句子;
- 使用百分比閾值字清單過濾所有語料庫;
- 使用半監督LangID(SSLID )過濾所有語料庫;
- 使用相對召回率檢測異常值語言,並使用詞頻- 逆文檔頻率(Term-Frequency-Inverse-Internet-Frequency, TF-IIF)進行過濾;
- 使用Token-Frequency Anomalousness 分數偵測異常值語言,並為它們手動設計過濾器;
- 在句子層面對所有語料庫進行消重操作。
如下是使用 1745-language 的 CLD3 LangID 模型在 web 文字上的文件一致性分數直方圖。
下表2 為低資源語言(LRL)完整資料集的單語言資料、用於訓練模型的部分單語言資料以及包含高資源語言在內的完整訓練集的單語言資料統計。
章節目錄如下:
為長尾語言建立機器翻譯模型
對於從web 挖掘的單語言數據,下一個挑戰是從數量有限的單語言訓練數據中創建高品質的通用機器翻譯模型。為此,研究者採用了這樣一種實用方法,即利用所有可用於更高資源語言的並行資料來提升只有單語言資料可用的長尾語言的品質。他們將這項設定稱為「零資源」(zero-resource),這是因為長尾語言沒有直接的監督。
研究者利用過去幾年為機器翻譯開發的幾種技術來提升長尾語言零資源翻譯的品質。這些技術包括從單語言資料中進行自我監督學習、大規模多語言監督學習、大規模回譯和自我訓練、高容量模型。他們利用這些工具創建了能夠翻譯 1000 種語言的機器翻譯模型,並利用現有覆蓋大約 100 種語言的平行語料庫和從 web 中構建的 1000-language 的單語言資料集。
具體地,研究者首先透過比較15 億和60 億參數Transformers 在零資源翻譯上的表現來強調模型容量在高度多語言模型中的重要性(3.2) ,然後將自監督語言的數量增加到1000 種,驗證了隨著來自相似語言中更多單語言資料變得可用,大多數長尾語言的效能也相應提高(3.3)。雖然研究者的 1000-language 模型表現出了合理的性能,但為了了解使用方法的優點和局限性,他們融入了大規模資料增強。
此外,研究者透過自訓練和回譯對包含大量合成資料的 30 種語言的子集上的生成模型進行微調(3.4)。他們進一步描述了過濾合成資料的實用方法以增強這些微調模型對幻覺(hallucinations)和錯誤語言翻譯的穩健性(3.5)。
研究者也使用序列級蒸餾將這些模型提煉成更小、更易於推理的架構,並強調了教師和學生模型之間的表現差距(3.6)。
章節目錄如下:
#評估
為了評估自己的機器翻譯模型,研究者首先將英文句子翻譯成了這些語言,為所選的38 種長尾語言建構了一個評估集(4.1)。他們強調了 BLEU 在長尾設定中的局限性,並使用 CHRF 評估這些語言(4.2)。
研究者也提出了一個近似的、基於往返(round-trip)翻譯的無參考指標,用來了解模型在參考集不可用的語言上的質量,並報告了以此指標衡量的模型的品質(4.3)。他們對模型在 28 種語言的子集上進行人工評估並報告了結果,確認可以按照文中描述的方法建立有用的機器翻譯系統(4.4)。
為了了解大規模多語言零資源模型的弱點,研究者在幾種語言上進行了質性誤差分析。結果發現,模型經常混淆分佈上相似的單字和概念,例如「老虎」變成了「小型鱷魚」(4.5)。並且在更低資源的設定下(4.6),模型翻譯 tokens 的能力在出現頻率降低的 tokens 上下降。
研究者也發現,這些模型通常無法準確地翻譯短的或單字輸入(4.7)。對提煉模型的研究結果表明,所有模型都更有可能放大訓練資料中存在的偏見或雜訊(4.8)。
章節目錄如下:
#額外的實驗與註解
#研究者對上述模型進行了一些額外的實驗,表明它們在相似語言之間直接進行翻譯通常效果更好,而不使用英語作為支點(5.1),並且它們可以用於不同scripts 之間的零樣本音譯(5.2)。
他們描述了一種將終端標點符號附加到任何輸入的實用技巧,稱為「句號技巧」(period trick),可以用它來提升翻譯品質(5.3) 。
此外,研究者也證明了這些模型對一些而不是所有語言的非標準Unicode 字形使用都是穩健的(5.4),並探索了幾種non-Unicode 字體(5.5)。
章節目錄如下:
#想要了解更多研究細節,請參考原文。
以上是谷歌為1000+「長尾」語言創建機器翻譯系統,已支援部分小眾語言的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Linux新版
SublimeText3 Linux最新版

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。