谷歌開源首個「方言」資料集：讓機器翻譯更地道-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

谷歌開源首個「方言」資料集：讓機器翻譯更地道

PHPz

Apr 08, 2023 am 10:51 AM

Google數據集機器翻譯

雖然全中國的人都在說漢語，但具體到各地的方言卻略有不同，比如同樣是小巷的意思，“胡同”一開口就知道是老北京了，而到了南方則叫“弄」。

這種細微的地域性差異反應在「機器翻譯」任務上，就會顯得翻譯結果不夠「地道」，而目前幾乎所有的機器翻譯系統都沒有考慮地區性語言（即方言）的影響。

而在世界各地也存在這種現象，例如巴西的官方語言是葡萄牙語，跟歐洲的葡萄牙語之間也有一些地域性差異。

最近Google發布了一個全新的，可用於Few-shot Region-aware機器翻譯的資料集和評估基準FRMT，主要解決方言翻譯問題，論文發表在TACL（Transactions of the Association for Computational Linguistics）上。

谷歌開源首個「方言」資料集：讓機器翻譯更地道

論文連結：https://arxiv.org/pdf/2210.00193.pdf

開源連結：https:// github.com/google-research/google-research/tree/master/frmt

此資料集包括從英語到葡萄牙語和中文普通話的兩個地區變體的專業翻譯，源文檔是為了能夠詳細分析感興趣的現象，包括詞彙上不同的術語和乾擾術語。

研究人員探索了 FRMT 的自動評估指標，並在區域匹配和不匹配評分情境下驗證了其與專家人工評估的相關性。

最後，為這項任務提出了一些基準模型，並為研究人員如何訓練、評估和比較自己的模型提供指導建議，資料集和評估程式碼已開源。

Few-Shot泛化

大多數現代機器翻譯系統都經過數百萬或數十億翻譯樣本的訓練，輸入資料包括英文輸入句及其對應的葡萄牙文翻譯。

然而，絕大多數可用的訓練資料並沒有說明翻譯的地區差異。

鑑於這種數據稀缺性，研究人員將FRMT 定位為few-shot翻譯的基準，當給定每種語言不超過100個帶標籤的例子時，測量機器翻譯模型識別出指定區域語言變體的能力。

機器翻譯模型需要根據少量標記過的樣本(即範例)中顯示的語言模式，來辨識出其他未標記訓練樣本中的相似模式。模型需要透過這種方式進行泛化，從而產生模型中沒有明確指定區域的「地道」翻譯結果。

谷歌開源首個「方言」資料集：讓機器翻譯更地道

例如輸入句子：The bus arrived，再給定幾個巴西葡萄牙語的例子，模型應該能翻譯出「O ônibus chegou」；如果給的範例是歐洲葡萄牙語，模型的翻譯結果應該變成「O autocarro chegou」。

機器翻譯的few-shot方法是很有研究價值的，能夠以一種非常簡單的方式來對現有系統中增加對額外區域語言的支援能力。

雖然Google目前發表的工作是針對兩種語言的區域變體，但研究人員預測，一個好的方法將很容易適用於其他語言和區域的變體。

從原理上來說，這些方法也適用於其他語言差異現象，例如禮節和風格等。

資料收集

FRMT 資料集包括部分英文維基百科文章，來自Wiki40b 資料集，這些文章已經由付費的專業翻譯人員翻譯成不同的地區性的葡萄牙語和漢語。

谷歌開源首個「方言」資料集：讓機器翻譯更地道

為了突顯關鍵區域感知的翻譯難題，研究人員使用了三個內容桶（content buckets）來設計資料集：

1. 詞彙Lixical

詞彙桶主要關注不同地區在詞彙選擇上的差異，例如當把一個帶有當單字「bus」的句子分別翻譯成巴西語和歐洲葡萄牙語時，模型需要能夠辨識出「ônibus」與「autocarro」的差異。

研究人員根據部落格和教育網站手動收集了20-30個具有地區特色的翻譯術語，並根據來自每個地區的母語志工的回饋對翻譯進行過濾和審核。

根據得到的英語術語列表，從相關的英語維基百科文章（例如，bus）中提取出100個句子。再對國語，重複上述相同的收集過程。

谷歌開源首個「方言」資料集：讓機器翻譯更地道

2. 實體Entity

#實體桶以類似的方式填充，涉及的人、位置或其他實體與某一特定語言所涉兩個區域之一有著密切聯繫。

例如給定一個說明性的句子，如「In Lisbon, I often took the bus.」（在里斯本，我經常坐公共汽車。），為了正確地將其翻譯成巴西葡萄牙語，模式必須能夠識別出兩個潛在的陷阱：

1）里斯本和葡萄牙之間更密切的地理關聯可能會影響模型翻譯的選擇，從而幫助模型判斷應該翻譯成歐洲葡萄牙語而非巴西葡萄牙語，即選擇“autocarro”而不是“ônibus”。

2）用「巴西利亞」取代「里斯本」可能是比較簡單的方式，對於同一個模式，對巴西葡萄牙語在地化其輸出，即便翻譯結果仍然很流暢，但也可能導致不準確的語義。

3. 隨機Random

隨機桶用於檢查一個模型是否正確處理了其他不同的現象，包含從維基百科的featured和good）集合中隨機抽取的100篇文章。

谷歌開源首個「方言」資料集：讓機器翻譯更地道

系統效能

為了驗證FRMT 資料集所收集的翻譯能夠捕捉特定區域的現象，研究人員對數據品質進行了人工評估。

來自每個對應區域的專家標註員使用多維品質度量(MQM)框架來識別和分類翻譯中的錯誤：該框架包括一個分類加權方案，將識別出的錯誤轉換成單一的分數，粗略地表示每句話的主要錯誤數量，即數值越小表示翻譯越好。

對於每個地區，研究人員要求 MQM 評分者對來自他們所在地區的翻譯和來自他們語言的其他地區的翻譯進行評分。

例如，巴西的葡萄牙語評分員同時對巴西和歐洲的葡萄牙語譯本都進行了評分，兩個分數之間的差異表明語言現象的普遍性，即該語言變體是否可接受，而非另一種語言。

實驗結果發現，在葡萄牙語和漢語中，評分者平均比匹配的譯文中每個句子多發現大約兩個主要錯誤，表明FRMT數據集確實能夠捕獲特定區域的語言現象。

雖然人工評估是確保模型品質的最佳方法，但其往往是緩慢且昂貴的。

因此，研究人員希望找到一個現成的自動度量指標，可以用來評估模型在基準中的性能，研究人員考慮選擇使用chrF，BLEU 和BLEURT.

谷歌開源首個「方言」資料集：讓機器翻譯更地道

根據MQM 評估者對幾個基準模型翻譯結果的評分，可以發現BLEURT 與人類判斷具有最好的相關性，且此相關性的強度(0.65 Pearson 相關係數，ρ)與標註者間一致性(0.70組內相關性)相當。

系統效能

文中評估了一些最近發布的、具有few-shot控制能力的模型。

基於MQM 的人類評估，基線方法都表現出一定的localize葡萄牙語輸出的能力，但是對於中文普通話，大多沒有利用目標地區的知識來生成優秀的當地翻譯結果。

在評估的基準中，Google的語言模型PaLM 模型的表現最佳，為了使用PaLM 產生針對區域的翻譯，首先將一個有指導意義的提示輸入模型，然後從中生成文字以填充空白。

谷歌開源首個「方言」資料集：讓機器翻譯更地道

#PaLM 僅透過一個例子就獲得了很好的結果，在葡萄牙語方面，當增加到10個例子時，品質略有提高，考慮到PaLM 是在無監督的情況下進行訓練的，這種表現已經非常好了。

研究結果也表明，像 PaLM 這樣的語言模型可能特別擅長記憶流暢翻譯所需的特定區域的詞彙選擇。

谷歌開源首個「方言」資料集：讓機器翻譯更地道

然而，在 PaLM 和人類之間仍然存在顯著的表現差距。

參考資料：

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

以上是谷歌開源首個「方言」資料集：讓機器翻譯更地道的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles