首頁  >  文章  >  科技週邊  >  研究:網路充斥低質機翻內容,大語言模型訓練需警覺資料陷阱

研究:網路充斥低質機翻內容,大語言模型訓練需警覺資料陷阱

王林
王林轉載
2024-02-04 14:42:031067瀏覽

研究:網路充斥低質機翻內容,大語言模型訓練需警覺資料陷阱

亞馬遜雲端運算人工智慧實驗室的研究人員最近發現,網路上存在大量由機器翻譯產生的內容,而這些翻譯跨越多種語言的品質普遍較低。研究團隊強調了在訓練大型語言模型時,資料品質和來源的重要性。這項發現突顯了在建立高品質語言模型時,需要更加關注數據的品質和來源的選擇。

研究也發現,機器生成內容在資源較少語言的翻譯中很普遍,並佔網路內容的很大一部分。

本站注意到,研究團隊開發了名為MWccMatrix的龐大資源,用於更好地理解機器翻譯內容的特徵。該資源包含64億個獨特句子,涵蓋了90種語言,並提供了相互翻譯的句子組合,即翻譯元組。

這項研究發現,大量網路內容通常透過機器翻譯被翻譯成多種語言。這種現象普遍存在於資源較少語言的翻譯中,並且佔據了這些語言網路內容的很大一部分。

研究人員也注意到,出於廣告收入等目的,被翻譯成多種語言的內容有選擇性偏差。

根據我的研究,我得出以下結論:「過去十年,機器翻譯技術取得了顯著進步,但仍然無法達到人類品質水平。在過去的多年中,人們使用了當時可用的機器翻譯系統將內容添加到網路上,因此網路上大部分機器翻譯內容的品質可能相對較低,無法滿足現代標準。這可能導致LLM模型產生更多的'幻覺',而選擇偏差則表明即使不考慮機器翻譯錯誤,資料品質也可能較低。對於LLM的訓練來說,資料品質至關重要,高品質的語料庫,如書籍和維基百科文章,通常需要進行多次向上採樣。」

以上是研究:網路充斥低質機翻內容,大語言模型訓練需警覺資料陷阱的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除