研究：網路充斥低質機翻內容，大語言模型訓練需警覺資料陷阱

研究：網路充斥低質機翻內容，大語言模型訓練需警覺資料陷阱

Feb 04, 2024 pm 02:42 PM

大語言模型

研究：網路充斥低質機翻內容，大語言模型訓練需警覺資料陷阱

亞馬遜雲端運算人工智慧實驗室的研究人員最近發現，網路上存在大量由機器翻譯產生的內容，而這些翻譯跨越多種語言的品質普遍較低。研究團隊強調了在訓練大型語言模型時，資料品質和來源的重要性。這項發現突顯了在建立高品質語言模型時，需要更加關注數據的品質和來源的選擇。

研究也發現，機器生成內容在資源較少語言的翻譯中很普遍，並佔網路內容的很大一部分。

本站注意到，研究團隊開發了名為MWccMatrix的龐大資源，用於更好地理解機器翻譯內容的特徵。該資源包含64億個獨特句子，涵蓋了90種語言，並提供了相互翻譯的句子組合，即翻譯元組。

這項研究發現，大量網路內容通常透過機器翻譯被翻譯成多種語言。這種現象普遍存在於資源較少語言的翻譯中，並且佔據了這些語言網路內容的很大一部分。

研究人員也注意到，出於廣告收入等目的，被翻譯成多種語言的內容有選擇性偏差。

根據我的研究，我得出以下結論：「過去十年，機器翻譯技術取得了顯著進步，但仍然無法達到人類品質水平。在過去的多年中，人們使用了當時可用的機器翻譯系統將內容添加到網路上，因此網路上大部分機器翻譯內容的品質可能相對較低，無法滿足現代標準。這可能導致LLM模型產生更多的'幻覺'，而選擇偏差則表明即使不考慮機器翻譯錯誤，資料品質也可能較低。對於LLM的訓練來說，資料品質至關重要，高品質的語料庫，如書籍和維基百科文章，通常需要進行多次向上採樣。」

以上是研究：網路充斥低質機翻內容，大語言模型訓練需警覺資料陷阱的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

及時工程中的思想圖是什麼

及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹在迅速的工程中，“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷

優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹恭喜！您經營一家成功的業務。通過您的網頁，社交媒體活動，網絡研討會，會議，免費資源和其他來源，您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視

Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹在當今快節奏的軟件開發環境中，確保最佳應用程序性能至關重要。監視實時指標，例如響應時間，錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶？”他扮演。阿爾特曼回答說：“我認為我們上次說的是每週5億個活躍者，而且它正在迅速增長。” “你告訴我，就像在短短幾週內翻了一番，”安德森繼續說道。 “我說那個私人

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析Vidhya

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型，即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型？現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya

生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下，擁有一個由AI驅動的助手，不僅可以響應您的查詢，還可以自主收集信息，執行任務甚至處理多種類型的數據（TEXT，圖像和代碼）。聽起來有未來派？在這個a

生成AI在金融部門的應用

生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹金融業是任何國家發展的基石，因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南

在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹數據是從社交媒體，金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰，但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新（2018.2.1 ）專業的PHP整合開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫，可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件，並處理不同的語言。與原始腳本如HTML2FPDF相比，它的速度較慢，並且在使用Unicode字體時產生的檔案較大，但支援CSS樣式等，並進行了大量增強。支援幾乎所有語言，包括RTL（阿拉伯語和希伯來語）和CJK（中日韓）。支援嵌套的區塊級元素（如P、DIV），

熱門話題

gmail信箱登陸入口在哪裡

7488

15

1377

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

51

19

NYT連接提示和答案

19

40