Heim > Artikel > Technologie-Peripheriegeräte > Forschung: Das Internet ist voll von minderwertigen maschinell übersetzten Inhalten, und beim Training großer Sprachmodelle muss man sich vor Datenfallen in Acht nehmen
Forscher des Cloud Computing Artificial Intelligence Laboratory von Amazon haben kürzlich herausgefunden, dass es im Web eine große Menge an Inhalten gibt, die durch maschinelle Übersetzung generiert werden, und dass die Qualität dieser Übersetzungen in mehrere Sprachen im Allgemeinen gering ist. Das Forschungsteam betonte die Bedeutung der Datenqualität und -herkunft beim Training großer Sprachmodelle. Dieses Ergebnis unterstreicht die Notwendigkeit, bei der Erstellung qualitativ hochwertiger Sprachmodelle mehr auf Datenqualität und Quellenauswahl zu achten.
Untersuchungen haben außerdem ergeben, dass maschinengenerierte Inhalte in Übersetzungen ressourcenarmer Sprachen weit verbreitet sind und einen großen Teil der Webinhalte ausmachen.
Diese Website hat festgestellt, dass das Forschungsteam eine riesige Ressource namens MWccMatrix entwickelt hat, um die Eigenschaften maschineller Übersetzungsinhalte besser zu verstehen. Die Ressource enthält 6,4 Milliarden einzigartige Sätze, die 90 Sprachen abdecken, und stellt Kombinationen von Sätzen bereit, die ineinander übersetzt werden, sogenannte Übersetzungstupel.
Diese Studie ergab, dass eine große Menge an Webinhalten in mehrere Sprachen übersetzt wird, oft durch maschinelle Übersetzung. Dieses Phänomen ist bei Übersetzungen aus Sprachen mit weniger Ressourcen weit verbreitet und macht einen großen Teil der Webinhalte in diesen Sprachen aus.
Forscher stellten außerdem eine Selektivitätsverzerrung bei Inhalten fest, die zu Zwecken wie Werbeeinnahmen in mehrere Sprachen übersetzt werden.
Basierend auf meinen Recherchen bin ich zu folgendem Schluss gekommen: „Die maschinelle Übersetzungstechnologie hat im letzten Jahrzehnt erhebliche Fortschritte gemacht, aber sie kann immer noch nicht das menschliche Qualitätsniveau erreichen. In den letzten vielen Jahren haben Menschen die damals verfügbare Maschine genutzt.“ Dem Web werden Übersetzungssysteme zur Übersetzung von Inhalten hinzugefügt, sodass die Qualität eines Großteils der maschinell übersetzten Inhalte im Web wahrscheinlich relativ niedrig ist und nicht den modernen Standards entspricht. Dies kann zu mehr „Halluzinationen“ im LLM-Modell führen Da die Auswahlverzerrung darauf hindeutet, dass selbst maschinelle Übersetzungsfehler nicht berücksichtigt werden, ist die Datenqualität möglicherweise auch für das LLM-Training von entscheidender Bedeutung, und hochwertige Korpora wie Bücher und Wikipedia-Artikel erfordern normalerweise ein mehrfaches Upsampling .“
Das obige ist der detaillierte Inhalt vonForschung: Das Internet ist voll von minderwertigen maschinell übersetzten Inhalten, und beim Training großer Sprachmodelle muss man sich vor Datenfallen in Acht nehmen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!