Heim >Technologie-Peripheriegeräte >KI >Exklusives Interview mit ByteDance Wang Mingxuan: Maschinelle Übersetzung und manuelle Übersetzung sind im Wesentlichen zwei Tracks |

Exklusives Interview mit ByteDance Wang Mingxuan: Maschinelle Übersetzung und manuelle Übersetzung sind im Wesentlichen zwei Tracks |

WBOY
WBOYnach vorne
2023-05-24 21:37:091596Durchsuche

Der technologische Fortschritt bedeutet oft, dass die Entwicklung der Branche eine neue Richtung eingeschlagen hat. Die Übersetzungsbranche ist keine Ausnahme. Da sich der Prozess der Globalisierung immer weiter beschleunigt, können Menschen bei Aktivitäten im Ausland nicht auf eine sprachübergreifende Kommunikation verzichten. Das Aufkommen der maschinellen Übersetzung hat die Anwendungsszenarien der Übersetzung erheblich erweitert. Obwohl sie noch lange nicht perfekt ist, hat sie der Herausforderung der Menschheit für den Turmbau zu Babel einen großen Schritt näher gebracht. 51CTO hat Wang Mingxuan, Leiter der maschinellen Übersetzung beim ByteDance AI Lab, ausdrücklich eingeladen, über die Entwicklung der maschinellen Übersetzung im Laufe der Jahre zu sprechen.

Von regelbasiert über statistische Modelle bis hin zu neuronalen Netzwerken

Die Entwicklung der maschinellen Übersetzung ist eng mit der Entwicklung der Computertechnologie, Informationstheorie, Linguistik und anderen Disziplinen verbunden. Nach dem Eintritt in das 21. Jahrhundert hat die maschinelle Übersetzungstechnologie mit der Verbesserung der Hardwarefunktionen und der Optimierung von Algorithmen einen beispiellosen Sprung nach vorne eingeläutet und ist erfolgreich aus dem Elfenbeinturm herausgetreten und hat sich auf den Weg zur Inklusivität begeben.

51CTO: Welche wichtigen Entwicklungsknoten hat die maschinelle Übersetzung im Laufe der Geschichte erlebt?

Wang Mingxuan: Maschinelle Übersetzung ist im Wesentlichen ein sehr altes Problem. Die Geschichte der maschinellen Übersetzung lässt sich auf die „universelle Sprache“ zurückführen, die im 17. Jahrhundert von Philosophen wie Descartes und Leibniz vorgeschlagen wurde. Nach der offiziellen Geburt des Computers im Jahr 1946 erwarteten die Menschen, dass Computer eine Sprache in eine andere übersetzen könnten. Der amerikanische Wissenschaftler Warren Weaver definierte das Konzept und die Ideen der maschinellen Übersetzung in „Translation Memo“ offiziell. In dieser Zeit, im Kontext des Kalten Krieges, investierten die Vereinigten Staaten und die Sowjetunion auch viel Geld in die Forschung im Zusammenhang mit maschineller Übersetzung, basierend auf der Notwendigkeit, Informationen zu sammeln.

Alle waren zunächst relativ optimistisch und dachten, dass diese Angelegenheit bald geklärt sein würde. Die erste Version des Übersetzungssystems war sehr einfach und basierte hauptsächlich auf Wörterbüchern, z. B. der Übersetzung von „Sonne“ in „Sonne“. Diese Wort-zu-Wort-Übersetzung stieß jedoch schnell auf einen Engpass, da es viele Polysemiephänomene gab, z. B. „ „Bank“ kann entweder „Bank“ oder „Flussufer“ bedeuten. In bestimmten Kontexten werden Sie mit vielen Wortwahlproblemen konfrontiert sein. Durch die Kombination der von Linguisten formulierten semantischen Regeln können einige Unklarheiten gelöst werden. In späteren Entwicklungsstadien gilt jedoch: Je mehr Regeln vorhanden sind, desto mehr Konflikte treten auf, das System wird immer komplexer und das Problem kann immer noch nicht gelöst werden .

Im Jahr 1966 veröffentlichten die Vereinigten Staaten den Bericht „Language and Machine“, der die Machbarkeit maschineller Übersetzung umfassend bestritt und empfahl, die finanzielle Unterstützung für maschinelle Übersetzungsprojekte einzustellen. Davon betroffen ist die maschinelle Übersetzung auf einem Tiefpunkt.

Bis in die 1990er Jahre schlug IBM ein auf Wortausrichtung basierendes Übersetzungsmodell vor und markierte damit die Geburtsstunde moderner statistischer maschineller Übersetzungsmethoden. Das Prinzip der maschinellen Übersetzung basierend auf Statistiken ist sehr einfach. Wenn Sie beispielsweise bestimmen möchten, ob Bank im Kontext in „Bank“ oder „Flussufer“ übersetzt werden soll, führen Sie eine große Menge relevanter Korpusstatistiken durch Wenn im Kontext etwas mit „Geld“ zu tun hat, ist es wahrscheinlicher, dass es mit „Bank“ übersetzt wird. Wenn im Kontext „Fluss“ erwähnt wird, entspricht es eher „Flussufer“. Auf diese Weise verwendet keine Wörterbücher und Grammatikregeln, sondern beurteilt die Semantik in bestimmten Szenarien anhand der Wahrscheinlichkeit. Dies ist eine bahnbrechende Veränderung und die Qualität der maschinellen Übersetzung wurde erheblich verbessert. Bald begann die maschinelle Übersetzung in vielen praktischen Szenarien implementiert zu werden.

Der Zeitraum von 1993 bis 2014 gehörte im Grunde zur Ära der Statistik. Allerdings war die Definition vieler Funktionen und Vorlagen und weiterer Designdetails noch immer mit manuellem Aufwand verbunden Die Leistung des Modells war nicht sehr stark.

Dann umfasst die Übersetzung neuronaler Netze im Zeitalter der neuronalen Netze hauptsächlich Encoder und Decoder aus modellhafter Sicht. Der Encoder stellt die Quellsprache nach einer Reihe neuronaler Netzwerktransformationen in einen hochdimensionalen Vektor dar, und der Decoder ist für die erneute Dekodierung dieses hochdimensionalen Vektors in die Zielsprache verantwortlich. Mit der Einführung von Seq2Seq im Jahr 2014 begann die Übersetzung neuronaler Netze langsam besser zu werden als die statistische maschinelle Übersetzung.

Bis 2017 schlug Google Transformer vor, das über ein größeres Modell, eine flexiblere Struktur und einen höheren Grad an Parallelisierung verfügt, was die Übersetzungsqualität weiter verbesserte. Im selben Jahr stärkte der Sieg von AlphaGo auch das Vertrauen aller in die künstliche Intelligenz. Auch nach 2017 läutete die Industrialisierung der maschinellen Übersetzung eine explosive Zeit ein Bislang hat sich an den Rahmenbedingungen nicht viel geändert, aber es gab viele Neuerungen in kleinen Details.

Fordern Sie den „Turm zu Babel“ heraus

Vom Wörterbuchabgleich über die Regelübersetzung in Kombination mit sprachlichem Expertenwissen bis hin zur korpusbasierten statistischen maschinellen Übersetzung und der aktuellen gängigen maschinellen Übersetzung neuronaler Netze ist die Qualität der maschinellen Übersetzung besser als zuvor Es hat eine enorme Verbesserung gegeben, aber wir stehen immer noch vor vielen Herausforderungen.

51CTO: Was sind derzeit die größten Herausforderungen für die maschinelle Übersetzung?

Wang Mingxuan: Es gibt tatsächlich viele Herausforderungen.

Erstens: Wie man maschinelle Übersetzungen seltener Sprachen durchführt. Dies ist ein Problem, mit dem die maschinelle Übersetzung seit ihrer Einführung konfrontiert ist. Je kleiner die Sprache, desto kleiner die Datenmenge und der Mangel an Korpus wird eine langfristige Herausforderung darstellen.

Zweitens, wie man eine multimodale maschinelle Übersetzung durchführt. In den letzten Jahren müssen wir häufig Sprachübersetzungen und Videoübersetzungen durchführen. Tatsächlich erfordert diese Art der Übersetzung vor der Übersetzung eine gewisse Vorverarbeitung. Bei falscher KI-Verarbeitung kann es zu Übersetzungsfehlern kommen. Ein weiteres Beispiel: Im Szenario des Simultandolmetschens erfolgt das Dolmetschen normalerweise während des Sprechens und es können keine vollständigen Kontextinformationen erhalten werden. Dies ist ein häufiges Problem bei der multimodalen Übersetzung.

Drittens: Das größte Problem besteht darin, dass die aktuelle maschinelle Übersetzung immer noch auf Daten basiert und nicht tiefer in das Verständnis eingetaucht ist Das Modelllernen beruht immer noch auf dem Beitrag der Sprache und nicht auf einem echten Verständnis der Semantik. Dies begrenzt die Obergrenze der maschinellen Übersetzung erheblich.

51CTO: Wie geht Huoshan Translation als maschinelle Übersetzungsmarke unter Bytedance mit dem Problem des spärlichen Korpus um?

Wang Mingxuan: Es gibt zwei weitere direkte Methoden.

Die erste besteht darin, den Korpus zu erweitern und danach zu streben, den knappen Korpus „nicht länger knapp“ zu machen. Diese Idee besteht darin, einige Modelle zu verwenden, um den Korpus so weit wie möglich aus dem Internet zu beziehen. Auf Isländisch können wir beispielsweise eine große Menge an einsprachigen isländischen Texten sammeln. Im Internet können wir nach solchen Korpussen suchen, die zu zweisprachigen Paaren zusammengefasst werden können. Natürlich verwenden wir manchmal manuelle Anmerkungen, aber häufiger verlassen wir uns auf intelligente Methoden, um diese selbst hinzuzufügen.

Die zweite besteht darin, die Gemeinsamkeit der Sprache zu nutzen. Wir leben alle auf demselben Planeten. Obwohl wir unterschiedliche Sprachen verwenden, beschreiben wir tatsächlich dieselbe Welt. Daher weisen Sprachen auf hohem Niveau viele Gemeinsamkeiten auf. Wir werden einige Methoden des Transferlernens oder des Vortrainings verwenden, um diese Art von Problem zu lösen, z. B. das englische Modell dem französischen Modell helfen zu lassen oder das deutsche Modell dem französischen Modell helfen zu lassen. Hauptsächlich diese beiden Ideen.

51CTO: Welche Strategien hat Huoshan Translation übernommen, um Rauschstörungen bei der multimodalen maschinellen Übersetzung zu reduzieren?

Wang Mingxuan: Um mit Lärmstörungen umzugehen, führten wir zunächst eine gemeinsame Modellierung mehrerer Modi durch. Wir werden Sprachsignale und Textsignale gemeinsam verwenden, um nachgelagerte Aufgaben zu erledigen, sodass die Fehlerübertragung erheblich reduziert wird. Derzeit ist der Aufbau einer multimodalen einheitlichen Semantik auch in der Wissenschaft ein sehr heißes Thema, daher werden wir auch viele Dinge aus anderen Bereichen aufgreifen.

Zweitens werden wir auch viel Robustheitstraining im Textbereich durchführen und versuchen sicherzustellen, dass das Modell auch bei falschen Eingaben eine korrekte Ausgabe gewährleisten oder solche Fehler nicht verstärken kann, was einer Kombination der automatischen Fehlerkorrektur mit entspricht Maschinelle Übersetzung wird in einem Modell implementiert. Da Menschen tatsächlich über diese Art der automatischen Fehlerkorrekturfähigkeit verfügen, korrigieren sich menschliche Übersetzer automatisch selbst, wenn sie falsche Informationen hören. Daher werden wir diese Informationen auch im Modell berücksichtigen.

51CTO: Beim Simultandolmetschen werden sehr hohe Anforderungen an die Verzögerung gestellt. Wenn jedoch kein kontextueller Kontext oder keine vollständige Semantik vorhanden ist, ist es schwierig, die Genauigkeit zu garantieren. Wie gleicht die maschinelle Übersetzung den Widerspruch zwischen beiden aus?

Wang Mingxuan: Das ist in der Branche eine große Herausforderung, denn es geht nicht nur um den Kompromiss zwischen Verzögerung und Genauigkeit, sondern erfordert tatsächlich eine Optimierung.

In einigen Konferenzszenarien müssen beispielsweise übersetzte Untertitel auf der großen Leinwand angezeigt werden. Die Geschwindigkeit, mit der das Publikum die Untertitel akzeptiert, ist auch eines der Schlüsselthemen, einschließlich der Länge jeder Untertitelanzeige und der Häufigkeit der Untertitel Pop-up-Fenster, die sich alle darauf beziehen, wie man effektiver liest. Es gibt viele Details, die es erforderlich machen, dass wir immer wieder mit dem Produktmanager kommunizieren und ausführliche Benutzerbefragungen durchführen, um die Gesamtzufriedenheit zu ermitteln. Deshalb Dies ist nicht nur eine Frage der Genauigkeit. Die tatsächliche Benutzererfahrung muss berücksichtigt werden, bevor das Modell angepasst wird.

Darüber hinaus Latenz kann einer der Indikatoren für die Benutzerzufriedenheit sein, aber je kürzer die Verzögerung, desto besser. Normalerweise ist es besser, eine passende Lücke zu haben. Denn wenn die Verzögerung sehr kurz ist, werden die Untertitel sehr schnell angezeigt und der Akzeptanzeffekt des Benutzers ist nicht sehr gut. In dieser Hinsicht werden wir auch von vielen ausgereiften Praktiken in der Branche lernen, wie beispielsweise der dynamischen Steuerung des Intervalls der Untertitelübersetzung. Insgesamt handelt es sich um ein sehr ingenieurtechnisches und produktorientiertes Problem.

Zukünftige Trends

Die maschinelle Übersetzung ist immer noch nicht perfekt, aber Praktiker arbeiten hart daran, sie qualitativ hochwertiger, benutzerfreundlicher und anwendbarer zu machen. Werfen wir einen Blick auf die Entwicklungstrends, insbesondere wenn maschinelle Übersetzung mit professionellen Übersetzern „kollidiert“, und welche chemischen Reaktionen in der Übersetzungsdienstleistungsszene auftreten werden.

51CTO: Wird die maschinelle Übersetzung mit der Entwicklung der Technologie interessantere Anwendungsszenarien hervorbringen?

Wang Mingxuan: Die Volcano Translation AR-Brille, die wir zuvor auf den Markt gebracht haben, war ein ähnlicher Versuch. Auch die zum Finale der diesjährigen Google I/O-Konferenz vorgestellte AR-Übersetzungsbrille ist eine sehr interessante Anwendung. Nach dem Tragen können Nutzer die Übersetzung des Gesprächspartners in Echtzeit sehen, ähnlich dem Untertiteleffekt.

Dies spiegelt eigentlich ein relativ einfaches Ideal wider: Wir hoffen, dass jeder in einer Welt mit barrierefreier Kommunikation leben kann. Zum Beispiel: Wenn Sie ins Ausland reisen, können Sie Textansagen in jeder Sprache verstehen, indem Sie eine Brille tragen. Die Straßenschilder, die Sie sehen, sind auf Deutsch, die auf der Brille angezeigten jedoch auf Chinesisch. Wenn während der täglichen Kommunikation jemand mit Ihnen spricht, werden die Gesprächsinformationen automatisch in für Sie verständlichen Text umgewandelt und unter der Brille angezeigt. Dies sind alles Szenarien, in denen Informationen effektiver beschafft werden können.

51CTO: Wie wird sich die maschinelle Übersetzung langfristig entwickeln?

Wang Mingxuan: Im Hinblick auf Anwendungen denke ich, dass maschinelle Übersetzung enger mit multimodalen Anwendungen integriert werden könnte Es wird beispielsweise immer mehr Übersetzungsbedarf für Video- und Audioinhalte geben. Darüber hinaus ist die maschinelle Übersetzung möglicherweise stärker mit der Wirtschaft und Kultur im Ausland verbunden. Da viele inländische Unternehmen ihr Auslandsgeschäft aktiv ausbauen, denke ich, dass dieser Bereich für die Entwicklung der maschinellen Übersetzung von großem Nutzen sein wird.

In Bezug auf die Technologie sind die Trends, die ich bereits erkennen kann, folgende: Erstens das Training von Big Data und großen Modellen. Es gibt immer mehr Menschen, die sich in diesem Bereich engagieren, die Modelle werden immer größer und auch die Datenmenge nimmt zu. Viele Menschen glauben, dass dieser Wandel eine qualitative Veränderung der Möglichkeiten der maschinellen Übersetzung mit sich bringen könnte. Das zweite ist die Kombination aus Übersetzung und Modalität. Nicht nur im Hinblick auf die Übersetzung versuchen viele Menschen in der Branche, eine einheitliche semantische Darstellung verschiedener Modalitäten aufzubauen. In den letzten Jahren waren die Grenzen zwischen verschiedenen Modalitäten relativ klar und es gab relativ wenig Kommunikation. Heutzutage sind die Modelle zunehmend konsistent. In Zukunft könnte es ein Modell geben, das sowohl Textübersetzungen als auch Sprachübersetzungen und sogar Videoübersetzungen durchführen kann.

51CTO: Ist es in Zukunft möglich, dass maschinelle Übersetzung in bestimmten Szenarien die menschliche Übersetzung vollständig ersetzt?

Wang Mingxuan: Nach der aktuellen Praxis kann es die Wehen definitiv nicht ersetzen. Ich denke jedoch, dass maschinelle Übersetzung und menschliche Übersetzung möglicherweise nicht zum selben Bereich gehören.

Die Merkmale der maschinellen Übersetzung bestehen darin, dass sie sehr schnell und skalierbar ist und sich daher für die Verarbeitung riesiger Informationsmengen eignet, die zeitnah verarbeitet werden müssen. Wenn beispielsweise 10 Millionen Videos vom Englischen ins Französische übersetzt werden müssen, ist dies rein manuell nicht möglich, Maschinen können dies jedoch. Dies ermöglicht es der Maschine, eine sehr wichtige Rolle auf ihrem Weg zu spielen, was auf lange Sicht von Vorteil ist, da es den gesamten Markt erweitert und den sprachübergreifenden Markt vergrößert.

Aber für sehr präzise Übersetzungsszenarien ist die maschinelle Übersetzung möglicherweise nicht in der Lage, damit umzugehen. Kann, wie bereits erwähnt, maschinelle Übersetzung „A Dream of Red Mansions“ übersetzen? Meiner Meinung nach fällt dies nicht in den Bereich maschineller Übersetzungsaufgaben. Bei der Übersetzung von Romanen oder Gedichten muss man sich bei dieser Art der Übersetzung auf Experten verlassen. Es gibt auch Simultandolmetschen auf Konferenzen mit hohem Standard, für die auf jeden Fall professionelle Übersetzer und keine Maschinen erforderlich sind. Aber in einigen Meetings, die nicht sehr wichtig sind, wird der Kostenvorteil der maschinellen Übersetzung deutlich.

Maschinelle Übersetzung und professionelle Übersetzer gehören zu unterschiedlichen Bereichen, und die Unterscheidung ist immer noch sehr klar. Teilweise verbindet die beiden aber auch ein Verhältnis der gegenseitigen Hilfe. Dies spiegelt sich darin wider: Einerseits wird das für die maschinelle Übersetzung erforderliche Korpus von professionellen Übersetzern erstellt. Professionelle Übersetzer produzieren während ihrer Arbeit weiterhin große Mengen an Korpus, was dazu beitragen kann, dass die maschinelle Übersetzung ihre Fähigkeiten weiter verbessert. Andererseits kann maschinelle Übersetzung auch dazu beitragen, die Belastung der Menschen zu verringern und weniger anspruchsvolle Aufgaben zu bewältigen. Heutzutage gibt es viele Übersetzer, die die Übersetzung nachträglich bearbeiten. Viele Übersetzungsunternehmen lassen die Übersetzung zunächst von Maschinen durchführen, und die Bearbeitung erfolgt später durch die Übersetzer.

Gastvorstellung

Wang Mingxuan, Leiter des maschinellen Übersetzungsteams des ByteDance AI-Lab, seine Forschungsrichtung ist hauptsächlich maschinelle Übersetzung und Verarbeitung natürlicher Sprache. Im Bereich der maschinellen Übersetzung hat er mehr als 40 Beiträge auf Top-Konferenzen wie ACL und EMNLP veröffentlicht und mehrfach den ersten Platz bei internationalen Übersetzungsbewertungswettbewerben wie WMT gewonnen. Gleichzeitig fungiert er auch als Sponsoring Chair von EMNLP2022 und als Vorsitzender von Konferenzbereichen wie NeurIPS 2022, NLPCC 2022 und AACL2022.

Einführung in die Kolumne

„T Frontline“ ist eine der ausführlichen Interviewkolumnen, die das 51CTO Content Center speziell für technische Persönlichkeiten eröffnet hat, indem es Unternehmensleiter, leitende Architekten, leitende technische Experten usw. einlädt der Technologiebranche, um die aktuelle Situation zu diskutieren. Bieten Sie tiefgreifende Interpretationen und Einblicke in technologische Brennpunkte, technologische Praktiken und technologische Trends, um die Verbreitung und Entwicklung von Spitzentechnologien zu fördern.

Das obige ist der detaillierte Inhalt vonExklusives Interview mit ByteDance Wang Mingxuan: Maschinelle Übersetzung und manuelle Übersetzung sind im Wesentlichen zwei Tracks |. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen