Maison >Périphériques technologiques >IA >Entretien exclusif avec ByteDance Wang Mingxuan : La traduction automatique et la traduction manuelle sont essentiellement deux pistes T Frontline |
Les progrès de la technologie signifient souvent que l'évolution de l'industrie a trouvé une nouvelle direction. Le secteur de la traduction ne fait pas exception. Alors que le processus de mondialisation continue de s’accélérer, les gens ne peuvent plus se passer de la communication multilingue lorsqu’ils mènent des activités liées à l’étranger. L'émergence de la traduction automatique a considérablement élargi les scénarios d'application de la traduction. Même si elle est loin d'être parfaite, elle constitue un pas important vers le défi lancé par l'humanité à la Tour de Babel. 51CTO a spécialement invité Wang Mingxuan, responsable de la traduction automatique chez ByteDance AI Lab, à parler du développement de la traduction automatique au fil des ans.
Le développement de la traduction automatique est étroitement lié au développement de la technologie informatique, de la théorie de l'information, de la linguistique et d'autres disciplines. Après être entrée dans le 21e siècle, avec l'amélioration des capacités matérielles et l'optimisation des algorithmes, la technologie de traduction automatique a marqué le début d'un bond en avant sans précédent, et est sortie avec succès de sa tour d'ivoire et s'est engagée sur la voie de l'inclusivité.
51CTO : Au cours de l'histoire, quels nœuds de développement importants la traduction automatique a-t-elle connu ?
Wang Mingxuan : La traduction automatique est essentiellement un problème très ancien L'histoire de la traduction automatique remonte au « langage universel » proposé par des philosophes tels que Descartes et Leibniz au 17ème siècle. Après la naissance officielle des ordinateurs en 1946, les gens s’attendaient à ce que les ordinateurs soient capables de traduire une langue dans une autre. Le scientifique américain Warren Weaver a formellement défini le concept et les idées de la traduction automatique dans « Translation Memo ». Durant cette période, dans le contexte de la guerre froide, les États-Unis et l’Union soviétique ont également investi beaucoup d’argent dans la recherche liée à la traduction automatique, basée sur la nécessité de collecter des informations.
Tout le monde était relativement optimiste au début, pensant que cette affaire serait bientôt réglée. La première version du système de traduction était très simple, basée principalement sur des dictionnaires, comme traduire « soleil » en « soleil ». Cependant, cette traduction mot à mot s'est rapidement heurtée à un goulot d'étranglement car il y avait de nombreux phénomènes de polysémie, comme « soleil ». "Banque" peut être "banque" ou "rive de rivière". Dans des contextes spécifiques, vous serez confronté à de nombreux dilemmes de sélection de mots. La combinaison des règles sémantiques formulées par les linguistes peut résoudre certaines ambiguïtés, mais dans les étapes ultérieures du développement, plus il y a de règles, plus il y aura de conflits, le système deviendra de plus en plus complexe et le problème ne pourra toujours pas être résolu. .
En 1966, les États-Unis ont publié le rapport « Language and Machine », qui niait catégoriquement la faisabilité de la traduction automatique et recommandait de cesser le soutien financier aux projets de traduction automatique. En conséquence, la traduction automatique est tombée dans un état de reflux.
Jusqu'aux années 1990, IBM proposait un modèle de traduction basé sur l'alignement des mots, marquant la naissance des méthodes modernes de traduction automatique statistique. Le principe de la traduction automatique basée sur des statistiques est très simple. Par exemple, si vous souhaitez déterminer si la banque doit être traduite par « banque » ou « rive de rivière » dans le contexte, effectuez un grand nombre de statistiques de corpus pertinentes, et vous constatera qu'il y a quelque chose en rapport avec « argent » dans le contexte, alors il est plus susceptible d'être traduit par « banque ». Si le contexte mentionne « rivière », il est plus probable qu'il corresponde à « rive de la rivière ». De cette façon, n'utilise pas de dictionnaires ni de règles de grammaire, mais juge la sémantique dans des scénarios spécifiques en fonction de la probabilité. Il s’agit d’un changement historique et la qualité de la traduction automatique a été grandement améliorée. Bientôt, la traduction automatique a commencé à être mise en œuvre dans de nombreux scénarios pratiques.
La période de 1993 à 2014 appartenait essentiellement à l'ère des statistiques. Cependant, même si elle était basée sur des statistiques, elle nécessitait encore un travail manuel pour définir de nombreuses fonctionnalités et modèles ainsi que des détails de conception supplémentaires. la puissance du modèle n’était pas très puissante.
Ensuite, à l'ère des réseaux neuronaux, la traduction des réseaux neuronaux comprend principalement les encodeurs et les décodeurs du point de vue du modèle. L'encodeur représente la langue source en un vecteur de grande dimension après une série de transformations du réseau neuronal, et le décodeur est responsable du re-décodage de ce vecteur de haute dimension dans la langue cible. Avec l’introduction de Seq2Seq en 2014, la traduction sur réseaux neuronaux a lentement commencé à faire mieux que la traduction automatique statistique.
En 2017, Google a proposé Transformer, qui a un modèle plus grand, une structure plus flexible et un degré de parallélisation plus élevé, ce qui a encore amélioré la qualité de la traduction. La même année, la victoire d’AlphaGo a également rendu tout le monde plus confiant dans l’intelligence artificielle. C'est également après 2017 que l'industrialisation de la traduction automatique a marqué le début d'une période explosive Jusqu'à présent, le cadre général n'a pas beaucoup changé, mais il y a eu de nombreuses innovations dans de petits détails.
De la correspondance de dictionnaires à la traduction de règles combinée à des connaissances d'experts linguistiques, en passant par la traduction automatique statistique basée sur des corpus et la traduction automatique actuelle par réseau neuronal, la qualité de la traduction automatique est meilleure qu'avant Il y a eu une énorme amélioration, mais nous sommes encore confrontés à de nombreux défis.
51CTO : Quels sont les principaux défis auxquels est actuellement confrontée la traduction automatique ?
Wang Mingxuan : Il y a en fait de nombreux défis.
Premièrement, Comment faire une traduction automatique de langues rares. C’est un problème auquel la traduction automatique est confrontée depuis sa création. Plus le langage est petit, plus la quantité de données est petite, et la rareté du corpus constituera un défi à long terme.
Deuxièmement, Comment faire une traduction automatique multimodale . Ces dernières années, nous avons souvent besoin de faire de la traduction vocale et de la traduction vidéo. En fait, ce type de traduction nécessite que l'IA effectue un prétraitement avant la traduction. Si le traitement de l'IA est erroné, des erreurs de traduction peuvent survenir. Pour un autre exemple, dans le scénario de l’interprétation simultanée, cela se fait généralement en parlant, et des informations contextuelles complètes ne peuvent pas être obtenues. Il s’agit d’un problème courant dans la traduction multimodale.
Troisièmement, Le problème le plus essentiel est que la traduction automatique actuelle est toujours basée sur des données et n'a pas approfondi la compréhension . L’apprentissage modèle repose toujours sur la contribution du langage plutôt que sur une véritable compréhension de la sémantique. Cela limite considérablement la limite supérieure de la traduction automatique.
51CTO : En tant que marque de traduction automatique sous Bytedance, comment Huoshan Translation gère-t-elle le problème des corpus clairsemés ?
Wang Mingxuan : Il existe deux méthodes plus directes.
La première est d'élargir le corpus et de s'efforcer de faire en sorte que le corpus rare « ne soit plus rare ». Cette idée est d'utiliser certains modèles pour obtenir le plus possible des corpus à partir d'Internet. Par exemple, en islandais, nous pouvons collecter une grande quantité de corpus monolingue islandais. Sur Internet, nous pouvons collecter des textes anglais similaires au corpus monolingue. Nous recherchons de tels corpus qui peuvent être alignés pour former des paires bilingues. Bien sûr, nous utilisons parfois l’annotation manuelle, mais le plus souvent nous nous appuyons sur des méthodes intelligentes pour l’ajouter nous-mêmes.
La seconde consiste à utiliser les points communs du langage. Nous vivons tous sur la même planète. Bien que nous utilisions des langues différentes, nous décrivons en réalité le même monde. Par conséquent, les langues ont de nombreux points communs à un niveau élevé. Nous utiliserons certaines méthodes d'apprentissage par transfert ou de pré-formation pour résoudre ce type de problèmes, comme par exemple laisser le modèle anglais aider le modèle français, ou laisser le modèle allemand aider le modèle français. Principalement ces deux idées.
51CTO : Afin de réduire les interférences sonores dans la traduction automatique multimodale, quelles stratégies ont été adoptées par Volcano Translation ?
Wang Mingxuan : Pour traiter les interférences sonores, tout d'abord, une modélisation conjointe multimodale a été réalisée. Nous utiliserons ensemble des signaux vocaux et des signaux texte pour effectuer des tâches en aval, de sorte que la transmission des erreurs soit considérablement réduite. Actuellement, la construction d’une sémantique unifiée multimodale est également un sujet très brûlant dans le monde universitaire, nous allons donc également absorber beaucoup de choses provenant d’autres domaines.
Deuxièmement, nous ferons également beaucoup de formation sur la robustesse dans la zone de texte, en essayant de garantir que le modèle peut garantir une sortie correcte même s'il y a des entrées incorrectes, ou ne pas amplifier cette erreur, ce qui est assez Yu a intégré la correction automatique des erreurs et la traduction automatique dans un seul modèle. Parce que les gens ont réellement ce type de capacité de correction automatique des erreurs, par exemple, les traducteurs humains corrigent automatiquement lorsqu'ils entendent des informations erronées, nous prendrons donc également en compte ces informations dans le modèle.
51CTO : L'interprétation simultanée a des exigences élevées en matière de retard. Cependant, sans contexte contextuel ni sémantique complète, il est difficile de garantir l’exactitude. Comment la traduction automatique équilibre-t-elle la contradiction entre les deux ?
Wang Mingxuan : C'est un défi très important dans l'industrie, car il ne s'agit pas seulement du compromis entre délai et précision, mais aussi des domaines dans lesquels en fait besoin d'être optimisé.
Par exemple, dans certains scénarios de conférence, les sous-titres traduits doivent être affichés sur grand écran. La vitesse à laquelle le public accepte les sous-titres est également l'une des questions clés, y compris la longueur de chaque sous-titre. l’affichage et la fréquence des sous-titres contextuels. Il s’agit de rendre la lecture plus confortable. De nombreux détails nous obligent à communiquer à plusieurs reprises avec le chef de produit et à mener des enquêtes approfondies auprès des utilisateurs pour connaître la satisfaction globale. Par conséquent, Ce n'est pas seulement une question de précision. L'expérience utilisateur réelle doit être prise en compte avant d'ajuster le modèle.
De plus, la Latence est peut-être l'un des indicateurs de satisfaction des utilisateurs, mais plus le délai est court, mieux c'est. Généralement, il est préférable d'avoir un écart adapté. Car si le délai est très court, les sous-titres apparaîtront très rapidement, et l'effet d'acceptation par l'utilisateur ne sera pas très bon. À cet égard, nous apprendrons également de nombreuses pratiques matures du secteur, telles que le contrôle dynamique de l'intervalle de traduction des sous-titres. Dans l’ensemble, il s’agit d’un problème très orienté ingénierie et produit.
La traduction automatique n'est toujours pas parfaite, mais les praticiens travaillent dur pour la rendre de meilleure qualité, plus utilisable et plus applicable. Jetons un coup d'œil à ses tendances de développement, en particulier lorsque la traduction automatique « entre en collision » avec les traducteurs professionnels, quelles réactions chimiques se produiront sur la scène des services de traduction.
51CTO : Avec le développement de la technologie, la traduction automatique débouchera-t-elle sur des scénarios d'application plus intéressants ?
Wang Mingxuan : Les lunettes Volcano Translation AR que nous avons lancées auparavant étaient une tentative similaire. Les lunettes de traduction AR présentées lors de la finale de la conférence Google I/O de cette année sont également des applications très intéressantes. Après les avoir portées, les utilisateurs peuvent voir la traduction de l'interlocuteur en temps réel, similaire à l'effet de sous-titre.
Cela reflète en fait un idéal relativement simple : Nous espérons que tout le monde pourra vivre dans un monde où la communication est sans barrières. Par exemple : lorsque vous voyagez à l'étranger, vous pouvez comprendre les messages texte dans n'importe quelle langue en portant des lunettes. Les panneaux de signalisation que vous voyez sont en allemand, mais ceux affichés sur les lunettes sont en chinois. Lors de la communication quotidienne, lorsque quelqu'un vous parle, les informations de la conversation sont automatiquement transformées en texte que vous comprenez et affichées sous les lunettes. Ce sont tous des scénarios dans lesquels les informations peuvent être obtenues plus efficacement.
51CTO : Comment la traduction automatique va-t-elle se développer à long terme ?
Wang Mingxuan : En termes d'applications , je pense que la traduction automatique pourrait être plus étroitement intégrée aux applications multimodales. Par exemple, il y aura de plus en plus de besoins en traduction de contenu vidéo et audio. En outre, la traduction automatique peut être plus étroitement associée aux affaires et à la culture à l’étranger. Étant donné que de nombreuses entreprises nationales développent activement leurs activités à l'étranger, je pense que ce domaine sera d'une grande aide pour le développement de la traduction automatique.
En termes de technologie, les tendances que je vois déjà se produire sont : Premièrement, la formation du big data et des grands modèles. De plus en plus de personnes sont engagées dans ce domaine, les modèles sont de plus en plus grands et la quantité de données augmente également. Beaucoup de gens pensent que ce changement pourrait entraîner un changement qualitatif dans les capacités de traduction automatique. La seconde est la combinaison de la traduction et de la modalité. Pas seulement dans le domaine de la traduction, de nombreux acteurs du secteur tentent de construire une représentation sémantique unifiée des différentes modalités. Au cours des dernières années, les frontières entre les différentes modalités étaient relativement claires et il y avait relativement peu de communication. Aujourd’hui, les modèles sont de plus en plus cohérents. À l’avenir, il pourrait y avoir un modèle capable d’effectuer à la fois la traduction de texte, la traduction vocale et même la traduction vidéo.
51CTO : À l'avenir, est-il possible que la traduction automatique remplace complètement la traduction humaine dans des scénarios spécifiques ?
Wang Mingxuan : Selon la pratique actuelle, cela ne peut certainement pas remplacer le travail. Cependant, je pense que la traduction automatique et la traduction humaine n’appartiennent peut-être pas à la même voie.
Les caractéristiques de la traduction automatique sont qu'elle est très rapide et peut être étendue, elle est donc adaptée au traitement de quantités massives d'informations qui doivent être traitées en temps opportun. Par exemple, s’il y a 10 millions de vidéos à traduire de l’anglais au français, il est impossible de le faire uniquement manuellement, mais les machines peuvent le faire. Cela permet à la machine de jouer un rôle très important dans son parcours, ce qui est bénéfique à long terme, car cela élargit l'ensemble du marché et élargit le marché multilingue. Mais pour des scénarios de traduction très précis, la traduction automatique peut ne pas être en mesure de les gérer. Comme quelqu'un l'a mentionné, la traduction automatique peut-elle traduire « A Dream of Red Mansions » ? À mon avis, cela n’entre pas dans le cadre des tâches de traduction automatique. Traduction de romans ou de poèmes, ce type de traduction doit faire appel à des experts. Il existe également des interprétations simultanées de conférence de haut niveau, qui nécessitent absolument des traducteurs professionnels et non des machines. Mais lors de certaines réunions peu importantes, l’avantage financier de la traduction automatique sera révélé.La traduction automatique et les traducteurs professionnels appartiennent à des filières différentes, et la distinction est toujours très claire. Cependant, dans une certaine mesure, les deux entretiennent également une relation d’entraide. Cela se reflète dans : D’une part, le corpus nécessaire à la traduction automatique est produit par des traducteurs professionnels. Les traducteurs professionnels continuent de produire une grande quantité de corpus au cours de leur travail, et ces corpus peuvent continuer à aider la traduction automatique à améliorer ses capacités. D’un autre côté, la traduction automatique peut également contribuer à réduire la charge de travail des personnes et à gérer des tâches moins exigeantes. De nos jours, de nombreux traducteurs effectuent l'édition post-traduction. De nombreuses sociétés de traduction laissent d'abord les machines effectuer la traduction, et les traducteurs effectuent l'édition plus tard. Cela peut grandement améliorer l'efficacité.
Présentation de l'invitéWang Mingxuan, chef de l'équipe de traduction automatique de ByteDance AI-Lab, sa direction de recherche est principalement la traduction automatique et le traitement du langage naturel. Dans le domaine de la traduction automatique, il a publié plus de 40 articles lors de conférences de premier plan telles que l'ACL et l'EMNLP, et a remporté à plusieurs reprises la première place dans des concours internationaux d'évaluation de traduction tels que le WMT. Parallèlement, il est également président du parrainage de l'EMNLP2022 et président de domaines de conférence tels que NeurIPS 2022, NLPCC 2022 et AACL2022. Introduction à la chronique"T Frontline" est l'une des chroniques d'entretiens approfondis spécialement ouvertes par le 51CTO Content Center pour les personnalités techniques en invitant des chefs d'entreprise, des architectes seniors, des experts techniques seniors, etc. l'industrie technologique pour discuter de la situation actuelle. Fournir une interprétation et un aperçu approfondis des points chauds technologiques, des pratiques technologiques et des tendances technologiques afin de promouvoir la diffusion et le développement de technologies de pointe.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!