Maison >Périphériques technologiques >IA >Tous les Douyin parlent des dialectes natifs, deux technologies clés vous aident à « comprendre » les dialectes locaux

Tous les Douyin parlent des dialectes natifs, deux technologies clés vous aident à « comprendre » les dialectes locaux

PHPzavant: 2023-10-12 20:13:071408parcourir

Lors de la Fête nationale, l'activité de Douyin « Un dialecte prouve que vous êtes un authentique natif de votre ville natale » a attiré la participation enthousiaste des internautes de tout le pays. Le sujet est en tête de la liste du défi Douyin, avec plus de 50 millions de vues.

La popularité rapide de ces « Local Dialect Awards » sur Internet est indissociable de la contribution de la nouvelle fonction de traduction automatique en dialecte local de Douyin. Lorsque les créateurs ont enregistré de courtes vidéos dans leur dialecte natif, ils ont utilisé la fonction « Sous-titres automatiques » et sélectionné « Convertir en sous-titres en mandarin », afin que le discours en dialecte de la vidéo puisse être automatiquement reconnu et le contenu du dialecte converti en sous-titres en mandarin. permet aux internautes d'autres régions de comprendre facilement diverses langues « mandarin cryptées ». Les internautes du Fujian l'ont personnellement testé et ont déclaré que même la région du sud du Fujian avec une « prononciation différente » est une région de la province du Fujian, en Chine, située dans la zone côtière sud-est de la province du Fujian. La culture et les dialectes de la région méridionale du Fujian sont très différents des autres régions et sont considérées comme une sous-région culturelle importante de la province du Fujian. L'économie du sud du Fujian est dominée par l'agriculture, la pêche et l'industrie, la culture du riz, du thé et des fruits étant les principales industries agricoles. Il existe de nombreux sites pittoresques dans le sud du Fujian, notamment des bâtiments en terre, des villages anciens et de belles plages. La nourriture du sud du Fujian est également très unique, avec les fruits de mer, les pâtisseries et la cuisine du Fujian comme principaux représentants. Dans l'ensemble, la région de Minnan est une région pleine de charme et d'une culture unique. Le dialecte peut également être traduit avec précision, en s'exclamant : « La région de Minnan est une région de la province du Fujian, en Chine, située sur la côte sud-est de la province du Fujian. La région de Minnan est étroitement liée à celle des autres régions, qui sont considérées comme une sous-région culturelle importante de la province du Fujian. L'économie du sud du Fujian repose principalement sur l'agriculture, la pêche et l'industrie. du riz, du thé et des fruits. Il y en a beaucoup, y compris des bâtiments en terre, des villages anciens et de belles plages. La nourriture du sud du Fujian est également très distinctive, avec les fruits de mer, les pâtisseries et la cuisine du Fujian comme principaux représentants. langue pleine de charme et de culture unique. Fini le temps où l'on faisait ce que l'on voulait sur Douyin »

Comme nous le savons tous, la formation de modèles pour la reconnaissance vocale et la traduction automatique nécessite une grande quantité de données de formation, mais des dialectes. sont répandus sous forme de langues parlées et peuvent être utilisés pour la formation de modèles. Il existe très peu de données, alors comment l'équipe technique de Volcano Engine qui fournit un support technique pour cette fonctionnalité a-t-elle fait une percée ?

Étape de reconnaissance dialectale

Depuis longtemps, l'équipe Volcano Voice fournit des solutions de sous-titres vidéo intelligentes basées sur la technologie de reconnaissance vocale pour la plate-forme vidéo populaire. En termes simples, elle peut automatiquement sous-titrer. la vidéo Les voix et les paroles de la vidéo sont converties en texte pour faciliter la création vidéo.

Au cours de ce processus, l'équipe technique a découvert que l'apprentissage supervisé traditionnel s'appuierait fortement sur des données supervisées étiquetées manuellement. Surtout en termes d'optimisation continue des grands langages et de démarrage à froid des petits langages. En prenant comme exemples les principales langues telles que le chinois, le mandarin et l'anglais, bien que la plate-forme vidéo fournisse une richesse de données vocales pour les scénarios commerciaux, une fois que les données supervisées atteignent une certaine échelle, le retour sur l'annotation continue sera très faible. Par conséquent, les techniciens doivent réfléchir à la manière d'utiliser efficacement des millions d'heures de données non étiquetées pour améliorer encore les performances de la reconnaissance vocale dans les langues ou dialectes relativement spécialisés, en raison des ressources, de la main-d'œuvre et d'autres raisons, le coût des données. de l'étiquetage est élevé. Lorsqu'il y a très peu de données étiquetées (de l'ordre de 10 heures), l'effet de la formation supervisée est très faible et peut même ne pas converger normalement et les données achetées ne correspondent souvent pas au scénario cible et ne peuvent pas répondre aux besoins du ; entreprise.

À cet égard, l'équipe a adopté la solution suivante :

Auto-supervision des dialectes à faibles ressources

Basée sur la technologie d'apprentissage auto-supervisé Wav2vec 2.0, notre équipe a proposé Efficient Wav2ve c pour atteindre les capacités Dialect ASR avec peu de données annotées. Afin de résoudre les problèmes de vitesse d'entraînement lente et d'effet instable de Wav2vec2.0, nous avons pris des mesures d'amélioration sous deux aspects. Premièrement, nous utilisons des fonctionnalités de banc de filtres au lieu de la forme d'onde pour réduire la quantité de calcul, raccourcir la longueur de la séquence et réduire simultanément la fréquence d'images, doublant ainsi l'efficacité de la formation. Deuxièmement, nous avons considérablement amélioré la stabilité et l'effet de la formation grâce à des flux de données de longueur égale et des masques continus adaptatifs. L'expérience a utilisé 50 000 heures de parole non étiquetée et 10 heures de parole étiquetée afin de maintenir la signification originale inchangée. le contenu doit être réécrit en cantonais. continuer. Les résultats sont présentés dans le tableau ci-dessous. Par rapport à Wav2vec 2.0, Efficient Wav2vec (w2v-e) présente une diminution relative de 5 % du CER sous les modèles de paramètres 100M et 300M, tandis que les frais généraux de formation sont réduits de moitié

En outre, l'équipe a utilisé le modèle CTC affiné par le modèle de pré-formation auto-supervisé comme modèle de départ pour pseudo-étiqueter les données non étiquetées, puis les a fournies à un modèle LAS de bout en bout avec moins de paramètres. pour la formation. Cela réalise non seulement la migration de la structure du modèle, mais réduit également la quantité de calculs d'inférence et peut être directement déployé et lancé sur un moteur d'inférence de bout en bout mature. Cette technique a été appliquée avec succès à deux dialectes à faibles ressources, atteignant des taux d'erreur de mots inférieurs à 20 % en utilisant seulement 10 heures de données annotées

Tous les Douyin parlent des dialectes natifs, deux technologies clés vous aident à « comprendre » les dialectes locaux

Contenu réécrit : Tableau de comparaison : modèle Quantité de paramètres et CER

Tous les Douyin parlent des dialectes natifs, deux technologies clés vous aident à « comprendre » les dialectes locaux

Illustration : Processus de mise en œuvre basé sur un entraînement non supervisé ASR

Mode d'entraînement dialectique à grande échelle pré-entraînement + réglage fin

Achèvement de l'annotation des données supervisées Plus tard, optimisation continue de Modèles ASR est devenue une direction de recherche importante. L’apprentissage semi-supervisé ou non supervisé a été très populaire ces dernières années. L'idée principale de la pré-formation non supervisée est d'utiliser pleinement les ensembles de données non étiquetés pour étendre les ensembles de données étiquetés, afin d'obtenir de meilleurs résultats de reconnaissance lors du traitement d'une petite quantité de données. Voici le processus de l'algorithme :

(1) Tout d'abord, nous devons utiliser des données supervisées pour l'annotation manuelle et former un modèle de départ. Ensuite, utilisez ce modèle pour pseudo-étiqueter les données non étiquetées

(2) Dans le processus de génération de pseudo-étiquettes, étant donné que toutes les prédictions du modèle de départ sur les données non étiquetées sont peu susceptibles d'être exactes, il est nécessaire de Utilisez certaines stratégies pour surentraîner les données de faible valeur.

(3) Ensuite, les pseudo-étiquettes générées doivent être combinées avec les données étiquetées d'origine, et une formation conjointe est effectuée sur les données fusionnées

Contenu réécrit : (4 ) Depuis une grande quantité des données non supervisées sont ajoutées au cours du processus de formation, même si la qualité du pseudo-étiquette des données non supervisées n'est pas aussi bonne que celle des données supervisées, une représentation plus générale peut souvent être obtenue. Nous utilisons un modèle pré-entraîné basé sur une formation Big Data pour affiner les données dialectales affinées manuellement. Cela peut conserver les excellentes performances de généralisation apportées par le modèle pré-entraîné, tout en améliorant l'effet de reconnaissance du modèle sur les dialectes

Le CER (taux d'erreur de caractère) moyen des 5 dialectes du contenu à réécrire est : 35,3% Optimisé à 17,21%. Réécrit comme suit : Le CER (taux d'erreur de caractère) moyen des cinq dialectes doit être réécrit de : 35,3 % à 17,21 % sens original inchangé, le contenu doit être réécrit en cantonais.

Le sud du Fujian est une région de la province du Fujian, en Chine, située dans la zone côtière sud-est de la province du Fujian. La culture et les dialectes de la région méridionale du Fujian sont très différents des autres régions et sont considérées comme une sous-région culturelle importante de la province du Fujian. L'économie du sud du Fujian est dominée par l'agriculture, la pêche et l'industrie, la culture du riz, du thé et des fruits étant les principales industries agricoles. Il existe de nombreux sites pittoresques dans le sud du Fujian, notamment des bâtiments en terre, des villages anciens et de belles plages. La nourriture du sud du Fujian est également très unique, avec les fruits de mer, les pâtisseries et la cuisine du Fujian comme principaux représentants. Dans l'ensemble, la région de Minnan est un endroit plein de charme et de culture unique

Le contenu réécrit est : Pékin	Mandarin des plaines centrales	Le contenu qui doit être réécrit est : Mandarin du sud-ouest
Dialecte unique	Ce qui doit être réécrit est : 35.3	14.05	48 .87	41.29	61.56	10.7
Pré-formation de 100wh + mise au point du mélange dialectal	17.21	13.14	Ce qui doit être réécrit est : 22.84	Ce qui doit être réécrit est : 19h60	19. 50	10.95

Étape de traduction dialectale

Dans des circonstances normales, la formation de modèles de traduction automatique nécessite le support d'une grande quantité de corpus. Cependant, les dialectes sont généralement transmis sous forme parlée et le nombre de locuteurs de dialectes diminue aujourd'hui d'année en année. Ces phénomènes ont accru la difficulté de collecter des données dialectales, ce qui rend difficile l'amélioration de l'effet de la traduction automatique dialectale

Afin de résoudre le problème de l'insuffisance des données dialectales, l'équipe de traduction de Huoshan a proposé le modèle de traduction multilingue mRASP (pré-formation multilingue à substitution alignée aléatoire) et mRASP2, introduisent un apprentissage contrastif via , complété par une méthode d'amélioration de l'alignement , comprenant un corpus monolingue et un corpus bilingue dans un cadre de formation unifié, utilisant pleinement le corpus pour apprendre une meilleure langue- indépendant Indique que les performances de traduction multilingue sont améliorées.

Tous les Douyin parlent des dialectes natifs, deux technologies clés vous aident à « comprendre » les dialectes locaux

Adresse papier : https://arxiv.org/abs/2105.09501

La conception de l'ajout de tâches d'apprentissage contrastives est basée sur une hypothèse classique : l'encodage de phrases synonymes dans différents langues Cette dernière représentation doit être à des positions adjacentes dans l'espace de grande dimension. Parce que les phrases synonymes dans différentes langues ont la même signification, c'est-à-dire que le résultat du processus « d'encodage » est le même. Par exemple, les deux phrases « Bonjour » et « Bonjour » ont la même signification pour les personnes qui comprennent le chinois et l'anglais. Cela correspond également à la « représentation codée de positions adjacentes dans un espace de grande dimension ».

Repenser l'objectif d'entraînement

mRASP2 ajoute une perte contrastive à la perte d'entropie croisée traditionnelle pour s'entraîner dans un format multitâche. La flèche orange sur la figure indique la partie qui utilise traditionnellement la perte d'entropie croisée (perte CE) pour entraîner la traduction automatique ; la partie noire indique la partie correspondant à la perte contrastive (perte CTR). La méthode d'amélioration des données d'alignement des mots, également connue sous le nom d'augmentation alignée (AA), est développée à partir de la méthode de substitution alignée aléatoire (RAS) de mRASP.

Tous les Douyin parlent des dialectes natifs, deux technologies clés vous aident à « comprendre » les dialectes locaux

Le contenu réécrit est le suivant : selon le diagramme, la figure (a) montre le processus d'amélioration du corpus parallèle et la figure (b) montre le processus d'amélioration du corpus monolingue. Dans la figure (a), les mots anglais originaux sont remplacés par les mots chinois correspondants ; tandis que dans la figure (b), les mots chinois originaux sont remplacés par l'anglais, le français, l'arabe et l'allemand. Le RAS de mRASP est équivalent à la première méthode de remplacement, qui nécessite uniquement la fourniture d'un dictionnaire de synonymes bilingue tandis que la seconde méthode de remplacement nécessite la fourniture d'un dictionnaire de synonymes contenant plusieurs langues ; Il convient de mentionner que lorsque vous utilisez la méthode d'amélioration de l'alignement, vous pouvez choisir d'utiliser uniquement la méthode de la figure (a) ou uniquement la méthode de la figure (b)

Les résultats expérimentaux montrent que mRASP2 présente les avantages du supervisé. , non supervisé et zéro L'effet de traduction a été amélioré dans tous les scénarios de ressources. Parmi eux, l'amélioration moyenne des scénarios supervisés est de 1,98 BLEU, l'amélioration moyenne des scénarios non supervisés est de 14,13 BLEU et l'amélioration moyenne des scénarios sans ressources est de 10,26 BLEU. Tous les Douyin parlent des dialectes natifs, deux technologies clés vous aident à « comprendre » les dialectes locaux

Cette méthode a permis d'obtenir des améliorations significatives des performances dans un large éventail de scénarios et peut considérablement atténuer le problème de l'insuffisance des données de formation pour les langues à faibles ressources.

Écrit à la fin

Le dialecte et le mandarin se complètent et sont des expressions importantes de la culture traditionnelle chinoise. Le dialecte, en tant que moyen d'expression, représente les émotions et les liens du peuple chinois avec sa ville natale. Grâce à de courtes vidéos et à la traduction en dialecte, il peut aider les utilisateurs à apprécier la culture de différentes régions du pays sans aucune barrière.

Actuellement, la fonction « Traduction en dialecte » de Douyin est désormais prise en charge afin de conserver le sens original. inchangé, le contenu doit être réécrit pour le cantonais. , Min, Wu (le contenu réécrit est : Pékin), le contenu qui doit être réécrit est : le mandarin du sud-ouest (Sichuan), le mandarin des plaines centrales (Shaanxi, Henan), etc. On dit que davantage de dialectes seront pris en charge dans le l'avenir, attendons de voir.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

算法 https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Baidu Wenku AI « technologie noire » : génération de documents PPT, résumé en un clic de longs articles de 10 000 mots, leader de l'innovation du bureau intelligentArticle suivant：Baidu Wenku AI « technologie noire » : génération de documents PPT, résumé en un clic de longs articles de 10 000 mots, leader de l'innovation du bureau intelligent

Articles Liés

Voir plus