Maison > Article > Périphériques technologiques > Google AudioPaLM implémente une solution bimodale "texte + audio", un grand modèle pour parler et écouter
Les modèles linguistiques à grande échelle, avec leurs performances puissantes et leur polyvalence, ont conduit au développement d'un certain nombre de grands modèles multimodaux, tels que l'audio, la vidéo, etc.
L'architecture sous-jacente du modèle de langage est principalement basée sur Transformer et principalement sur un décodeur, de sorte que l'architecture du modèle peut être adaptée à d'autres modalités de séquence sans trop d'ajustements.
Récemment, Google a publié un modèle de parole-texte unifié, AudioPaLM, qui fusionne le texte et les jetons audio dans un vocabulaire commun multimodal et le combine avec différentes balises de description de tâche pour obtenir n'importe quel mélange de parole et de texte. uniquement des modèles sur des tâches, notamment la reconnaissance vocale (ASR), la synthèse texte-parole, la traduction automatique de la parole (AST) et la traduction parole-parole (S2ST), etc., unifiant les tâches traditionnellement résolues par des modèles hétérogènes en une seule architecture et le processus de formation.
Photos
Lien papier : https://arxiv.org/pdf/2306.12925.pdf
Exemple de lien : https://google-research.github.io/seanet/audiopalm/examples /
De plus, puisque l'architecture sous-jacente d'AudioPaLM est un grand modèle Transformer, qui peut être initialisé avec les poids d'un grand modèle de langage pré-entraîné sur le texte, il peut bénéficier des connaissances linguistiques de modèles tels que PaLM .
Du point de vue des résultats de mise en œuvre, AudioPaLM a obtenu des résultats de pointe sur les benchmarks AST et S2ST, et ses performances sur le benchmark ASR sont comparables à celles des autres modèles.
En tirant parti des signaux audio d'AudioLM, le modèle AudioPaLM est capable d'effectuer S2ST sur la migration vocale d'un nouveau locuteur, surpassant les méthodes existantes en termes de qualité vocale et de préservation de la parole.
Le modèle AudioPaLM a également la capacité zéro-shot d'effectuer des tâches AST sur des combinaisons de saisie vocale/langue cible non vues dans la formation.
Les chercheurs utilisent un modèle Transformer uniquement avec décodeur pour modéliser les jetons de texte et de parole. Le texte et l'audio ont été segmentés avant d'être entrés dans le modèle, de sorte que l'entrée n'est qu'une séquence d'entiers, et en même temps. extrémité de sortie Effectuez ensuite l'opération détokenisée et renvoyez-la à l'utilisateur.
Images
Intégration audio et segmentation de mots
Le processus de conversion de la forme d'onde audio originale en jetons comprend l'extraction des intégrations à partir de modèles de représentation vocale existants, et la discrétisation des intégrations dans un ensemble limité de jetons audio
Dans des travaux antérieurs, les plongements ont été extraits du modèle w2v-BERT et quantifiés par k-means. Dans cet article, les chercheurs ont expérimenté trois schémas :
w2v-BERT : utilisez le w2v. -Modèle BERT formé sur des données multilingues au lieu de l'anglais pur ; et aucun traitement de normalisation n'est effectué avant le clustering k-means, sinon cela entraînera une dégradation moyenne des performances dans un environnement multilingue. Générez ensuite des jetons à une fréquence de 25 Hz avec une taille de vocabulaire de 1024
USM-v1 : effectuez des opérations similaires en utilisant l'encodeur USM (Universal Speech Model) plus puissant à 2 milliards de paramètres et extrayez les intégrations de la couche intermédiaire ;
USM-v2 : formé avec la perte ASR auxiliaire et affiné pour prendre en charge plusieurs langues.
Modifier le décodeur texte uniquement
Dans la structure du décodeur Transfomrer, à l'exception de l'entrée et de la couche de sortie softmax finale, le nombre de jetons de modélisation n'est pas impliqué, et dans l'architecture PaLM, les variables de poids des matrices d'entrée et de sortie sont partagées, c'est-à-dire qu'elles sont transposées les unes des autres.
Il vous suffit donc d'étendre la taille de la matrice d'intégration de (t × m) à (t+a) ×m pour transformer un modèle de texte pur en un modèle capable de simuler à la fois du texte et de l'audio, où t est la taille du vocabulaire textuel, a est la taille du vocabulaire audio et m est la dimension d'intégration.
Pour tirer parti du modèle de texte pré-entraîné, les chercheurs ont modifié le point de contrôle du modèle existant en ajoutant de nouvelles lignes à la matrice d'intégration.
L'implémentation spécifique est que les premiers jetons t correspondent aux balises de texte SentencePièce, et les jetons a suivants représentent les balises audio. Bien que l'intégration de texte réutilise les poids pré-entraînés, l'intégration audio est nouvellement initialisée et doit être. qualifié.
Les résultats expérimentaux montrent que par rapport au recyclage à partir de zéro, les modèles de pré-entraînement basés sur le texte sont très bénéfiques pour améliorer les performances des tâches multimodales de parole et de texte.
Décodage de jetons audio en audio natif
Afin de synthétiser des formes d'onde audio à partir de jetons audio, les chercheurs ont expérimenté deux méthodes différentes :
1.
2. Décodage non autorégressif similaire au modèle SoundStormLes deux méthodes doivent d'abord générer le jeton SoundStream, puis utiliser un décodeur convolutif pour le convertir en une forme d'onde audio.
Les chercheurs se sont entraînés sur Multilingual LibriSpeech. La condition vocale est un échantillon de parole de 3 secondes, qui est représenté à la fois comme un jeton audio et un jeton SoundStream
En fournissant une partie de la parole d'entrée originale. en tant que condition de parole, le modèle est capable de parler. Lorsque la parole humaine est traduite dans différentes langues, la parole de l'orateur d'origine est conservée. Lorsque l'audio d'origine dure moins de 3 secondes, le temps vide est comblé par une lecture répétée.
Tâche de formation
Les ensembles de données de formation utilisés sont tous des données vocales-textes :1. Audio : Discours dans la langue source (parole)
2. : Transcription de la parole en données audio
3. Audio traduit Audio traduit : Traduction parlée de la parole en audio
4 Transcription traduite : Traduction écrite de la parole en audio
Les tâches composantes comprennent : ... vers la traduction vocale) : Traduisez l'audio pour obtenir l'audio traduit
4. TTS (Text to Speech) : Lisez le contenu transcrit pour obtenir l'audio.
5. MT (Text-to-Text Machine Translation) : traduisez la transcription pour obtenir la transcription traduite
Un ensemble de données peut être utilisé pour plusieurs tâches, les chercheurs ont donc choisi de signaler le modèle pour indiquer quelle tâche le modèle doit fonctionner pour une entrée donnée est spécifié en ajoutant une étiquette avant l'entrée, spécifiant la tâche et le nom anglais de la langue d'entrée. La langue de sortie peut également être sélectionnée.
Par exemple, lorsque vous souhaitez que le modèle effectue l'ASR sur un corpus français, vous devez ajouter le label [ASR French] devant l'entrée audio après la segmentation des mots pour effectuer des tâches TTS en anglais, vous devez ajouter ; [TTS Anglais] devant le texte ; Pour effectuer la tâche S2ST de l'anglais vers le français, l'audio anglais segmenté sera précédé de [S2ST Anglais Français]
Training Mix
Les chercheurs ont utilisé la bibliothèque SeqIO pour mélanger les données d'entraînement. Les ensembles de données plus volumineux subissent une réduction de poids.
PicturesPartie expérimentale
PicturesAudioPaLM surpasse les autres modèles de base sur les tâches AST et S2ST. Bien que les performances sur l'ASR ne soient pas optimales, l'effet est également très bon.
En plus d'évaluer la qualité de la traduction du contenu vocal, les chercheurs ont également évalué si la langue générée par AudioPaLM était de qualité suffisamment élevée et si la voix du locuteur était préservée lors de la traduction dans différentes langues.
Objective Metrics
L'utilisation de quelque chose de similaire à l'estimateur MOS sans référence, à partir d'un échantillon audio, fournit une estimation de la qualité audio perçue sur une échelle de 1 à 5.
Pour mesurer la qualité du transfert de parole entre les langues, les chercheurs ont utilisé des modèles de vérification du locuteur disponibles dans le commerce et ont calculé la similarité cosinusoïdale entre la source (codée/décodée avec SoundStream) et les intégrations de la parole traduite ; les intégrations des caractéristiques acoustiques de l'audio source à l'audio cible (conditions d'enregistrement, bruit de fond).
Évaluation subjective
Les chercheurs ont mené deux études indépendantes pour évaluer la qualité de la parole générée et la similarité de la parole, le même ensemble d’échantillons a été utilisé dans les deux études.
En raison de la qualité variable du corpus, certains contiennent des paroles superposées (par exemple, des émissions de télévision ou des chansons jouées en arrière-plan) ou un bruit extrêmement fort (par exemple, des vêtements frottant contre le microphone), des effets de distorsion similaires ont compliqué le travail des évaluateurs humains, les chercheurs ont donc décidé de pré-filtrer en sélectionnant uniquement les entrées avec une estimation MOS d'au moins 3,0.
Les notes sont fournies sur une échelle de 5 points, allant de 1 (mauvaise qualité ou son complètement différent) à 5 (bonne qualité, même son).
Picture
On peut observer à partir des résultats que AudioPaLM a bien performé dans l'objectif et des mesures subjectives, nettement meilleures que le système de base Translatotron 2 en termes de qualité audio et de similarité vocale, et AudioPaLM a une qualité supérieure et une meilleure similarité vocale que les enregistrements synthétiques réels dans CVSS-T, avec des gains plus importants dans la plupart des métriques.
Les chercheurs ont également comparé les systèmes du groupe à ressources élevées et du groupe à faibles ressources (français, allemand, espagnol et catalan avec d'autres langues) et ont découvert qu'il y avait aucune différence significative dans les indicateurs entre ces groupes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!