recherche
MaisonPériphériques technologiquesIAGoogle AudioPaLM implémente une solution bimodale 'texte + audio', un grand modèle pour parler et écouter

Les modèles linguistiques à grande échelle, avec leurs performances puissantes et leur polyvalence, ont conduit au développement d'un certain nombre de grands modèles multimodaux, tels que l'audio, la vidéo, etc.

L'architecture sous-jacente du modèle de langage est principalement basée sur Transformer et principalement sur un décodeur, de sorte que l'architecture du modèle peut être adaptée à d'autres modalités de séquence sans trop d'ajustements.

Récemment, Google a publié un modèle de parole-texte unifié, AudioPaLM, qui fusionne le texte et les jetons audio dans un vocabulaire commun multimodal et le combine avec différentes balises de description de tâche pour obtenir n'importe quel mélange de parole et de texte. uniquement des modèles sur des tâches, notamment la reconnaissance vocale (ASR), la synthèse texte-parole, la traduction automatique de la parole (AST) et la traduction parole-parole (S2ST), etc., unifiant les tâches traditionnellement résolues par des modèles hétérogènes en une seule architecture et le processus de formation.

Google AudioPaLM implémente une solution bimodale texte + audio, un grand modèle pour parler et écouterPhotos

Lien papier : https://arxiv.org/pdf/2306.12925.pdf

Exemple de lien : https://google-research.github.io/seanet/audiopalm/examples /

De plus, puisque l'architecture sous-jacente d'AudioPaLM est un grand modèle Transformer, qui peut être initialisé avec les poids d'un grand modèle de langage pré-entraîné sur le texte, il peut bénéficier des connaissances linguistiques de modèles tels que PaLM .

Du point de vue des résultats de mise en œuvre, AudioPaLM a obtenu des résultats de pointe sur les benchmarks AST et S2ST, et ses performances sur le benchmark ASR sont comparables à celles des autres modèles.

En tirant parti des signaux audio d'AudioLM, le modèle AudioPaLM est capable d'effectuer S2ST sur la migration vocale d'un nouveau locuteur, surpassant les méthodes existantes en termes de qualité vocale et de préservation de la parole.

Le modèle AudioPaLM a également la capacité zéro-shot d'effectuer des tâches AST sur des combinaisons de saisie vocale/langue cible non vues dans la formation.

AudioPaLM

Les chercheurs utilisent un modèle Transformer uniquement avec décodeur pour modéliser les jetons de texte et de parole. Le texte et l'audio ont été segmentés avant d'être entrés dans le modèle, de sorte que l'entrée n'est qu'une séquence d'entiers, et en même temps. extrémité de sortie Effectuez ensuite l'opération détokenisée et renvoyez-la à l'utilisateur.

Google AudioPaLM implémente une solution bimodale texte + audio, un grand modèle pour parler et écouterImages

Intégration audio et segmentation de mots

Le processus de conversion de la forme d'onde audio originale en jetons comprend l'extraction des intégrations à partir de modèles de représentation vocale existants, et la discrétisation des intégrations dans un ensemble limité de jetons audio

Dans des travaux antérieurs, les plongements ont été extraits du modèle w2v-BERT et quantifiés par k-means. Dans cet article, les chercheurs ont expérimenté trois schémas :

w2v-BERT : utilisez le w2v. -Modèle BERT formé sur des données multilingues au lieu de l'anglais pur ; et aucun traitement de normalisation n'est effectué avant le clustering k-means, sinon cela entraînera une dégradation moyenne des performances dans un environnement multilingue. Générez ensuite des jetons à une fréquence de 25 Hz avec une taille de vocabulaire de 1024

USM-v1 : effectuez des opérations similaires en utilisant l'encodeur USM (Universal Speech Model) plus puissant à 2 milliards de paramètres et extrayez les intégrations de la couche intermédiaire ;

USM-v2 : formé avec la perte ASR auxiliaire et affiné pour prendre en charge plusieurs langues.

Modifier le décodeur texte uniquement

Dans la structure du décodeur Transfomrer, à l'exception de l'entrée et de la couche de sortie softmax finale, le nombre de jetons de modélisation n'est pas impliqué, et dans l'architecture PaLM, les variables de poids des matrices d'entrée et de sortie sont partagées, c'est-à-dire qu'elles sont transposées les unes des autres.

Il vous suffit donc d'étendre la taille de la matrice d'intégration de (t × m) à (t+a) ×m pour transformer un modèle de texte pur en un modèle capable de simuler à la fois du texte et de l'audio, où t est la taille du vocabulaire textuel, a est la taille du vocabulaire audio et m est la dimension d'intégration.

Pour tirer parti du modèle de texte pré-entraîné, les chercheurs ont modifié le point de contrôle du modèle existant en ajoutant de nouvelles lignes à la matrice d'intégration.

L'implémentation spécifique est que les premiers jetons t correspondent aux balises de texte SentencePièce, et les jetons a suivants représentent les balises audio. Bien que l'intégration de texte réutilise les poids pré-entraînés, l'intégration audio est nouvellement initialisée et doit être. qualifié.

Les résultats expérimentaux montrent que par rapport au recyclage à partir de zéro, les modèles de pré-entraînement basés sur le texte sont très bénéfiques pour améliorer les performances des tâches multimodales de parole et de texte.

Décodage de jetons audio en audio natif

Afin de synthétiser des formes d'onde audio à partir de jetons audio, les chercheurs ont expérimenté deux méthodes différentes :

1.

2. Décodage non autorégressif similaire au modèle SoundStorm

Les deux méthodes doivent d'abord générer le jeton SoundStream, puis utiliser un décodeur convolutif pour le convertir en une forme d'onde audio.

Les chercheurs se sont entraînés sur Multilingual LibriSpeech. La condition vocale est un échantillon de parole de 3 secondes, qui est représenté à la fois comme un jeton audio et un jeton SoundStream

En fournissant une partie de la parole d'entrée originale. en tant que condition de parole, le modèle est capable de parler. Lorsque la parole humaine est traduite dans différentes langues, la parole de l'orateur d'origine est conservée. Lorsque l'audio d'origine dure moins de 3 secondes, le temps vide est comblé par une lecture répétée.

Tâche de formation

Les ensembles de données de formation utilisés sont tous des données vocales-textes :

1. Audio : Discours dans la langue source (parole)

2. : Transcription de la parole en données audio

3. Audio traduit Audio traduit : Traduction parlée de la parole en audio

4 Transcription traduite : Traduction écrite de la parole en audio

Les tâches composantes comprennent : ... vers la traduction vocale) : Traduisez l'audio pour obtenir l'audio traduit

4. TTS (Text to Speech) : Lisez le contenu transcrit pour obtenir l'audio.

5. MT (Text-to-Text Machine Translation) : traduisez la transcription pour obtenir la transcription traduite

Un ensemble de données peut être utilisé pour plusieurs tâches, les chercheurs ont donc choisi de signaler le modèle pour indiquer quelle tâche le modèle doit fonctionner pour une entrée donnée est spécifié en ajoutant une étiquette avant l'entrée, spécifiant la tâche et le nom anglais de la langue d'entrée. La langue de sortie peut également être sélectionnée.

Par exemple, lorsque vous souhaitez que le modèle effectue l'ASR sur un corpus français, vous devez ajouter le label [ASR French] devant l'entrée audio après la segmentation des mots pour effectuer des tâches TTS en anglais, vous devez ajouter ; [TTS Anglais] devant le texte ; Pour effectuer la tâche S2ST de l'anglais vers le français, l'audio anglais segmenté sera précédé de [S2ST Anglais Français]

Training Mix

Les chercheurs ont utilisé la bibliothèque SeqIO pour mélanger les données d'entraînement. Les ensembles de données plus volumineux subissent une réduction de poids.

PicturesPartie expérimentale

Pictures

AudioPaLM surpasse les autres modèles de base sur les tâches AST et S2ST. Bien que les performances sur l'ASR ne soient pas optimales, l'effet est également très bon.

Google AudioPaLM implémente une solution bimodale texte + audio, un grand modèle pour parler et écouterEn plus d'évaluer la qualité de la traduction du contenu vocal, les chercheurs ont également évalué si la langue générée par AudioPaLM était de qualité suffisamment élevée et si la voix du locuteur était préservée lors de la traduction dans différentes langues.

Google AudioPaLM implémente une solution bimodale texte + audio, un grand modèle pour parler et écouterObjective Metrics

L'utilisation de quelque chose de similaire à l'estimateur MOS sans référence, à partir d'un échantillon audio, fournit une estimation de la qualité audio perçue sur une échelle de 1 à 5.

Pour mesurer la qualité du transfert de parole entre les langues, les chercheurs ont utilisé des modèles de vérification du locuteur disponibles dans le commerce et ont calculé la similarité cosinusoïdale entre la source (codée/décodée avec SoundStream) et les intégrations de la parole traduite ; les intégrations des caractéristiques acoustiques de l'audio source à l'audio cible (conditions d'enregistrement, bruit de fond).

Évaluation subjective

Les chercheurs ont mené deux études indépendantes pour évaluer la qualité de la parole générée et la similarité de la parole, le même ensemble d’échantillons a été utilisé dans les deux études.

En raison de la qualité variable du corpus, certains contiennent des paroles superposées (par exemple, des émissions de télévision ou des chansons jouées en arrière-plan) ou un bruit extrêmement fort (par exemple, des vêtements frottant contre le microphone), des effets de distorsion similaires ont compliqué le travail des évaluateurs humains, les chercheurs ont donc décidé de pré-filtrer en sélectionnant uniquement les entrées avec une estimation MOS d'au moins 3,0.

Les notes sont fournies sur une échelle de 5 points, allant de 1 (mauvaise qualité ou son complètement différent) à 5 (bonne qualité, même son).

Google AudioPaLM implémente une solution bimodale texte + audio, un grand modèle pour parler et écouterPicture

On peut observer à partir des résultats que AudioPaLM a bien performé dans l'objectif et des mesures subjectives, nettement meilleures que le système de base Translatotron 2 en termes de qualité audio et de similarité vocale, et AudioPaLM a une qualité supérieure et une meilleure similarité vocale que les enregistrements synthétiques réels dans CVSS-T, avec des gains plus importants dans la plupart des métriques.

Les chercheurs ont également comparé les systèmes du groupe à ressources élevées et du groupe à faibles ressources (français, allemand, espagnol et catalan avec d'autres langues) et ont découvert qu'il y avait aucune différence significative dans les indicateurs entre ces groupes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Comment construire votre assistant d'IA personnel avec HuggingFace SmollmComment construire votre assistant d'IA personnel avec HuggingFace SmollmApr 18, 2025 am 11:52 AM

Exploiter la puissance de l'IA sur disvise: construire une CLI de chatbot personnelle Dans un passé récent, le concept d'un assistant d'IA personnel semblait être une science-fiction. Imaginez Alex, un passionné de technologie, rêvant d'un compagnon d'IA intelligent et local - celui qui ne dépend pas

L'IA pour la santé mentale est attentivement analysée via une nouvelle initiative passionnante à l'Université de StanfordL'IA pour la santé mentale est attentivement analysée via une nouvelle initiative passionnante à l'Université de StanfordApr 18, 2025 am 11:49 AM

Leur lancement inaugural de l'AI4MH a eu lieu le 15 avril 2025, et le Dr Tom Insel, M.D., célèbre psychiatre et neuroscientifique, a été le conférencier de lancement. Le Dr Insel est réputé pour son travail exceptionnel dans la recherche en santé mentale et la techno

La classe de draft de la WNBA 2025 entre dans une ligue qui grandit et luttant sur le harcèlement en ligneLa classe de draft de la WNBA 2025 entre dans une ligue qui grandit et luttant sur le harcèlement en ligneApr 18, 2025 am 11:44 AM

"Nous voulons nous assurer que la WNBA reste un espace où tout le monde, les joueurs, les fans et les partenaires d'entreprise, se sentent en sécurité, appréciés et autonomes", a déclaré Engelbert, abordé ce qui est devenu l'un des défis les plus dommageables des sports féminins. L'anno

Guide complet des structures de données intégrées Python - Analytics VidhyaGuide complet des structures de données intégrées Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Introduction Python excelle comme un langage de programmation, en particulier dans la science des données et l'IA générative. La manipulation efficace des données (stockage, gestion et accès) est cruciale lorsqu'il s'agit de grands ensembles de données. Nous avons déjà couvert les nombres et ST

Premières impressions des nouveaux modèles d'Openai par rapport aux alternativesPremières impressions des nouveaux modèles d'Openai par rapport aux alternativesApr 18, 2025 am 11:41 AM

Avant de plonger, une mise en garde importante: les performances de l'IA sont non déterministes et très usagées. En termes plus simples, votre kilométrage peut varier. Ne prenez pas cet article (ou aucun autre) article comme le dernier mot - au lieu, testez ces modèles sur votre propre scénario

Portfolio AI | Comment construire un portefeuille pour une carrière en IA?Portfolio AI | Comment construire un portefeuille pour une carrière en IA?Apr 18, 2025 am 11:40 AM

Construire un portefeuille AI / ML hors concours: un guide pour les débutants et les professionnels La création d'un portefeuille convaincant est cruciale pour sécuriser les rôles dans l'intelligence artificielle (IA) et l'apprentissage automatique (ML). Ce guide fournit des conseils pour construire un portefeuille

Ce que l'IA agentique pourrait signifier pour les opérations de sécuritéCe que l'IA agentique pourrait signifier pour les opérations de sécuritéApr 18, 2025 am 11:36 AM

Le résultat? L'épuisement professionnel, l'inefficacité et un écart d'élargissement entre la détection et l'action. Rien de tout cela ne devrait être un choc pour quiconque travaille en cybersécurité. La promesse d'une IA agentique est devenue un tournant potentiel, cependant. Cette nouvelle classe

Google contre Openai: la lutte contre l'IA pour les étudiantsGoogle contre Openai: la lutte contre l'IA pour les étudiantsApr 18, 2025 am 11:31 AM

Impact immédiat contre partenariat à long terme? Il y a deux semaines, Openai s'est avancé avec une puissante offre à court terme, accordant aux étudiants des États-Unis et canadiens d'accès gratuit à Chatgpt Plus jusqu'à la fin mai 2025. Cet outil comprend GPT - 4O, un A

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Vous avez un jeu croisé?
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.