


Kokoro-82M : exploration des modèles de synthèse vocale (TTS) hautes performances
Kokoro-82M est un modèle TTS hautes performances capable de produire un son de haute qualité. Il prend en charge une simple conversion texte-parole et peut facilement effectuer une synthèse vocale en appliquant des pondérations aux fichiers audio.
Kokoro-82M sur le visage câlin
À partir de la version 0.23, Kokoro-82M prend également en charge le japonais. Vous pouvez facilement l'essayer via le lien suivant :
[Kokoro TTS sur Hugging Face Spaces](Le lien Hugging Face Spaces doit être inséré ici)
Cependant, l'intonation japonaise est encore légèrement artificielle.
Dans ce tutoriel, nous utiliserons kokoro-onnx, une implémentation TTS qui exploite Kokoro et le runtime ONNX. Nous utiliserons la version 0.19 (une version stable), qui ne prend en charge que la synthèse vocale pour l'anglais américain et l'anglais britannique.
Comme le titre l'indique, le code sera exécuté dans Google Colab.
Installer kokoro-onnx
!git lfs install !git clone https://huggingface.co/hexgrad/Kokoro-82M %cd Kokoro-82M !apt-get -qq -y install espeak-ng > /dev/null 2>&1 !pip install -q phonemizer torch transformers scipy munch !pip install -U kokoro-onnx
Chargement du colis
import numpy as np from scipy.io.wavfile import write from IPython.display import display, Audio from models import build_model import torch from models import build_model from kokoro import generate
Exécuter l'exemple
Avant de tester la synthèse vocale, prenons l'exemple officiel. L'exécution du code suivant générera et lira l'audio en quelques secondes.
device = 'cuda' if torch.cuda.is_available() else 'cpu' MODEL = build_model('kokoro-v0_19.pth', device) VOICE_NAME = [ 'af', # 默认语音是 Bella 和 Sarah 的 50-50 混合 'af_bella', 'af_sarah', 'am_adam', 'am_michael', 'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis', 'af_nicole', 'af_sky', ][0] VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device) print(f'Loaded voice: {VOICE_NAME}') text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born." audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0]) display(Audio(data=audio, rate=24000, autoplay=True)) print(out_ps)
Synthèse vocale
Maintenant, entrons dans le vif du sujet et testons la synthèse vocale.
Définir le forfait vocal
- af : voix féminine anglaise américaine
- am : voix masculine anglaise américaine
- bf : voix féminine anglaise britannique
- bm : voix masculine anglaise britannique
- Nous allons maintenant charger tous les packs vocaux disponibles.
voicepack_af = torch.load(f'voices/af.pt', weights_only=True).to(device) voicepack_af_bella = torch.load(f'voices/af_bella.pt', weights_only=True).to(device) voicepack_af_nicole = torch.load(f'voices/af_nicole.pt', weights_only=True).to(device) voicepack_af_sarah = torch.load(f'voices/af_sarah.pt', weights_only=True).to(device) voicepack_af_sky = torch.load(f'voices/af_sky.pt', weights_only=True).to(device) voicepack_am_adam = torch.load(f'voices/am_adam.pt', weights_only=True).to(device) voicepack_am_michael = torch.load(f'voices/am_michael.pt', weights_only=True).to(device) voicepack_bf_emma = torch.load(f'voices/bf_emma.pt', weights_only=True).to(device) voicepack_bf_isabella = torch.load(f'voices/bf_isabella.pt', weights_only=True).to(device) voicepack_bm_george = torch.load(f'voices/bm_george.pt', weights_only=True).to(device) voicepack_bm_lewis = torch.load(f'voices/bm_lewis.pt', weights_only=True).to(device)
Générer du texte à l'aide d'un discours prédéfini
Pour examiner les différences entre la parole synthétisée, générons de l'audio en utilisant différents paquets vocaux. Nous utiliserons le même exemple de texte, mais vous pouvez modifier la variable voicepack_
pour utiliser n'importe quel pack vocal souhaité.
# 以下代码段与原文相同,只是重复了多次,为了简洁,这里省略了重复的代码块。 # 每个代码块都使用不同的语音包生成音频,并使用 display(Audio(...)) 播放。
Synthèse vocale : Discours mixte
Tout d’abord, créons une voix moyenne, combinant deux voix féminines britanniques (bf).
bf_average = (voicepack_bf_emma + voicepack_bf_isabella) / 2 audio, out_ps = generate(MODEL, text, bf_average, lang=VOICE_NAME[0]) display(Audio(data=audio, rate=24000, autoplay=True)) print(out_ps)
Ensuite, synthétisons une combinaison de deux voix féminines et une voix masculine.
weight_1 = 0.25 weight_2 = 0.45 weight_3 = 0.3 weighted_voice = (voicepack_bf_emma * weight_1 + voicepack_bf_isabella * weight_2 + voicepack_bm_lewis * weight_3) audio, out_ps = generate(MODEL, text, weighted_voice, lang=VOICE_NAME[0]) display(Audio(data=audio, rate=24000, autoplay=True)) print(out_ps)
Enfin, synthétisons un mélange de voix masculines américaines et britanniques.
m_average = (voicepack_am_michael + voicepack_bm_george) / 2 audio, out_ps = generate(MODEL, text, m_average, lang=VOICE_NAME[0]) display(Audio(data=audio, rate=24000, autoplay=True)) print(out_ps)
J'ai également utilisé Gradio pour tester l'effet de voix mixte : (Un lien ou une capture d'écran de la démo de Gradio devrait être inséré ici)
Combiner cela avec Ollama pourrait conduire à des expériences intéressantes.
Cette sortie révisée conserve la signification et la structure d'origine tout en améliorant le flux et la clarté. Les blocs de code répétés pour générer de l'audio avec différents packs vocaux ont été résumés pour éviter la redondance. N'oubliez pas de remplacer les espaces réservés tels que « [Hugging Face doit être inséré ici. Lien Espaces]" et "(Le lien ou la capture d'écran de la démo Gradio doit être inséré ici)" avec les liens ou images réels.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python est largement utilisé dans les domaines du développement Web, de la science des données, de l'apprentissage automatique, de l'automatisation et des scripts. 1) Dans le développement Web, les cadres Django et Flask simplifient le processus de développement. 2) Dans les domaines de la science des données et de l'apprentissage automatique, les bibliothèques Numpy, Pandas, Scikit-Learn et Tensorflow fournissent un fort soutien. 3) En termes d'automatisation et de script, Python convient aux tâches telles que les tests automatisés et la gestion du système.

Vous pouvez apprendre les bases de Python dans les deux heures. 1. Apprenez les variables et les types de données, 2. Structures de contrôle maître telles que si les instructions et les boucles, 3. Comprenez la définition et l'utilisation des fonctions. Ceux-ci vous aideront à commencer à écrire des programmes Python simples.

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...

Chargement des fichiers de cornichons dans Python 3.6 Rapport de l'environnement Erreur: modulenotFoundError: NomoduLenamed ...

Comment résoudre le problème de la segmentation des mots jieba dans l'analyse des commentaires pittoresques? Lorsque nous effectuons des commentaires et des analyses pittoresques, nous utilisons souvent l'outil de segmentation des mots jieba pour traiter le texte ...

Comment utiliser l'expression régulière pour correspondre à la première étiquette fermée et à s'arrêter? Lorsque vous traitez avec HTML ou d'autres langues de balisage, des expressions régulières sont souvent nécessaires pour ...

Comprendre la stratégie anti-rampe d'investissement.com, Beaucoup de gens essaient souvent de ramper les données d'actualités sur Investing.com (https://cn.investing.com/news/latest-news) ...


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Dreamweaver CS6
Outils de développement Web visuel

DVWA
Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

Adaptateur de serveur SAP NetWeaver pour Eclipse
Intégrez Eclipse au serveur d'applications SAP NetWeaver.

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP