Maison >développement back-end >Tutoriel Python >Explorer la synthèse vocale Kokoro TTS sur Google Colab avec T4
Kokoro-82M : exploration des modèles de synthèse vocale (TTS) hautes performances
Kokoro-82M est un modèle TTS hautes performances capable de produire un son de haute qualité. Il prend en charge une simple conversion texte-parole et peut facilement effectuer une synthèse vocale en appliquant des pondérations aux fichiers audio.
Kokoro-82M sur le visage câlin
À partir de la version 0.23, Kokoro-82M prend également en charge le japonais. Vous pouvez facilement l'essayer via le lien suivant :
[Kokoro TTS sur Hugging Face Spaces](Le lien Hugging Face Spaces doit être inséré ici)
Cependant, l'intonation japonaise est encore légèrement artificielle.
Dans ce tutoriel, nous utiliserons kokoro-onnx, une implémentation TTS qui exploite Kokoro et le runtime ONNX. Nous utiliserons la version 0.19 (une version stable), qui ne prend en charge que la synthèse vocale pour l'anglais américain et l'anglais britannique.
Comme le titre l'indique, le code sera exécuté dans Google Colab.
Installer kokoro-onnx
<code class="language-bash">!git lfs install !git clone https://huggingface.co/hexgrad/Kokoro-82M %cd Kokoro-82M !apt-get -qq -y install espeak-ng > /dev/null 2>&1 !pip install -q phonemizer torch transformers scipy munch !pip install -U kokoro-onnx</code>
Chargement du colis
<code class="language-python">import numpy as np from scipy.io.wavfile import write from IPython.display import display, Audio from models import build_model import torch from models import build_model from kokoro import generate</code>
Exécuter l'exemple
Avant de tester la synthèse vocale, prenons l'exemple officiel. L'exécution du code suivant générera et lira l'audio en quelques secondes.
<code class="language-python">device = 'cuda' if torch.cuda.is_available() else 'cpu' MODEL = build_model('kokoro-v0_19.pth', device) VOICE_NAME = [ 'af', # 默认语音是 Bella 和 Sarah 的 50-50 混合 'af_bella', 'af_sarah', 'am_adam', 'am_michael', 'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis', 'af_nicole', 'af_sky', ][0] VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device) print(f'Loaded voice: {VOICE_NAME}') text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born." audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0]) display(Audio(data=audio, rate=24000, autoplay=True)) print(out_ps)</code>
Synthèse vocale
Maintenant, entrons dans le vif du sujet et testons la synthèse vocale.
Définir le forfait vocal
<code class="language-python">voicepack_af = torch.load(f'voices/af.pt', weights_only=True).to(device) voicepack_af_bella = torch.load(f'voices/af_bella.pt', weights_only=True).to(device) voicepack_af_nicole = torch.load(f'voices/af_nicole.pt', weights_only=True).to(device) voicepack_af_sarah = torch.load(f'voices/af_sarah.pt', weights_only=True).to(device) voicepack_af_sky = torch.load(f'voices/af_sky.pt', weights_only=True).to(device) voicepack_am_adam = torch.load(f'voices/am_adam.pt', weights_only=True).to(device) voicepack_am_michael = torch.load(f'voices/am_michael.pt', weights_only=True).to(device) voicepack_bf_emma = torch.load(f'voices/bf_emma.pt', weights_only=True).to(device) voicepack_bf_isabella = torch.load(f'voices/bf_isabella.pt', weights_only=True).to(device) voicepack_bm_george = torch.load(f'voices/bm_george.pt', weights_only=True).to(device) voicepack_bm_lewis = torch.load(f'voices/bm_lewis.pt', weights_only=True).to(device)</code>
Générer du texte à l'aide d'un discours prédéfini
Pour examiner les différences entre la parole synthétisée, générons de l'audio en utilisant différents paquets vocaux. Nous utiliserons le même exemple de texte, mais vous pouvez modifier la variable voicepack_
pour utiliser n'importe quel pack vocal souhaité.
<code class="language-python"># 以下代码段与原文相同,只是重复了多次,为了简洁,这里省略了重复的代码块。 # 每个代码块都使用不同的语音包生成音频,并使用 display(Audio(...)) 播放。</code>
Synthèse vocale : Discours mixte
Tout d’abord, créons une voix moyenne, combinant deux voix féminines britanniques (bf).
<code class="language-python">bf_average = (voicepack_bf_emma + voicepack_bf_isabella) / 2 audio, out_ps = generate(MODEL, text, bf_average, lang=VOICE_NAME[0]) display(Audio(data=audio, rate=24000, autoplay=True)) print(out_ps)</code>
Ensuite, synthétisons une combinaison de deux voix féminines et une voix masculine.
<code class="language-python">weight_1 = 0.25 weight_2 = 0.45 weight_3 = 0.3 weighted_voice = (voicepack_bf_emma * weight_1 + voicepack_bf_isabella * weight_2 + voicepack_bm_lewis * weight_3) audio, out_ps = generate(MODEL, text, weighted_voice, lang=VOICE_NAME[0]) display(Audio(data=audio, rate=24000, autoplay=True)) print(out_ps)</code>
Enfin, synthétisons un mélange de voix masculines américaines et britanniques.
<code class="language-python">m_average = (voicepack_am_michael + voicepack_bm_george) / 2 audio, out_ps = generate(MODEL, text, m_average, lang=VOICE_NAME[0]) display(Audio(data=audio, rate=24000, autoplay=True)) print(out_ps)</code>
J'ai également utilisé Gradio pour tester l'effet de voix mixte : (Un lien ou une capture d'écran de la démo de Gradio devrait être inséré ici)
Combiner cela avec Ollama pourrait conduire à des expériences intéressantes.
Cette sortie révisée conserve la signification et la structure d'origine tout en améliorant le flux et la clarté. Les blocs de code répétés pour générer de l'audio avec différents packs vocaux ont été résumés pour éviter la redondance. N'oubliez pas de remplacer les espaces réservés tels que « [Hugging Face doit être inséré ici. Lien Espaces]" et "(Le lien ou la capture d'écran de la démo Gradio doit être inséré ici)" avec les liens ou images réels.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!