T4 を使用した Google Colab での Kokoro TTS 音声合成の探索-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

T4 を使用した Google Colab での Kokoro TTS 音声合成の探索

DDD

Jan 27, 2025 pm 12:12 PM

Exploring Kokoro TTS Voice Synthesis on Google Colab with T4

kokoro-82m：高性能のテキスト転送音声（TTS）モデル探査

Kokoro-82Mは、高品質のオーディオを生成できる高性能TTSモデルです。単純なテキスト変換をサポートし、オーディオファイルアプリケーションの権利を保持することにより、音声合成を簡単に合成できます。

kokoro-82m バージョン0.23から始まり、ココロ-82Mも日本人をサポートしています。次のリンクから簡単に試すことができます。

[ココロTTSを抱きしめる顔のスペースについて] しかし、日本語のトーンはまだわずかに不自然です。 このチュートリアルでは、ココロとONNXを使用したTTS実装であるKokoro-Onnxを使用します。アメリカの英語と英語の英語の音声合成のみをサポートするバージョン0.19（安定したバージョン）を使用します。

タイトルに示されているように、コードはGoogle Colabで実行されます。

kokoro-onnx

をインストールします

パッケージをロードします

例音声合成をテストする前に、公式の例を実行しましょう。次のコードを実行して、数秒以内にオーディオを生成および再生します。音声合成

!git lfs install
!git clone https://huggingface.co/hexgrad/Kokoro-82M
%cd Kokoro-82M
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
!pip install -q phonemizer torch transformers scipy munch
!pip install -U kokoro-onnx

さあ、テーマとテスト音声の合成を入力しましょう。

音声パックを定義します

import numpy as np
from scipy.io.wavfile import write
from IPython.display import display, Audio
from models import build_model
import torch
from models import build_model
from kokoro import generate

af：アメリカ英語の女性の声

am：アメリカの英語の男性の声

device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = [
    'af', # 默认语音是 Bella 和 Sarah 的 50-50 混合
    'af_bella', 'af_sarah', 'am_adam', 'am_michael',
    'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis',
    'af_nicole', 'af_sky',
][0]
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])

display(Audio(data=audio, rate=24000, autoplay=True))
print(out_ps)

bf：イギリスの英語の女性の声

bm：英国の英語の男性の声

利用可能なすべての音声パッケージをロードします。

事前に決められた音声を使用してテキストを生成する 合成音声の違いを確認するために、異なる音声パッケージを使用してオーディオを生成しましょう。同じ例のテキストを使用しますが、

変数を変更して、必要な音声パックを使用できます。

最初に、2つの英国の女性の声（BF）と組み合わされた平均的な声を作成しましょう。

最後に、アメリカとイギリスの男性の声のミックスを合成しましょう。

voicepack_af = torch.load(f'voices/af.pt', weights_only=True).to(device)
voicepack_af_bella = torch.load(f'voices/af_bella.pt', weights_only=True).to(device)
voicepack_af_nicole = torch.load(f'voices/af_nicole.pt', weights_only=True).to(device)
voicepack_af_sarah = torch.load(f'voices/af_sarah.pt', weights_only=True).to(device)
voicepack_af_sky = torch.load(f'voices/af_sky.pt', weights_only=True).to(device)
voicepack_am_adam = torch.load(f'voices/am_adam.pt', weights_only=True).to(device)
voicepack_am_michael = torch.load(f'voices/am_michael.pt', weights_only=True).to(device)
voicepack_bf_emma = torch.load(f'voices/bf_emma.pt', weights_only=True).to(device)
voicepack_bf_isabella = torch.load(f'voices/bf_isabella.pt', weights_only=True).to(device)
voicepack_bm_george = torch.load(f'voices/bm_george.pt', weights_only=True).to(device)
voicepack_bm_lewis = torch.load(f'voices/bm_lewis.pt', weights_only=True).to(device)

また、グレーディオを使用してハイブリッド音声の効果をテストしました：（ここでグラデーションデモンストレーションのリンクまたはスクリーンショットに挿入する必要があります）この組み合わせとオラマの組み合わせは、いくつかの興味深い実験を生成する可能性があります。

この復活した出力は、エリックの音声パックを改善しながら、「ここに抱きしめる顔を挿入する必要がある」と忘れずに要約されています。グレードデモンストレーションのリンクまたはスクリーンショットに挿入する必要があります）」

以上がT4 を使用した Google Colab での Kokoro TTS 音声合成の探索の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonリストに要素をどのように追加しますか？May 04, 2025 am 12:17 AM

toAppendElementStoapyThonList、usetheappend（）methodforsingleelements、extend（）formultipleElements、andinsert（）forspecificopsitions.1）useappend（）foraddingoneElementatheend.2）useextend（）toaddmultipleelementseffictience.3）

Pythonリストをどのように作成しますか？例を挙げてください。May 04, 2025 am 12:16 AM

To CreateapythonList、usesquareBrackets []およびSeparateItemswithcommas.1）listsaredynamicandcanholdmixdatatypes.2）useappend（）、remaid（）、andslicingformanipulation.3）listcompreheNsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsientionforcreating.4）

数値データの効率的なストレージと処理が重要な実際のユースケースについて話し合います。May 04, 2025 am 12:11 AM

金融、科学研究、医療、およびAIの分野では、数値データを効率的に保存および処理することが重要です。 1）財務では、メモリマッピングされたファイルとnumpyライブラリを使用すると、データ処理速度が大幅に向上する可能性があります。 2）科学研究の分野では、HDF5ファイルはデータストレージと取得用に最適化されています。 3）医療では、インデックス作成やパーティション化などのデータベース最適化テクノロジーがデータのパフォーマンスを向上させます。 4）AIでは、データシャーディングと分散トレーニングがモデルトレーニングを加速します。システムのパフォーマンスとスケーラビリティは、適切なツールとテクノロジーを選択し、ストレージと処理速度の間のトレードオフを検討することにより、大幅に改善できます。

Pythonアレイをどのように作成しますか？例を挙げてください。May 04, 2025 am 12:10 AM

pythonarraysarasarecreatedusingthearraymodule、notbuilt-inlikelists.1）importthearraymodule.2）specifytheTypecode、emg。、 'i'forintegers.3）Arraysofferbettermemoreefficiency forhomogeneousdatabutlasefutablethanlists。

Shebangラインを使用してPythonインタープリターを指定するための選択肢は何ですか？May 04, 2025 am 12:07 AM

Shebangラインに加えて、Pythonインタープリターを指定するには多くの方法があります。1。コマンドラインから直接Pythonコマンドを使用します。 2。バッチファイルまたはシェルスクリプトを使用します。 3. makeやcmakeなどのビルドツールを使用します。 4. Invokeなどのタスクランナーを使用します。各方法には利点と短所があり、プロジェクトのニーズに合った方法を選択することが重要です。

リストと配列の選択は、大規模なデータセットを扱うPythonアプリケーションの全体的なパフォーマンスにどのように影響しますか？May 03, 2025 am 12:11 AM

forhandlinglaredataSetsinpython、usenumpyArrays forbetterperformance.1）numpyarraysarememory-effictientandfasterfornumericaloperations.2）nusinnnnedarytypeconversions.3）レバレッジベクトル化は、測定済みのマネージメーシェイメージーウェイズデイタイです

Pythonのリストと配列にメモリがどのように割り当てられるかを説明します。May 03, 2025 am 12:10 AM

inpython、listsusedynamicmemoryallocation with allocation、whilenumpyArraysalocatefixedmemory.1）listsallocatemorememorythanneededededinitivative.2）numpyArrayasallocateexactmemoryforements、rededicablebutlessflexibilityを提供します。

Pythonアレイ内の要素のデータ型をどのように指定しますか？May 03, 2025 am 12:06 AM

inpython、youcanspecthedatatypeyfelemeremodelernspant.1）usenpynernrump.1）usenpynerp.dloatp.ploatm64、フォーマーpreciscontrolatatypes。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。