ホームページ >テクノロジー周辺機器 >AI >OpenAIテキストからスピーチAPIの使用方法

OpenAIテキストからスピーチAPIの使用方法

Joseph Gordon-Levitt
Joseph Gordon-Levittオリジナル
2025-03-09 10:25:18549ブラウズ

OpenaiのテキストからスピーチのAPIの力のロックを解除:包括的なガイド

魅力的なコンテンツを作成するために数え切れないほどの時間を費やすことを想像してください。 多くの読者は、長い記事の時間があるだけです。 ナレーターを雇うことは高価で時間がかかります。 Openaiのテキストからスピーチ(TTS)APIを入力します。このギャップを埋める技術的ソリューションです。 このチュートリアルでは、OpenaiのTTS API、その機能、実装、カスタマイズ、および多様なアプリケーションについて説明します。

OpenaiのTTS APIとは何ですか?

OpenaiのTTS APIは、書かれたテキストを自然な音の音声に変換する強力なツールです。 このテキストからスピーチ(TTS)テクノロジーは、デジタルテキストを採用し、それを可聴ナレーションに変換します。 Openaiは、2つの最先端のモデルを提供しています

    tts-1:
  • リアルタイムの音声生成のために最適化されています。
  • tts-1-hd:
  • 優れたオーディオ品質に優先順位を付けます APIは6つの異なる声を誇り、次のようなさまざまな機能をサポートしています。
  • ブログの投稿と記事をナレーションする

多言語オーディオコンテンツの作成。
  • リアルタイムのオーディオストリームの生成
  • 覚えておいてください:OpenAIの使用ポリシーは、オーディオがAIに生成されていることをユーザーに明確な開示を義務付けています。
  • Openai TTS API
  • を開始します
Openai TTS APIを使用するための段階的なガイドを次に示します。

前提条件:

資金提供されたOpenAIアカウント(以下の価格を参照)

python 3.7以降。 統合開発環境(IDE)。

  • ステップ1:APIキーを取得します
  • OpenAIアカウントにログインし、サイドバーメニュー(通常はOpenaiロゴを介して)にアクセスし、「APIキー」を選択し、「新しいシークレットキーの作成」をクリックします。 記述名(例:「TTS-Example」)を割り当て、このキーを安全に保存します。

ステップ2:仮想環境を設定します

仮想環境を作成して、プロジェクトの依存関係を分離します。 (詳細な手順については、Python仮想環境チュートリアルを参照してください。)

How to use the OpenAI Text-to-Speech API

ステップ3:pythonコード

APIには、モデル名、テキスト、音声の3つの重要な入力が必要です。 Openaiのサンプル要求を基盤として使用してください:

ステップ4:APIキーを安全に管理してください

APIキーをハードコードする代わりに、

ライブラリを使用して安全に管理します。

from pathlib import Path
from openai import OpenAI
from dotenv import load_dotenv
import os

load_dotenv()
SECRET_KEY = os.getenv("SECRET_KEY")

client = OpenAI(api_key=SECRET_KEY)

speech_file_path = Path(__file__).parent / "speech.mp3"
response = client.audio.speech.create(
  model="tts-1",
  voice="alloy",
  input="Today is a wonderful day to build something people love!"
)

response.stream_to_file(speech_file_path)
インストール

ファイルを作成します:python-dotenv

    音声と出力のカスタマイズ
  • dotenv

    OpenaiのAPIには、Alloy、Echo、Fable、Onyx、Nova、Shimmerの6つの多様な声があります。 voiceパラメーターを使用して、お好みの音声を選択します。 デフォルトの出力はMP3ですが、AAC、FLAC、OPUS、またはMP3の他の形式を指定できます。 各形式は、品質、ファイルサイズ、互換性のトレードオフを提供します。

    実際のアプリケーション

    OpenaiのTTS APIには多数のアプリケーションがあります:

    • オーディオブックの作成:書かれた本やブログ投稿をオーディオ形式に変換します。
    • 多言語コンテンツ:
    • さまざまな言語でオーディオを生成します(ただし、声は英語に最適化されています)。 リアルタイムオーディオ:
    • パワー没入型ビデオゲーム、魅力的なチャットボット、インタラクティブな仮想アシスタント。
    • APIの制限と価格
    • 有料アカウントは50 rpmの制限から始まります。 最大入力サイズは4096文字(オーディオの約5分)です。 価格設定:

    標準TTS:1,000文字あたり0.015ドル。

    TTS HD:1,000文字あたり0.030ドル。
    • 結論
    • OpenaiのTTS APIは、テキストを高品質の音声に変換するための強力で多用途のソリューションを提供します。 このガイドでは、コア機能、実装、カスタマイズオプション、現実世界のアプリケーション、価格の詳細について説明しています。 さらなる学習のためにリンクされたリソースを調べてください

以上がOpenAIテキストからスピーチAPIの使用方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。