Python で音声コンテンツをテキスト形式に変換する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python で音声コンテンツをテキスト形式に変換する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 10, 2023 am 11:07 AM

python

開発環境の構築

Python 仮想環境が保存されているディレクトリに移動します。私は、ユーザーのホームディレクトリの下の venvs サブディレクトリにディレクトリを保存します。次のコマンドを使用して、このプロジェクトの新しい virtualenv を作成します。

python3 -m venv ~/venvs/pytranscribe

シェルコマンドで virtualenv をアクティブ化します:

source ~/venvs/pytranscribe/bin/activate

上記のコマンドを実行すると、コマンドプロンプトが変更されるため、virtualenv の名前は元のコマンドプロンプト形式で始まります。 $ だけで、次のようになります:

(pytranscribe) $

各 virtualenv の依存関係を使用して、新しいターミナルウィンドウで virtualenv をアクティブ化する必要があることに注意してください。

これで、アクティブ化された空の仮想環境にリクエストパッケージをインストールできるようになります。

pip install requests==2.24.0

次のような出力を探して、対応するパッケージが PyPI から正しくインストールされたことを確認します。

(pytranscribe) $ pip install requests==2.24.0  Collecting requests==2.24.0    Using cached https://files.pythonhosted.org/packages/45/1e/0c169c6a5381e241ba7404532c16a21d86ab872c9bed8bdcd4c423954103/requests-2.24.0-py2.py3-none-any.whl  Collecting certifi>=2017.4.17 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/5e/c4/6c4fe722df5343c33226f0b4e0bb042e4dc13483228b4718baf286f86d87/certifi-2020.6.20-py2.py3-none-any.whl  Collecting urllib3!=1.25.0,!=1.25.1,=1.21.1 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/9f/f0/a391d1463ebb1b233795cabfc0ef38d3db4442339de68f847026199e69d7/urllib3-1.25.10-py2.py3-none-any.whl  Collecting chardet=3.0.2 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/bc/a9/01ffebfb562e4274b6487b4bb1ddec7ca55ec7510b22e4c51f14098443b8/chardet-3.0.4-py2.py3-none-any.whl  Collecting idna=2.5 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/a2/38/928ddce2273eaa564f6f50de919327bf3a00f091b5baba8dfa9460f3a8a8/idna-2.10-py2.py3-none-any.whl  Installing collected packages: certifi, urllib3, chardet, idna, requests  Successfully installed certifi-2020.6.20 chardet-3.0.4 idna-2.10 requests-2.24.0 urllib3-1.25.10

必要な依存関係がすべてインストールされたので、アプリケーションのコーディングを開始できます。

音声のアップロード、起動、文字起こし

音声をテキストに変換するアプリの構築を開始するために必要なものがすべて揃っています。このアプリケーションは 3 つのファイルで構築します:

1. Upload_audio_file.py: 処理できるように、音声ファイルを AssemblyAI サービス上の安全な場所にアップロードします。オーディオファイルがパブリック URL 経由ですでにアクセスできる場合は、この手順を実行する必要はなく、このクイックスタート

2に従ってください。すぐに

3. get_transcription.py: トランスクリプションがまだ処理中の場合はトランスクリプションのステータスを表示し、処理が完了した後にトランスクリプションの結果を表示します

# ファイルを保存するために pytranscribe という新しいディレクトリを作成します私たちが書いているとおりです。次に、新しいプロジェクトディレクトリに移動します。

mkdir pytranscibe  cd pytranscribe

AssemblyAI API キーを環境変数としてエクスポートする必要もあります。 AssemblyAI アカウントにサインアップして AssemblyAI ダッシュボードにログインし、「API トークン」をコピーします

export ASSEMBLYAI_KEY=your-api-key-here

このキーにアクセスできるようにするには、すべてのコマンドラインウィンドウでエクスポートコマンドを使用する必要があることに注意してください。スクリプトを実行している環境でタグを ASSEMBLYAI_KEY としてエクスポートしない場合、作成しているスクリプトは API にアクセスできません。

プロジェクトディレクトリを作成し、API キーを環境変数として設定したので、オーディオファイルを AssemblyAI サービスにアップロードする最初のファイルのコードの作成に進みましょう。

オーディオファイルのアップロードと文字起こし

upload_audio_file.py という名前の新しいファイルを作成し、次のコードをそこに追加します。

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def upload_file_to_api(filename):      """Checks for a valid file and then uploads it to AssemblyAI      so it can be saved to a secure URL that only that service can access.      When the upload is complete we can then initiate the transcription      API call.      Returns the API JSON if successful, or None if file does not exist.      """      if not os.path.exists(filename):          return None      def read_file(filename, chunk_size=5242880):          with open(filename, 'rb') as _file:              while True:                  data = _file.read(chunk_size)                  if not data:                      break                  yield data      headers = {'authorization': os.getenv("ASSEMBLYAI_KEY")}      response = requests.post("".join([API_URL, "upload"]), headersheaders=headers,                               data=read_file(filename))      return response.json()

上記のコードはインポートします。 argparse、os、および request パッケージをこのスクリプトで使用できるようにします。 API_URL は、AssemblyAI サービスのベース URL を持つ定数です。単一パラメータを使用して、upload_file_to_api 関数を定義します。filename は、ファイルへの絶対パスとそのファイル名を含む文字列である必要があります。

関数では、ファイルが存在するかどうかを確認し、リクエストのチャンク転送エンコーディングを使用して、大きなファイルを AssemblyAI API にストリーミングします。

os モジュールの getenv 関数は、getenv を使用したエクスポートコマンドを使用して、コマンドラインに設定された API を読み取ります。このスクリプトを実行する端末で必ずエクスポートコマンドを使用してください。そうしないと、ASSEMBLYAI_KEY 値が空白になります。疑わしい場合は、echo $ASSEMBLY_AI を使用して、値が API キーと一致するかどうかを確認してください。

Upload_file_to_api 関数を使用するには、次のコード行を Upload_audio_file.py ファイルに追加して、このコードを Python コマンドを使用して呼び出されるスクリプトとして正しく実行できるようにします。コードは ArgumentParser オブジェクトを作成します。これにより、アプリケーションはコマンドラインから 1 つの引数を取得して、アクセスするオブジェクトを指定し、ファイルを読み取って AssmeblyAI サービスにアップロードできるようになります。

ファイルが存在しない場合、スクリプトはファイルが見つからないことを示すメッセージを表示します。パス内で正しいファイルが見つかり、upload_file_to_api 関数のコードを使用してファイルをアップロードしました。

Python コマンドを使用してコマンドラインで完全な Upload_audio_file.py スクリプトを実行し、スクリプトを実行します。 FULL_PATH_TO_FILE を、アップロードするファイルへの絶対パス (/Users/matt/devel/audio.mp3 など) に置き換えます。

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("filename")      args = parser.parse_args()      upload_filename = args.filename      response_json = upload_file_to_api(upload_filename)      if not response_json:          print("file does not exist")      else:          print("File uploaded to URL: {}".format(response_json['upload_url']))

指定した場所でファイルが見つかったと仮定すると、スクリプトがファイルのアップロードを完了すると、一意の URL を含むメッセージが出力されます:

python upload_audio_file.py FULL_PATH_TO_FILE

この URL は公開されていないため、 AssemblyAI サービスによってのみ使用されるため、ファイルとそのコンテンツには、あなたとその転写された API 以外はアクセスできません。

重要な部分は URL の最後の部分であり、この例では 463ce27f-0922-4ea9-9ce4-3353d84b5638 です。文字起こしサービスを開始する次のスクリプトに渡す必要があるため、この一意の識別子を保存します。

文字起こしの開始

次に、文字起こしを開始するコードを記述します。 Initial_transcription.py という名前の新しいファイルを作成します。次のコードを新しいファイルに追加します。

File uploaded to URL: https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638

前のスクリプトと同じインポートがあり、AssemblyAI がアップロードされたオーディオファイルを保存する別の URL と一致する新しい定数 CDN_URL を追加します。

initiate_transcription函数本质上只是向AssemblyAI API设置了一个HTTP请求，以传入的特定URL对音频文件启动转录过程。这就是为什么file_id传递很重要的原因：完成音频文件的URL 我们告诉AssemblyAI进行检索。

通过附加此代码来完成文件，以便可以从命令行轻松地使用参数调用它。

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("file_id")      args = parser.parse_args()      file_id = args.file_id      response_json = initiate_transcription(file_id)      print(response_json)

通过在initiate_transcription文件上运行python命令来启动脚本，并传入您在上一步中保存的唯一文件标识符。

# the FILE_IDENTIFIER is returned in the previous step and will  # look something like this: 463ce27f-0922-4ea9-9ce4-3353d84b5638  python initiate_transcription.py FILE_IDENTIFIER

API将发回该脚本打印到命令行的JSON响应。

{'audio_end_at': None, 'acoustic_model': 'assemblyai_default', 'text': None,    'audio_url': 'https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638',    'speed_boost': False, 'language_model': 'assemblyai_default', 'redact_pii': False,    'confidence': None, 'webhook_status_code': None,    'id': 'gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067', 'status': 'queued', 'boost_param': None,    'words': None, 'format_text': True, 'webhook_url': None, 'punctuate': True,   'utterances': None, 'audio_duration': None, 'auto_highlights': False,    'word_boost': [], 'dual_channel': None, 'audio_start_from': None}

记下JSON响应中id键的值。这是我们需要用来检索转录结果的转录标识符。在此示例中，它是gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067。复制转录标识符到您自己的响应中，因为在下一步中我们将需要它来检查转录过程何时完成。

检索转录结果

我们已经上传并开始了转录过程，因此，准备就绪后，我们将尽快获得结果。

返回结果所需的时间取决于文件的大小，因此下一个脚本将向HTTP发送一个HTTP请求，并报告转录状态，或者在完成后打印输出。

创建一个名为 get_transcription.py 的第三个Python文件，并将以下代码放入其中。

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def get_transcription(transcription_id):      """Requests the transcription from the API and returns the JSON      response."""      endpoint = "".join([API_URL, "transcript/{}".format(transcription_id)])      headers = {"authorization": os.getenv('ASSEMBLYAI_KEY')}      response = requests.get(endpoint, headersheaders=headers)     return response.json() if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("transcription_id")      args = parser.parse_args()      transcription_id = args.transcription_id      response_json = get_transcription(transcription_id)      if response_json['status'] == "completed":          for word in response_json['words']:              print(word['text'], end=" ")      else:          print("current status of transcription request: {}".format(                response_json['status']))

上面的代码与其他脚本具有相同的 imports 对象。在这个新的get_transcription函数中，我们只需使用我们的API密钥和上一步中的转录标识符（而不是文件标识符）调用AssemblyAI API。我们检索JSON响应并将其返回。

在main函数中，我们处理作为命令行参数传入的转录标识符，并将其传递给get_transcription函数。如果来自get_transcription函数的响应JSON包含completed状态，则我们将打印转录结果。否则，请在completed之前打印当前状态如queued或processing。

使用命令行和上一节中的转录标识符调用脚本：

python get_transcription.py TRANSCRIPTION_ID

如果该服务尚未开始处理脚本，则它将返回queued，如下所示：

current status of transcription request: queued

当服务当前正在处理音频文件时，它将返回processing：

current status of transcription request: processing

该过程完成后，我们的脚本将返回转录文本，如您在此处看到的那样：

An object relational mapper is a code library that automates the transfer of   data stored in relational, databases into objects that are more commonly used  in application code or EMS are useful because they provide a high level   ...(output abbreviated)

以上がPython で音声コンテンツをテキスト形式に変換する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は亿速云で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Python in Action：実世界の例Apr 18, 2025 am 12:18 AM

Pythonの実際のアプリケーションには、データ分析、Web開発、人工知能、自動化が含まれます。 1）データ分析では、PythonはPandasとMatplotlibを使用してデータを処理および視覚化します。 2）Web開発では、DjangoおよびFlask FrameworksがWebアプリケーションの作成を簡素化します。 3）人工知能の分野では、TensorflowとPytorchがモデルの構築と訓練に使用されます。 4）自動化に関しては、ファイルのコピーなどのタスクにPythonスクリプトを使用できます。

Pythonの主な用途：包括的な概要Apr 18, 2025 am 12:18 AM

Pythonは、データサイエンス、Web開発、自動化スクリプトフィールドで広く使用されています。 1）データサイエンスでは、PythonはNumpyやPandasなどのライブラリを介してデータ処理と分析を簡素化します。 2）Web開発では、DjangoおよびFlask Frameworksにより、開発者はアプリケーションを迅速に構築できます。 3）自動化されたスクリプトでは、Pythonのシンプルさと標準ライブラリが理想的になります。

Pythonの主な目的：柔軟性と使いやすさApr 17, 2025 am 12:14 AM

Pythonの柔軟性は、マルチパラダイムサポートと動的タイプシステムに反映されていますが、使いやすさはシンプルな構文とリッチ標準ライブラリに由来しています。 1。柔軟性：オブジェクト指向、機能的および手続き的プログラミングをサポートし、動的タイプシステムは開発効率を向上させます。 2。使いやすさ：文法は自然言語に近く、標準的なライブラリは幅広い機能をカバーし、開発プロセスを簡素化します。

Python：汎用性の高いプログラミングの力Apr 17, 2025 am 12:09 AM

Pythonは、初心者から上級開発者までのすべてのニーズに適した、そのシンプルさとパワーに非常に好まれています。その汎用性は、次のことに反映されています。1）学習と使用が簡単、シンプルな構文。 2）Numpy、Pandasなどの豊富なライブラリとフレームワーク。 3）さまざまなオペレーティングシステムで実行できるクロスプラットフォームサポート。 4）作業効率を向上させるためのスクリプトおよび自動化タスクに適しています。

1日2時間でPythonを学ぶ：実用的なガイドApr 17, 2025 am 12:05 AM

はい、1日2時間でPythonを学びます。 1.合理的な学習計画を作成します。2。適切な学習リソースを選択します。3。実践を通じて学んだ知識を統合します。これらの手順は、短時間でPythonをマスターするのに役立ちます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。