Python は Alibaba Cloud インターフェイスを呼び出して音声認識機能を実装します
近年、人工知能の急速な発展は多くの分野に恩恵をもたらしています。中でも音声認識技術の応用が話題となっている。 Alibaba Cloud は中国の大手クラウド コンピューティング メーカーであり、音声認識機能を含む豊富な人工知能インターフェイスを提供しています。この記事では、Python を使用して Alibaba Cloud インターフェイスを呼び出し、音声認識機能を実装する方法を紹介します。
開始する前に、まず Alibaba Cloud コンソールで対応する API キーを申請する必要があります。 Alibaba Cloud コンソールで、「人工知能」-「音声認識」を選択し、新しいアプリケーションを作成し、アクセス キー ID とアクセス キー シークレットを取得します。
次に、Python SDK をインストールする必要があります。コマンド ライン ターミナルを開き、次のコマンドを入力します:
pip install aliyun-python-sdk-core pip install aliyun-python-sdk-asr
インストールが完了したら、コードの記述を開始できます。
まず、必要なライブラリとモジュールをインポートする必要があります:
import time from aliyunsdkcore.client import AcsClient from aliyunsdkcore.request import CommonRequest
次に、Alibaba Cloud クライアント オブジェクトを作成し、Alibaba Cloud コンソールで申請したアクセス キーを ID 検証に使用します。
client = AcsClient('<your_access_key_id>', '<your_access_key_secret>', 'cn-hangzhou')
次に、オーディオ ファイルをアップロードし、アップロードが成功した後にファイル パスを返す関数を作成できます。ここでは、音声ファイルがローカル ディスクに保存されており、そのパスが file_path
:
def upload_audio(file_path): request = CommonRequest() request.set_domain('nls-meta.cn-shanghai.aliyuncs.com') request.set_uri_pattern('/pop/2019-02-28/2019-06-30/instances') request.set_method('POST') request.add_header('Content-type', 'multipart/form-data') # 创建上传参数 body_params = { 'Type': 'MultipartFormData', 'file': open(file_path, 'rb') } request.set_content(body_params) # 发送上传请求 response = client.do_action(request) # 解析返回结果,获取上传成功后的文件路径 file_id = response.decode('utf-8').split('"FileId":"')[1].split('","InstanceId"')[0] return file_id
であると仮定します。次に、音声認識機能を実装する関数を記述します。この機能は、Alibaba Cloud の音声認識インターフェイスを使用して、正常にアップロードされた音声ファイルを識別します。認識結果は戻り値として返されます:
def recognize_audio(file_id): request = CommonRequest() request.set_domain('nls-meta.cn-shanghai.aliyuncs.com') request.set_uri_pattern('/pop/2019-02-28/2019-06-30/instances/%s' % file_id) request.set_method('GET') # 发送识别请求 response = client.do_action(request) # 解析返回结果,获取识别结果 result = response.decode('utf-8').split('"Result":"')[1].split('","CreateTime"')[0] return result
最後に、オーディオのアップロードと認識関数を呼び出す main 関数を記述し、認識結果を出力できます:
def main(): # 音频文件路径 file_path = '<your_audio_file_path>' # 上传音频文件 file_id = upload_audio(file_path) print('音频文件上传成功,文件ID:%s' % file_id) # 等待音频上传完成 time.sleep(10) # 开始音频识别 result = recognize_audio(file_id) print('音频文件识别结果:%s' % result) if __name__ == '__main__': main()
この時点で、Python を使用して Alibaba Cloud インターフェイスを呼び出し、音声認識機能を実装するコードを作成する作業は完了です。
Alibaba Cloud の音声認識機能を使用すると、音声ファイルをテキストに変換して、音声認識関連アプリケーションの基本的なサポートを提供できます。この技術は、音声アシスタント、音声翻訳、リアルタイム字幕などの分野で幅広い応用が期待されています。
注: ネットワーク要求とファイルのアップロードが関与しているため、コードの実行には時間がかかる場合があります。しばらくお待ちください。
参考資料:
以上がPython は Alibaba Cloud インターフェースを呼び出して音声認識機能を実装しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。