首頁 >後端開發 >Python教學 >Python如何將音訊內容轉換為文字格式

Python如何將音訊內容轉換為文字格式

WBOY
WBOY轉載
2023-05-10 11:07:271550瀏覽

建置開發環境

前往儲存Python虛擬環境的目錄。我將我的目錄保存在用戶主目錄下的venvs子目錄中。使用以下命令為此專案建立一個新的virtualenv。

python3 -m venv ~/venvs/pytranscribe

用shell 命令啟動virtualenv:

source ~/venvs/pytranscribe/bin/activate

執行上述命令後,命令提示字元將發生更改,因此virtualenv的名稱將以原始命令提示字元格式開頭,如果您的提示符只是$,則其外觀如下所示:

(pytranscribe) $

請記住,您必須在每個virtualenv 中使用依賴項的新終端視窗中啟動您的virtualenv 。

現在,我們可以將請求套件安裝到已啟動但為空的 virtualenv 中。

pip install requests==2.24.0

尋找類似於以下內容的輸出,以確認從PyPI正確安裝了對應的軟體包。

(pytranscribe) $ pip install requests==2.24.0  Collecting requests==2.24.0    Using cached https://files.pythonhosted.org/packages/45/1e/0c169c6a5381e241ba7404532c16a21d86ab872c9bed8bdcd4c423954103/requests-2.24.0-py2.py3-none-any.whl  Collecting certifi>=2017.4.17 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/5e/c4/6c4fe722df5343c33226f0b4e0bb042e4dc13483228b4718baf286f86d87/certifi-2020.6.20-py2.py3-none-any.whl  Collecting urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/9f/f0/a391d1463ebb1b233795cabfc0ef38d3db4442339de68f847026199e69d7/urllib3-1.25.10-py2.py3-none-any.whl  Collecting chardet<4,>=3.0.2 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/bc/a9/01ffebfb562e4274b6487b4bb1ddec7ca55ec7510b22e4c51f14098443b8/chardet-3.0.4-py2.py3-none-any.whl  Collecting idna<3,>=2.5 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/a2/38/928ddce2273eaa564f6f50de919327bf3a00f091b5baba8dfa9460f3a8a8/idna-2.10-py2.py3-none-any.whl  Installing collected packages: certifi, urllib3, chardet, idna, requests  Successfully installed certifi-2020.6.20 chardet-3.0.4 idna-2.10 requests-2.24.0 urllib3-1.25.10

我們已經安裝了所有必要的依賴項,因此我們可以開始對應用程式進行編碼。

上傳、啟動和轉錄音訊

我們已完成開始建立應用程式所需的一切,該應用程式會將音訊轉換為文字。我們將在三個檔案中建立此應用程式:

1、upload_audio_file.py:將您的音訊檔案上傳到AssemblyAI服務上的安全位置,以便可以進行處理。如果您的音訊檔案已經可以透過公共URL訪問,則無需執行此步驟,只需按照此快速入門

2、initial_transcription.py:告訴API要轉錄並立即啟動的檔案

#3、get_transcription.py:如果仍在處理轉錄,則顯示轉錄狀態,或者在處理完成後顯示轉錄結果

創建一個名為pytranscribe的新目錄,以在我們編寫文件時存儲這些文件。然後到新的項目目錄。

mkdir pytranscibe  cd pytranscribe

我們還需要將 AssemblyAI API 金鑰匯出為環境變數。註冊 AssemblyAI 帳戶並登入 AssemblyAI 儀表板,然後複製「您的API token」

export ASSEMBLYAI_KEY=your-api-key-here

請注意,必須在每個命令列視窗中使用 export 命令以保證此金鑰可存取。如果您沒有在執行腳本的環境中將標記匯出為 ASSEMBLYAI_KEY,則我們正在編寫的腳本將無法存取API。

現在我們已經建立了專案目錄並將API金鑰設定為環境變量,讓我們繼續編寫第一個檔案的程式碼,該檔案會將音訊檔案上傳到AssemblyAI服務。

上傳音訊檔案並進行轉錄

建立一個名為upload_audio_file.py的新文件,並將以下程式碼放入其中:

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def upload_file_to_api(filename):      """Checks for a valid file and then uploads it to AssemblyAI      so it can be saved to a secure URL that only that service can access.      When the upload is complete we can then initiate the transcription      API call.      Returns the API JSON if successful, or None if file does not exist.      """      if not os.path.exists(filename):          return None      def read_file(filename, chunk_size=5242880):          with open(filename, 'rb') as _file:              while True:                  data = _file.read(chunk_size)                  if not data:                      break                  yield data      headers = {'authorization': os.getenv("ASSEMBLYAI_KEY")}      response = requests.post("".join([API_URL, "upload"]), headersheaders=headers,                               data=read_file(filename))      return response.json()

上面的程式碼匯入了argparse,os和request軟體包,以便我們可以在此腳本中使用它們。 API_URL是一個常數,具有AssemblyAI服務的基本URL。我們使用單一參數定義upload_file_to_api函數,filename應該是一個字串,其中包含檔案及其檔案名稱的絕對路徑。

在函數中,我們檢查檔案是否存在,然後使用Request的分塊傳輸編碼將大檔案串流到AssemblyAI API。

os模組的getenv函數讀取使用帶有getenv的export命令在命令列上設定的API。確保在執行此腳本的終端機中使用該匯出命令,否則ASSEMBLYAI_KEY值將為空白。如有疑問,請使用echo $ ASSEMBLY_AI查看該值是否與您的API密鑰相符。

要使用upload_file_to_api函數,請將以下程式碼行新增至upload_audio_file.py檔案中,以便我們可以正確地將此程式碼作為使用python命令呼叫的腳本執行:

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("filename")      args = parser.parse_args()      upload_filename = args.filename      response_json = upload_file_to_api(upload_filename)      if not response_json:          print("file does not exist")      else:          print("File uploaded to URL: {}".format(response_json['upload_url']))

上面的程式碼建立了一個ArgumentParser對象,它允許應用程式從命令列取得單一參數來指定我們要存取的對象,讀取並上傳到AssmeblyAI服務的檔案。

如果檔案不存在,腳本將顯示一則訊息,提示找不到該檔案。在路徑中,我們確實找到了正確的文件,然後使用upload_file_to_api函數中的程式碼上傳了文件。

透過使用python命令在命令列上執行完整的upload_audio_file.py腳本,以執行該腳本。將FULL_PATH_TO_FILE替換為您要上傳的檔案的絕對路徑,例如/Users/matt/devel/audio.mp3。

python upload_audio_file.py FULL_PATH_TO_FILE

假設在您指定的位置找到文件,當腳本完成文件的上傳後,它將打印一條帶有唯一URL的消息:

File uploaded to URL: https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638

該URL不是公開的,只能由AssemblyAI服務使用,因此除您及其轉錄的API外,其他任何人都無法存取您的檔案及其內容。

重要的部分是URL的最後一部分,在此範例中為463ce27f-0922-4ea9-9ce4-3353d84b5638。保存該唯一標識符,因為我們需要將其傳遞給下一個啟動轉錄服務的腳本。

啟動轉錄

接下來,我們將寫一些程式碼來開始轉錄。建立一個名為initial_transcription.py的新檔案。將以下程式碼新增至新文件。

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  CDN_URL = "https://cdn.assemblyai.com/"  def initiate_transcription(file_id):      """Sends a request to the API to transcribe a specific      file that was previously uploaded to the API. This will      not immediately return the transcription because it takes      a moment for the service to analyze and perform the      transcription, so there is a different function to retrieve      the results.      """      endpoint = "".join([API_URL, "transcript"])      json = {"audio_url": "".join([CDN_URL, "upload/{}".format(file_id)])}      headers = {          "authorization": os.getenv("ASSEMBLYAI_KEY"),          "content-type": "application/json"      }      response = requests.post(endpoint, jsonjson=json, headersheaders=headers)      return response.json()

我們具有與先前腳本相同的導入,並添加了一個新常數CDN_URL,該常數與AssemblyAI存儲上傳的音頻文件的單獨URL匹配。

initiate_transcription函数本质上只是向AssemblyAI API设置了一个HTTP请求,以传入的特定URL对音频文件启动转录过程。这就是为什么file_id传递很重要的原因:完成音频文件的URL 我们告诉AssemblyAI进行检索。

通过附加此代码来完成文件,以便可以从命令行轻松地使用参数调用它。

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("file_id")      args = parser.parse_args()      file_id = args.file_id      response_json = initiate_transcription(file_id)      print(response_json)

通过在initiate_transcription文件上运行python命令来启动脚本,并传入您在上一步中保存的唯一文件标识符。

# the FILE_IDENTIFIER is returned in the previous step and will  # look something like this: 463ce27f-0922-4ea9-9ce4-3353d84b5638  python initiate_transcription.py FILE_IDENTIFIER

API将发回该脚本打印到命令行的JSON响应。

{'audio_end_at': None, 'acoustic_model': 'assemblyai_default', 'text': None,    'audio_url': 'https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638',    'speed_boost': False, 'language_model': 'assemblyai_default', 'redact_pii': False,    'confidence': None, 'webhook_status_code': None,    'id': 'gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067', 'status': 'queued', 'boost_param': None,    'words': None, 'format_text': True, 'webhook_url': None, 'punctuate': True,   'utterances': None, 'audio_duration': None, 'auto_highlights': False,    'word_boost': [], 'dual_channel': None, 'audio_start_from': None}

记下JSON响应中id键的值。这是我们需要用来检索转录结果的转录标识符。在此示例中,它是gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067。复制转录标识符到您自己的响应中,因为在下一步中我们将需要它来检查转录过程何时完成。

检索转录结果

我们已经上传并开始了转录过程,因此,准备就绪后,我们将尽快获得结果。

返回结果所需的时间取决于文件的大小,因此下一个脚本将向HTTP发送一个HTTP请求,并报告转录状态,或者在完成后打印输出。

创建一个名为 get_transcription.py 的第三个Python文件,并将以下代码放入其中。

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def get_transcription(transcription_id):      """Requests the transcription from the API and returns the JSON      response."""      endpoint = "".join([API_URL, "transcript/{}".format(transcription_id)])      headers = {"authorization": os.getenv('ASSEMBLYAI_KEY')}      response = requests.get(endpoint, headersheaders=headers)     return response.json() if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("transcription_id")      args = parser.parse_args()      transcription_id = args.transcription_id      response_json = get_transcription(transcription_id)      if response_json['status'] == "completed":          for word in response_json['words']:              print(word['text'], end=" ")      else:          print("current status of transcription request: {}".format(                response_json['status']))

上面的代码与其他脚本具有相同的 imports 对象。在这个新的get_transcription函数中,我们只需使用我们的API密钥和上一步中的转录标识符(而不是文件标识符)调用AssemblyAI API。我们检索JSON响应并将其返回。

在main函数中,我们处理作为命令行参数传入的转录标识符,并将其传递给get_transcription函数。如果来自get_transcription函数的响应JSON包含completed状态,则我们将打印转录结果。否则,请在completed之前打印当前状态如queued或processing。

使用命令行和上一节中的转录标识符调用脚本:

python get_transcription.py TRANSCRIPTION_ID

如果该服务尚未开始处理脚本,则它将返回queued,如下所示:

current status of transcription request: queued

当服务当前正在处理音频文件时,它将返回processing:

current status of transcription request: processing

该过程完成后,我们的脚本将返回转录文本,如您在此处看到的那样:

An object relational mapper is a code library that automates the transfer of   data stored in relational, databases into objects that are more commonly used  in application code or EMS are useful because they provide a high level   ...(output abbreviated)

以上是Python如何將音訊內容轉換為文字格式的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:yisu.com。如有侵權,請聯絡admin@php.cn刪除