Heim >Backend-Entwicklung >Python-Tutorial >So konvertieren Sie Audioinhalte in Python in das Textformat

So konvertieren Sie Audioinhalte in Python in das Textformat

WBOY
WBOYnach vorne
2023-05-10 11:07:271577Durchsuche

Erstellen Sie eine Entwicklungsumgebung

Gehen Sie in das Verzeichnis, in dem die virtuelle Python-Umgebung gespeichert ist. Ich behalte mein Verzeichnis in einem venvs-Unterverzeichnis im Home-Verzeichnis des Benutzers. Verwenden Sie den folgenden Befehl, um eine neue virtuelle Umgebung für dieses Projekt zu erstellen.

python3 -m venv ~/venvs/pytranscribe

Virtuelle Umgebung mit Shell-Befehl aktivieren:

source ~/venvs/pytranscribe/bin/activate

Nach der Ausführung des obigen Befehls ändert sich die Eingabeaufforderung, sodass der Name der virtuellen Umgebung mit dem ursprünglichen Eingabeaufforderungsformat beginnt , wenn Ihre Eingabeaufforderung nur $ lautet, sieht sie so aus:

(pytranscribe) $

Denken Sie daran, dass Sie Ihre virtuelle Umgebung in einem neuen Terminalfenster mit Abhängigkeiten in jeder virtuellen Umgebung aktivieren müssen.

Jetzt können wir das Anforderungspaket in der aktivierten, aber leeren virtuellen Umgebung installieren.

pip install requests==2.24.0

Suchen Sie nach einer Ausgabe ähnlich der folgenden, um zu bestätigen, dass das entsprechende Paket korrekt von PyPI installiert wurde.

(pytranscribe) $ pip install requests==2.24.0  Collecting requests==2.24.0    Using cached https://files.pythonhosted.org/packages/45/1e/0c169c6a5381e241ba7404532c16a21d86ab872c9bed8bdcd4c423954103/requests-2.24.0-py2.py3-none-any.whl  Collecting certifi>=2017.4.17 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/5e/c4/6c4fe722df5343c33226f0b4e0bb042e4dc13483228b4718baf286f86d87/certifi-2020.6.20-py2.py3-none-any.whl  Collecting urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/9f/f0/a391d1463ebb1b233795cabfc0ef38d3db4442339de68f847026199e69d7/urllib3-1.25.10-py2.py3-none-any.whl  Collecting chardet<4,>=3.0.2 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/bc/a9/01ffebfb562e4274b6487b4bb1ddec7ca55ec7510b22e4c51f14098443b8/chardet-3.0.4-py2.py3-none-any.whl  Collecting idna<3,>=2.5 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/a2/38/928ddce2273eaa564f6f50de919327bf3a00f091b5baba8dfa9460f3a8a8/idna-2.10-py2.py3-none-any.whl  Installing collected packages: certifi, urllib3, chardet, idna, requests  Successfully installed certifi-2020.6.20 chardet-3.0.4 idna-2.10 requests-2.24.0 urllib3-1.25.10

Wir haben alle erforderlichen Abhängigkeiten installiert, damit wir mit der Codierung der Anwendung beginnen können.

Audio hochladen, starten und transkribieren

Wir haben alles Notwendige getan, um mit der Entwicklung einer App zu beginnen, die Audio in Text umwandelt. Wir werden diese Anwendung in drei Dateien erstellen:

1. upload_audio_file.py: Laden Sie Ihre Audiodatei an einen sicheren Ort im AssemblyAI-Dienst hoch, damit sie verarbeitet werden kann. Wenn Ihre Audiodatei bereits über eine öffentliche URL zugänglich ist, müssen Sie diesen Schritt nicht ausführen. Befolgen Sie einfach diesen Schnellstart #

3, get_transcription.py: Zeigen Sie den Transkriptionsstatus an, wenn die Transkription noch verarbeitet wird, oder Zeigen Sie die Transkriptionsergebnisse an, nachdem die Verarbeitung abgeschlossen ist.

Erstellen Sie ein neues Verzeichnis mit dem Namen pytrancribe, um es in unserem zu verwenden. Diese Dateien werden beim Schreiben gespeichert. Gehen Sie dann in das neue Projektverzeichnis.

mkdir pytranscibe  cd pytranscribe
Wir müssen auch den AssemblyAI-API-Schlüssel als Umgebungsvariable exportieren. Eröffnen Sie ein AssemblyAI-Konto, melden Sie sich beim AssemblyAI-Dashboard an und kopieren Sie dann „Ihr API-Token“

export ASSEMBLYAI_KEY=your-api-key-here
Bitte beachten Sie, dass der Exportbefehl in jedem Befehlszeilenfenster verwendet werden muss, um sicherzustellen, dass auf diesen Schlüssel zugegriffen werden kann. Wenn Sie das Tag nicht als ASSEMBLYAI_KEY in der Umgebung exportieren, in der Sie das Skript ausführen, kann das Skript, das wir schreiben, nicht auf die API zugreifen.

Nachdem wir nun das Projektverzeichnis erstellt und den API-Schlüssel als Umgebungsvariable festgelegt haben, fahren wir mit dem Schreiben des Codes für die erste Datei fort, die die Audiodatei in den AssemblyAI-Dienst hochlädt.

Audiodateien hochladen und transkribieren

Erstellen Sie eine neue Datei namens upload_audio_file.py und fügen Sie den folgenden Code ein: # 🎜🎜#

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def upload_file_to_api(filename):      """Checks for a valid file and then uploads it to AssemblyAI      so it can be saved to a secure URL that only that service can access.      When the upload is complete we can then initiate the transcription      API call.      Returns the API JSON if successful, or None if file does not exist.      """      if not os.path.exists(filename):          return None      def read_file(filename, chunk_size=5242880):          with open(filename, 'rb') as _file:              while True:                  data = _file.read(chunk_size)                  if not data:                      break                  yield data      headers = {'authorization': os.getenv("ASSEMBLYAI_KEY")}      response = requests.post("".join([API_URL, "upload"]), headersheaders=headers,                               data=read_file(filename))      return response.json()
Der obige Code importiert die argparse-, os- und request-Pakete, damit wir sie in diesem Skript verwenden können. API_URL ist eine Konstante mit der Basis-URL des AssemblyAI-Dienstes. Wir definieren die Funktion upload_file_to_api mit einem einzigen Parameter. Dateiname sollte eine Zeichenfolge sein, die den absoluten Pfad zur Datei und ihren Dateinamen enthält.

In der Funktion prüfen wir, ob die Datei vorhanden ist, und verwenden dann die Chunked-Transfer-Kodierung von Request, um die große Datei an die AssemblyAI-API zu streamen.

Die getenv-Funktion des OS-Moduls liest die in der Befehlszeile festgelegte API mithilfe des Exportbefehls mit getenv. Stellen Sie sicher, dass Sie den Exportbefehl im Terminal verwenden, auf dem dieses Skript ausgeführt wird, da sonst der Wert ASSEMBLYAI_KEY leer ist. Verwenden Sie im Zweifelsfall echo $ASSEMBLY_AI, um zu prüfen, ob der Wert mit Ihrem API-Schlüssel übereinstimmt.

Um die Funktion „upload_file_to_api“ zu verwenden, fügen Sie die folgenden Codezeilen zur Datei „upload_audio_file.py“ hinzu, damit wir diesen Code korrekt als Skript ausführen können, das mit dem Python-Befehl aufgerufen wird:

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("filename")      args = parser.parse_args()      upload_filename = args.filename      response_json = upload_file_to_api(upload_filename)      if not response_json:          print("file does not exist")      else:          print("File uploaded to URL: {}".format(response_json['upload_url']))
#🎜 🎜#Der obige Code erstellt ein ArgumentParser-Objekt, das es der Anwendung ermöglicht, ein einzelnes Argument von der Befehlszeile abzurufen, um das Objekt anzugeben, auf das wir zugreifen, die Datei lesen und in den AssmeblyAI-Dienst hochladen möchten.

Wenn die Datei nicht existiert, zeigt das Skript eine Meldung an, dass die Datei nicht gefunden werden kann. Im Pfad haben wir die richtige Datei gefunden und die Datei dann mithilfe des Codes in der Funktion upload_file_to_api hochgeladen.

Führen Sie das Skript aus, indem Sie das vollständige Skript „upload_audio_file.py“ in der Befehlszeile mit dem Python-Befehl ausführen. Ersetzen Sie FULL_PATH_TO_FILE durch den absoluten Pfad zu der Datei, die Sie hochladen möchten, zum Beispiel /Users/matt/devel/audio.mp3.

python upload_audio_file.py FULL_PATH_TO_FILE
Angenommen, die Datei befindet sich an dem von Ihnen angegebenen Speicherort. Wenn das Skript mit dem Hochladen der Datei fertig ist, gibt es eine Meldung mit einer eindeutigen URL aus:

File uploaded to URL: https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638
Die URL lautet nicht öffentlich, kann nur vom AssemblyAI-Dienst verwendet werden, sodass Ihre Datei und ihr Inhalt nur für Sie und die transkribierte API zugänglich sind.

Der wichtige Teil ist der letzte Teil der URL, der in diesem Beispiel 463ce27f-0922-4ea9-9ce4-3353d84b5638 lautet. Speichern Sie diese eindeutige Kennung, da wir sie an das nächste Skript übergeben müssen, das den Transkriptionsdienst startet.

Transkription starten

Als nächstes schreiben wir einen Code, um die Transkription zu starten. Erstellen Sie eine neue Datei mit dem Namen initial_transcription.py. Fügen Sie der neuen Datei den folgenden Code hinzu.

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  CDN_URL = "https://cdn.assemblyai.com/"  def initiate_transcription(file_id):      """Sends a request to the API to transcribe a specific      file that was previously uploaded to the API. This will      not immediately return the transcription because it takes      a moment for the service to analyze and perform the      transcription, so there is a different function to retrieve      the results.      """      endpoint = "".join([API_URL, "transcript"])      json = {"audio_url": "".join([CDN_URL, "upload/{}".format(file_id)])}      headers = {          "authorization": os.getenv("ASSEMBLYAI_KEY"),          "content-type": "application/json"      }      response = requests.post(endpoint, jsonjson=json, headersheaders=headers)      return response.json()
Wir haben die gleichen Importe wie im vorherigen Skript und haben eine neue Konstante CDN_URL hinzugefügt, die der separaten URL entspricht, unter der AssemblyAI hochgeladene Audiodateien speichert.

initiate_transcription函数本质上只是向AssemblyAI API设置了一个HTTP请求,以传入的特定URL对音频文件启动转录过程。这就是为什么file_id传递很重要的原因:完成音频文件的URL 我们告诉AssemblyAI进行检索。

通过附加此代码来完成文件,以便可以从命令行轻松地使用参数调用它。

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("file_id")      args = parser.parse_args()      file_id = args.file_id      response_json = initiate_transcription(file_id)      print(response_json)

通过在initiate_transcription文件上运行python命令来启动脚本,并传入您在上一步中保存的唯一文件标识符。

# the FILE_IDENTIFIER is returned in the previous step and will  # look something like this: 463ce27f-0922-4ea9-9ce4-3353d84b5638  python initiate_transcription.py FILE_IDENTIFIER

API将发回该脚本打印到命令行的JSON响应。

{'audio_end_at': None, 'acoustic_model': 'assemblyai_default', 'text': None,    'audio_url': 'https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638',    'speed_boost': False, 'language_model': 'assemblyai_default', 'redact_pii': False,    'confidence': None, 'webhook_status_code': None,    'id': 'gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067', 'status': 'queued', 'boost_param': None,    'words': None, 'format_text': True, 'webhook_url': None, 'punctuate': True,   'utterances': None, 'audio_duration': None, 'auto_highlights': False,    'word_boost': [], 'dual_channel': None, 'audio_start_from': None}

记下JSON响应中id键的值。这是我们需要用来检索转录结果的转录标识符。在此示例中,它是gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067。复制转录标识符到您自己的响应中,因为在下一步中我们将需要它来检查转录过程何时完成。

检索转录结果

我们已经上传并开始了转录过程,因此,准备就绪后,我们将尽快获得结果。

返回结果所需的时间取决于文件的大小,因此下一个脚本将向HTTP发送一个HTTP请求,并报告转录状态,或者在完成后打印输出。

创建一个名为 get_transcription.py 的第三个Python文件,并将以下代码放入其中。

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def get_transcription(transcription_id):      """Requests the transcription from the API and returns the JSON      response."""      endpoint = "".join([API_URL, "transcript/{}".format(transcription_id)])      headers = {"authorization": os.getenv('ASSEMBLYAI_KEY')}      response = requests.get(endpoint, headersheaders=headers)     return response.json() if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("transcription_id")      args = parser.parse_args()      transcription_id = args.transcription_id      response_json = get_transcription(transcription_id)      if response_json['status'] == "completed":          for word in response_json['words']:              print(word['text'], end=" ")      else:          print("current status of transcription request: {}".format(                response_json['status']))

上面的代码与其他脚本具有相同的 imports 对象。在这个新的get_transcription函数中,我们只需使用我们的API密钥和上一步中的转录标识符(而不是文件标识符)调用AssemblyAI API。我们检索JSON响应并将其返回。

在main函数中,我们处理作为命令行参数传入的转录标识符,并将其传递给get_transcription函数。如果来自get_transcription函数的响应JSON包含completed状态,则我们将打印转录结果。否则,请在completed之前打印当前状态如queued或processing。

使用命令行和上一节中的转录标识符调用脚本:

python get_transcription.py TRANSCRIPTION_ID

如果该服务尚未开始处理脚本,则它将返回queued,如下所示:

current status of transcription request: queued

当服务当前正在处理音频文件时,它将返回processing:

current status of transcription request: processing

该过程完成后,我们的脚本将返回转录文本,如您在此处看到的那样:

An object relational mapper is a code library that automates the transfer of   data stored in relational, databases into objects that are more commonly used  in application code or EMS are useful because they provide a high level   ...(output abbreviated)

Das obige ist der detaillierte Inhalt vonSo konvertieren Sie Audioinhalte in Python in das Textformat. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Vorheriger Artikel:So verwenden Sie Python-docxNächster Artikel:So verwenden Sie Python-docx