Maison > Article > développement back-end > Vous apprendre à utiliser Python pour vous connecter à l'interface Huawei Cloud afin de mettre en œuvre des fonctions de transcription et de synthèse audio
Vous apprendre à utiliser Python pour vous connecter à l'interface Huawei Cloud afin de mettre en œuvre des fonctions de transcription et de synthèse audio
Introduction :
Avec le développement de la technologie de l'intelligence artificielle, la synthèse vocale et la reconnaissance vocale sont devenues des fonctions essentielles dans de nombreux domaines d'application. En tant que développeur, nous pouvons utiliser le langage Python pour nous connecter à l'interface Huawei Cloud afin de mettre en œuvre des fonctions de transcription et de synthèse audio. Cet article expliquera comment utiliser Python pour se connecter à l'interface Huawei Cloud afin de réaliser les fonctions de transcription et de synthèse vocale des fichiers audio.
1. Enregistrez un compte Huawei Cloud
Pour utiliser le service vocal de Huawei Cloud, vous devez d'abord créer un compte sur Huawei Cloud et créer une instance de service de reconnaissance et de synthèse vocale.
2. Installer les bibliothèques dépendantes
La connexion à Huawei Cloud en Python nécessite l'utilisation du SDK Python Nous devons d'abord installer les bibliothèques correspondantes :
pip install huaweicloud-sdkcore pip install huaweicloud-sdkasr pip install huaweicloud-sdktts pip install pydub
huaweicloud-sdkcore est la bibliothèque principale du SDK Python de Huawei Cloud, et huaweicloud-sdkasr. et huaweicloud-sdktts Il s'agit d'un SDK Python pour la reconnaissance vocale et la synthèse vocale.
pydub est une bibliothèque Python de traitement de fichiers audio, nous l'utiliserons pour traiter les formats de fichiers audio.
3. Transcription vocale
Tout d'abord, nous devons télécharger le fichier audio à transcrire sur le service Huawei Cloud Object Storage OBS. Connectez-vous ensuite au service vocal de Huawei Cloud via le SDK Python et appelez l'interface de reconnaissance vocale pour la transcription.
Ce qui suit est un exemple de code pour implémenter la fonction de transcription de fichiers audio en texte :
from huaweicloud-sdkcore.auth.credentials import GlobalCredentials from huaweicloud-sdkasr.v1.asr_client import AsrClient ak = 'your access key' sk = 'your secret key' region = 'your region' endpoint = 'https://asr.myhuaweicloud.com' def recognize(file_path): creds = GlobalCredentials().with_aksk(ak, sk) client = AsrClient.new_builder().with_credentials(creds).with_endpoint(endpoint).build() with open(file_path, 'rb') as f: file_data = f.read() try: resp = client.recognize(file_data) result = resp.result return result except Exception as e: print("Recognize failed: ", e)
Dans cet exemple, nous devons d'abord définir la clé d'accès et la clé secrète que nous avons créées sur Huawei Cloud, ainsi que la région où elles sont situés.
Ensuite, lisez et convertissez le fichier audio en flux d'octets via la méthode de reconnaissance d'AsrClient, et envoyez-le à l'interface de reconnaissance vocale de Huawei Cloud. Une fois l’interface appelée avec succès, le résultat de la transcription audio sera renvoyé.
4. Synthèse vocale
Implémentons maintenant la fonction de synthèse vocale. De même, nous devons télécharger le texte à synthétiser sur le service Huawei Cloud Object Storage OBS. Connectez-vous ensuite au service vocal de Huawei Cloud via le SDK Python et appelez l'interface de synthèse vocale pour la synthèse.
from huaweicloud-sdkcore.auth.credentials import GlobalCredentials from huaweicloud-sdktts.v1.tts_client import TtsClient ak = 'your access key' sk = 'your secret key' region = 'your region' endpoint = 'https://tts.myhuaweicloud.com' def text_to_speech(text, file_path): creds = GlobalCredentials().with_aksk(ak, sk) client = TtsClient.new_builder().with_credentials(creds).with_endpoint(endpoint).build() try: resp = client.create_notify(body= { "text": text, "voice_name": "xiaoyan", "sample_rate": 16, "volume": 0, "speed": 0, "pitch": 0, "format": "mp3" }) body = resp.result download_link = body['download_link'] urllib.request.urlretrieve(download_link, file_path) print('Speech synthesis completed!') except Exception as e: print("Text to speech failed: ", e)
Dans cet exemple, nous devons également définir la clé d'accès et la clé secrète créées sur Huawei Cloud, ainsi que la région.
Envoyez ensuite une requête synthétique via la méthode create_notify de TtsClient. Nous devons fournir des informations pertinentes telles que le texte à synthétiser, le style sonore, les paramètres audio, etc. Une fois l'interface appelée avec succès, Huawei Cloud générera un fichier audio synthétisé et fournira un lien de téléchargement.
Nous pouvons utiliser la méthode urlretrieve dans la bibliothèque urllib pour télécharger le fichier audio localement et l'enregistrer au format mp3.
Conclusion :
Grâce aux étapes ci-dessus, nous pouvons voir comment utiliser Python pour se connecter à l'interface Huawei Cloud afin d'implémenter des fonctions de transcription et de synthèse audio. Grâce aux puissants services vocaux de Huawei Cloud, nous pouvons rapidement mettre en œuvre des fonctions de reconnaissance vocale et de synthèse vocale dans divers scénarios d'application.
Il convient de noter que cet article n'est qu'un exemple de code et que certains paramètres doivent être définis en fonction de votre situation réelle. Dans les applications réelles, les fonctions peuvent être encore optimisées et étendues en fonction de vos propres besoins. J'espère que cet article vous sera utile. Bienvenue sur le site Web officiel de Huawei Cloud pour en savoir plus sur les services vocaux.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!