>  기사  >  백엔드 개발  >  Python을 사용하여 Huawei Cloud 인터페이스에 연결하여 오디오 전사 및 합성 기능을 구현하는 방법을 가르칩니다.

Python을 사용하여 Huawei Cloud 인터페이스에 연결하여 오디오 전사 및 합성 기능을 구현하는 방법을 가르칩니다.

WBOY
WBOY원래의
2023-07-06 14:13:541572검색

Python을 사용하여 Huawei Cloud 인터페이스에 연결하여 오디오 전사 및 합성 기능을 구현하는 방법을 배웁니다.

소개:
인공 지능 기술의 발전으로 음성 합성 및 음성 인식은 많은 응용 분야에서 필수적인 기능이 되었습니다. 개발자로서 우리는 Python 언어를 사용하여 Huawei Cloud 인터페이스에 연결하여 오디오 전사 및 합성 기능을 구현할 수 있습니다. 이 기사에서는 Python을 사용하여 Huawei Cloud 인터페이스에 연결하여 오디오 파일의 전사 및 음성 합성 기능을 구현하는 방법을 소개합니다.

1. Huawei Cloud 계정 등록
Huawei Cloud의 음성 서비스를 사용하려면 먼저 Huawei Cloud에 계정을 등록하고 음성 인식 및 합성 서비스 인스턴스를 만들어야 합니다.

2. 종속 라이브러리 설치
Python에서 Huawei Cloud에 연결하려면 먼저 해당 라이브러리를 설치해야 합니다.

pip install huaweicloud-sdkcore
pip install huaweicloud-sdkasr
pip install huaweicloud-sdktts
pip install pydub

huaweicloud-sdkcore는 Huawei Cloud의 Python SDK 핵심 라이브러리입니다. sdkasr 및 huaweicloud-sdktts 음성 인식 및 음성 합성을 위한 Python SDK입니다.

pydub은 오디오 파일 처리를 위한 Python 라이브러리입니다. 우리는 이를 오디오 파일 형식을 처리하는 데 사용할 것입니다.

3. 음성 녹음
먼저 녹음할 오디오 파일을 Huawei Cloud Object Storage OBS 서비스에 업로드해야 합니다. 그런 다음 Python SDK를 통해 Huawei Cloud의 음성 서비스에 연결하고 녹음을 위한 음성 인식 인터페이스를 호출합니다.

다음은 오디오 파일을 텍스트로 변환하는 기능을 구현하는 샘플 코드입니다.

from huaweicloud-sdkcore.auth.credentials import GlobalCredentials
from huaweicloud-sdkasr.v1.asr_client import AsrClient

ak = 'your access key'
sk = 'your secret key'
region = 'your region'
endpoint = 'https://asr.myhuaweicloud.com'

def recognize(file_path):
    creds = GlobalCredentials().with_aksk(ak, sk)
    client = AsrClient.new_builder().with_credentials(creds).with_endpoint(endpoint).build()

    with open(file_path, 'rb') as f:
        file_data = f.read()

    try:
        resp = client.recognize(file_data)
        result = resp.result
        return result
    except Exception as e:
        print("Recognize failed: ", e)

이 예에서는 먼저 Huawei Cloud에서 생성한 액세스 키와 비밀 키 및 해당 위치의 지역을 설정해야 합니다. 위치하고 있습니다.

그런 다음 AsrClient의 인식 방법을 통해 오디오 파일을 읽고 바이트 스트림으로 변환한 후 Huawei Cloud의 음성 인식 인터페이스로 보냅니다. 인터페이스가 성공적으로 호출되면 오디오 전사 결과가 반환됩니다.

4. 음성 합성
이제 음성 합성 기능을 구현해 보겠습니다. 마찬가지로 합성할 텍스트를 Huawei Cloud Object Storage OBS 서비스에 업로드해야 합니다. 그런 다음 Python SDK를 통해 Huawei Cloud의 음성 서비스에 연결하고 합성을 위한 음성 합성 인터페이스를 호출합니다.

from huaweicloud-sdkcore.auth.credentials import GlobalCredentials
from huaweicloud-sdktts.v1.tts_client import TtsClient

ak = 'your access key'
sk = 'your secret key'
region = 'your region'
endpoint = 'https://tts.myhuaweicloud.com'

def text_to_speech(text, file_path):
    creds = GlobalCredentials().with_aksk(ak, sk)
    client = TtsClient.new_builder().with_credentials(creds).with_endpoint(endpoint).build()

    try:
        resp = client.create_notify(body= {
            "text": text,
            "voice_name": "xiaoyan",
            "sample_rate": 16,
            "volume": 0,
            "speed": 0,
            "pitch": 0,
            "format": "mp3"
        })
        body = resp.result

        download_link = body['download_link']
        urllib.request.urlretrieve(download_link, file_path)
        print('Speech synthesis completed!')
    except Exception as e:
        print("Text to speech failed: ", e)

이 예에서는 Huawei Cloud와 지역에서 생성된 액세스 키와 비밀 키도 설정해야 합니다.

그런 다음 TtsClient의 create_notify 메소드를 통해 합성 요청을 보냅니다. 합성할 텍스트, 사운드 스타일, 오디오 매개변수 등과 같은 관련 정보를 제공해야 합니다. 인터페이스가 성공적으로 호출되면 Huawei Cloud는 합성된 오디오 파일을 생성하고 다운로드 링크를 제공합니다.

urllib 라이브러리의 urlretrieve 메소드를 사용하여 오디오 파일을 로컬로 다운로드하고 mp3 형식으로 저장할 수 있습니다.

결론:
위 단계를 통해 Python을 사용하여 Huawei Cloud 인터페이스에 연결하여 오디오 전사 및 합성 기능을 구현하는 방법을 확인할 수 있습니다. Huawei Cloud의 강력한 음성 서비스를 사용하면 다양한 애플리케이션 시나리오에서 음성 인식 및 음성 합성 기능을 신속하게 구현할 수 있습니다.

이 기사는 샘플 코드일 뿐이며 실제 상황에 따라 일부 매개변수를 설정해야 한다는 점에 유의하세요. 실제 애플리케이션에서는 필요에 따라 기능을 더욱 최적화하고 확장할 수 있습니다. 이 기사가 귀하에게 도움이 되기를 바랍니다. 음성 서비스에 대해 자세히 알아보려면 Huawei Cloud 공식 웹사이트를 방문해 주셔서 감사합니다.

위 내용은 Python을 사용하여 Huawei Cloud 인터페이스에 연결하여 오디오 전사 및 합성 기능을 구현하는 방법을 가르칩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.