>백엔드 개발 >파이썬 튜토리얼 >나만의 Google NotebookLM을 구축하는 방법

나만의 Google NotebookLM을 구축하는 방법

Patricia Arquette
Patricia Arquette원래의
2024-12-03 08:13:10520검색

오디오 콘텐츠 소비의 인기가 높아짐에 따라 문서나 작성된 콘텐츠를 사실적인 오디오 형식으로 변환하는 기능이 최근 더욱 인기를 끌고 있습니다.

Google의 NotebookLM이 이 분야에서 주목을 받고 있는 동안, 저는 최신 클라우드 서비스를 사용하여 유사한 시스템을 구축하는 방법을 알아보고 싶었습니다. 이 기사에서는 FastAPI, Firebase, Google Cloud Pub/Sub 및 Azure의 Text-to-Speech 서비스를 사용하여 문서를 고품질 팟캐스트로 변환하는 확장 가능한 클라우드 네이티브 시스템을 만든 방법을 안내하겠습니다.

이 시스템의 결과를 참고할 수 있는 쇼케이스는 다음과 같습니다: MyPodify 쇼케이스

도전

문서를 팟캐스트로 변환하는 것은 텍스트 음성 변환 엔진을 통해 텍스트를 실행하는 것만큼 간단하지 않습니다. 원활한 사용자 경험을 유지하면서 세심한 처리, 자연어 이해, 다양한 문서 형식을 처리하는 능력이 필요합니다. 시스템은 다음을 수행해야 합니다.

  • 여러 문서 형식을 효율적으로 처리
  • 다양한 목소리로 자연스러운 오디오 생성
  • 사용자 경험에 영향을 주지 않고 대규모 문서 처리를 처리합니다
  • 사용자에게 실시간 상태 업데이트 제공
  • 고가용성 및 확장성 유지

아키텍처 심층 분석

주요 구성 요소를 분석하고 이들이 어떻게 함께 작동하는지 살펴보겠습니다.

How to Build your very own Google

1. FastAPI 백엔드

FastAPI는 몇 가지 설득력 있는 이유로 선택된 백엔드 프레임워크 역할을 합니다.

  • 비동기 지원: Starlette를 기반으로 구축된 FastAPI의 비동기 기능을 통해 동시 요청을 효율적으로 처리할 수 있습니다
  • 자동 OpenAPI 문서: 즉시 대화형 API 문서를 생성합니다
  • 유형 안전성: 런타임 유효성 검사를 위해 Python의 유형 힌트를 활용합니다
  • 고성능: 속도 측면에서 Node.js 및 Go와 비교

업로드 엔드포인트에 대한 자세한 내용은 다음과 같습니다.

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

2. 파이어베이스 통합

Firebase는 애플리케이션에 두 가지 중요한 서비스를 제공합니다.

Firebase 저장소

  • 자동 크기 조정으로 안전한 파일 업로드 처리
  • 생성된 오디오 파일에 대해 CDN 지원 배포 제공
  • 대용량 파일에 대해 재개 가능한 업로드 지원

소방서

  • 프로젝트 현황 추적을 위한 실시간 데이터베이스
  • 프로젝트 메타데이터에 적합한 문서 기반 구조
  • 수동 샤딩이 필요 없는 자동 확장

실시간 상태 업데이트를 구현하는 방법은 다음과 같습니다.

async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None):
    doc_ref = db.collection('projects').document(f'{user_id}/{project_id}')

    update_data = {
        'status': status,
        'updated_at': datetime.now()
    }

    if metadata:
        update_data.update(metadata)

    await doc_ref.update(update_data)

3. 구글 클라우드 게시/구독

Pub/Sub는 메시징 백본 역할을 하며 다음을 수행합니다.

  • 더 나은 확장성을 위한 분리된 아키텍처
  • 최소 1회 배송 보장
  • 자동 메시지 보관 및 재생
  • 실패한 메시지에 대한 배달 못한 편지 대기열

메시지 구조 예:

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

4. Azure Speech Service를 통한 음성 생성

오디오 생성의 핵심은 Azure의 Cognitive Services Speech SDK를 사용합니다. 자연스러운 음성 합성을 구현하는 방법을 살펴보겠습니다.

async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None):
    doc_ref = db.collection('projects').document(f'{user_id}/{project_id}')

    update_data = {
        'status': status,
        'updated_at': datetime.now()
    }

    if metadata:
        update_data.update(metadata)

    await doc_ref.update(update_data)

저희 시스템의 독특한 기능 중 하나는 AI를 사용하여 다중 음성 팟캐스트를 생성하는 기능입니다. 다양한 호스트에 대한 스크립트 생성을 처리하는 방법은 다음과 같습니다.

{
    'user_id': 'uid_123',
    'project_id': 'proj_456',
    'podcast_id': 'pod_789',
    'file_urls': ['gs://bucket/file1.pdf'],
    'description': 'Technical blog post about cloud architecture',
    'host_count': 2,
    'action': 'CREATE_PROJECT'
}

음성 합성의 경우 다양한 화자를 특정 Azure 음성에 매핑합니다.

import azure.cognitiveservices.speech as speechsdk
from pathlib import Path

class SpeechGenerator:
    def __init__(self):
        self.speech_config = speechsdk.SpeechConfig(
            subscription=os.getenv("AZURE_SPEECH_KEY"),
            region=os.getenv("AZURE_SPEECH_REGION")
        )

    async def create_speech_segment(self, text, voice, output_file):
        try:
            self.speech_config.speech_synthesis_voice_name = voice
            synthesizer = speechsdk.SpeechSynthesizer(
                speech_config=self.speech_config,
                audio_config=None
            )

            # Generate speech from text
            result = synthesizer.speak_text_async(text).get()

            if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
                with open(output_file, "wb") as audio_file:
                    audio_file.write(result.audio_data)
                return True

            return False

        except Exception as e:
            logger.error(f"Speech synthesis failed: {str(e)}")
            return False

5. 백그라운드 처리 작업자

작업자 구성 요소가 무거운 작업을 처리합니다.

  1. 문서 분석

    • 다양한 문서 형식에서 텍스트 추출
    • 문서 구조 및 내용 분석
    • 주요 주제와 섹션 식별
  2. 콘텐츠 처리

    • 자연스러운 대화 흐름 생성
    • 콘텐츠를 스피커 세그먼트로 분할
    • 주제 간 전환 만들기
  3. 오디오 생성

    • Azure의 신경 음성을 사용하여 텍스트를 음성으로 변환
    • 여러 화자 음성 처리
    • 오디오 후처리 적용

다음은 작업자 논리를 단순화한 보기입니다.

async def generate_podcast_script(outline: str, analysis: str, host_count: int):
    # System instructions for different podcast formats
    system_instructions = TWO_HOST_SYSTEM_PROMPT if host_count > 1 else ONE_HOST_SYSTEM_PROMPT

    # Example of how we structure the AI conversation
    if host_count > 1:
        script_format = """
        **Alex**: "Hello and welcome to MyPodify! I'm your host Alex, joined by..."
        **Jane**: "Hi everyone! I'm Jane, and today we're diving into {topic}..."
        """
    else:
        script_format = """
        **Alex**: "Welcome to MyPodify! Today we're exploring {topic}..."
        """

    # Generate the complete script using AI
    script = await generate_content_from_openai(
        content=f"{outline}\n\nContent Details:{analysis}",
        system_instructions=system_instructions,
        purpose="Podcast Script"
    )

    return script

오류 처리 및 신뢰성

시스템은 포괄적인 오류 처리를 구현합니다.

  1. 재시도 논리

    • 실패한 API 호출에 대한 지수 백오프
    • 최대 재시도 시도 구성
    • 실패한 메시지에 대한 배달 못한 편지 대기열
  2. 상태 추적

    • Firestore에 저장된 자세한 오류 메시지
    • 사용자에게 실시간 상태 업데이트
    • 모니터링을 위한 오류 집계
  3. 자원 정리

    • 임시파일 자동삭제
    • 업로드 정리 실패
    • 고아 리소스 감지

확장 및 성능 최적화

생산 부하를 처리하기 위해 몇 가지 최적화를 구현했습니다.

  1. 작업자 확장

    • 대기열 길이에 따른 수평적 확장
    • 리소스 기반 자동 확장
    • 지연 시간 단축을 위한 지역 배포
  2. 스토리지 최적화

    • 콘텐츠 중복 제거
    • 압축 오디오 저장
    • 전송을 위한 CDN 통합
  3. 처리 최적화

    • 유사문서 일괄처리
    • 반복되는 콘텐츠 캐싱
    • 가능한 경우 병렬 처리

모니터링 및 관찰 가능성

시스템에는 포괄적인 모니터링이 포함됩니다.

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

향후 개선 사항

현재 시스템은 잘 작동하지만 향후 개선을 위한 몇 가지 흥미로운 가능성이 있습니다.

  1. 향상된 오디오 처리

    • 배경음악 통합
    • 고급 오디오 효과
    • 맞춤 음성 훈련
  2. 콘텐츠 강화

    • 자동 챕터 마커
    • 대화형 성적표
    • 다국어 지원
  3. 플랫폼 통합

    • 직접 팟캐스트 플랫폼 퍼블리싱
    • RSS 피드 생성
    • 소셜 미디어 공유

문서-팟캐스트 변환기를 구축하는 것은 현대 클라우드 아키텍처로의 흥미로운 여정이었습니다. FastAPI, Firebase, Google Cloud Pub/Sub 및 Azure의 Text-to-Speech 서비스의 조합은 복잡한 문서 처리를 대규모로 처리하기 위한 강력한 기반을 제공합니다.

이벤트 기반 아키텍처는 로드 시에도 시스템의 응답성을 유지하는 동시에 관리형 서비스를 사용하여 운영 오버헤드를 줄여줍니다. 유사한 시스템을 구축하든, 클라우드 기반 아키텍처를 탐색하든 관계없이 이 심층 분석이 확장 가능하고 프로덕션에 즉시 사용 가능한 애플리케이션을 구축하는 데 귀중한 통찰력을 제공했기를 바랍니다.


클라우드 아키텍처와 최신 애플리케이션 개발에 대해 더 자세히 알고 싶으십니까? 더 기술적이고 실용적인 튜토리얼을 보려면 저를 팔로우하세요.

위 내용은 나만의 Google NotebookLM을 구축하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.