나만의 Google NotebookLM을 구축하는 방법-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

나만의 Google NotebookLM을 구축하는 방법

Patricia Arquette

Dec 03, 2024 am 08:13 AM

오디오 콘텐츠 소비의 인기가 높아짐에 따라 문서나 작성된 콘텐츠를 사실적인 오디오 형식으로 변환하는 기능이 최근 더욱 인기를 끌고 있습니다.

Google의 NotebookLM이 이 분야에서 주목을 받고 있는 동안, 저는 최신 클라우드 서비스를 사용하여 유사한 시스템을 구축하는 방법을 알아보고 싶었습니다. 이 기사에서는 FastAPI, Firebase, Google Cloud Pub/Sub 및 Azure의 Text-to-Speech 서비스를 사용하여 문서를 고품질 팟캐스트로 변환하는 확장 가능한 클라우드 네이티브 시스템을 만든 방법을 안내하겠습니다.

이 시스템의 결과를 참고할 수 있는 쇼케이스는 다음과 같습니다: MyPodify 쇼케이스

도전

문서를 팟캐스트로 변환하는 것은 텍스트 음성 변환 엔진을 통해 텍스트를 실행하는 것만큼 간단하지 않습니다. 원활한 사용자 경험을 유지하면서 세심한 처리, 자연어 이해, 다양한 문서 형식을 처리하는 능력이 필요합니다. 시스템은 다음을 수행해야 합니다.

여러 문서 형식을 효율적으로 처리
다양한 목소리로 자연스러운 오디오 생성
사용자 경험에 영향을 주지 않고 대규모 문서 처리를 처리합니다
사용자에게 실시간 상태 업데이트 제공
고가용성 및 확장성 유지

아키텍처 심층 분석

주요 구성 요소를 분석하고 이들이 어떻게 함께 작동하는지 살펴보겠습니다.

How to Build your very own Google

1. FastAPI 백엔드

FastAPI는 몇 가지 설득력 있는 이유로 선택된 백엔드 프레임워크 역할을 합니다.

비동기 지원: Starlette를 기반으로 구축된 FastAPI의 비동기 기능을 통해 동시 요청을 효율적으로 처리할 수 있습니다
자동 OpenAPI 문서: 즉시 대화형 API 문서를 생성합니다
유형 안전성: 런타임 유효성 검사를 위해 Python의 유형 힌트를 활용합니다
고성능: 속도 측면에서 Node.js 및 Go와 비교

업로드 엔드포인트에 대한 자세한 내용은 다음과 같습니다.

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

2. 파이어베이스 통합

Firebase는 애플리케이션에 두 가지 중요한 서비스를 제공합니다.

Firebase 저장소

자동 크기 조정으로 안전한 파일 업로드 처리
생성된 오디오 파일에 대해 CDN 지원 배포 제공
대용량 파일에 대해 재개 가능한 업로드 지원

소방서

프로젝트 현황 추적을 위한 실시간 데이터베이스
프로젝트 메타데이터에 적합한 문서 기반 구조
수동 샤딩이 필요 없는 자동 확장

실시간 상태 업데이트를 구현하는 방법은 다음과 같습니다.

async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None):
    doc_ref = db.collection('projects').document(f'{user_id}/{project_id}')

    update_data = {
        'status': status,
        'updated_at': datetime.now()
    }

    if metadata:
        update_data.update(metadata)

    await doc_ref.update(update_data)

3. 구글 클라우드 게시/구독

Pub/Sub는 메시징 백본 역할을 하며 다음을 수행합니다.

더 나은 확장성을 위한 분리된 아키텍처
최소 1회 배송 보장
자동 메시지 보관 및 재생
실패한 메시지에 대한 배달 못한 편지 대기열

메시지 구조 예:

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

4. Azure Speech Service를 통한 음성 생성

오디오 생성의 핵심은 Azure의 Cognitive Services Speech SDK를 사용합니다. 자연스러운 음성 합성을 구현하는 방법을 살펴보겠습니다.

async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None):
    doc_ref = db.collection('projects').document(f'{user_id}/{project_id}')

    update_data = {
        'status': status,
        'updated_at': datetime.now()
    }

    if metadata:
        update_data.update(metadata)

    await doc_ref.update(update_data)

저희 시스템의 독특한 기능 중 하나는 AI를 사용하여 다중 음성 팟캐스트를 생성하는 기능입니다. 다양한 호스트에 대한 스크립트 생성을 처리하는 방법은 다음과 같습니다.

{
    'user_id': 'uid_123',
    'project_id': 'proj_456',
    'podcast_id': 'pod_789',
    'file_urls': ['gs://bucket/file1.pdf'],
    'description': 'Technical blog post about cloud architecture',
    'host_count': 2,
    'action': 'CREATE_PROJECT'
}

음성 합성의 경우 다양한 화자를 특정 Azure 음성에 매핑합니다.

import azure.cognitiveservices.speech as speechsdk
from pathlib import Path

class SpeechGenerator:
    def __init__(self):
        self.speech_config = speechsdk.SpeechConfig(
            subscription=os.getenv("AZURE_SPEECH_KEY"),
            region=os.getenv("AZURE_SPEECH_REGION")
        )

    async def create_speech_segment(self, text, voice, output_file):
        try:
            self.speech_config.speech_synthesis_voice_name = voice
            synthesizer = speechsdk.SpeechSynthesizer(
                speech_config=self.speech_config,
                audio_config=None
            )

            # Generate speech from text
            result = synthesizer.speak_text_async(text).get()

            if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
                with open(output_file, "wb") as audio_file:
                    audio_file.write(result.audio_data)
                return True

            return False

        except Exception as e:
            logger.error(f"Speech synthesis failed: {str(e)}")
            return False

5. 백그라운드 처리 작업자

작업자 구성 요소가 무거운 작업을 처리합니다.

문서 분석
- 다양한 문서 형식에서 텍스트 추출
- 문서 구조 및 내용 분석
- 주요 주제와 섹션 식별
콘텐츠 처리
- 자연스러운 대화 흐름 생성
- 콘텐츠를 스피커 세그먼트로 분할
- 주제 간 전환 만들기
오디오 생성
- Azure의 신경 음성을 사용하여 텍스트를 음성으로 변환
- 여러 화자 음성 처리
- 오디오 후처리 적용

다음은 작업자 논리를 단순화한 보기입니다.

async def generate_podcast_script(outline: str, analysis: str, host_count: int):
    # System instructions for different podcast formats
    system_instructions = TWO_HOST_SYSTEM_PROMPT if host_count > 1 else ONE_HOST_SYSTEM_PROMPT

    # Example of how we structure the AI conversation
    if host_count > 1:
        script_format = """
        **Alex**: "Hello and welcome to MyPodify! I'm your host Alex, joined by..."
        **Jane**: "Hi everyone! I'm Jane, and today we're diving into {topic}..."
        """
    else:
        script_format = """
        **Alex**: "Welcome to MyPodify! Today we're exploring {topic}..."
        """

    # Generate the complete script using AI
    script = await generate_content_from_openai(
        content=f"{outline}\n\nContent Details:{analysis}",
        system_instructions=system_instructions,
        purpose="Podcast Script"
    )

    return script

오류 처리 및 신뢰성

시스템은 포괄적인 오류 처리를 구현합니다.

재시도 논리
- 실패한 API 호출에 대한 지수 백오프
- 최대 재시도 시도 구성
- 실패한 메시지에 대한 배달 못한 편지 대기열
상태 추적
- Firestore에 저장된 자세한 오류 메시지
- 사용자에게 실시간 상태 업데이트
- 모니터링을 위한 오류 집계
자원 정리
- 임시파일 자동삭제
- 업로드 정리 실패
- 고아 리소스 감지

확장 및 성능 최적화

생산 부하를 처리하기 위해 몇 가지 최적화를 구현했습니다.

작업자 확장
- 대기열 길이에 따른 수평적 확장
- 리소스 기반 자동 확장
- 지연 시간 단축을 위한 지역 배포
스토리지 최적화
- 콘텐츠 중복 제거
- 압축 오디오 저장
- 전송을 위한 CDN 통합
처리 최적화
- 유사문서 일괄처리
- 반복되는 콘텐츠 캐싱
- 가능한 경우 병렬 처리

모니터링 및 관찰 가능성

시스템에는 포괄적인 모니터링이 포함됩니다.

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

향후 개선 사항

현재 시스템은 잘 작동하지만 향후 개선을 위한 몇 가지 흥미로운 가능성이 있습니다.

향상된 오디오 처리
- 배경음악 통합
- 고급 오디오 효과
- 맞춤 음성 훈련
콘텐츠 강화
- 자동 챕터 마커
- 대화형 성적표
- 다국어 지원
플랫폼 통합
- 직접 팟캐스트 플랫폼 퍼블리싱
- RSS 피드 생성
- 소셜 미디어 공유

문서-팟캐스트 변환기를 구축하는 것은 현대 클라우드 아키텍처로의 흥미로운 여정이었습니다. FastAPI, Firebase, Google Cloud Pub/Sub 및 Azure의 Text-to-Speech 서비스의 조합은 복잡한 문서 처리를 대규모로 처리하기 위한 강력한 기반을 제공합니다.

이벤트 기반 아키텍처는 로드 시에도 시스템의 응답성을 유지하는 동시에 관리형 서비스를 사용하여 운영 오버헤드를 줄여줍니다. 유사한 시스템을 구축하든, 클라우드 기반 아키텍처를 탐색하든 관계없이 이 심층 분석이 확장 가능하고 프로덕션에 즉시 사용 가능한 애플리케이션을 구축하는 데 귀중한 통찰력을 제공했기를 바랍니다.

클라우드 아키텍처와 최신 애플리케이션 개발에 대해 더 자세히 알고 싶으십니까? 더 기술적이고 실용적인 튜토리얼을 보려면 저를 팔로우하세요.

위 내용은 나만의 Google NotebookLM을 구축하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.