오디오 콘텐츠 소비의 인기가 높아짐에 따라 문서나 작성된 콘텐츠를 사실적인 오디오 형식으로 변환하는 기능이 최근 더욱 인기를 끌고 있습니다.
Google의 NotebookLM이 이 분야에서 주목을 받고 있는 동안, 저는 최신 클라우드 서비스를 사용하여 유사한 시스템을 구축하는 방법을 알아보고 싶었습니다. 이 기사에서는 FastAPI, Firebase, Google Cloud Pub/Sub 및 Azure의 Text-to-Speech 서비스를 사용하여 문서를 고품질 팟캐스트로 변환하는 확장 가능한 클라우드 네이티브 시스템을 만든 방법을 안내하겠습니다.
이 시스템의 결과를 참고할 수 있는 쇼케이스는 다음과 같습니다: MyPodify 쇼케이스
문서를 팟캐스트로 변환하는 것은 텍스트 음성 변환 엔진을 통해 텍스트를 실행하는 것만큼 간단하지 않습니다. 원활한 사용자 경험을 유지하면서 세심한 처리, 자연어 이해, 다양한 문서 형식을 처리하는 능력이 필요합니다. 시스템은 다음을 수행해야 합니다.
주요 구성 요소를 분석하고 이들이 어떻게 함께 작동하는지 살펴보겠습니다.
FastAPI는 몇 가지 설득력 있는 이유로 선택된 백엔드 프레임워크 역할을 합니다.
업로드 엔드포인트에 대한 자세한 내용은 다음과 같습니다.
@app.post('/upload') async def upload_files( token: Annotated[ParsedToken, Depends(verify_firebase_token)], project_name: str, description: str, website_link: str, host_count: int, files: Optional[List[UploadFile]] = File(None) ): # Validate token user_id = token['uid'] # Generate unique identifiers project_id = str(uuid.uuid4()) podcast_id = str(uuid.uuid4()) # Process and store files file_urls = await process_uploads(files, user_id, project_id) # Create Firestore document await create_project_document(user_id, project_id, { 'status': 'pending', 'created_at': datetime.now(), 'project_name': project_name, 'description': description, 'file_urls': file_urls }) # Trigger async processing await publish_to_pubsub(user_id, project_id, podcast_id, file_urls) return {'project_id': project_id, 'status': 'processing'}
Firebase는 애플리케이션에 두 가지 중요한 서비스를 제공합니다.
실시간 상태 업데이트를 구현하는 방법은 다음과 같습니다.
async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None): doc_ref = db.collection('projects').document(f'{user_id}/{project_id}') update_data = { 'status': status, 'updated_at': datetime.now() } if metadata: update_data.update(metadata) await doc_ref.update(update_data)
Pub/Sub는 메시징 백본 역할을 하며 다음을 수행합니다.
메시지 구조 예:
@app.post('/upload') async def upload_files( token: Annotated[ParsedToken, Depends(verify_firebase_token)], project_name: str, description: str, website_link: str, host_count: int, files: Optional[List[UploadFile]] = File(None) ): # Validate token user_id = token['uid'] # Generate unique identifiers project_id = str(uuid.uuid4()) podcast_id = str(uuid.uuid4()) # Process and store files file_urls = await process_uploads(files, user_id, project_id) # Create Firestore document await create_project_document(user_id, project_id, { 'status': 'pending', 'created_at': datetime.now(), 'project_name': project_name, 'description': description, 'file_urls': file_urls }) # Trigger async processing await publish_to_pubsub(user_id, project_id, podcast_id, file_urls) return {'project_id': project_id, 'status': 'processing'}
오디오 생성의 핵심은 Azure의 Cognitive Services Speech SDK를 사용합니다. 자연스러운 음성 합성을 구현하는 방법을 살펴보겠습니다.
async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None): doc_ref = db.collection('projects').document(f'{user_id}/{project_id}') update_data = { 'status': status, 'updated_at': datetime.now() } if metadata: update_data.update(metadata) await doc_ref.update(update_data)
저희 시스템의 독특한 기능 중 하나는 AI를 사용하여 다중 음성 팟캐스트를 생성하는 기능입니다. 다양한 호스트에 대한 스크립트 생성을 처리하는 방법은 다음과 같습니다.
{ 'user_id': 'uid_123', 'project_id': 'proj_456', 'podcast_id': 'pod_789', 'file_urls': ['gs://bucket/file1.pdf'], 'description': 'Technical blog post about cloud architecture', 'host_count': 2, 'action': 'CREATE_PROJECT' }
음성 합성의 경우 다양한 화자를 특정 Azure 음성에 매핑합니다.
import azure.cognitiveservices.speech as speechsdk from pathlib import Path class SpeechGenerator: def __init__(self): self.speech_config = speechsdk.SpeechConfig( subscription=os.getenv("AZURE_SPEECH_KEY"), region=os.getenv("AZURE_SPEECH_REGION") ) async def create_speech_segment(self, text, voice, output_file): try: self.speech_config.speech_synthesis_voice_name = voice synthesizer = speechsdk.SpeechSynthesizer( speech_config=self.speech_config, audio_config=None ) # Generate speech from text result = synthesizer.speak_text_async(text).get() if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted: with open(output_file, "wb") as audio_file: audio_file.write(result.audio_data) return True return False except Exception as e: logger.error(f"Speech synthesis failed: {str(e)}") return False
작업자 구성 요소가 무거운 작업을 처리합니다.
문서 분석
콘텐츠 처리
오디오 생성
다음은 작업자 논리를 단순화한 보기입니다.
async def generate_podcast_script(outline: str, analysis: str, host_count: int): # System instructions for different podcast formats system_instructions = TWO_HOST_SYSTEM_PROMPT if host_count > 1 else ONE_HOST_SYSTEM_PROMPT # Example of how we structure the AI conversation if host_count > 1: script_format = """ **Alex**: "Hello and welcome to MyPodify! I'm your host Alex, joined by..." **Jane**: "Hi everyone! I'm Jane, and today we're diving into {topic}..." """ else: script_format = """ **Alex**: "Welcome to MyPodify! Today we're exploring {topic}..." """ # Generate the complete script using AI script = await generate_content_from_openai( content=f"{outline}\n\nContent Details:{analysis}", system_instructions=system_instructions, purpose="Podcast Script" ) return script
시스템은 포괄적인 오류 처리를 구현합니다.
재시도 논리
상태 추적
자원 정리
생산 부하를 처리하기 위해 몇 가지 최적화를 구현했습니다.
작업자 확장
스토리지 최적화
처리 최적화
시스템에는 포괄적인 모니터링이 포함됩니다.
@app.post('/upload') async def upload_files( token: Annotated[ParsedToken, Depends(verify_firebase_token)], project_name: str, description: str, website_link: str, host_count: int, files: Optional[List[UploadFile]] = File(None) ): # Validate token user_id = token['uid'] # Generate unique identifiers project_id = str(uuid.uuid4()) podcast_id = str(uuid.uuid4()) # Process and store files file_urls = await process_uploads(files, user_id, project_id) # Create Firestore document await create_project_document(user_id, project_id, { 'status': 'pending', 'created_at': datetime.now(), 'project_name': project_name, 'description': description, 'file_urls': file_urls }) # Trigger async processing await publish_to_pubsub(user_id, project_id, podcast_id, file_urls) return {'project_id': project_id, 'status': 'processing'}
현재 시스템은 잘 작동하지만 향후 개선을 위한 몇 가지 흥미로운 가능성이 있습니다.
향상된 오디오 처리
콘텐츠 강화
플랫폼 통합
문서-팟캐스트 변환기를 구축하는 것은 현대 클라우드 아키텍처로의 흥미로운 여정이었습니다. FastAPI, Firebase, Google Cloud Pub/Sub 및 Azure의 Text-to-Speech 서비스의 조합은 복잡한 문서 처리를 대규모로 처리하기 위한 강력한 기반을 제공합니다.
이벤트 기반 아키텍처는 로드 시에도 시스템의 응답성을 유지하는 동시에 관리형 서비스를 사용하여 운영 오버헤드를 줄여줍니다. 유사한 시스템을 구축하든, 클라우드 기반 아키텍처를 탐색하든 관계없이 이 심층 분석이 확장 가능하고 프로덕션에 즉시 사용 가능한 애플리케이션을 구축하는 데 귀중한 통찰력을 제공했기를 바랍니다.
클라우드 아키텍처와 최신 애플리케이션 개발에 대해 더 자세히 알고 싶으십니까? 더 기술적이고 실용적인 튜토리얼을 보려면 저를 팔로우하세요.
위 내용은 나만의 Google NotebookLM을 구축하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!