>백엔드 개발 >파이썬 튜토리얼 >종합적인 LuxDevHQ 데이터 엔지니어링 코스 가이드

종합적인 LuxDevHQ 데이터 엔지니어링 코스 가이드

Linda Hamilton
Linda Hamilton원래의
2025-01-21 22:11:14621검색

Comprehensive LuxDevHQ Data Engineering Course Guide

이 집중 16주(4개월) 데이터 엔지니어링 부트 캠프는 Python, SQL, 클라우드 플랫폼(Azure 및 AWS), Apache Airflow, Kafka, Spark 등에 대한 포괄적인 교육을 제공합니다.

일정:

  • 월요일~목요일: 강의 및 실습
  • 금요일: 업계 멘토십 또는 동료 공동 프로젝트
  • 토요일: 전용 랩 세션 및 프로젝트 기반 학습

모듈 1: 데이터 엔지니어링 기초(1~4주)

1주 차: 온보딩 및 설정

  • 월요일: 환영합니다. 과정 개요, 진로, 도구 소개
  • 화요일: 클라우드 컴퓨팅 개요(Azure 및 AWS).
  • 수요일: 데이터 거버넌스, 보안 및 규정 준수
  • 목요일: SQL 기초 및 PostgreSQL 설정
  • 금요일: 동료 프로젝트: 환경 설정 과제
  • 토요일(실험실): 미니 프로젝트: PostgreSQL 및 Azure Blob Storage를 사용한 기본 파이프라인

2주차: SQL 마스터하기

  • 월요일: 핵심 SQL(SELECT, WHERE, JOIN, GROUP BY).
  • 화요일: 고급 SQL(재귀 쿼리, 창 함수, CTE).
  • 수요일: 쿼리 최적화 및 실행 계획
  • 목요일: 데이터 모델링(정규화, 비정규화, 별형 스키마)
  • 금요일: Job Shadowing: SQL 쿼리 최적화 기술 관찰
  • 토요일(실험실): 미니 프로젝트: 스타 스키마 설계 및 SQL 기반 데이터 분석

3주 차: 데이터 파이프라인 소개

  • 월요일: ETL/ELT 워크플로우 이론
  • 화요일: 실습: CSV 데이터를 위한 Python 기반 ETL 파이프라인
  • 수요일: ETL 모범 사례
  • 목요일: 실습: 일괄 데이터 처리를 위한 Python ETL 파이프라인
  • 금요일: 피어 프로젝트: 협업 ETL 워크플로우 설계
  • 토요일(실험실): 미니 프로젝트: 영업 데이터 처리를 위한 ETL 파이프라인

4주차: Apache Airflow 기초

  • 월요일: Apache Airflow, DAG 및 예약 소개
  • 화요일: 실습: 기본 Airflow DAG 설정 및 생성
  • 수요일: Airflow DAG 모범 사례 및 예약
  • 목요일: 실습: PostgreSQL 및 Azure Blob Storage와 Airflow 통합
  • 금요일: 직업 체험: 실제 Airflow 파이프라인 관찰
  • 토요일(실험실): 미니 프로젝트: Airflow를 사용한 ETL 파이프라인 자동화

모듈 2: 중급 기술(5~8주차)

5주차: 데이터 웨어하우징 및 레이크

  • 월요일: 데이터 웨어하우징(OLAP 대 OLTP, 파티셔닝, 클러스터링)
  • 화요일: 실습: Amazon Redshift 및 Snowflake 작업
  • 수요일: 데이터 레이크 및 레이크하우스 아키텍처
  • 목요일: 실습: Delta Lake 설정
  • 금요일: 피어 프로젝트: 데이터 웨어하우스 및 데이터 레이크 모델 구현
  • 토요일(실험실): 미니 프로젝트: 기본 Lakehouse 아키텍처 설계 및 구현

6주차: 데이터 거버넌스 및 보안

  • 월요일: 데이터 거버넌스 프레임워크 및 보안 원칙
  • 화요일: 실습: 액세스 제어를 위해 AWS Lake Formation 사용
  • 수요일: 민감한 데이터 및 규정 준수 관리(GDPR, HIPAA)
  • 목요일: 실습: S3 및 Azure Blob Storage에서 보안 정책 구현
  • 금요일: 직업 체험: 거버넌스 정책 적용 관찰
  • 토요일(실험실): 미니 프로젝트: AWS와 Azure를 활용한 클라우드 데이터 보안

7주 차: Kafka를 사용한 실시간 데이터

  • 월요일: 실시간 데이터 스트리밍을 위한 Apache Kafka 소개
  • 화요일: 실습: Kafka 생산자와 소비자 설정
  • 수요일: Kafka 주제, 파티션 및 메시지 브로커
  • 목요일: 실습: 실시간 업데이트를 위해 Kafka를 PostgreSQL과 통합
  • 금요일: 피어 프로젝트: 실시간 Kafka 파이프라인 구축
  • 토요일(실험실): 미니 프로젝트: Kafka로 전자상거래 데이터 스트리밍

8주 차: 일괄 처리와 스트림 처리

  • 월요일: 일괄 처리와 스트림 처리 비교
  • 화요일: 실습: PySpark를 사용한 일괄 처리
  • 수요일: 일괄 처리 및 스트림 처리 워크플로 결합
  • 목요일: 실습: Apache Flink 및 Spark Streaming을 사용한 실시간 처리
  • 금요일: Job Shadowing: 실시간 처리 파이프라인 관찰
  • 토요일(실험실): 미니 프로젝트: 하이브리드 배치/실시간 파이프라인 구축

모듈 3: 고급 데이터 엔지니어링(9~12주)

9주차: 데이터 파이프라인의 ML 통합

  • 월요일: 데이터 엔지니어링의 ML 워크플로 개요
  • 화요일: 실습: Pandas 및 PySpark를 사용한 ML용 데이터 전처리
  • 수요일: 특성 추출 및 자동화된 특성 추출
  • 목요일: 실습: Apache Airflow를 사용하여 기능 추출 자동화
  • 금요일: 피어 프로젝트: ML 모델을 통합하는 파이프라인 구축
  • 토요일(실험실): 미니 프로젝트: ML 기반 추천 시스템 구축

10주 차: 빅 데이터를 위한 Spark 및 PySpark

  • 월요일: Apache Spark 소개
  • 화요일: 실습: Spark 및 PySpark 설정
  • 수요일: Spark RDD, DataFrames 및 SQL
  • 목요일: 실습: Spark SQL을 사용하여 대규모 데이터세트 분석
  • 금요일: 피어 프로젝트: 대규모 데이터 처리를 위한 PySpark 파이프라인 구축
  • 토요일(실험실): 미니 프로젝트: Spark 및 PySpark를 사용하여 대규모 데이터세트 분석

11주차: 고급 Apache Airflow

  • 월요일: 고급 Airflow 기능(XCom, 작업 종속성).
  • 화요일: 실습: 동적 DAG 및 작업 종속성 구현
  • 수요일: 공기 흐름 예약, 모니터링 및 오류 처리
  • 목요일: 실습: 다단계 ETL 파이프라인을 위한 복잡한 DAG 생성
  • 금요일: 직업 체험: 고급 Airflow 파이프라인 구현 관찰
  • 토요일(실험실): 미니 프로젝트: 고급 Airflow DAG 설계

12주차: 데이터 레이크 및 델타 레이크

  • 월요일: 데이터 레이크, 레이크하우스 및 Delta Lake 아키텍처
  • 화요일: 실습: AWS에서 Delta Lake 설정
  • 수요일: Delta Lake에서 스키마 진화를 관리합니다.
  • 목요일: 실습: Delta Lake에 일괄 및 실시간 데이터 로드 구현
  • 금요일: 동료 프로젝트: 레이크하우스 건축 설계
  • 토요일(실험실): 미니 프로젝트: 확장 가능한 Delta Lake 아키텍처 구현

모듈 4: 캡스톤 프로젝트(13~16주)

13~16주차: 캡스톤 프로젝트 개발 및 발표

이번 주에는 배치 데이터 파이프라인(전자상거래 판매 분석)과 실시간 데이터 파이프라인(IoT 센서 모니터링)이라는 두 가지 주요 캡스톤 프로젝트를 개발하고 발표하는 데 중점을 두고 두 가지를 모두 보여주는 통합 솔루션으로 마무리합니다. 마지막 주에는 업계 전문가와 강사를 대상으로 한 프로젝트 프리젠테이션이 진행됩니다.

위 내용은 종합적인 LuxDevHQ 데이터 엔지니어링 코스 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.