首页 >后端开发 >Python教程 >综合 LuxDevHQ 数据工程课程指南

综合 LuxDevHQ 数据工程课程指南

Linda Hamilton
Linda Hamilton原创
2025-01-21 22:11:14654浏览

Comprehensive LuxDevHQ Data Engineering Course Guide

这个为期 16 周(4 个月)的密集数据工程训练营提供 Python、SQL、云平台(Azure 和 AWS)、Apache Airflow、Kafka、Spark 等方面的全面培训。

时间表:

  • 周一至周四:讲座和实践练习。
  • 星期五:行业指导或协作同行项目。
  • 周六:专门的实验室课程和基于项目的学习。

模块 1:数据工程基础知识(第 1-4 周)

第 1 周:入门和设置

  • 周一:欢迎,课程概述、职业道路、工具介绍。
  • 星期二:云计算概述(Azure 和 AWS)。
  • 周三:数据治理、安全性和合规性。
  • 星期四: SQL 基础知识和 PostgreSQL 设置。
  • 星期五:同行项目:环境设置挑战。
  • 周六(实验室):迷你项目:使用 PostgreSQL 和 Azure Blob 存储的基本管道。

第 2 周:掌握 SQL

  • 星期一:核心 SQL(SELECT、WHERE、JOIN、GROUP BY)。
  • 星期二:高级 SQL(递归查询、窗口函数、CTE)。
  • 星期三:查询优化和执行计划。
  • 星期四:数据建模(规范化、非规范化、星型模式)。
  • 星期五:作业见习:观察 SQL 查询优化技术。
  • 周六(实验室):迷你项目:星型模式设计和基于 SQL 的数据分析。

第 3 周:数据管道介绍

  • 周一: ETL/ELT 工作流程理论。
  • 星期二:实验室:基于 Python 的 CSV 数据 ETL 管道。
  • 周三: ETL 最佳实践。
  • 星期四:实验室:用于批量数据处理的 Python ETL 管道。
  • 星期五:同行项目:协作 ETL 工作流程设计。
  • 周六(实验室):迷你项目:用于销售数据处理的 ETL 管道。

第 4 周:Apache Airflow 基础知识

  • 周一: Apache Airflow、DAG 和调度简介。
  • 星期二:实验室:设置和创建基本的 Airflow DAG。
  • 周三: Airflow DAG 最佳实践和调度。
  • 星期四:实验室:将 Airflow 与 PostgreSQL 和 Azure Blob 存储集成。
  • 星期五:工作见习:真实世界的气流管道观察。
  • 周六(实验室):迷你项目:使用 Airflow 自动化 ETL 管道。

模块 2:中级技能(第 5-8 周)

第 5 周:数据仓库和湖

  • 周一:数据仓库(OLAP 与 OLTP、分区、集群)。
  • 星期二:实验室:使用 Amazon Redshift 和 Snowflake。
  • 周三:数据湖和 Lakehouse 架构。
  • 星期四:实验室:设置 Delta Lake。
  • 星期五:同行项目:实现数据仓库和数据湖模型。
  • 周六(实验室):迷你项目:设计和实现基本的 Lakehouse 架构。

第 6 周:数据治理与安全

  • 周一:数据治理框架和安全原则。
  • 星期二:实验室:使用 AWS Lake Formation 进行访问控制。
  • 周三:管理敏感数据和合规性(GDPR、HIPAA)。
  • 星期四:实验室:在 S3 和 Azure Blob 存储中实施安全策略。
  • 星期五:工作见习:观察治理政策的应用。
  • 周六(实验室):迷你项目:使用 AWS 和 Azure 保护云数据。

第 7 周:使用 Kafka 处理实时数据

  • 周一:介绍用于实时数据流的 Apache Kafka。
  • 星期二:实验室:设置 Kafka 生产者和消费者。
  • 周三: Kafka 主题、分区和消息代理。
  • 星期四:实验室:将 Kafka 与 PostgreSQL 集成以实现实时更新。
  • 星期五:同行项目:构建实时 Kafka 管道。
  • 周六(实验室):迷你项目:使用 Kafka 流式传输电子商务数据。

第 8 周:批处理与流处理

  • 周一:批处理与流处理比较。
  • 星期二:实验室:使用 PySpark 进行批处理。
  • 星期三:结合批处理和流处理工作流程。
  • 星期四:实验室:使用 Apache Flink 和 Spark Streaming 进行实时处理。
  • 星期五:工作观摩:观察实时处理管道。
  • 周六(实验室):迷你项目:构建混合批量/实时管道。

模块 3:高级数据工程(第 9-12 周)

第 9 周:数据管道中的 ML 集成

  • 周一:数据工程中的 ML 工作流程概述。
  • 星期二:实验室:使用 Pandas 和 PySpark 进行 ML 数据预处理。
  • 星期三:特征工程和自动特征提取。
  • 星期四:实验室:使用 Apache Airflow 自动提取特征。
  • 星期五:同行项目:构建集成 ML 模型的管道。
  • 周六(实验室):迷你项目:构建基于 ML 的推荐系统。

第 10 周:用于大数据的 Spark 和 PySpark

  • 周一: Apache Spark 简介。
  • 星期二:实验室:设置 Spark 和 PySpark。
  • 星期三: Spark RDD、DataFrame 和 SQL。
  • 星期四:实验室:使用 Spark SQL 分析大型数据集。
  • 星期五:同行项目:构建用于大规模数据处理的 PySpark 管道。
  • 周六(实验室):迷你项目:使用 Spark 和 PySpark 分析大数据集。

第 11 周:高级 Apache Airflow

  • 周一:高级 Airflow 功能(XCom、任务依赖性)。
  • 星期二:实验室:实现动态 DAG 和任务依赖关系。
  • 星期三:气流调度、监控和错误处理。
  • 星期四:实验室:为多步骤 ETL 管道创建复杂的 DAG。
  • 星期五:工作见习:观察先进的 Airflow 管道实现。
  • 周六(实验室):迷你项目:设计先进的 Airflow DAG。

第 12 周:数据湖和 Delta Lake

  • 周一:数据湖、Lakehouses 和 Delta Lake 架构。
  • 星期二:实验室:在 AWS 上设置 Delta Lake。
  • 星期三:管理 Delta Lake 中的模式演变。
  • 星期四:实验室:实现批量实时数据加载到 Delta Lake。
  • 星期五:同行项目:设计湖屋建筑。
  • 周六(实验室):迷你项目:实现可扩展的 Delta Lake 架构。

模块 4:顶点项目(第 13-16 周)

第 13-16 周:Capstone 项目开发和演示

这几周的重点是开发和展示两个主要的顶点项目:批量数据管道(电子商务销售分析)和实时数据管道(物联网传感器监控),最终形成展示这两个项目的集成解决方案。 最后一周包括向行业专业人士和讲师进行项目演示。

以上是综合 LuxDevHQ 数据工程课程指南的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn