这个为期 16 周(4 个月)的密集数据工程训练营提供 Python、SQL、云平台(Azure 和 AWS)、Apache Airflow、Kafka、Spark 等方面的全面培训。
时间表:
-
周一至周四:讲座和实践练习。
-
星期五:行业指导或协作同行项目。
-
周六:专门的实验室课程和基于项目的学习。
模块 1:数据工程基础知识(第 1-4 周)
第 1 周:入门和设置
-
周一:欢迎,课程概述、职业道路、工具介绍。
-
星期二:云计算概述(Azure 和 AWS)。
-
周三:数据治理、安全性和合规性。
-
星期四: SQL 基础知识和 PostgreSQL 设置。
-
星期五:同行项目:环境设置挑战。
-
周六(实验室):迷你项目:使用 PostgreSQL 和 Azure Blob 存储的基本管道。
第 2 周:掌握 SQL
-
星期一:核心 SQL(SELECT、WHERE、JOIN、GROUP BY)。
-
星期二:高级 SQL(递归查询、窗口函数、CTE)。
-
星期三:查询优化和执行计划。
-
星期四:数据建模(规范化、非规范化、星型模式)。
-
星期五:作业见习:观察 SQL 查询优化技术。
-
周六(实验室):迷你项目:星型模式设计和基于 SQL 的数据分析。
第 3 周:数据管道介绍
-
周一: ETL/ELT 工作流程理论。
-
星期二:实验室:基于 Python 的 CSV 数据 ETL 管道。
-
周三: ETL 最佳实践。
-
星期四:实验室:用于批量数据处理的 Python ETL 管道。
-
星期五:同行项目:协作 ETL 工作流程设计。
-
周六(实验室):迷你项目:用于销售数据处理的 ETL 管道。
第 4 周:Apache Airflow 基础知识
-
周一: Apache Airflow、DAG 和调度简介。
-
星期二:实验室:设置和创建基本的 Airflow DAG。
-
周三: Airflow DAG 最佳实践和调度。
-
星期四:实验室:将 Airflow 与 PostgreSQL 和 Azure Blob 存储集成。
-
星期五:工作见习:真实世界的气流管道观察。
-
周六(实验室):迷你项目:使用 Airflow 自动化 ETL 管道。
模块 2:中级技能(第 5-8 周)
第 5 周:数据仓库和湖
-
周一:数据仓库(OLAP 与 OLTP、分区、集群)。
-
星期二:实验室:使用 Amazon Redshift 和 Snowflake。
-
周三:数据湖和 Lakehouse 架构。
-
星期四:实验室:设置 Delta Lake。
-
星期五:同行项目:实现数据仓库和数据湖模型。
-
周六(实验室):迷你项目:设计和实现基本的 Lakehouse 架构。
第 6 周:数据治理与安全
-
周一:数据治理框架和安全原则。
-
星期二:实验室:使用 AWS Lake Formation 进行访问控制。
-
周三:管理敏感数据和合规性(GDPR、HIPAA)。
-
星期四:实验室:在 S3 和 Azure Blob 存储中实施安全策略。
-
星期五:工作见习:观察治理政策的应用。
-
周六(实验室):迷你项目:使用 AWS 和 Azure 保护云数据。
第 7 周:使用 Kafka 处理实时数据
-
周一:介绍用于实时数据流的 Apache Kafka。
-
星期二:实验室:设置 Kafka 生产者和消费者。
-
周三: Kafka 主题、分区和消息代理。
-
星期四:实验室:将 Kafka 与 PostgreSQL 集成以实现实时更新。
-
星期五:同行项目:构建实时 Kafka 管道。
-
周六(实验室):迷你项目:使用 Kafka 流式传输电子商务数据。
第 8 周:批处理与流处理
-
周一:批处理与流处理比较。
-
星期二:实验室:使用 PySpark 进行批处理。
-
星期三:结合批处理和流处理工作流程。
-
星期四:实验室:使用 Apache Flink 和 Spark Streaming 进行实时处理。
-
星期五:工作观摩:观察实时处理管道。
-
周六(实验室):迷你项目:构建混合批量/实时管道。
模块 3:高级数据工程(第 9-12 周)
第 9 周:数据管道中的 ML 集成
-
周一:数据工程中的 ML 工作流程概述。
-
星期二:实验室:使用 Pandas 和 PySpark 进行 ML 数据预处理。
-
星期三:特征工程和自动特征提取。
-
星期四:实验室:使用 Apache Airflow 自动提取特征。
-
星期五:同行项目:构建集成 ML 模型的管道。
-
周六(实验室):迷你项目:构建基于 ML 的推荐系统。
第 10 周:用于大数据的 Spark 和 PySpark
-
周一: Apache Spark 简介。
-
星期二:实验室:设置 Spark 和 PySpark。
-
星期三: Spark RDD、DataFrame 和 SQL。
-
星期四:实验室:使用 Spark SQL 分析大型数据集。
-
星期五:同行项目:构建用于大规模数据处理的 PySpark 管道。
-
周六(实验室):迷你项目:使用 Spark 和 PySpark 分析大数据集。
第 11 周:高级 Apache Airflow
-
周一:高级 Airflow 功能(XCom、任务依赖性)。
-
星期二:实验室:实现动态 DAG 和任务依赖关系。
-
星期三:气流调度、监控和错误处理。
-
星期四:实验室:为多步骤 ETL 管道创建复杂的 DAG。
-
星期五:工作见习:观察先进的 Airflow 管道实现。
-
周六(实验室):迷你项目:设计先进的 Airflow DAG。
第 12 周:数据湖和 Delta Lake
-
周一:数据湖、Lakehouses 和 Delta Lake 架构。
-
星期二:实验室:在 AWS 上设置 Delta Lake。
-
星期三:管理 Delta Lake 中的模式演变。
-
星期四:实验室:实现批量实时数据加载到 Delta Lake。
-
星期五:同行项目:设计湖屋建筑。
-
周六(实验室):迷你项目:实现可扩展的 Delta Lake 架构。
模块 4:顶点项目(第 13-16 周)
第 13-16 周:Capstone 项目开发和演示
这几周的重点是开发和展示两个主要的顶点项目:批量数据管道(电子商务销售分析)和实时数据管道(物联网传感器监控),最终形成展示这两个项目的集成解决方案。 最后一周包括向行业专业人士和讲师进行项目演示。
以上是综合 LuxDevHQ 数据工程课程指南的详细内容。更多信息请关注PHP中文网其他相关文章!