首页 >后端开发 >Python教程 >综合 LuxDevHQ 数据工程课程指南

综合 LuxDevHQ 数据工程课程指南

Linda Hamilton原创: 2025-01-21 22:11:14691浏览

Comprehensive LuxDevHQ Data Engineering Course Guide

这个为期 16 周（4 个月）的密集数据工程训练营提供 Python、SQL、云平台（Azure 和 AWS）、Apache Airflow、Kafka、Spark 等方面的全面培训。

时间表：

周一至周四：讲座和实践练习。
星期五：行业指导或协作同行项目。
周六：专门的实验室课程和基于项目的学习。

模块 1：数据工程基础知识（第 1-4 周）

第 1 周：入门和设置

周一：欢迎，课程概述、职业道路、工具介绍。
星期二：云计算概述（Azure 和 AWS）。
周三：数据治理、安全性和合规性。
星期四： SQL 基础知识和 PostgreSQL 设置。
星期五：同行项目：环境设置挑战。
周六（实验室）：迷你项目：使用 PostgreSQL 和 Azure Blob 存储的基本管道。

第 2 周：掌握 SQL

星期一：核心 SQL（SELECT、WHERE、JOIN、GROUP BY）。
星期二：高级 SQL（递归查询、窗口函数、CTE）。
星期三：查询优化和执行计划。
星期四：数据建模（规范化、非规范化、星型模式）。
星期五：作业见习：观察 SQL 查询优化技术。
周六（实验室）：迷你项目：星型模式设计和基于 SQL 的数据分析。

第 3 周：数据管道介绍

周一： ETL/ELT 工作流程理论。
星期二：实验室：基于 Python 的 CSV 数据 ETL 管道。
周三： ETL 最佳实践。
星期四：实验室：用于批量数据处理的 Python ETL 管道。
星期五：同行项目：协作 ETL 工作流程设计。
周六（实验室）：迷你项目：用于销售数据处理的 ETL 管道。

第 4 周：Apache Airflow 基础知识

周一： Apache Airflow、DAG 和调度简介。
星期二：实验室：设置和创建基本的 Airflow DAG。
周三： Airflow DAG 最佳实践和调度。
星期四：实验室：将 Airflow 与 PostgreSQL 和 Azure Blob 存储集成。
星期五：工作见习：真实世界的气流管道观察。
周六（实验室）：迷你项目：使用 Airflow 自动化 ETL 管道。

模块 2：中级技能（第 5-8 周）

第 5 周：数据仓库和湖

周一：数据仓库（OLAP 与 OLTP、分区、集群）。
星期二：实验室：使用 Amazon Redshift 和 Snowflake。
周三：数据湖和 Lakehouse 架构。
星期四：实验室：设置 Delta Lake。
星期五：同行项目：实现数据仓库和数据湖模型。
周六（实验室）：迷你项目：设计和实现基本的 Lakehouse 架构。

第 6 周：数据治理与安全

周一：数据治理框架和安全原则。
星期二：实验室：使用 AWS Lake Formation 进行访问控制。
周三：管理敏感数据和合规性（GDPR、HIPAA）。
星期四：实验室：在 S3 和 Azure Blob 存储中实施安全策略。
星期五：工作见习：观察治理政策的应用。
周六（实验室）：迷你项目：使用 AWS 和 Azure 保护云数据。

第 7 周：使用 Kafka 处理实时数据

周一：介绍用于实时数据流的 Apache Kafka。
星期二：实验室：设置 Kafka 生产者和消费者。
周三： Kafka 主题、分区和消息代理。
星期四：实验室：将 Kafka 与 PostgreSQL 集成以实现实时更新。
星期五：同行项目：构建实时 Kafka 管道。
周六（实验室）：迷你项目：使用 Kafka 流式传输电子商务数据。

第 8 周：批处理与流处理

周一：批处理与流处理比较。
星期二：实验室：使用 PySpark 进行批处理。
星期三：结合批处理和流处理工作流程。
星期四：实验室：使用 Apache Flink 和 Spark Streaming 进行实时处理。
星期五：工作观摩：观察实时处理管道。
周六（实验室）：迷你项目：构建混合批量/实时管道。

模块 3：高级数据工程（第 9-12 周）

第 9 周：数据管道中的 ML 集成

周一：数据工程中的 ML 工作流程概述。
星期二：实验室：使用 Pandas 和 PySpark 进行 ML 数据预处理。
星期三：特征工程和自动特征提取。
星期四：实验室：使用 Apache Airflow 自动提取特征。
星期五：同行项目：构建集成 ML 模型的管道。
周六（实验室）：迷你项目：构建基于 ML 的推荐系统。

第 10 周：用于大数据的 Spark 和 PySpark

周一： Apache Spark 简介。
星期二：实验室：设置 Spark 和 PySpark。
星期三： Spark RDD、DataFrame 和 SQL。
星期四：实验室：使用 Spark SQL 分析大型数据集。
星期五：同行项目：构建用于大规模数据处理的 PySpark 管道。
周六（实验室）：迷你项目：使用 Spark 和 PySpark 分析大数据集。

第 11 周：高级 Apache Airflow

周一：高级 Airflow 功能（XCom、任务依赖性）。
星期二：实验室：实现动态 DAG 和任务依赖关系。
星期三：气流调度、监控和错误处理。
星期四：实验室：为多步骤 ETL 管道创建复杂的 DAG。
星期五：工作见习：观察先进的 Airflow 管道实现。
周六（实验室）：迷你项目：设计先进的 Airflow DAG。

第 12 周：数据湖和 Delta Lake

周一：数据湖、Lakehouses 和 Delta Lake 架构。
星期二：实验室：在 AWS 上设置 Delta Lake。
星期三：管理 Delta Lake 中的模式演变。
星期四：实验室：实现批量实时数据加载到 Delta Lake。
星期五：同行项目：设计湖屋建筑。
周六（实验室）：迷你项目：实现可扩展的 Delta Lake 架构。

模块 4：顶点项目（第 13-16 周）

第 13-16 周：Capstone 项目开发和演示

这几周的重点是开发和展示两个主要的顶点项目：批量数据管道（电子商务销售分析）和实时数据管道（物联网传感器监控），最终形成展示这两个项目的集成解决方案。最后一周包括向行业专业人士和讲师进行项目演示。

以上是综合 LuxDevHQ 数据工程课程指南的详细内容。更多信息请关注PHP中文网其他相关文章！

Python batch sql pandas kafka for select Error using this spark big data flink postgresql etl apache iot azure Access

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：ost Used Programming Languages in 4下一篇：Building an NBA Stats Pipeline with AWS, Python, and DynamoDB

相关文章

查看更多