首頁 >後端開發 >Python教學 >綜合 LuxDevHQ 資料工程課程指南

綜合 LuxDevHQ 資料工程課程指南

Linda Hamilton
Linda Hamilton原創
2025-01-21 22:11:14624瀏覽

Comprehensive LuxDevHQ Data Engineering Course Guide

這個為期 16 週(4 個月)的密集資料工程訓練營提供 Python、SQL、雲端平台(Azure 和 AWS)、Apache Airflow、Kafka、Spark 等方面的全面培訓。

時間表:

  • 週一至週四:講座和實作練習。
  • 星期五:產業指導或協作同儕專案。
  • 週六:專門的實驗室課程和基於專案的學習。

模組 1:資料工程基礎(第 1-4 週)

第 1 週:入門與設定

  • 週一:歡迎,課程概述、職業道路、工具介紹。
  • 星期二:雲端運算概述(Azure 和 AWS)。
  • 週三:資料治理、安全性和合規性。
  • 星期四: SQL 基礎知識和 PostgreSQL 設定。
  • 星期五:同儕專案:環境設定挑戰。
  • 週六(實驗室):迷你專案:使用 PostgreSQL 和 Azure Blob 儲存的基本管道。

第 2 週:掌握 SQL

  • 星期一:核心 SQL(SELECT、WHERE、JOIN、GROUP BY)。
  • 星期二:進階 SQL(遞迴查詢、視窗函數、CTE)。
  • 星期三:查詢最佳化和執行計畫。
  • 星期四:資料建模(標準化、非規範化、星型模式)。
  • 星期五:作業見習:觀察 SQL 查詢最佳化技術。
  • 週六(實驗室):迷你專案:星型模式設計和基於 SQL 的資料分析。

第 3 週:資料管道介紹

  • 週一: ETL/ELT 工作流程理論。
  • 星期二:實驗室:基於 Python 的 CSV 資料 ETL 管道。
  • 週三: ETL 最佳實務。
  • 星期四:實驗室:用於批量資料處理的 Python ETL 管道。
  • 星期五:同儕專案:協作 ETL 工作流程設計。
  • 週六(實驗室):迷你專案:用於銷售資料處理的 ETL 管道。

第 4 週:Apache Airflow 基礎

  • 週一: Apache Airflow、DAG 和調度簡介。
  • 星期二:實驗室:設定和建立基本的 Airflow DAG。
  • 週三: Airflow DAG 最佳實踐和調度。
  • 星期四:實驗室:將 Airflow 與 PostgreSQL 和 Azure Blob 儲存體整合。
  • 星期五:工作見習:真實世界的氣流管道觀察。
  • 週六(實驗室):迷你專案:使用 Airflow 自動化 ETL 管道。

模組 2:中級技能(第 5-8 週)

第 5 週:資料倉儲與湖

  • 週一:資料倉儲(OLAP 與 OLTP、分割區、叢集)。
  • 星期二:實驗室:使用 Amazon Redshift 和 Snowflake。
  • 週三:資料湖和 Lakehouse 架構。
  • 星期四:實驗室:設定 Delta Lake。
  • 星期五:同業專案:實作資料倉儲與資料湖模型。
  • 週六(實驗室):迷你專案:設計和實現基本的 Lakehouse 架構。

第 6 週:資料治理與安全

  • 週一:資料治理架構與安全原則。
  • 星期二:實驗室:使用 AWS Lake Formation 進行存取控制。
  • 週三:管理敏感資料和合規性(GDPR、HIPAA)。
  • 星期四:實驗室:在 S3 和 Azure Blob 儲存體中實作安全性策略。
  • 星期五:工作見習:觀察治理政策的應用。
  • 週六(實驗室):迷你專案:使用 AWS 和 Azure 保護雲端資料。

第 7 週:使用 Kafka 處理即時資料

  • 週一:介紹用於即時資料流的 Apache Kafka。
  • 星期二:實驗室:設定 Kafka 生產者和消費者。
  • 週三: Kafka 主題、分區和訊息代理。
  • 星期四:實驗室:將 Kafka 與 PostgreSQL 整合以實現即時更新。
  • 星期五:同儕專案:建立即時 Kafka 管道。
  • 週六(實驗室):迷你專案:使用 Kafka 串流電子商務資料。

第 8 週:批次與流處理

  • 週一:批次與流處理比較。
  • 星期二:實驗室:使用 PySpark 進行批次處理。
  • 星期三:結合批次和流程處理工作流程。
  • 星期四:實驗室:使用 Apache Flink 和 Spark Streaming 進行即時處理。
  • 星期五:工作觀摩:觀察即時處理管道。
  • 週六(實驗室):迷你專案:建造混合批量/即時管道。

模組 3:進階資料工程(第 9-12 週)

第 9 週:資料管道中的 ML 整合

  • 週一:資料工程中的 ML 工作流程概述。
  • 星期二:實驗室:使用 Pandas 和 PySpark 進行 ML 資料預處理。
  • 星期三:特徵工程和自動特徵提取。
  • 星期四:實驗室:使用 Apache Airflow 自動擷取特徵。
  • 星期五:同儕專案:建立整合 ML 模型的管道。
  • 週六(實驗室):迷你專案:建構基於 ML 的推薦系統。

第 10 週:用於大數據的 Spark 和 PySpark

  • 週一: Apache Spark 簡介。
  • 星期二:實驗室:設定 Spark 和 PySpark。
  • 星期三: Spark RDD、DataFrame 和 SQL。
  • 星期四:實驗室:使用 Spark SQL 分析大型資料集。
  • 星期五:同儕專案:建立用於大規模資料處理的 PySpark 管道。
  • 週六(實驗室):迷你專案:使用 Spark 和 PySpark 分析大資料集。

第 11 週:進階 Apache Airflow

  • 週一:進階 Airflow 功能(XCom、任務依賴性)。
  • 星期二:實驗室:實現動態 DAG 與任務相依性。
  • 星期三:氣流調度、監控和錯誤處理。
  • 星期四:實驗室:為多步驟 ETL 管道建立複雜的 DAG。
  • 星期五:工作見習:觀察先進的 Airflow 管道實現。
  • 週六(實驗室):迷你專案:設計先進的 Airflow DAG。

第 12 週:資料湖和 Delta Lake

  • 週一:資料湖、Lakehouses 和 Delta Lake 架構。
  • 星期二:實驗室:在 AWS 上設定 Delta Lake。
  • 星期三:管理 Delta Lake 中的模式演變。
  • 星期四:實驗室:實現批量即時資料載入到 Delta Lake。
  • 星期五:同儕計畫:設計湖屋建築。
  • 週六(實驗室):迷你專案:實現可擴展的 Delta Lake 架構。

模組 4:頂點專案(第 13-16 週)

第 13-16 週:Capstone 專案開發與展示

這幾週的重點是開發和展示兩個主要的頂點專案:批量資料管道(電子商務銷售分析)和即時資料管道(物聯網感測器監控),最終形成展示這兩個專案的整合解決方案。 最後一周包括向行業專業人士和講師進行專案演示。

以上是綜合 LuxDevHQ 資料工程課程指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn