ホームページ >バックエンド開発 >Python チュートリアル >包括的な LuxDevHQ データ エンジニアリング コース ガイド

包括的な LuxDevHQ データ エンジニアリング コース ガイド

Linda Hamilton
Linda Hamiltonオリジナル
2025-01-21 22:11:14624ブラウズ

Comprehensive LuxDevHQ Data Engineering Course Guide

この 16 週間 (4 か月) の集中的なデータ エンジニアリング ブートキャンプでは、Python、SQL、クラウド プラットフォーム (Azure および AWS)、Apache Airflow、Kafka、Spark などに関する包括的なトレーニングを提供します。

スケジュール:

  • 月曜日~木曜日: 講義と実践演習。
  • 金曜日: 業界の指導または協力的な同業者プロジェクト。
  • 土曜日: 専用のラボ セッションとプロジェクト ベースの学習。

モジュール 1: データ エンジニアリングの基礎 (第 1 ~ 4 週)

第 1 週: オンボーディングとセットアップ

  • 月曜日: ようこそ。コースの概要、キャリアパス、ツールの紹介。
  • 火曜日: クラウド コンピューティングの概要 (Azure と AWS)。
  • 水曜日: データ ガバナンス、セキュリティ、コンプライアンス。
  • 木曜日: SQL の基礎と PostgreSQL のセットアップ。
  • 金曜日: ピア プロジェクト: 環境セットアップの課題。
  • 土曜日 (ラボ): ミニプロジェクト: PostgreSQL と Azure Blob Storage を使用した基本的なパイプライン。

第 2 週: SQL をマスターする

  • 月曜日: コア SQL (SELECT、WHERE、JOIN、GROUP BY)。
  • 火曜日: 高度な SQL (再帰クエリ、ウィンドウ関数、CTE)。
  • 水曜日: クエリの最適化と実行プラン。
  • 木曜日: データ モデリング (正規化、非正規化、スター スキーマ)。
  • 金曜日: ジョブ シャドウイング: SQL クエリ最適化手法を観察します。
  • 土曜日 (研究室): ミニプロジェクト: スター スキーマの設計と SQL ベースのデータ分析。

第 3 週: データ パイプラインの概要

  • 月曜日: ETL/ELT ワークフロー理論。
  • 火曜日: ラボ: CSV データ用の Python ベースの ETL パイプライン。
  • 水曜日: ETL のベスト プラクティス。
  • 木曜日: ラボ: バッチ データ処理のための Python ETL パイプライン。
  • 金曜日: ピア プロジェクト: 共同 ETL ワークフロー設計。
  • 土曜日 (ラボ): ミニプロジェクト: 販売データ処理のための ETL パイプライン。

第 4 週: Apache Airflow の基礎

  • 月曜日: Apache Airflow、DAG、およびスケジューリングの概要。
  • 火曜日: ラボ: 基本的な Airflow DAG のセットアップと作成。
  • 水曜日: Airflow DAG のベスト プラクティスとスケジュール。
  • 木曜日: ラボ: Airflow と PostgreSQL および Azure Blob Storage の統合。
  • 金曜日: ジョブ シャドウイング: 現実世界の Airflow パイプライン観察。
  • 土曜日 (ラボ): ミニプロジェクト: Airflow を使用して ETL パイプラインを自動化します。

モジュール 2: 中級スキル (5 ~ 8 週目)

第 5 週: データ ウェアハウジングとレイク

  • 月曜日: データ ウェアハウジング (OLAP と OLTP、パーティショニング、クラスタリング)。
  • 火曜日: ラボ: Amazon Redshift と Snowflake の使用。
  • 水曜日: データ レイクとレイクハウス アーキテクチャ。
  • 木曜日: ラボ: デルタ湖のセットアップ
  • 金曜日: ピア プロジェクト: データ ウェアハウスとデータ レイク モデルの実装。
  • 土曜日 (ラボ): ミニプロジェクト: 基本的な Lakehouse アーキテクチャの設計と実装。

第 6 週: データ ガバナンスとセキュリティ

  • 月曜日: データ ガバナンスのフレームワークとセキュリティ原則。
  • 火曜日: ラボ: AWS Lake Formation を使用したアクセス制御。
  • 水曜日: 機密データとコンプライアンス (GDPR、HIPAA) の管理。
  • 木曜日: ラボ: S3 と Azure Blob Storage へのセキュリティ ポリシーの実装。
  • 金曜日: ジョブ シャドウイング: ガバナンス ポリシーの適用を観察します。
  • 土曜日 (ラボ): ミニプロジェクト: AWS と Azure を使用してクラウド データを保護します。

第 7 週: Kafka を使用したリアルタイム データ

  • 月曜日: リアルタイム データ ストリーミングのための Apache Kafka の紹介。
  • 火曜日: ラボ: Kafka プロデューサとコンシューマをセットアップする。
  • 水曜日: Kafka トピック、パーティション、メッセージ ブローカー。
  • 木曜日: ラボ: リアルタイム更新のための Kafka と PostgreSQL の統合。
  • 金曜日: ピア プロジェクト: リアルタイム Kafka パイプラインの構築。
  • 土曜日 (ラボ): ミニプロジェクト: Kafka を使用した e コマース データのストリーミング。

第 8 週: バッチ処理とストリーム処理

  • 月曜日: バッチ処理とストリーム処理の比較。
  • 火曜日: ラボ: PySpark によるバッチ処理。
  • 水曜日: バッチ処理ワークフローとストリーム処理ワークフローを組み合わせます。
  • 木曜日: ラボ: Apache Flink と Spark Streaming を使用したリアルタイム処理。
  • 金曜日: ジョブ シャドウイング: リアルタイム処理パイプラインを観察します。
  • 土曜日 (ラボ): ミニプロジェクト: ハイブリッド バッチ/リアルタイム パイプラインの構築。

モジュール 3: 高度なデータ エンジニアリング (第 9 ~ 12 週)

第 9 週: データ パイプラインでの ML 統合

  • 月曜日: データ エンジニアリングにおける ML ワークフローの概要。
  • 火曜日: ラボ: Pandas と PySpark を使用した ML のデータ前処理。
  • 水曜日: 特徴エンジニアリングと自動特徴抽出。
  • 木曜日: ラボ: Apache Airflow を使用した特徴抽出の自動化。
  • 金曜日: ピア プロジェクト: ML モデルを統合するパイプラインの構築。
  • 土曜日 (ラボ): ミニプロジェクト: ML を活用したレコメンデーション システムの構築。

第 10 週: ビッグ データ用の Spark と PySpark

  • 月曜日: Apache Spark の紹介。
  • 火曜日: ラボ: Spark と PySpark のセットアップ
  • 水曜日: RDD、DataFrame、SQL をスパークします。
  • 木曜日: ラボ: Spark SQL を使用した大規模なデータセットの分析。
  • 金曜日: ピア プロジェクト: 大規模なデータ処理のための PySpark パイプラインの構築。
  • 土曜日 (ラボ): ミニプロジェクト: Spark と PySpark を使用したビッグ データセットの分析。

第 11 週: 高度な Apache Airflow

  • 月曜日: 高度な Airflow 機能 (XCom、タスクの依存関係)。
  • 火曜日: ラボ: 動的 DAG とタスクの依存関係を実装します。
  • 水曜日: エアフローのスケジュール、監視、およびエラー処理。
  • 木曜日: ラボ: マルチステップ ETL パイプライン用の複雑な DAG の作成。
  • 金曜日: ジョブ シャドウイング: 高度な Airflow パイプライン実装を観察します。
  • 土曜日 (ラボ): ミニプロジェクト: 高度な Airflow DAG の設計。

第 12 週: データ レイクとデルタ湖

  • 月曜日: データ レイク、レイクハウス、デルタ レイクのアーキテクチャ。
  • 火曜日: ラボ: AWS での Delta Lake のセットアップ
  • 水曜日: デルタ湖でのスキーマ進化の管理。
  • 木曜日: ラボ: Delta Lake へのバッチおよびリアルタイムのデータ読み込みを実装します。
  • 金曜日: ピアプロジェクト: レイクハウスアーキテクチャの設計。
  • 土曜日 (ラボ): ミニプロジェクト: スケーラブルなデルタ レイク アーキテクチャの実装。

モジュール 4: キャップストーン プロジェクト (第 13 ~ 16 週)

第 13 ~ 16 週: Capstone プロジェクトの開発とプレゼンテーション

ここ数週間は、バッチ データ パイプライン (電子商取引販売分析) とリアルタイム データ パイプライン (IoT センサー監視) という 2 つの主要なプロジェクトの開発と発表に焦点を当て、両方を紹介する統合ソリューションで最終的に完成します。 最終週には、業界の専門家やインストラクターに対するプロジェクトのプレゼンテーションが行われます。

以上が包括的な LuxDevHQ データ エンジニアリング コース ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。