この 16 週間 (4 か月) の集中的なデータ エンジニアリング ブートキャンプでは、Python、SQL、クラウド プラットフォーム (Azure および AWS)、Apache Airflow、Kafka、Spark などに関する包括的なトレーニングを提供します。
スケジュール:
-
月曜日~木曜日: 講義と実践演習。
-
金曜日: 業界の指導または協力的な同業者プロジェクト。
-
土曜日: 専用のラボ セッションとプロジェクト ベースの学習。
モジュール 1: データ エンジニアリングの基礎 (第 1 ~ 4 週)
第 1 週: オンボーディングとセットアップ
-
月曜日: ようこそ。コースの概要、キャリアパス、ツールの紹介。
-
火曜日: クラウド コンピューティングの概要 (Azure と AWS)。
-
水曜日: データ ガバナンス、セキュリティ、コンプライアンス。
-
木曜日: SQL の基礎と PostgreSQL のセットアップ。
-
金曜日: ピア プロジェクト: 環境セットアップの課題。
-
土曜日 (ラボ): ミニプロジェクト: PostgreSQL と Azure Blob Storage を使用した基本的なパイプライン。
第 2 週: SQL をマスターする
-
月曜日: コア SQL (SELECT、WHERE、JOIN、GROUP BY)。
-
火曜日: 高度な SQL (再帰クエリ、ウィンドウ関数、CTE)。
-
水曜日: クエリの最適化と実行プラン。
-
木曜日: データ モデリング (正規化、非正規化、スター スキーマ)。
-
金曜日: ジョブ シャドウイング: SQL クエリ最適化手法を観察します。
-
土曜日 (研究室): ミニプロジェクト: スター スキーマの設計と SQL ベースのデータ分析。
第 3 週: データ パイプラインの概要
-
月曜日: ETL/ELT ワークフロー理論。
-
火曜日: ラボ: CSV データ用の Python ベースの ETL パイプライン。
-
水曜日: ETL のベスト プラクティス。
-
木曜日: ラボ: バッチ データ処理のための Python ETL パイプライン。
-
金曜日: ピア プロジェクト: 共同 ETL ワークフロー設計。
-
土曜日 (ラボ): ミニプロジェクト: 販売データ処理のための ETL パイプライン。
第 4 週: Apache Airflow の基礎
-
月曜日: Apache Airflow、DAG、およびスケジューリングの概要。
-
火曜日: ラボ: 基本的な Airflow DAG のセットアップと作成。
-
水曜日: Airflow DAG のベスト プラクティスとスケジュール。
-
木曜日: ラボ: Airflow と PostgreSQL および Azure Blob Storage の統合。
-
金曜日: ジョブ シャドウイング: 現実世界の Airflow パイプライン観察。
-
土曜日 (ラボ): ミニプロジェクト: Airflow を使用して ETL パイプラインを自動化します。
モジュール 2: 中級スキル (5 ~ 8 週目)
第 5 週: データ ウェアハウジングとレイク
-
月曜日: データ ウェアハウジング (OLAP と OLTP、パーティショニング、クラスタリング)。
-
火曜日: ラボ: Amazon Redshift と Snowflake の使用。
-
水曜日: データ レイクとレイクハウス アーキテクチャ。
-
木曜日: ラボ: デルタ湖のセットアップ
-
金曜日: ピア プロジェクト: データ ウェアハウスとデータ レイク モデルの実装。
-
土曜日 (ラボ): ミニプロジェクト: 基本的な Lakehouse アーキテクチャの設計と実装。
第 6 週: データ ガバナンスとセキュリティ
-
月曜日: データ ガバナンスのフレームワークとセキュリティ原則。
-
火曜日: ラボ: AWS Lake Formation を使用したアクセス制御。
-
水曜日: 機密データとコンプライアンス (GDPR、HIPAA) の管理。
-
木曜日: ラボ: S3 と Azure Blob Storage へのセキュリティ ポリシーの実装。
-
金曜日: ジョブ シャドウイング: ガバナンス ポリシーの適用を観察します。
-
土曜日 (ラボ): ミニプロジェクト: AWS と Azure を使用してクラウド データを保護します。
第 7 週: Kafka を使用したリアルタイム データ
-
月曜日: リアルタイム データ ストリーミングのための Apache Kafka の紹介。
-
火曜日: ラボ: Kafka プロデューサとコンシューマをセットアップする。
-
水曜日: Kafka トピック、パーティション、メッセージ ブローカー。
-
木曜日: ラボ: リアルタイム更新のための Kafka と PostgreSQL の統合。
-
金曜日: ピア プロジェクト: リアルタイム Kafka パイプラインの構築。
-
土曜日 (ラボ): ミニプロジェクト: Kafka を使用した e コマース データのストリーミング。
第 8 週: バッチ処理とストリーム処理
-
月曜日: バッチ処理とストリーム処理の比較。
-
火曜日: ラボ: PySpark によるバッチ処理。
-
水曜日: バッチ処理ワークフローとストリーム処理ワークフローを組み合わせます。
-
木曜日: ラボ: Apache Flink と Spark Streaming を使用したリアルタイム処理。
-
金曜日: ジョブ シャドウイング: リアルタイム処理パイプラインを観察します。
-
土曜日 (ラボ): ミニプロジェクト: ハイブリッド バッチ/リアルタイム パイプラインの構築。
モジュール 3: 高度なデータ エンジニアリング (第 9 ~ 12 週)
第 9 週: データ パイプラインでの ML 統合
-
月曜日: データ エンジニアリングにおける ML ワークフローの概要。
-
火曜日: ラボ: Pandas と PySpark を使用した ML のデータ前処理。
-
水曜日: 特徴エンジニアリングと自動特徴抽出。
-
木曜日: ラボ: Apache Airflow を使用した特徴抽出の自動化。
-
金曜日: ピア プロジェクト: ML モデルを統合するパイプラインの構築。
-
土曜日 (ラボ): ミニプロジェクト: ML を活用したレコメンデーション システムの構築。
第 10 週: ビッグ データ用の Spark と PySpark
-
月曜日: Apache Spark の紹介。
-
火曜日: ラボ: Spark と PySpark のセットアップ
-
水曜日: RDD、DataFrame、SQL をスパークします。
-
木曜日: ラボ: Spark SQL を使用した大規模なデータセットの分析。
-
金曜日: ピア プロジェクト: 大規模なデータ処理のための PySpark パイプラインの構築。
-
土曜日 (ラボ): ミニプロジェクト: Spark と PySpark を使用したビッグ データセットの分析。
第 11 週: 高度な Apache Airflow
-
月曜日: 高度な Airflow 機能 (XCom、タスクの依存関係)。
-
火曜日: ラボ: 動的 DAG とタスクの依存関係を実装します。
-
水曜日: エアフローのスケジュール、監視、およびエラー処理。
-
木曜日: ラボ: マルチステップ ETL パイプライン用の複雑な DAG の作成。
-
金曜日: ジョブ シャドウイング: 高度な Airflow パイプライン実装を観察します。
-
土曜日 (ラボ): ミニプロジェクト: 高度な Airflow DAG の設計。
第 12 週: データ レイクとデルタ湖
-
月曜日: データ レイク、レイクハウス、デルタ レイクのアーキテクチャ。
-
火曜日: ラボ: AWS での Delta Lake のセットアップ
-
水曜日: デルタ湖でのスキーマ進化の管理。
-
木曜日: ラボ: Delta Lake へのバッチおよびリアルタイムのデータ読み込みを実装します。
-
金曜日: ピアプロジェクト: レイクハウスアーキテクチャの設計。
-
土曜日 (ラボ): ミニプロジェクト: スケーラブルなデルタ レイク アーキテクチャの実装。
モジュール 4: キャップストーン プロジェクト (第 13 ~ 16 週)
第 13 ~ 16 週: Capstone プロジェクトの開発とプレゼンテーション
ここ数週間は、バッチ データ パイプライン (電子商取引販売分析) とリアルタイム データ パイプライン (IoT センサー監視) という 2 つの主要なプロジェクトの開発と発表に焦点を当て、両方を紹介する統合ソリューションで最終的に完成します。 最終週には、業界の専門家やインストラクターに対するプロジェクトのプレゼンテーションが行われます。
以上が包括的な LuxDevHQ データ エンジニアリング コース ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。