Maison >développement back-end >Tutoriel Python >Guide complet du cours d'ingénierie des données LuxDevHQ

Guide complet du cours d'ingénierie des données LuxDevHQ

Linda Hamilton
Linda Hamiltonoriginal
2025-01-21 22:11:14624parcourir

Comprehensive LuxDevHQ Data Engineering Course Guide

Ce bootcamp intensif d'ingénierie de données de 16 semaines (4 mois) propose une formation complète sur Python, SQL, les plateformes cloud (Azure et AWS), Apache Airflow, Kafka, Spark, et plus encore.

Horaire :

  • Lundi - jeudi : Cours magistraux et exercices pratiques.
  • Vendredi : Mentorat industriel ou projets collaboratifs entre pairs.
  • Samedi : Séances de laboratoire dédiées et apprentissage par projet.

Module 1 : Fondamentaux de l'ingénierie des données (semaines 1 à 4)

Semaine 1 : Intégration et configuration

  • Lundi : Accueil, aperçu des cours, parcours professionnels, présentations des outils.
  • Mardi : Présentation du cloud computing (Azure et AWS).
  • Mercredi : Gouvernance, sécurité et conformité des données.
  • Jeudi : Fondamentaux de SQL et configuration de PostgreSQL.
  • Vendredi : Projet peer : Défis de configuration de l'environnement.
  • Samedi (Lab) : Mini-projet : Pipeline de base utilisant PostgreSQL et Azure Blob Storage.

Semaine 2 : Maîtriser SQL

  • Lundi : Core SQL (SELECT, WHERE, JOIN, GROUP BY).
  • Mardi : SQL avancé (requêtes récursives, fonctions de fenêtre, CTE).
  • Mercredi : Plans d'optimisation et d'exécution des requêtes.
  • Jeudi : Modélisation des données (normalisation, dénormalisation, schémas en étoile).
  • Vendredi : Observation au travail : Observation des techniques d'optimisation des requêtes SQL.
  • Samedi (Lab) : Mini-projet : Conception de schémas en étoile et analyse de données basées sur SQL.

Semaine 3 : Introduction au pipeline de données

  • Lundi : Théorie du workflow ETL/ELT.
  • Mardi : Atelier : Pipeline ETL basé sur Python pour les données CSV.
  • Mercredi : Bonnes pratiques ETL.
  • Jeudi : Atelier : Pipeline Python ETL pour le traitement des données par lots.
  • Vendredi : Projet peer : Conception de workflow ETL collaboratif.
  • Samedi (Lab) : Mini-projet : Pipeline ETL pour le traitement des données de vente.

Semaine 4 : Principes fondamentaux d'Apache Airflow

  • Lundi : Introduction à Apache Airflow, aux DAG et à la planification.
  • Mardi : Atelier : Configuration et création d'un DAG Airflow de base.
  • Mercredi : Bonnes pratiques et planification du DAG Airflow.
  • Jeudi : Atelier : Intégration d'Airflow avec PostgreSQL et Azure Blob Storage.
  • Vendredi : Observation au poste de travail : observation du pipeline Airflow dans le monde réel.
  • Samedi (Lab) : Mini-projet : Automatisation d'un pipeline ETL avec Airflow.

Module 2 : Compétences intermédiaires (semaines 5 à 8)

Semaine 5 : Entreposage de données et lacs

  • Lundi : Entreposage de données (OLAP vs. OLTP, partitionnement, clustering).
  • Mardi : Atelier : Travailler avec Amazon Redshift et Snowflake.
  • Mercredi : Lacs de données et architecture Lakehouse.
  • Jeudi : Lab : Mise en place de Delta Lake.
  • Vendredi : Projet peer : Implémentation d'un modèle d'entrepôt de données et de lac de données.
  • Samedi (Lab) : Mini-projet : Conception et implémentation d'une architecture Lakehouse de base.

Semaine 6 : Gouvernance et sécurité des données

  • Lundi : Cadres de gouvernance des données et principes de sécurité.
  • Mardi : Atelier : Utilisation d'AWS Lake Formation pour le contrôle d'accès.
  • Mercredi : Gestion des données sensibles et conformité (RGPD, HIPAA).
  • Jeudi : Atelier : Implémentation de politiques de sécurité dans S3 et Azure Blob Storage.
  • Vendredi : Observation au travail : Observer l'application des politiques de gouvernance.
  • Samedi (Lab) : Mini-projet : Sécurisation des données cloud à l'aide d'AWS et Azure.

Semaine 7 : Données en temps réel avec Kafka

  • Lundi : Introduction à Apache Kafka pour le streaming de données en temps réel.
  • Mardi : Lab : Mise en place d'un producteur et consommateur Kafka.
  • Mercredi : Sujets, partitions et courtiers de messages Kafka.
  • Jeudi : Atelier : Intégration de Kafka à PostgreSQL pour des mises à jour en temps réel.
  • Vendredi : Projet peer : Construire un pipeline Kafka en temps réel.
  • Samedi (Lab) : Mini-projet : Streaming de données e-commerce avec Kafka.

Semaine 8 : Traitement par lots ou par flux

  • Lundi : Comparaison du traitement par lots et par flux.
  • Mardi : Lab : Traitement par lots avec PySpark.
  • Mercredi : Combinaison des workflows de traitement par lots et par flux.
  • Jeudi : Lab : Traitement en temps réel avec Apache Flink et Spark Streaming.
  • Vendredi : Observation au poste de travail : Observation d'un pipeline de traitement en temps réel.
  • Samedi (Lab) : Mini-projet : Construire un pipeline hybride batch/temps réel.

Module 3 : Ingénierie avancée des données (semaines 9 à 12)

Semaine 9 : Intégration du ML dans les pipelines de données

  • Lundi : Aperçu des workflows ML en ingénierie des données.
  • Mardi : Atelier : Prétraitement des données pour le ML à l'aide de Pandas et PySpark.
  • Mercredi : Ingénierie de fonctionnalités et extraction automatisée de fonctionnalités.
  • Jeudi : Atelier : Automatisation de l'extraction de fonctionnalités à l'aide d'Apache Airflow.
  • Vendredi : Projet peer : Construire un pipeline intégrant des modèles ML.
  • Samedi (Lab) : Mini-projet : Construire un système de recommandation basé sur le ML.

Semaine 10 : Spark & ​​PySpark pour le Big Data

  • Lundi : Introduction à Apache Spark.
  • Mardi : Atelier : Configuration de Spark et PySpark.
  • Mercredi : Spark RDD, DataFrames et SQL.
  • Jeudi : Atelier : Analyser de grands ensembles de données à l'aide de Spark SQL.
  • Vendredi : Projet peer : Construire un pipeline PySpark pour le traitement de données à grande échelle.
  • Samedi (Lab) : Mini-projet : Analyser de grands ensembles de données avec Spark et PySpark.

Semaine 11 : Apache Airflow avancé

  • Lundi : Fonctionnalités avancées d'Airflow (XCom, dépendances de tâches).
  • Mardi : Atelier : Implémentation de DAG dynamiques et de dépendances de tâches.
  • Mercredi : Planification, surveillance et gestion des erreurs du flux d'air.
  • Jeudi : Atelier : Création de DAG complexes pour les pipelines ETL en plusieurs étapes.
  • Vendredi : Observation au travail : observation des implémentations avancées du pipeline Airflow.
  • Samedi (Lab) : Mini-projet : Conception d'un DAG Airflow avancé.

Semaine 12 : Lacs de données et Lac Delta

  • Lundi : Lacs de données, Lakehouses et architecture Delta Lake.
  • Mardi : Lab : Configuration de Delta Lake sur AWS.
  • Mercredi : Gestion de l'évolution du schéma dans Delta Lake.
  • Jeudi : Lab : Implémentation du chargement de données par lots et en temps réel sur Delta Lake.
  • Vendredi : Projet des pairs : Concevoir une architecture Lakehouse.
  • Samedi (Lab) : Mini-projet : Implémentation d'une architecture Delta Lake évolutive.

Module 4 : Projets de synthèse (semaines 13 à 16)

Semaines 13 à 16 : Développement et présentation du projet Capstone

Ces semaines se concentrent sur le développement et la présentation de deux projets de synthèse majeurs : un pipeline de données par lots (analyse des ventes de commerce électronique) et un pipeline de données en temps réel (surveillance des capteurs IoT), aboutissant à une solution intégrée présentant les deux. La dernière semaine consiste en des présentations de projets aux professionnels et aux instructeurs de l'industrie.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn