Maison >base de données >SQL >Comment utiliser les robots d'exploration AWS Glue avec Amazon Athena

Comment utiliser les robots d'exploration AWS Glue avec Amazon Athena

Christopher Nolan
Christopher Nolanavant
2024-10-22 10:33:361008parcourir

En tant que professionnel des données, vous traitez d'immenses quantités de données provenant d'un variété de sources. Cela peut faire de la gestion et de l'analyse des données un défi. Heureusement, deux services AWS peuvent vous aider : AWS Glue et Amazon Athéna. 

Lorsque vous intégrez ces services, vous libérez tout le potentiel de découverte, catalogage et interrogation de données au sein de l'écosystème AWS. Allons découvrez comment ils peuvent rationaliser votre flux de travail d'analyse de données.

Comment utiliser les robots dexploration AWS Glue avec Amazon Athena

Qu'est-ce qu'AWS Glue ?

Colle AWS est un service géré sans serveur qui vous permet de découvrir, préparer, déplacer et intégrer des données provenant de plusieurs sources. En tant qu'intégration de données service, AWS Glue vous donne le pouvoir de gérer les données de manière centralisée emplacement sans avoir à gérer l'infrastructure.

Qu'est-ce que le robot d'exploration AWS Glue ?

Glue les robots d'exploration sont des outils automatisés de découverte de données qui analysent des données source pour classer, regrouper et cataloguer automatiquement les données qu’elle contient. Il crée ensuite de nouvelles tables ou met à jour des tables existantes dans vos données AWS Glue. Catalogue.

Qu'est-ce que le catalogue de données Glue ?

Le catalogue de données AWS Glue est un index de l'emplacement de vos données, schéma et métriques d’exécution. Vous avez besoin de ces informations pour créer et surveillez vos tâches d'extraction, de transformation et de chargement (ETL). 

Pourquoi utiliser Amazon Athena et AWS Glue ?

Maintenant que nous avons couvert les bases d'Amazon Athena, AWS Glue et AWS Les Glue Crawlers, parlons-en un peu plus en profondeur.

4 principaux cas d'utilisation d'Amazon Athena

Amazon Athena offre un moyen simplifié et flexible d'analyser pétaoctets de données là où ils vivent. Par exemple, Athéna peut analyser données ou créer des applications à partir d'un Amazon Simple Storage Service (S3) lac de données et 30 sources de données, y compris des sources de données sur site ou d'autres systèmes cloud utilisant SQL ou Python. 

Il existe quatre principaux cas d'utilisation d'Amazon Athena :

  1. Exécuter des requêtes sur S3, des centres de données sur site ou sur d'autres cloud 

  2. Préparer les données pour les modèles d'apprentissage automatique

  3. Utiliser des modèles d'apprentissage automatique dans les requêtes SQL ou Python pour simplifier les tâches complexes, telles que la détection d'anomalies, la cohorte de clients analyses et prévisions de ventes

  4. Effectuer des analyses multicloud (comme interroger des données dans Azure Synapse Analytics puis visualisation des résultats avec Amazon QuickSight)

3 cas d'utilisation clés d'AWS Glue

Maintenant que nous avons couvert Amazon Athena, parlons d'AWS Glue. Vous pouvez faire différentes choses avec AWS Glue. 

Tout d'abord, vous pouvez utiliser les moteurs d'intégration de données AWS Glue, qui vous permettent pour obtenir des données de plusieurs sources différentes. Cela inclut Amazon S3, Amazon DynamoDB et Amazon RDS, ainsi que les bases de données exécutées sur Amazon EC2 (qui s'intègre à AWS Glue studio) et AWS Glue for Ray, Python Shell et Apache Spark. 

Une fois les données interfacées et filtrées pour qu'elles puissent interagir avec emplacements pour charger ou créer des données, cette liste s'agrandit pour inclure les données de des endroits comme Amazon Redshift, des lacs de données et des entrepôts de données.

Vous pouvez également utiliser AWS Glue pour exécuter vos tâches ETL. Ces emplois vous permettent pour séparer les données des clients, protéger les données des clients en transit et à reposez-vous et accédez aux données client uniquement lorsque cela est nécessaire en réponse au client demandes. Lors du provisionnement d'une tâche ETL, tout ce que vous avez à faire est de fournir sources de données d'entrée et cibles de données de sortie dans votre espace privé virtuel cloud.

La dernière façon d'utiliser AWS Glue consiste à utiliser un catalogue de données pour découvrez et recherchez rapidement plusieurs ensembles de données AWS sans déplacer le données. Une fois les données cataloguées, elles sont immédiatement disponibles pour la recherche et interrogez à l'aide d'Amazon Athena, d'Amazon EMR et d'Amazon Redshift Spectres.

Démarrer avec AWS Glue : Comment obtenir des données d'AWS Glue vers Amazon Athena

Alors, comment pouvez-vous obtenir des données d'AWS Glue vers Amazon Athena ? Suivez ces étapes :

  1. Commencez par télécharger des données vers une source de données. Le plus populaire L'option est un compartiment S3, mais les tables DynamoDB et Amazon RedShift sont également choix. 

  2. Sélectionnez votre source de données et créez un classificateur si nécessaire. Un classificateur lit les données et génère un schéma s'il reconnaît le format. Vous pouvez créer des classificateurs personnalisés pour voir différents types de données. 

  3. Créez un robot. 

  4. Définissez un nom pour le robot, puis choisissez vos sources de données et ajoutez des classificateurs personnalisés pour vous assurer qu'AWS Glue reconnaît le correctement les données.

  5. Configurez un rôle de gestion des identités et des accès (IAM) pour vous assurer que le robot d'exploration peut exécuter les processus correctement.

  6. Créer une base de données qui contiendra l’ensemble de données. Définissez quand et à quelle fréquence le robot d'exploration fonctionne pour garder vos données à jour.

  7. Exécutez le robot d'exploration. Ce processus peut prendre un certain temps selon quelle est la taille de l'ensemble de données. Une fois le robot exécuté avec succès, vous voir les modifications apportées aux tables dans la base de données.

Maintenant que vous avez terminé ce processus, vous pouvez accéder à Amazon Athena et exécutez les requêtes dont vous avez besoin pour filtrer les données et obtenir le les résultats que vous recherchez.


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer