Heim >Datenbank >SQL >So verwenden Sie AWS Glue-Crawler mit Amazon Athena

So verwenden Sie AWS Glue-Crawler mit Amazon Athena

Christopher Nolan
Christopher Nolannach vorne
2024-10-22 10:33:36963Durchsuche

Als Datenprofi beschäftigen Sie sich mit riesigen Datenmengen von a Vielzahl von Quellen. Dies kann die Datenverwaltung und -analyse vereinfachen Herausforderung. Glücklicherweise können zwei AWS-Dienste helfen: AWS Glue und Amazon Athene. 

Wenn Sie diese Dienste integrieren, erschließen Sie das volle Potenzial von Datenerkennung, Katalogisierung und Abfrage innerhalb des AWS-Ökosystems. Lass uns Sehen Sie sich an, wie sie Ihren Datenanalyse-Workflow optimieren können.

So verwenden Sie AWS Glue-Crawler mit Amazon Athena

Was ist AWS Glue?

AWS-Kleber ist ein serverlos verwalteter Dienst, der es Ihnen ermöglicht, zu erkennen, vorzubereiten, Verschieben und integrieren Sie Daten aus mehreren Quellen. Als Datenintegration Mit AWS Glue haben Sie die Möglichkeit, Daten zentral zu verwalten Standort, ohne die Infrastruktur verwalten zu müssen.

Was ist AWS Glue Crawler?

Glue Crawler sind automatisierte Datenerkennungstools, die Daten scannen Quelle, um die darin enthaltenen Daten automatisch zu klassifizieren, zu gruppieren und zu katalogisieren. Anschließend werden neue Tabellen in Ihren AWS Glue-Daten erstellt oder vorhandene Tabellen aktualisiert Katalog.

Was ist der Glue Data Catalog?

Der AWS Glue Data Catalog ist ein Index des Standorts Ihrer Daten, Schema und Laufzeitmetriken. Sie benötigen diese Informationen zum Erstellen und Überwachen Sie Ihre Extraktions-, Transformations- und Ladejobs (ETL). 

Warum Amazon Athena und AWS Glue verwenden?

Jetzt haben wir es abgedeckt die Grundlagen von Amazon Athena, AWS Glue und AWS Glue Crawler, lassen Sie uns etwas ausführlicher darüber sprechen.

4 Hauptanwendungsfälle von Amazon Athena

Amazon Athena bietet eine vereinfachte, flexible Möglichkeit zur Analyse Petabytes an Daten direkt dort, wo sie leben. Athena kann zum Beispiel analysieren Daten oder erstellen Sie Anwendungen aus einem Amazon Simple Storage Service (S3) Data Lake und 30 Datenquellen, einschließlich lokaler Datenquellen oder andere Cloud-Systeme mit SQL oder Python. 

Es gibt vier Hauptanwendungsfälle für Amazon Athena:

  1. Abfragen auf S3, lokalen Rechenzentren oder anderen Clouds ausführen 

  2. Bereiten Sie Daten für Modelle für maschinelles Lernen vor

  3. Verwenden Sie Modelle für maschinelles Lernen in SQL-Abfragen oder Python, um Vereinfachen Sie komplexe Aufgaben wie Anomalieerkennung und Kundenkohorte Analysen und Verkaufsprognosen

  4. Führen Sie Multicloud-Analysen durch (wie das Abfragen von Daten in Azure). Synapse Analytics und anschließende Visualisierung der Ergebnisse mit Amazon QuickSight)

3 wichtige AWS Glue-Anwendungsfälle

Nachdem wir uns nun mit Amazon Athena befasst haben, sprechen wir über AWS Glue. Mit AWS Glue können Sie verschiedene Dinge tun. 

Zunächst können Sie AWS Glue-Datenintegrations-Engines verwenden, die Ihnen ermöglichen um Daten aus verschiedenen Quellen zu erhalten. Dazu gehören Amazon S3, Amazon DynamoDB und Amazon RDS sowie Datenbanken, die auf Amazon laufen EC2 (integriert in AWS Glue Studio) und AWS Glue für Ray, Python Shell und Apache Spark. 

Sobald die Daten verknüpft und gefiltert sind, können sie mit ihnen interagieren Wenn Sie Orte zum Laden oder Erstellen von Daten angeben, wird diese Liste um die Daten erweitert Orte wie Amazon Redshift, Data Lakes und Data Warehouses.

Sie können auch AWS Glue verwenden, um Ihre ETL-Jobs auszuführen. Diese Jobs ermöglichen es Ihnen um Kundendaten zu trennen, Kundendaten während der Übertragung zu schützen und zu schützen Ruhen Sie sich aus und greifen Sie nur dann auf Kundendaten zu, wenn dies als Reaktion auf den Kunden erforderlich ist Anfragen. Wenn Sie einen ETL-Job bereitstellen, müssen Sie ihn lediglich bereitstellen Eingabedatenquellen und Ausgabedatenziele in Ihrem virtuellen Privatbereich Cloud.

Die letzte Möglichkeit, AWS Glue zu nutzen, ist über einen Datenkatalog Entdecken und durchsuchen Sie schnell mehrere AWS-Datensätze, ohne diese zu verschieben Daten. Sobald die Daten katalogisiert sind, stehen sie sofort für die Suche zur Verfügung und Abfragen mit Amazon Athena, Amazon EMR und Amazon Redshift Spektren.

Erste Schritte mit AWS Glue: So übertragen Sie Daten von AWS Glue zu Amazon Athena

Wie können Sie also Daten von AWS Glue in Amazon Athena übertragen? Befolgen Sie diese Schritte:

  1. Beginnen Sie mit dem Hochladen von Daten in eine Datenquelle. Am beliebtesten Option ist ein S3-Bucket, aber auch DynamoDB-Tabellen und Amazon RedShift Optionen. 

  2. Wählen Sie Ihre Datenquelle aus und erstellen Sie ggf. einen Klassifikator notwendig. Ein Klassifikator liest die Daten und generiert ggf. ein Schema erkennt das Format. Sie können zur Anzeige benutzerdefinierte Klassifikatoren erstellen verschiedene Datentypen. 

  3. Erstellen Sie einen Crawler. 

  4. Richten Sie einen Namen für den Crawler ein und wählen Sie dann Ihre Datenquellen aus und fügen Sie alle benutzerdefinierten Klassifikatoren hinzu, um sicherzustellen, dass AWS Glue die erkennt Daten korrekt.

  5. Richten Sie eine Identity and Access Management (IAM)-Rolle ein, um sicherzustellen, dass der Crawler die Prozesse korrekt ausführen kann.

  6. Erstellen eine Datenbank, die den Datensatz enthält. Legen Sie fest, wann und wie oft der Crawler arbeitet, um Ihre Daten aktuell und aktuell zu halten.

  7. Führen Sie den Crawler aus. Dieser Vorgang kann je nach Situation eine Weile dauern wie groß der Datensatz ist. Sobald der Crawler erfolgreich ausgeführt wurde, werden Sie es tun Sehen Sie sich Änderungen an Tabellen in der Datenbank an.

Nachdem Sie diesen Vorgang abgeschlossen haben, können Sie zu Amazon wechseln Athena und führen Sie die Abfragen aus, die Sie benötigen, um die Daten zu filtern und abzurufen Ergebnisse, die Sie suchen.


Das obige ist der detaillierte Inhalt vonSo verwenden Sie AWS Glue-Crawler mit Amazon Athena. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:pluralsight.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Vorheriger Artikel:Ausführliche Erläuterung der Spark-Join-StrategieNächster Artikel:Keiner