ホームページ >データベース >SQL >Amazon Athena で AWS Glue クローラーを使用する方法

Amazon Athena で AWS Glue クローラーを使用する方法

Christopher Nolan
Christopher Nolan転載
2024-10-22 10:33:36963ブラウズ

データ プロフェッショナルとして、あなたはネットワークからの膨大な量のデータを扱います。 さまざまなソース。これにより、データの管理と分析が可能になります。 チャレンジ。幸いなことに、AWS Glue と Amazon という 2 つの AWS サービスが役に立ちます。 アテナ。 

これらのサービスを統合すると、次の可能性を最大限に引き出すことができます。 AWS エコシステム内でのデータの検出、カタログ化、クエリ。しましょう データ分析ワークフローをどのように合理化できるかをご覧ください。

Amazon Athena で AWS Glue クローラーを使用する方法

AWS Glue とは何ですか?

AWS Glue は、検出、準備、 複数のソースからのデータを移動および統合します。データ統合として AWS Glue サービスを使用すると、データを一元管理することができます。

AWS Glue クローラーとは何ですか?

Glueクローラーは、データをスキャンする自動データ検出ツールです。 ソース内のデータを自動的に分類、グループ化、カタログ化します。 次に、AWS Glue データ内に新しいテーブルを作成するか、既存のテーブルを更新します。 カタログ。

Glue データ カタログとは?

AWS Glue データ カタログデータの場所のインデックスです。 スキーマと実行時メトリクス。作成するにはこの情報が必要です。 抽出、変換、ロード (ETL) ジョブを監視します。 

Amazon Athena と AWS Glue を使用する理由

ここまでAmazon Athena、AWS Glue、AWS の基本 グルークローラーについて、もう少し詳しく説明しましょう。

4 つの主要な Amazon Athena ユースケース

Amazon Athena は、分析のための簡素化された柔軟な方法を提供します 彼らが住んでいる場所にペタバイト規模のデータが存在します。たとえば、Athena は分析できます。 Amazon Simple Storage Service (S3) からのデータまたはアプリケーションの構築 データ レイクと 30 個のデータ ソース (オンプレミス データ ソースを含む) SQL または Python を使用する他のクラウド システム。 

Amazon Athena には 4 つの主要なユースケースがあります:

  1. S3、オンプレミスのデータセンター、または他のクラウドでクエリを実行

  2. 機械学習モデルのデータを準備する

  3. SQL クエリまたは Python で機械学習モデルを使用して、 異常検出、顧客コホートなどの複雑なタスクを簡素化します。 分析と売上予測

  4. マルチクラウド分析の実行 (Azure でのデータのクエリなど) Synapse Analytics と Amazon で結果を視覚化する QuickSight)

3 つの主要な AWS Glue ユースケース

Amazon Athena について説明したので、AWS Glue について話しましょう。 AWS Glue を使用すると、いくつかの異なることができます。 

まず、AWS Glue データ統合エンジンを使用できます。 いくつかの異なるソースからデータを取得します。これには Amazon S3 が含まれます。 Amazon DynamoDB、Amazon RDS、および Amazon 上で実行されるデータベース EC2 (AWS Glue スタジオと統合) および AWS Glue for Ray、Python シェル、および Apache Spark。 

データがインターフェースされ、フィルタリングされると、データと対話できるようになります。 データをロードまたは作成する場所。このリストは、次の場所からのデータを含むように拡張されます。 Amazon Redshift、データレイク、データ ウェアハウスなどの場所。

AWS Glue を使用して ETL ジョブを実行することもできます。これらの仕事でできることは、 顧客データを分離し、転送中および転送中の顧客データを保護するため 休憩し、顧客に応じて必要な場合にのみ顧客データにアクセスします リクエスト。 ETL ジョブをプロビジョニングするときに必要なのは、 仮想プライベートの入力データ ソースと出力データ ターゲット

AWS Glue を使用できる最後の方法は、データカタログを使用して を移動せずに、複数の AWS データセットをすばやく検出して検索します。 データ。データがカタログ化されると、すぐに検索できるようになります Amazon Athena、Amazon EMR、Amazon Redshift を使用したクエリ Spectrums.

AWS Glue の使用開始: AWS Glue から Amazon Athena にデータを取得する方法

では、AWS Glue から Amazon Athena にデータを取得するにはどうすればよいでしょうか?次の手順に従ってください:

  1. まず、データをデータ ソースにアップロードします。最も人気のある オプションは S3 バケットですが、DynamoDB テーブルと Amazon RedShift も同様です オプション。 

  2. データ ソースを選択し、分類子を作成します。 必要。分類子はデータを読み取り、スキーマがあればスキーマを生成します。 フォーマットを認識します。カスタム分類子を作成して確認できます 異なるデータ型。 

  3. クローラーを作成します。 

  4. クローラーの名前を設定し、データ ソースを選択します カスタム分類子を追加して、AWS Glue が確実に認識できるようにします。 データを正しく実行します。

  5. クローラがプロセスを正しく実行できるように、Identity and Access Management (IAM) ロールを設定します。

  6. 作成データセットを保持するデータベース。データを常に最新の状態に保つために、クローラーが動作するタイミングと頻度を設定します。

  7. クローラーを実行します。このプロセスは状況に応じて時間がかかる場合があります データセットの大きさ。クローラーが正常に実行されると、 データベース内のテーブルへの変更を確認してください。

このプロセスが完了したので、Amazon にジャンプできます。 Athena を起動し、データをフィルターして取得するために必要なクエリを実行します。 あなたが探している結果。


以上がAmazon Athena で AWS Glue クローラーを使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はpluralsight.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。