Amazon Athena で AWS Glue クローラーを使用する方法-SQL-php.cn

ホームページ

データベース

SQL

Amazon Athena で AWS Glue クローラーを使用する方法

Christopher Nolan

Oct 22, 2024 am 10:33 AM

sql

データプロフェッショナルとして、あなたはネットワークからの膨大な量のデータを扱います。さまざまなソース。これにより、データの管理と分析が可能になります。チャレンジ。幸いなことに、AWS Glue と Amazon という 2 つの AWS サービスが役に立ちます。アテナ。

これらのサービスを統合すると、次の可能性を最大限に引き出すことができます。 AWS エコシステム内でのデータの検出、カタログ化、クエリ。しましょうデータ分析ワークフローをどのように合理化できるかをご覧ください。

Amazon Athena で AWS Glue クローラーを使用する方法

AWS Glue とは何ですか?

AWS Glue は、検出、準備、複数のソースからのデータを移動および統合します。データ統合として AWS Glue サービスを使用すると、データを一元管理することができます。

AWS Glue クローラーとは何ですか?

Glueクローラーは、データをスキャンする自動データ検出ツールです。ソース内のデータを自動的に分類、グループ化、カタログ化します。次に、AWS Glue データ内に新しいテーブルを作成するか、既存のテーブルを更新します。カタログ。

Glue データカタログとは?

AWS Glue データカタログデータの場所のインデックスです。スキーマと実行時メトリクス。作成するにはこの情報が必要です。抽出、変換、ロード (ETL) ジョブを監視します。

Amazon Athena と AWS Glue を使用する理由

ここまでAmazon Athena、AWS Glue、AWS の基本グルークローラーについて、もう少し詳しく説明しましょう。

4 つの主要な Amazon Athena ユースケース

Amazon Athena は、分析のための簡素化された柔軟な方法を提供します彼らが住んでいる場所にペタバイト規模のデータが存在します。たとえば、Athena は分析できます。 Amazon Simple Storage Service (S3) からのデータまたはアプリケーションの構築データレイクと 30 個のデータソース (オンプレミスデータソースを含む) SQL または Python を使用する他のクラウドシステム。

Amazon Athena には 4 つの主要なユースケースがあります:

S3、オンプレミスのデータセンター、または他のクラウドでクエリを実行
機械学習モデルのデータを準備する
SQL クエリまたは Python で機械学習モデルを使用して、異常検出、顧客コホートなどの複雑なタスクを簡素化します。分析と売上予測
マルチクラウド分析の実行 (Azure でのデータのクエリなど) Synapse Analytics と Amazon で結果を視覚化する QuickSight)

3 つの主要な AWS Glue ユースケース

Amazon Athena について説明したので、AWS Glue について話しましょう。 AWS Glue を使用すると、いくつかの異なることができます。

まず、AWS Glue データ統合エンジンを使用できます。いくつかの異なるソースからデータを取得します。これには Amazon S3 が含まれます。 Amazon DynamoDB、Amazon RDS、および Amazon 上で実行されるデータベース EC2 (AWS Glue スタジオと統合) および AWS Glue for Ray、Python シェル、および Apache Spark。

データがインターフェースされ、フィルタリングされると、データと対話できるようになります。データをロードまたは作成する場所。このリストは、次の場所からのデータを含むように拡張されます。 Amazon Redshift、データレイク、データウェアハウスなどの場所。

AWS Glue を使用して ETL ジョブを実行することもできます。これらの仕事でできることは、顧客データを分離し、転送中および転送中の顧客データを保護するため休憩し、顧客に応じて必要な場合にのみ顧客データにアクセスしますリクエスト。 ETL ジョブをプロビジョニングするときに必要なのは、仮想プライベートの入力データソースと出力データターゲット

AWS Glue を使用できる最後の方法は、データカタログを使用してを移動せずに、複数の AWS データセットをすばやく検出して検索します。データ。データがカタログ化されると、すぐに検索できるようになります Amazon Athena、Amazon EMR、Amazon Redshift を使用したクエリ Spectrums.

AWS Glue の使用開始: AWS Glue から Amazon Athena にデータを取得する方法

では、AWS Glue から Amazon Athena にデータを取得するにはどうすればよいでしょうか?次の手順に従ってください:

まず、データをデータソースにアップロードします。最も人気のあるオプションは S3 バケットですが、DynamoDB テーブルと Amazon RedShift も同様ですオプション。
データソースを選択し、分類子を作成します。必要。分類子はデータを読み取り、スキーマがあればスキーマを生成します。フォーマットを認識します。カスタム分類子を作成して確認できます異なるデータ型。
クローラーを作成します。
クローラーの名前を設定し、データソースを選択しますカスタム分類子を追加して、AWS Glue が確実に認識できるようにします。データを正しく実行します。
クローラがプロセスを正しく実行できるように、Identity and Access Management (IAM) ロールを設定します。
作成データセットを保持するデータベース。データを常に最新の状態に保つために、クローラーが動作するタイミングと頻度を設定します。
クローラーを実行します。このプロセスは状況に応じて時間がかかる場合がありますデータセットの大きさ。クローラーが正常に実行されると、データベース内のテーブルへの変更を確認してください。

このプロセスが完了したので、Amazon にジャンプできます。 Athena を起動し、データをフィルターして取得するために必要なクエリを実行します。あなたが探している結果。

以上がAmazon Athena で AWS Glue クローラーを使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事はpluralsight.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

SQLインデックス戦略：クエリパフォーマンスを桁違いに改善するApr 11, 2025 am 12:04 AM

SQLインデックスは、巧妙なデザインを通じてクエリパフォーマンスを大幅に改善できます。 1. Bツリー、ハッシュ、フルテキストインデックスなどの適切なインデックスタイプを選択します。 2。複合インデックスを使用して、マルチフィールドクエリを最適化します。 3.オーバーインデックスを避けて、データメンテナンスのオーバーヘッドを減らします。 4.不要なインデックスの再構築や削除など、定期的にインデックスを維持します。

SQLで制約を削除する方法Apr 10, 2025 pm 12:21 PM

SQLの制約を削除するには、次の手順を実行します。削除する制約名を特定します。 ALTER TABLEステートメントを使用してください：Table Table Name Drop Constraint Constraint Nameを変更します。削除を確認します。

SQLトリガーを設定する方法Apr 10, 2025 pm 12:18 PM

SQLトリガーは、特定のイベントが指定されたテーブルで実行されたときに特定のアクションを自動的に実行するデータベースオブジェクトです。 SQLトリガーをセットアップするには、トリガー名、テーブル名、イベントタイプ、トリガーコードを含むCreate Triggerステートメントを使用できます。トリガーコードは、ASキーワードを使用して定義され、SQLまたはPL/SQLステートメントまたはブロックが含まれます。トリガー条件を指定することにより、Where句を使用して、トリガーの実行範囲を制限できます。トリガー操作は、インサート、更新、または削除ステートメントを使用してトリガーコードで実行できます。新しいキーワードと古いキーワードを使用して、トリガーコードの影響を受けるキーワードを参照できます。

SQLクエリのインデックスを追加する方法Apr 10, 2025 pm 12:15 PM

インデックス作成は、データ列を並べ替えてデータ検索を加速するデータ構造です。 SQLクエリにインデックスを追加する手順は次のとおりです。インデックス化する必要がある列を決定します。適切なインデックスタイプ（Bツリー、ハッシュ、またはビットマップ）を選択します。 Create Indexコマンドを使用して、インデックスを作成します。インデックスを定期的に再構築または再編成して、その効率を維持します。インデックスの追加の利点には、クエリパフォーマンスの改善、I/O操作の削減、最適化された並べ替えとフィルタリング、および並行性の改善が含まれます。クエリが特定の列を使用することが多い場合、ソートまたはグループ化する必要がある大量のデータを返し、大きい複数のテーブルまたはデータベーステーブルが含まれます。インデックスの追加を検討する必要があります。

SQLステートメントにIfelseの使用方法Apr 10, 2025 pm 12:12 PM

Ifelseステートメントは、条件付き評価結果に基づいて異なる値を返す条件付きステートメントです。その構文構造は次のとおりです。if（条件）then return_value_if_condition_is_true elsen return_value_if_condition_is_false end if;。

SQLデータベースエラーを表示する方法Apr 10, 2025 pm 12:09 PM

SQLデータベースエラーを表示する方法は次のとおりです。1。エラーメッセージを直接表示します。 2。エラーを表示し、警告コマンドを表示します。 3.エラーログにアクセスします。 4.エラーコードを使用して、エラーの原因を見つけます。 5.データベース接続とクエリ構文を確認します。 6.デバッグツールを使用します。

SQLを個別に使用する方法Apr 10, 2025 pm 12:06 PM

個別の演算子は、SQLクエリの重複行を除外し、一意の値のみを返すために使用されます。一意の値のリストを取得したり、一意の値の数を数えたり、グループと組み合わせて使用したりするなどのシナリオに適しています。

SQL候補キーを設定する方法Apr 10, 2025 pm 12:03 PM

SQLで候補キーを設定する方法：一意の識別列を決定します。主キーの制約を使用して主キーを作成します。一意の制約を使用して一意の制約を追加します。一意のインデックスを作成します。候補キーの設定により、データの整合性が確保され、クエリのパフォーマンスが向上し、データの複製が防止されます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。