身為資料專業人員,您需要處理來自各個領域的大量數據
各種來源。這可以使數據管理和分析成為
挑戰。幸運的是,兩項 AWS 服務可以提供協助:AWS Glue 和 Amazon
雅典娜。
當您整合這些服務時,您就釋放了
AWS 生態系統中的資料發現、編目和查詢。讓我們
了解他們如何簡化您的數據分析工作流程。

AWS Glue
是一種無伺服器託管服務,可讓您發現、準備、
行動和整合來自多個來源的數據。作為數據集成
服務,AWS Glue 讓您能夠集中管理數據
位置,而無需管理基礎設施。
Glue爬蟲是掃描資料的自動化資料發現工具
自動將其中的資料分類、分組和編目。
然後,它會在您的 AWS Glue 資料中建立新資料表或更新現有表
目錄。
AWS Glue 資料目錄是資料位置的索引,
架構和運行時指標。您需要此資訊來創建和
監控您的提取、轉換和載入 (ETL) 作業。
為什麼要使用 Amazon Athena 和 AWS Glue?
現在我們已經介紹了Amazon Athena、AWS Glue 和 AWS 的基礎知識
膠水爬蟲,讓我們更深入地討論它們。
Amazon Athena 有四個主要用例:
- 在S3、本地資料中心或其他雲端上執行查詢
- 為機器學習模型準備資料
- 在SQL 查詢或Python 中使用機器學習模型
簡化複雜的任務,例如異常檢測、客戶群
分析與銷售預測
- 執行多雲分析(例如在 Azure 中查詢資料)
Synapse Analytics,然後透過 Amazon 將結果視覺化
QuickSight)
>現在我們已經介紹了Amazon Athena,接下來我們來談談AWS Glue。您可以使用 AWS Glue 執行一些不同的操作。
首先,您可以使用 AWS Glue 資料整合引擎,它允許您
從幾個不同的來源獲取數據。這包括亞馬遜 S3、
Amazon DynamoDB 和 Amazon RDS 以及在 Amazon 上執行的資料庫
EC2(與 AWS Glue 工作室整合)和 AWS Glue for Ray、Python
殼牌和阿帕契火花。
一旦資料被連接和過濾,它就可以與
載入或建立數據的位置,此列表擴展為包含來自以下位置的數據
Amazon Redshift、資料湖和資料倉儲等地方。
- 您也可以使用 AWS Glue 執行 ETL 作業。這些工作可以讓你
隔離客戶數據,保護傳輸中和現場的客戶數據
休息,僅在回應客戶需要時存取客戶數據
請求。當配置 ETL 作業時,您需要做的就是提供
虛擬專用中的輸入資料來源與輸出資料目標
雲。
使用 AWS Glue 的最後一種方法是透過資料目錄
快速發現並搜尋多個 AWS 資料集,而無需移動
數據。資料編目後,可立即用於搜索
並使用 Amazon Athena、Amazon EMR 和 Amazon Redshift 進行查詢
頻譜。
- AWS Glue 入門:如何將資料從AWS Glue 取得Amazon Athena
-
那麼,如何將資料從AWS Glue 取得到Amazon Athena 中?請依照以下步驟操作:
-
先將資料上傳到資料來源。最受歡迎的
選項是 S3 儲存桶,但 DynamoDB 表和 Amazon RedShift 也是
選項。
-
選擇您的資料來源並建立分類器,如果
必要的。分類器讀取資料並產生模式(如果滿足)
識別格式。您可以建立自訂分類器來查看
不同的資料類型。
創造一個爬蟲。
設定爬網程式的名稱,然後選擇您的資料來源
並新增任何自訂分類器以確保 AWS Glue 識別
數據正確。
設定身分和存取管理 (IAM) 角色以確保爬網程式可以正確運作流程。 建立將保存資料集的資料庫。設定爬網程式的運行時間和頻率,以保持您的資料最新狀態。 執行爬網程式。此過程可能需要一段時間,具體取決於
數據集有多大。爬蟲成功運行後,您將
查看資料庫中表格的變更。 現在您已經完成了此過程,您可以跳到 Amazon
Athena 並執行您需要的查詢來過濾資料並獲取
您正在尋找的結果。
以上是如何將 AWS Glue 爬網程式與 Amazon Athena 結合使用的詳細內容。更多資訊請關注PHP中文網其他相關文章!