>데이터 베이스 >SQL >Amazon Athena에서 AWS Glue 크롤러를 사용하는 방법

Amazon Athena에서 AWS Glue 크롤러를 사용하는 방법

Christopher Nolan
Christopher Nolan앞으로
2024-10-22 10:33:361008검색

데이터 전문가로서 귀하는 방대한 양의 데이터를 처리합니다. 다양한 소스. 이를 통해 데이터 관리 및 분석이 가능해집니다. 도전. 다행히 AWS Glue와 Amazon이라는 두 가지 AWS 서비스가 도움이 될 수 있습니다. 아테나. 

이러한 서비스를 통합하면 AWS 생태계 내에서 데이터 검색, 카탈로그 작성 및 쿼리. 하자 데이터 분석 워크플로를 어떻게 간소화할 수 있는지 살펴보세요.

Amazon Athena에서 AWS Glue 크롤러를 사용하는 방법

AWS Glue란 무엇입니까?

AWS 글루 검색하고, 준비하고, 여러 소스의 데이터를 이동하고 통합합니다. 데이터 통합으로서 서비스인 AWS Glue는 중앙 집중식으로 데이터를 관리할 수 있는 기능을 제공합니다. 인프라를 관리할 필요 없이 위치를 관리할 수 있습니다.

AWS Glue 크롤러란 무엇입니까?

Glue 크롤러는 데이터를 스캔하는 자동화된 데이터 검색 도구입니다. 그 안에 있는 데이터를 자동으로 분류, 그룹화, 카탈로그화할 수 있는 소스입니다. 그런 다음 AWS Glue 데이터에 새 테이블을 생성하거나 기존 테이블을 업데이트합니다. 카탈로그.

Glue 데이터 카탈로그란 무엇입니까?

AWS Glue 데이터 카탈로그 데이터 위치의 색인입니다. 스키마 및 런타임 측정항목. 생성하고 생성하려면 이 정보가 필요합니다. ETL(추출, 변환 및 로드) 작업을 모니터링합니다. 

Amazon Athena와 AWS Glue를 사용해야 하는 이유는 무엇입니까?

지금까지 살펴보았습니다. Amazon Athena, AWS Glue 및 AWS의 기본 사항 Glue 크롤러에 대해 좀 더 자세히 이야기해 보겠습니다.

4가지 주요 Amazon Athena 사용 사례

Amazon Athena는 간단하고 유연한 분석 방법을 제공합니다. 그들이 살고 있는 곳에서 바로 페타바이트 규모의 데이터를 얻을 수 있습니다. 예를 들어 Athena는 다음을 분석할 수 있습니다. Amazon Simple Storage Service(S3)에서 데이터를 수집하거나 애플리케이션을 구축합니다. 데이터 레이크 및 온프레미스 데이터 소스를 포함한 30개의 데이터 소스 또는 SQL 또는 Python을 사용하는 다른 클라우드 시스템. 

4가지 주요 Amazon Athena 사용 사례가 있습니다.

  1. S3, 온프레미스 데이터 센터 또는 기타 클라우드에서 쿼리 실행 

  2. 머신러닝 모델용 데이터 준비

  3. SQL 쿼리 또는 Python에서 머신러닝 모델을 사용하여 이상 탐지, 고객 코호트 등 복잡한 작업을 단순화합니다. 분석 및 판매 예측

  4. 멀티 클라우드 분석 수행(예: Azure에서 데이터 쿼리) Synapse Analytics를 사용한 후 Amazon으로 결과 시각화 QuickSight)

3가지 주요 AWS Glue 사용 사례

Amazon Athena에 대해 알아보았으니 이제 AWS Glue에 대해 이야기해 보겠습니다. AWS Glue를 사용하면 몇 가지 다른 작업을 수행할 수 있습니다. 

먼저 AWS Glue 데이터 통합 엔진을 사용할 수 있습니다. 몇 가지 다른 소스에서 데이터를 가져옵니다. 여기에는 Amazon S3, Amazon DynamoDB, Amazon RDS 및 Amazon에서 실행되는 데이터베이스 EC2(AWS Glue 스튜디오와 통합) 및 Ray, Python용 AWS Glue 쉘, 아파치 스파크. 

데이터가 상호작용할 수 있도록 인터페이스되고 필터링되면 데이터를 로드하거나 생성할 수 있는 위치로, 이 목록은 다음의 데이터를 포함하도록 확장됩니다. Amazon Redshift, 데이터 레이크 및 데이터 웨어하우스와 같은 장소.

AWS Glue를 사용하여 ETL 작업을 실행할 수도 있습니다. 이 직업을 사용하면 고객 데이터를 분리하고, 전송 중인 고객 데이터를 보호합니다. 휴식을 취하고 고객 응대에 필요한 경우에만 고객 데이터에 액세스합니다. 요청. ETL 작업을 프로비저닝할 때 해야 할 일은 다음과 같습니다. 가상 프라이빗의 입력 데이터 소스 및 출력 데이터 대상 클라우드.

AWS Glue를 사용할 수 있는 마지막 방법은 데이터 카탈로그를 통해 데이터를 이동하지 않고도 여러 AWS 데이터 세트를 빠르게 발견하고 검색할 수 있습니다. 데이터. 데이터가 카탈로그화되면 즉시 검색이 가능합니다. Amazon Athena, Amazon EMR 및 Amazon Redshift를 사용한 쿼리 Spectrums.

AWS Glue 시작하기: AWS Glue에서 Amazon Athena로 데이터를 가져오는 방법

그렇다면 어떻게 AWS Glue의 데이터를 Amazon Athena로 가져올 수 있을까요? 다음 단계를 따르세요.

  1. 데이터 소스에 데이터를 업로드하는 것부터 시작하세요. 가장 인기있는 옵션은 S3 버킷이지만 DynamoDB 테이블과 Amazon RedShift도 옵션. 

  2. 다음과 같은 경우 데이터 소스를 선택하고 분류자를 만듭니다. 필요한. 분류자는 데이터를 읽고 다음과 같은 경우 스키마를 생성합니다. 형식을 인식합니다. 사용자 정의 분류기를 생성하여 볼 수 있습니다. 다양한 데이터 유형. 

  3. 크롤러를 만듭니다. 

  4. 크롤러 이름을 설정한 후 데이터 소스를 선택하세요. AWS Glue가 인식할 수 있도록 사용자 지정 분류자를 추가합니다. 데이터를 올바르게 실행하세요.

  5. 크롤러가 프로세스를 올바르게 실행할 수 있도록 IAM(Identity and Access Management) 역할을 설정하세요.

  6. 만들기 데이터 세트를 보유할 데이터베이스. 데이터를 최신 상태로 유지하기 위해 크롤러가 작동하는 시기와 빈도를 설정하세요.

  7. 크롤러를 실행하세요. 이 프로세스는 상황에 따라 다소 시간이 걸릴 수 있습니다. 데이터 세트가 얼마나 큰지. 크롤러가 성공적으로 실행되면 데이터베이스의 테이블 변경 사항을 확인하세요.

이제 이 프로세스를 완료했으므로 Amazon으로 이동할 수 있습니다. Athena를 사용하여 데이터를 필터링하고 가져오는 데 필요한 쿼리를 실행합니다. 원하는 결과를 찾아보세요.


위 내용은 Amazon Athena에서 AWS Glue 크롤러를 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 pluralsight.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제