Amazon Athena에서 AWS Glue 크롤러를 사용하는 방법-SQL-php.cn

집

데이터 베이스

SQL

Amazon Athena에서 AWS Glue 크롤러를 사용하는 방법

Christopher Nolan

Oct 22, 2024 am 10:33 AM

sql

데이터 전문가로서 귀하는 방대한 양의 데이터를 처리합니다. 다양한 소스. 이를 통해 데이터 관리 및 분석이 가능해집니다. 도전. 다행히 AWS Glue와 Amazon이라는 두 가지 AWS 서비스가 도움이 될 수 있습니다. 아테나.

이러한 서비스를 통합하면 AWS 생태계 내에서 데이터 검색, 카탈로그 작성 및 쿼리. 하자 데이터 분석 워크플로를 어떻게 간소화할 수 있는지 살펴보세요.

Amazon Athena에서 AWS Glue 크롤러를 사용하는 방법

AWS Glue란 무엇입니까?

AWS 글루 검색하고, 준비하고, 여러 소스의 데이터를 이동하고 통합합니다. 데이터 통합으로서 서비스인 AWS Glue는 중앙 집중식으로 데이터를 관리할 수 있는 기능을 제공합니다. 인프라를 관리할 필요 없이 위치를 관리할 수 있습니다.

AWS Glue 크롤러란 무엇입니까?

Glue 크롤러는 데이터를 스캔하는 자동화된 데이터 검색 도구입니다. 그 안에 있는 데이터를 자동으로 분류, 그룹화, 카탈로그화할 수 있는 소스입니다. 그런 다음 AWS Glue 데이터에 새 테이블을 생성하거나 기존 테이블을 업데이트합니다. 카탈로그.

Glue 데이터 카탈로그란 무엇입니까?

AWS Glue 데이터 카탈로그 데이터 위치의 색인입니다. 스키마 및 런타임 측정항목. 생성하고 생성하려면 이 정보가 필요합니다. ETL(추출, 변환 및 로드) 작업을 모니터링합니다.

Amazon Athena와 AWS Glue를 사용해야 하는 이유는 무엇입니까?

지금까지 살펴보았습니다. Amazon Athena, AWS Glue 및 AWS의 기본 사항 Glue 크롤러에 대해 좀 더 자세히 이야기해 보겠습니다.

4가지 주요 Amazon Athena 사용 사례

Amazon Athena는 간단하고 유연한 분석 방법을 제공합니다. 그들이 살고 있는 곳에서 바로 페타바이트 규모의 데이터를 얻을 수 있습니다. 예를 들어 Athena는 다음을 분석할 수 있습니다. Amazon Simple Storage Service(S3)에서 데이터를 수집하거나 애플리케이션을 구축합니다. 데이터 레이크 및 온프레미스 데이터 소스를 포함한 30개의 데이터 소스 또는 SQL 또는 Python을 사용하는 다른 클라우드 시스템.

4가지 주요 Amazon Athena 사용 사례가 있습니다.

S3, 온프레미스 데이터 센터 또는 기타 클라우드에서 쿼리 실행
머신러닝 모델용 데이터 준비
SQL 쿼리 또는 Python에서 머신러닝 모델을 사용하여 이상 탐지, 고객 코호트 등 복잡한 작업을 단순화합니다. 분석 및 판매 예측
멀티 클라우드 분석 수행(예: Azure에서 데이터 쿼리) Synapse Analytics를 사용한 후 Amazon으로 결과 시각화 QuickSight)

3가지 주요 AWS Glue 사용 사례

Amazon Athena에 대해 알아보았으니 이제 AWS Glue에 대해 이야기해 보겠습니다. AWS Glue를 사용하면 몇 가지 다른 작업을 수행할 수 있습니다.

먼저 AWS Glue 데이터 통합 엔진을 사용할 수 있습니다. 몇 가지 다른 소스에서 데이터를 가져옵니다. 여기에는 Amazon S3, Amazon DynamoDB, Amazon RDS 및 Amazon에서 실행되는 데이터베이스 EC2(AWS Glue 스튜디오와 통합) 및 Ray, Python용 AWS Glue 쉘, 아파치 스파크.

데이터가 상호작용할 수 있도록 인터페이스되고 필터링되면 데이터를 로드하거나 생성할 수 있는 위치로, 이 목록은 다음의 데이터를 포함하도록 확장됩니다. Amazon Redshift, 데이터 레이크 및 데이터 웨어하우스와 같은 장소.

AWS Glue를 사용하여 ETL 작업을 실행할 수도 있습니다. 이 직업을 사용하면 고객 데이터를 분리하고, 전송 중인 고객 데이터를 보호합니다. 휴식을 취하고 고객 응대에 필요한 경우에만 고객 데이터에 액세스합니다. 요청. ETL 작업을 프로비저닝할 때 해야 할 일은 다음과 같습니다. 가상 프라이빗의 입력 데이터 소스 및 출력 데이터 대상 클라우드.

AWS Glue를 사용할 수 있는 마지막 방법은 데이터 카탈로그를 통해 데이터를 이동하지 않고도 여러 AWS 데이터 세트를 빠르게 발견하고 검색할 수 있습니다. 데이터. 데이터가 카탈로그화되면 즉시 검색이 가능합니다. Amazon Athena, Amazon EMR 및 Amazon Redshift를 사용한 쿼리 Spectrums.

AWS Glue 시작하기: AWS Glue에서 Amazon Athena로 데이터를 가져오는 방법

그렇다면 어떻게 AWS Glue의 데이터를 Amazon Athena로 가져올 수 있을까요? 다음 단계를 따르세요.

데이터 소스에 데이터를 업로드하는 것부터 시작하세요. 가장 인기있는 옵션은 S3 버킷이지만 DynamoDB 테이블과 Amazon RedShift도 옵션.
다음과 같은 경우 데이터 소스를 선택하고 분류자를 만듭니다. 필요한. 분류자는 데이터를 읽고 다음과 같은 경우 스키마를 생성합니다. 형식을 인식합니다. 사용자 정의 분류기를 생성하여 볼 수 있습니다. 다양한 데이터 유형.
크롤러를 만듭니다.
크롤러 이름을 설정한 후 데이터 소스를 선택하세요. AWS Glue가 인식할 수 있도록 사용자 지정 분류자를 추가합니다. 데이터를 올바르게 실행하세요.
크롤러가 프로세스를 올바르게 실행할 수 있도록 IAM(Identity and Access Management) 역할을 설정하세요.
만들기 데이터 세트를 보유할 데이터베이스. 데이터를 최신 상태로 유지하기 위해 크롤러가 작동하는 시기와 빈도를 설정하세요.
크롤러를 실행하세요. 이 프로세스는 상황에 따라 다소 시간이 걸릴 수 있습니다. 데이터 세트가 얼마나 큰지. 크롤러가 성공적으로 실행되면 데이터베이스의 테이블 변경 사항을 확인하세요.

이제 이 프로세스를 완료했으므로 Amazon으로 이동할 수 있습니다. Athena를 사용하여 데이터를 필터링하고 가져오는 데 필요한 쿼리를 실행합니다. 원하는 결과를 찾아보세요.

위 내용은 Amazon Athena에서 AWS Glue 크롤러를 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 pluralsight.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

SQL 인덱싱 전략 : 쿼리 성능 향상 순서Apr 11, 2025 am 12:04 AM

SQL 인덱스는 영리한 설계를 통해 쿼리 성능을 크게 향상시킬 수 있습니다. 1. B- 트리, 해시 또는 전문 지수와 같은 적절한 인덱스 유형을 선택하십시오. 2. 복합 인덱스를 사용하여 멀티 필드 쿼리를 최적화하십시오. 3. 데이터 유지 보수 오버 헤드를 줄이려면 과도한 인덱스를 피하십시오. 4. 불필요한 인덱스 재건 및 제거를 포함하여 정기적으로 인덱스를 유지합니다.

SQL에서 제약 조건을 삭제하는 방법Apr 10, 2025 pm 12:21 PM

SQL에서 제약 조건을 삭제하려면 다음 단계를 수행하십시오. 삭제할 제약 조건을 식별하십시오. Alter Table 문을 사용하십시오. Alter Table Tame 이름 드롭 제약 조건 제한 이름; 삭제를 확인하십시오.

SQL 트리거를 설정하는 방법Apr 10, 2025 pm 12:18 PM

SQL 트리거는 지정된 테이블에서 특정 이벤트가 실행될 때 특정 작업을 자동으로 수행하는 데이터베이스 개체입니다. SQL 트리거를 설정하려면 트리거 이름, 테이블 이름, 이벤트 유형 및 트리거 코드가 포함 된 Trigger 문을 사용할 수 있습니다. 트리거 코드는 AS 키워드를 사용하여 정의되며 SQL 또는 PL/SQL 문 또는 블록을 포함합니다. 트리거 조건을 지정하면 where 절을 사용하여 트리거의 실행 범위를 제한 할 수 있습니다. 트리거 작업은 삽입, 업데이트 또는 삭제 명령문을 사용하여 트리거 코드에서 수행 할 수 있습니다. 신규 및 기존 키워드를 사용하여 영향을받는 키워드를 트리거 코드에서 참조 할 수 있습니다.

SQL 쿼리에 인덱스를 추가하는 방법Apr 10, 2025 pm 12:15 PM

인덱싱은 데이터 열을 정렬하여 데이터 검색을 가속화하는 데이터 구조입니다. SQL 쿼리에 인덱스를 추가하는 단계는 다음과 같습니다. 인덱싱 해야하는 열을 결정하십시오. 적절한 인덱스 유형 (b-tree, hash 또는 bitmap)을 선택하십시오. Create Index 명령을 사용하여 인덱스를 작성하십시오. 효율성을 유지하기 위해 지수를 정기적으로 재구성하거나 재구성합니다. 인덱스 추가의 이점에는 개선 된 쿼리 성능, I/O 작동 감소, 최적화 된 정렬 및 필터링 및 개선 된 동시성이 포함됩니다. 쿼리가 종종 특정 열을 사용하는 경우 정렬 또는 그룹화 해야하는 다량의 데이터를 반환하고, 큰 테이블 또는 큰 데이터베이스 테이블이 포함되므로 인덱스 추가를 고려해야합니다.

SQL 문에 ifelse를 사용하는 방법Apr 10, 2025 pm 12:12 PM

IFELSE 문은 조건부 평가 결과에 따라 다른 값을 반환하는 조건부 명세서입니다. 구문 구조는 다음과 같습니다. if (조건) 그런 다음 return_value_if_condition_is_true else return_value_if_condition_is_false end if;.

SQL 데이터베이스 오류를 보는 방법Apr 10, 2025 pm 12:09 PM

SQL 데이터베이스 오류를 보는 방법은 다음과 같습니다. 1. 오류 메시지보기 직접; 2. 표시 오류 및 경고 명령을 사용하십시오. 3. 오류 로그에 액세스; 4. 오류 코드를 사용하여 오류의 원인을 찾으십시오. 5. 데이터베이스 연결 및 쿼리 구문을 확인하십시오. 6. 디버깅 도구를 사용하십시오.

SQL을 구별하는 방법Apr 10, 2025 pm 12:06 PM

별도의 연산자는 SQL 쿼리에서 중복 행을 제외하고 고유 한 값 만 반환하는 데 사용됩니다. 고유 한 값 목록을 얻고, 고유 한 값의 수를 계산하고, 그룹과 함께 사용하는 것과 같은 시나리오에 적합합니다.

SQL 후보 키를 설정하는 방법Apr 10, 2025 pm 12:03 PM

SQL에서 후보 키를 설정하는 방법 : 고유 식별 열을 결정합니다. 기본 키 제약 조건을 사용하여 기본 키를 만듭니다. 고유 한 제약 조건을 사용하여 고유 한 제약 조건을 추가하십시오. 고유 한 색인을 만듭니다. 후보 키를 설정하면 데이터 무결성을 보장하고 쿼리 성능을 향상하며 데이터 복제를 방지합니다.

See all articles