Apache Iceberg : 향상된 데이터 레이크 관리를위한 최신 테이블 형식
Apache Iceberg는 전통적인 하이브 테이블의 단점을 해결하도록 설계된 최첨단 테이블 형식으로, 우수한 성능, 데이터 일관성 및 확장 성을 제공합니다. 이 기사는 빙산의 진화, 주요 특징 (산 거래, 스키마 진화, 시간 여행), 아키텍처 및 델타 레이크 및 파크와 같은 다른 테이블 형식과의 비교를 탐구합니다. 또한 최신 데이터 호수와의 통합 및 대규모 데이터 관리 및 분석에 미치는 영향도 검토합니다.
주요 학습 지점
- Apache Iceberg의 핵심 기능과 아키텍처를 파악하십시오.
- Iceberg가 데이터 재 작성없이 스키마 및 파티션 진화를 용이하게하는 방법을 이해하십시오.
- 산 거래와 시간 여행이 데이터 일관성을 강화하는 방법을 탐색하십시오.
- Delta Lake와 Hudi와의 Iceberg의 능력을 비교하십시오.
- 빙산이 데이터 호수 성능을 최적화하는 시나리오를 식별하십시오.
목차
- 아파치 빙산 소개
- 빙산의 진화
- 빙산 형식 이해
- Apache Iceberg의 핵심 기능
- 빙산의 건축물에 깊이 뛰어 들었습니다
- 빙산 대 기타 테이블 형식 : 비교
- 결론
- 자주 묻는 질문
아파치 빙산 소개
2017 년 Netflix (Ryan Blue와 Daniel Weeks의 아이디어)에서 시작된 Apache Iceberg는 Hive 테이블 형식에 내재 된 성능 병목 현상, 일관성 문제 및 제한을 해결하기 위해 만들어졌습니다. 2018 년 Apache Software Foundation에 오픈 소스 및 기증 된이 회사는 빠르게 견인력을 얻었으며 Apple, AWS 및 LinkedIn과 같은 업계 대기업의 기여를 유치했습니다.
아파치 빙산의 진화
Netflix의 경험은 Hive의 중요한 약점 인 테이블 추적 디렉토리에 대한 의존성을 강조했습니다. 이 접근법은 강력한 일관성, 효율적인 동시성 및 최신 데이터웨어 하우스에서 예상되는 고급 기능에 필요한 세분성이 부족했습니다. 빙산의 발전은 다음에 중점을두고 이러한 한계를 극복하는 것을 목표로했습니다.
주요 설계 목표
- 데이터 일관성 : 여러 파티션에 대한 업데이트는 원자적이고 원활해야하므로 사용자가 일관되지 않은 데이터를 보지 못하게해야합니다.
- 성능 최적화 : 쿼리 계획 병목 현상을 제거하고 쿼리 실행 속도를 높이기 위해 효율적인 메타 데이터 관리가 가장 중요했습니다.
- 사용자 친화 성 : 파티션은 사용자에게 투명해야하므로 수동 개입없이 자동 쿼리 최적화를 허용해야합니다.
- 스키마 적응성 : 완전한 데이터 세트 재 작성 없이도 스키마 수정을 안전하게 처리해야합니다.
- 확장 성 : 솔루션은 넷플릭스의 스케일을 반영하여 데이터의 페타 바이트를 효율적으로 처리해야했습니다.
빙산 형식 이해
빙산은 디렉토리가 아닌 구조화 된 파일 목록으로 테이블을 추적하여 이러한 과제를 해결합니다. 여러 파일에서 메타 데이터 구조를 정의하는 표준화 된 형식을 제공하며 Spark 및 Flink와 같은 인기있는 엔진과 완벽한 통합을위한 라이브러리를 제공합니다.
데이터 호수 표준
빙산의 설계는 기존 스토리지 및 컴퓨팅 엔진과의 호환성을 우선시하여 중대한 변화없이 광범위한 채택을 촉진합니다. 목표는 빙산을 업계 표준으로 설정하여 사용자가 기본 형식에 관계없이 테이블과 상호 작용할 수 있도록하는 것입니다. 많은 데이터 도구는 이제 네이티브 빙산 지원을 제공합니다.
Apache Iceberg의 핵심 기능
빙산은 단순히 Hive의 한계를 다루는 것을 초월합니다. 데이터 레이크 및 데이터 레이크 하우스 워크로드를 향상시키는 강력한 기능을 소개합니다. 주요 기능은 다음과 같습니다.
산성 거래 보증
빙산은 낙관적 동시성 제어를 사용하여 산성 특성을 보장하여 거래가 완전히 커밋되거나 완전히 롤백되도록 보장합니다. 이것은 데이터 무결성을 유지하면서 충돌을 최소화합니다.
분할 진화
전통적인 데이터 호수와 달리 Iceberg는 전체 테이블을 다시 작성하지 않고 분할 체계를 수정할 수 있습니다. 이를 통해 기존 데이터를 방해하지 않고 효율적인 쿼리 최적화를 보장합니다.
숨겨진 파티셔닝
빙산은 분할을 기반으로 쿼리를 자동으로 최적화하여 사용자가 파티션 열을 수동으로 필터링 할 필요가 없습니다.
로우 레벨 작업 (Copy-on-Write & Merge-on-Read)
빙산은 효율적인 행 수준 업데이트를 위해 COP (Copy-on-Write) 및 MOR (Merge-on-Read) 전략을 모두 지원합니다.
시간 여행 및 버전 롤백
Iceberg의 불변의 스냅 샷은 시간 여행 쿼리와 이전 테이블 상태로 롤백하는 기능을 가능하게합니다.
스키마 진화
빙산은 데이터 재 작성없이 스키마 수정 (열을 추가, 제거 또는 변경)을 지원하여 유연성과 호환성을 보장합니다.
빙산의 건축물에 깊이 뛰어 들었습니다
이 섹션에서는 빙산의 건축과 하이브의 한계를 극복하는 방법을 살펴 봅니다.
데이터 계층
데이터 계층은 실제 테이블 데이터 (데이터 파일 및 파일 삭제)를 저장합니다. 분산 파일 시스템 (HDFS, S3 등)에서 호스팅되며 여러 파일 형식 (Parquet, ORC, AVRO)을 지원합니다. 파르켓은 일반적으로 원주민 저장에 선호됩니다.
메타 데이터 레이어
이 레이어는 모든 메타 데이터 파일을 트리 구조로 관리하고 데이터 파일 및 작업을 추적합니다. 주요 구성 요소에는 매니페스트 파일, 매니페스트 목록 및 메타 데이터 파일이 포함됩니다. Puffin Files는 쿼리 최적화를 위해 고급 통계 및 인덱스를 저장합니다.
카탈로그
카탈로그는 중앙 레지스트리 역할을하여 각 테이블의 현재 메타 데이터 파일의 위치를 제공하여 모든 독자 및 작가에게 일관된 액세스를 보장합니다. 다양한 백엔드는 빙산 카탈로그 (Hadoop 카탈로그, 하이브 전이, Nessie 카탈로그, AWS 접착제 카탈로그) 역할을 할 수 있습니다.
빙산 대 기타 테이블 형식 : 비교
Iceberg, Parquet, Orc 및 Delta Lake는 대규모 데이터 처리에 자주 사용됩니다. 빙산은 파일 형식 인 파크 및 오크와 달리 트랜잭션 보증 및 메타 데이터 최적화를 제공하는 테이블 형식으로 구별됩니다. Delta Lake와 비교할 때 Iceberg는 스키마 및 파티션 진화에 탁월합니다.
결론
Apache Iceberg는 Data Lake Management에 대한 강력하고 확장 가능하며 사용자 친화적 인 접근 방식을 제공합니다. 이 기능은 대규모 데이터를 처리하는 조직에 매력적인 솔루션이됩니다.
자주 묻는 질문
Q1. 아파치 빙산이란 무엇입니까? A. 데이터 레이크 성능, 일관성 및 확장 성을 향상시키는 현대적인 오픈 소스 테이블 형식.
Q2. 아파치 빙산이 필요한 이유는 무엇입니까? A. 메타 데이터 처리 및 거래 기능에서 Hive의 한계를 극복합니다.
Q3. 빙산은 스키마 진화를 어떻게 처리합니까? A. 전체 테이블 재 작성 없이도 스키마 변경을 지원합니다.
Q4. 빙산의 파티션 진화는 무엇입니까? A. 과거 데이터를 다시 작성하지 않고 분할 체계 수정.
Q5. 빙산은 산 거래를 어떻게 지원합니까? A. 낙관적 동시성 제어를 통해 원자 업데이트를 보장합니다.
위 내용은 아파치 빙산 테이블을 사용하는 방법?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

훈련 된 치료사의 인간 관계와 직관을 제공 할 수는 없지만 연구에 따르면 많은 사람들이 비교적 얼굴이없고 익명의 AI 봇과의 걱정과 우려를 편안하게 공유하는 것으로 나타났습니다. 이것이 항상 좋은지 i

수십 년 동안의 기술 인 인공 지능 (AI)은 식품 소매 산업에 혁명을 일으키고 있습니다. AI의 영향은 다양한 비즈니스 기능에 걸쳐 대규모 효율성 상승 및 비용 절감에서 간소화 된 프로세스에 이르기까지 AI의 영향은 불공정입니다.

그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 다양한 영향력 AI 복잡성을 식별하고 설명하는 것을 포함하여 AI의 최신 AI에 대한 진행중인 Forbes 열 커버리지의 일부입니다 (여기 링크 참조). 또한, 내 comp

전문 이미지를 유지하려면 가끔 옷장 업데이트가 필요합니다. 온라인 쇼핑은 편리하지만 직접 시도한 트립 온의 확실성이 부족합니다. 내 해결책? AI 기반 개인화. 나는 AI 조수 큐레이팅 의류 selecti를 구상합니다

Google Translate는 언어 학습 기능을 추가합니다 Android Authority에 따르면 APP Expert AssembledeBug는 최신 버전의 Google Translate 앱에는 사용자가 개인화 된 활동을 통해 언어 기술을 향상시킬 수 있도록 설계된 새로운 "연습"테스트 코드가 포함되어 있음을 발견했습니다. 이 기능은 현재 사용자에게는 보이지 않지만 AsschBLEDEBUG는 부분적으로이를 활성화하고 새로운 사용자 인터페이스 요소 중 일부를 볼 수 있습니다. 활성화되면이 기능은 "Beta"배지가 표시된 화면 하단에 새로운 졸업식 캡 아이콘을 추가하여 "연습"기능이 실험 형태로 처음 릴리스 될 것임을 나타내는 새로운 졸업식 캡 아이콘을 추가합니다. 관련 팝업 프롬프트는 "당신을 위해 맞춤화 된 활동을 연습하십시오!"를 보여줍니다. 이는 Google이 사용자 정의를 생성한다는 것을 의미합니다.

MIT 연구원들은 AI 에이전트를 위해 설계된 획기적인 웹 프로토콜 인 Nanda를 개발하고 있습니다. 네트워크 에이전트 및 분산 된 AI의 경우 Nanda는 인터넷 기능을 추가하여 AI Agen을 활성화하여 Anthropic의 MCP (Model Context Protocol)를 기반으로합니다.

Meta의 최신 벤처 : Chatgpt와 경쟁하는 AI 앱 Facebook, Instagram, WhatsApp 및 Threads의 모회사 인 Meta는 새로운 AI 기반 응용 프로그램을 시작하고 있습니다. 이 독립형 앱인 Meta AI는 OpenAi의 chatgpt와 직접 경쟁하는 것을 목표로합니다. 지렛대

AI 사이버 공격의 상승 조수를 탐색합니다 최근에 Ciso의 인류의 Ciso 인 Jason Clinton은 인간이 아닌 정체성과 관련된 새로운 위험을 강조했습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경
