recherche
MaisonPériphériques technologiquesIAComment utiliser les tables d'iceberg Apache?

Apache Iceberg: un format de table moderne pour une gestion de lac de données améliorée

Apache Iceberg est un format de table de pointe conçu pour répondre aux lacunes des tables de ruche traditionnelles, offrant des performances supérieures, la cohérence des données et l'évolutivité. Cet article explore l'évolution d'Iceberg, les caractéristiques clés (transactions acides, l'évolution du schéma, le voyage dans le temps), l'architecture et les comparaisons avec d'autres formats de table comme Delta Lake et Parquet. Nous examinerons également son intégration avec les lacs de données modernes et son impact sur la gestion des données et l'analyse à grande échelle.

Points d'apprentissage clés

  • Saisissez les caractéristiques de base et l'architecture d'Apache iceberg.
  • Comprendre comment iceberg facilite l'évolution du schéma et de la partition sans réécriture de données.
  • Explorez comment les transactions acides et les voyages dans le temps renforcent la cohérence des données.
  • Comparez les capacités d'Iceberg contre Delta Lake et Hudi.
  • Identifiez les scénarios où iceberg optimise les performances du lac Data.

Table des matières

  • Introduction à Apache iceberg
  • L'évolution de l'iceberg
  • Comprendre le format iceberg
  • Caractéristiques de base d'Apache iceberg
  • Plongée profonde dans l'architecture d'iceberg
  • Iceberg vs d'autres formats de table: une comparaison
  • Conclusion
  • Questions fréquemment posées

Introduction à Apache iceberg

Originaire à Netflix en 2017 (l'idée originale de Ryan Blue et Daniel Weeks), Apache Iceberg a été créée pour résoudre les goulots d'étranglement des performances, des problèmes de cohérence et des limitations inhérentes au format de la table Hive. Open-Open et donnée à l'Apache Software Foundation en 2018, il a rapidement gagné du terrain, attirant les contributions de géants de l'industrie comme Apple, AWS et LinkedIn.

Comment utiliser les tables d'iceberg Apache?

L'évolution d'Apache iceberg

L'expérience de Netflix a mis en évidence une faiblesse critique de Hive: sa dépendance à l'égard des répertoires pour le suivi de la table. Cette approche manquait de granularité nécessaire pour une cohérence robuste, une concurrence efficace et les fonctionnalités avancées attendues dans les entrepôts de données modernes. Le développement d'Iceberg visait à surmonter ces limites en mettant l'accent sur:

Objectifs de conception clés

  • Cohérence des données: les mises à jour sur plusieurs partitions doivent être atomiques et transparentes, empêchant les utilisateurs de voir des données incohérentes.
  • Optimisation des performances: la gestion efficace des métadonnées était primordiale pour éliminer les goulots d'étranglement de la planification des requêtes et accélérer l'exécution des requêtes.
  • Conviviale: le partitionnement doit être transparent aux utilisateurs, permettant une optimisation automatique des requêtes sans intervention manuelle.
  • Adaptabilité du schéma: les modifications du schéma doivent être gérées en toute sécurité, sans nécessiter des réécritures complètes de l'ensemble de données.
  • Évolutivité: La solution devait gérer efficacement les pétaoctets de données, reflétant l'échelle de Netflix.

Comprendre le format iceberg

Iceberg relève ces défis en suivant les tables en tant que liste structurée de fichiers, et non des répertoires. Il fournit un format standardisé définissant la structure des métadonnées sur plusieurs fichiers et propose des bibliothèques pour une intégration transparente avec des moteurs populaires comme Spark et Flink.

Un standard de lacs de données

La conception d'Iceberg priorise la compatibilité avec les moteurs de stockage et de calcul existants, favorisant une large adoption sans changements significatifs. L'objectif est d'établir l'iceberg en tant que norme de l'industrie, permettant aux utilisateurs d'interagir avec les tables indépendamment du format sous-jacent. De nombreux outils de données offrent désormais un support d'iceberg natif.

Caractéristiques de base d'Apache iceberg

Iceberg transcende simplement les limites de Hive; Il introduit de puissantes capacités améliorant les charges de travail Data Lake et Data Lakehouse. Les caractéristiques clés comprennent:

Garanties transactionnelles acides

Iceberg utilise un contrôle de concurrence optimiste pour assurer les propriétés acides, garantissant que les transactions sont entièrement engagées ou complètement enroulées. Cela minimise les conflits tout en maintenant l'intégrité des données.

Évolution de partition

Contrairement aux lacs de données traditionnels, Iceberg permet de modifier les schémas de partitionnement sans réécrire l'ensemble du tableau. Cela garantit une optimisation efficace des requêtes sans perturber les données existantes.

Comment utiliser les tables d'iceberg Apache?

Partitionnement caché

Iceberg optimise automatiquement les requêtes en fonction de la partition, éliminant la nécessité pour les utilisateurs de filtrer manuellement par colonnes de partition.

Comment utiliser les tables d'iceberg Apache?

Opérations au niveau des lignes (Copy-on-Write & Merge-on Read)

Iceberg prend en charge les stratégies de copie-écriture (vache) et de fusion sur la lecture (MOR) pour des mises à jour efficaces au niveau des lignes.

Voyage dans le temps et recul de la version

Les instantanés immuables d'Iceberg permettent des requêtes de voyage dans le temps et la capacité de revenir aux états de table précédents.

Comment utiliser les tables d'iceberg Apache?Comment utiliser les tables d'iceberg Apache?

Évolution du schéma

Iceberg prend en charge les modifications du schéma (ajoutant, supprimant ou modifiant les colonnes) sans réécriture de données, assurant la flexibilité et la compatibilité.

Plongée profonde dans l'architecture d'iceberg

Cette section explore l'architecture d'Iceberg et comment elle surmonte les limites de Hive.

Comment utiliser les tables d'iceberg Apache?

La couche de données

La couche de données stocke les données de table réelles (fichiers de données et supprimer des fichiers). Il est hébergé sur les systèmes de fichiers distribués (HDFS, S3, etc.) et prend en charge plusieurs formats de fichiers (Parquet, Orc, Avro). Le parquet est généralement préféré pour son stockage en colonnes.

Comment utiliser les tables d'iceberg Apache?Comment utiliser les tables d'iceberg Apache?Comment utiliser les tables d'iceberg Apache?

La couche de métadonnées

Cette couche gère tous les fichiers de métadonnées dans une structure d'arborescence, suivant les fichiers de données et les opérations. Les composants clés incluent des fichiers manifestes, des listes manifestes et des fichiers de métadonnées. Les fichiers Puffin stockent des statistiques avancées et des index pour l'optimisation des requêtes.

Le catalogue

Le catalogue agit comme un registre central, fournissant l'emplacement du fichier de métadonnées actuel pour chaque table, garantissant un accès cohérent pour tous les lecteurs et écrivains. Divers backends peuvent servir de catalogues iceberg (catalogue Hadoop, Metastore Hive, catalogue Nessie, catalogue AWS Glue).

Iceberg vs d'autres formats de table: une comparaison

Iceberg, Parquet, Orc et Delta Lake sont fréquemment utilisés dans le traitement des données à grande échelle. Iceberg se distingue comme un format de table offrant des garanties transactionnelles et des optimisations de métadonnées, contrairement à Parquet et Orc qui sont des formats de fichiers. Comparé au lac Delta, Iceberg excelle dans le schéma et l'évolution de la partition.

Conclusion

Apache Iceberg propose une approche robuste, évolutive et conviviale de la gestion des lacs de données. Ses fonctionnalités en font une solution convaincante pour les organisations qui gèrent les données à grande échelle.

Questions fréquemment posées

Q1. Qu'est-ce qu'Apache iceberg? A. Un format de table open-source moderne améliorant les performances, la cohérence et l'évolutivité du lac.

Q2. Pourquoi Apache Iceberg est-il nécessaire? A. pour surmonter les limites de Hive dans la gestion des métadonnées et les capacités transactionnelles.

Q3. Comment iceberg gère-t-il l'évolution du schéma? A. Il prend en charge les changements de schéma sans nécessiter de réécritures de table complètes.

Q4. Qu'est-ce que l'évolution de la partition dans Iceberg? A. Modification des schémas de partitionnement sans réécrire des données historiques.

Q5. Comment iceberg prend-il en charge les transactions acides? A. grâce à un contrôle optimiste de la concurrence, en assurant des mises à jour atomiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Le nouvel assistant AI de Meta: booster de productivité ou puits de temps?Le nouvel assistant AI de Meta: booster de productivité ou puits de temps?May 01, 2025 am 11:18 AM

Meta s'est associé à des partenaires tels que NVIDIA, IBM et Dell pour étendre l'intégration de déploiement de niveau d'entreprise de la pile de lama. En termes de sécurité, Meta a lancé de nouveaux outils tels que Llama Guard 4, Llafirewall et Cyberseceval 4, et a lancé le programme Llama Defenders pour améliorer la sécurité de l'IA. En outre, Meta a distribué 1,5 million de dollars de subventions d'impact LLAMA à 10 institutions mondiales, y compris des startups travaillant pour améliorer les services publics, les soins de santé et l'éducation. La nouvelle application Meta Ai propulsée par Llama 4, conçue comme Meta Ai

80% de la génération Zers épouserait une IA: étudie80% de la génération Zers épouserait une IA: étudieMay 01, 2025 am 11:17 AM

Joi AI, une entreprise pionnière de l'interaction humaine-AI, a introduit le terme "Ai-Lations" pour décrire ces relations en évolution. Jaime Bronstein, thérapeute relationnelle chez JOI AI, précise que ceux-ci ne sont pas censés remplacer l'homme C humain

L'IA aggrave le problème du bot d'Internet. Cette startup de 2 milliards de dollars est en première ligneL'IA aggrave le problème du bot d'Internet. Cette startup de 2 milliards de dollars est en première ligneMay 01, 2025 am 11:16 AM

Les fraudes en ligne et les attaques de bot posent un défi important pour les entreprises. Les détaillants combattent des bots de thésaurisation, les banques de banques se battaient les prises de contrôle et les plateformes de médias sociaux ont du mal avec les imitateurs. La montée de l'IA exacerbe ce problème, rendez-vous

Vendre aux robots: la révolution marketing qui fera ou déferlera votre entrepriseVendre aux robots: la révolution marketing qui fera ou déferlera votre entrepriseMay 01, 2025 am 11:15 AM

Les agents de l'IA sont sur le point de révolutionner le marketing, dépassant potentiellement l'impact des changements technologiques antérieurs. Ces agents, représentant une progression importante de l'IA générative, ne traitent pas seulement des informations comme Chatgpt, mais prennent également Actio

Comment la technologie de la vision par ordinateur transforme les éliminatoires de la NBA officiantComment la technologie de la vision par ordinateur transforme les éliminatoires de la NBA officiantMay 01, 2025 am 11:14 AM

L'impact de l'IA sur les décisions cruciales du match NBA 4 Deux matchs pivots du match 4 de la NBA ont présenté le rôle révolutionnaire de l'IA dans la officier. Dans le premier, Nikola Jokic de Denver, à trois points, a conduit à une ruelle de dernière seconde d'Aaron Gordon. Haw de Sony

Comment l'IA accélère l'avenir de la médecine régénérativeComment l'IA accélère l'avenir de la médecine régénérativeMay 01, 2025 am 11:13 AM

Traditionnellement, l'expansion de l'expertise en médecine régénérative a exigé des voyages approfondis, une formation pratique et des années de mentorat. Maintenant, l'IA transforme ce paysage, surmontant les limites géographiques et accélèrent les progrès à travers EN

Les principaux plats à retenir d'Intel Foundry Direct Connect 2025Les principaux plats à retenir d'Intel Foundry Direct Connect 2025May 01, 2025 am 11:12 AM

Intel travaille à retourner son processus de fabrication à la position principale, tout en essayant d'attirer des clients Fab Semiconductor pour faire des puces à ses Fabs. À cette fin, Intel doit renforcer plus de confiance dans l'industrie, non seulement pour prouver la compétitivité de ses processus, mais aussi pour démontrer que les partenaires peuvent fabriquer des puces dans un flux de travail familier et mature, cohérent et très fiable. Tout ce que j'entends aujourd'hui me fait croire qu'Intel se dirige vers cet objectif. Le discours d'ouverture du nouveau PDG Tan Libai a lancé la journée. Tan Libai est simple et concis. Il décrit plusieurs défis dans les services de fonderie d'Intel et les mesures que les entreprises ont prises pour relever ces défis et planifier un itinéraire réussi pour les services de fonderie d'Intel à l'avenir. Tan Libai a parlé du processus de mise en œuvre du service OEM d'Intel pour rendre les clients davantage

L'IA a mal tourné? Maintenant, il y a une assurance pour celaL'IA a mal tourné? Maintenant, il y a une assurance pour celaMay 01, 2025 am 11:11 AM

Répondant aux préoccupations croissantes concernant les risques d'IA, Chaucer Group, une entreprise mondiale de réassurance de spécialité, et l'AI d'Armilla ont uni leurs forces pour introduire un nouveau produit d'assurance responsabilité civile (TPL). Cette politique sauvegarde les entreprises contre

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Adaptateur de serveur SAP NetWeaver pour Eclipse

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

mPDF

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) ​​et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Navigateur d'examen sécurisé

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.