Apache冰山:一种现代餐桌格式,用于增强数据湖管理
Apache Iceberg是一种尖端的表格格式,旨在解决传统蜂巢桌的缺点,提供出色的性能,数据一致性和可扩展性。本文探讨了冰山的演变,关键特征(酸性交易,架构进化,时间旅行),建筑和与其他桌面格式(如三角洲湖和帕quet)的比较。我们还将研究其与现代数据湖泊的集成及其对大规模数据管理和分析的影响。
关键学习点
- 掌握Apache Iceberg的核心特征和建筑。
- 了解冰山如何在没有数据重写的情况下促进模式和分区演变。
- 探索酸交易和时间旅行如何增强数据一致性。
- 比较冰山对Delta Lake和Hudi的能力。
- 确定冰山优化数据湖性能的方案。
目录
- 阿帕奇冰山简介
- 冰山的演变
- 了解冰山格式
- 阿帕奇冰山的核心特征
- 深入研究冰山的建筑
- 冰山与其他表格格式:比较
- 结论
- 常见问题
阿帕奇冰山简介
Apache Iceberg起源于2017年的Netflix(Ryan Blue和Daniel Weeks的创意),是为了解决蜂巢表格式固有的固有局限性的效果瓶颈,一致性问题和局限性。开源并于2018年捐赠给Apache软件基金会,迅速获得了吸引力,吸引了苹果,AWS和LinkedIn等行业巨头的贡献。
阿帕奇冰山的演变
Netflix的经验强调了Hive的一个危险弱点:它依靠目录的桌面跟踪。这种方法缺乏稳健一致性,有效并发性以及现代数据仓库中预期的高级功能所需的粒度。冰山的发展旨在克服这些局限性,重点是:
关键设计目标
- 数据一致性:多个分区之间的更新必须是原子和无缝的,从而阻止用户看到不一致的数据。
- 绩效优化:有效的元数据管理是消除查询计划瓶颈并加快查询执行的最重要的。
- 用户友好性:分区应该对用户透明,允许无需手动干预即可自动查询优化。
- 架构适应性:应安全处理架构修改,而无需完整的数据集重写。
- 可伸缩性:该解决方案必须有效地处理数据的之前,反映了Netflix的规模。
了解冰山格式
冰山通过将表作为文件列表而不是目录来解决这些挑战。它提供了标准化的格式,该格式定义了多个文件中的元数据结构,并提供了与流行引擎(如Spark和Flink)无缝集成的库。
数据湖标准
冰山的设计优先考虑与现有存储和计算引擎的兼容性,从而促进了广泛的采用而没有发生重大变化。目的是将冰山建立为行业标准,使用户可以与桌子互动,而不论基本格式如何。现在,许多数据工具提供本地冰山支持。
阿帕奇冰山的核心特征
冰山超越仅解决Hive的局限性;它引入了强大的功能,可增强数据湖和数据湖泊工作量。关键功能包括:
酸交易保证
冰山使用乐观的并发控制来确保酸性特性,以确保交易是完全投入或完全卷回去的。这可以最大程度地减少冲突,同时保持数据完整性。
分区演变
与传统数据湖不同,冰山可以在不重写整个桌子的情况下修改分区方案。这样可以确保有效的查询优化而不会破坏现有数据。
隐藏的分区
冰山会自动根据分区优化查询,从而消除了用户通过分区列手动过滤的需求。
划分级操作(抄写和读取中的合并)
冰山支持有效的行级更新,同时支持抄写(Cow)和Merge-on-Read(MOR)策略。
时间旅行和版本回滚
冰山的不变快照使时间旅行查询以及回到以前的表格状态的能力。
模式进化
冰山支持模式修改(添加,删除或更改列),而无需数据重写,确保灵活性和兼容性。
深入研究冰山的建筑
本节探讨了冰山的建筑及其如何克服Hive的局限性。
数据层
数据层存储实际的表数据(数据文件和删除文件)。它托管在分布式文件系统(HDFS,S3等)上,并支持多个文件格式(Parquet,orc,avro)。对于其柱状存储而言,通常首选Parquet。
元数据层
该层在树结构中管理所有元数据文件,跟踪数据文件和操作。关键组件包括清单文件,清单列表和元数据文件。海雀文件存储高级统计信息和索引,以进行查询优化。
目录
该目录充当中央注册表,为每个表提供当前元数据文件的位置,确保所有读者和作家都持续访问。各种后端可以用作冰山目录(Hadoop目录,Hive Metastore,Nessie Catalog,AWS Glue目录)。
冰山与其他表格格式:比较
冰山,镶木木,兽人和三角洲湖经常用于大规模数据处理。冰山将自己作为表格格式区分开,提供交易保证和元数据优化,这与文件格式不同。与三角洲湖相比,冰山在模式和分区进化中出色。
结论
Apache Iceberg为数据湖管理提供了强大,可扩展和用户友好的方法。它的功能使其成为处理大规模数据的组织的引人注目的解决方案。
常见问题
Q1。什么是Apache冰山?答:一种现代的开源表格式,可增强数据湖性能,一致性和可扩展性。
Q2。为什么需要阿帕奇冰山?答:克服Hive在元数据处理和交易功能中的局限性。
Q3。冰山如何处理模式演变?答:它支持模式更改,而无需全表重写。
Q4。什么是冰山的分区进化? A.修改分区方案而无需重写历史数据。
Q5。冰山如何支持酸交易?答:通过乐观的并发控制,确保原子更新。
以上是如何使用Apache冰山表?的详细内容。更多信息请关注PHP中文网其他相关文章!

在约翰·罗尔斯1971年具有开创性的著作《正义论》中,他提出了一种思想实验,我们应该将其作为当今人工智能设计和使用决策的核心:无知的面纱。这一理念为理解公平提供了一个简单的工具,也为领导者如何利用这种理解来公平地设计和实施人工智能提供了一个蓝图。 设想一下,您正在为一个新的社会制定规则。但有一个前提:您事先不知道自己在这个社会中将扮演什么角色。您最终可能富有或贫穷,健康或残疾,属于多数派或边缘少数群体。在这种“无知的面纱”下运作,可以防止规则制定者做出有利于自身的决策。相反,人们会更有动力制定公

许多公司专门从事机器人流程自动化(RPA),提供机器人以使重复性任务自动化 - UIPATH,在任何地方自动化,蓝色棱镜等。 同时,过程采矿,编排和智能文档处理专业

AI的未来超越了简单的单词预测和对话模拟。 AI代理人正在出现,能够独立行动和任务完成。 这种转变已经在诸如Anthropic的Claude之类的工具中很明显。 AI代理:研究

快速的技术进步需要对工作未来的前瞻性观点。 当AI超越生产力并开始塑造我们的社会结构时,会发生什么? Topher McDougal即将出版的书Gaia Wakes:

产品分类通常涉及复杂的代码,例如诸如统一系统(HS)等系统的“ HS 8471.30”,对于国际贸易和国内销售至关重要。 这些代码确保正确的税收申请,影响每个INV

数据中心能源消耗与气候科技投资的未来 本文探讨了人工智能驱动的数据中心能源消耗激增及其对气候变化的影响,并分析了应对这一挑战的创新解决方案和政策建议。 能源需求的挑战: 大型超大规模数据中心耗电量巨大,堪比数十万个普通北美家庭的总和,而新兴的AI超大规模中心耗电量更是数十倍于此。2024年前八个月,微软、Meta、谷歌和亚马逊在AI数据中心建设和运营方面的投资已达约1250亿美元(摩根大通,2024)(表1)。 不断增长的能源需求既是挑战也是机遇。据Canary Media报道,迫在眉睫的电

生成式AI正在彻底改变影视制作。Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等众多新模型,正在以前所未有的速度提升生成视频的质量。这些模型能够轻松制作出复杂的特效和逼真的场景,甚至连短视频剪辑和具有摄像机感知的运动效果也已实现。虽然这些工具的操控性和一致性仍有待提高,但其进步速度令人惊叹。 生成式视频正在成为一种独立的媒介形式。一些模型擅长动画制作,另一些则擅长真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显着退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

Atom编辑器mac版下载
最流行的的开源编辑器

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

禅工作室 13.0.1
功能强大的PHP集成开发环境

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能