Apache Parquet 是一种面向分析型工作负载的列式存储格式,但它也可以用于存储任何类型的结构化数据,从而解决多种用例。
其最显着的特性之一是能够在处理过程的两个阶段使用不同的压缩技术高效地压缩数据。这降低了存储成本并提高了读取性能。
本文解释了 Java 中 Parquet 的文件压缩,提供了使用示例,并分析了其性能。
压缩技术
与传统的基于行的存储格式不同,Parquet 使用列式方法,允许根据相同类型数据的局部性和值冗余性使用更特定和有效的压缩技术。
Parquet 以二进制格式写入信息,并在两个不同的级别应用压缩,每个级别使用不同的技术:
- 在写入列的值时,它会根据初始值的特性自适应地选择编码类型:字典编码、游程编码、位打包、增量编码等。
- 每当达到一定数量的字节(默认为 1MB)时,就会形成一个页面,并且使用程序员配置的算法(无压缩、GZip、Snappy、LZ4、ZSTD 等)压缩二进制块。
尽管压缩算法是在文件级别配置的,但每列的编码是使用内部启发式算法自动选择的(至少在 parquet-java 实现中是这样)。
不同压缩技术的性能在很大程度上取决于您的数据,因此没有一种万能的解决方案能够保证最快的处理时间和最低的存储空间消耗。 您需要执行自己的测试。
代码
配置很简单,只有在写入时才需要显式设置。读取文件时,Parquet 会发现使用了哪种压缩算法并应用相应的解压缩算法。
配置算法或编解码器
在使用 Protocol Buffers 和 Avro 的 Carpet 和 Parquet 中,要配置压缩算法,只需调用 builder 的 withCompressionCodec 方法:
Carpet
CarpetWriter<T> writer = new CarpetWriter.Builder<>(outputFile, clazz) .withCompressionCodec(CompressionCodecName.ZSTD) .build();
Avro
ParquetWriter<Organization> writer = AvroParquetWriter.<Organization>builder(outputFile) .withSchema(new Organization().getSchema()) .withCompressionCodec(CompressionCodecName.ZSTD) .build();
Protocol Buffers
ParquetWriter<Organization> writer = ProtoParquetWriter.<Organization>builder(outputFile) .withMessage(Organization.class) .withCompressionCodec(CompressionCodecName.ZSTD) .build();
该值必须是 CompressionCodecName 枚举中可用的值之一:UNCOMPRESSED、SNAPPY、GZIP、LZO、BROTLI、LZ4、ZSTD 和 LZ4_RAW(LZ4 已弃用,应使用 LZ4_RAW)。
压缩级别
某些压缩算法提供了一种微调压缩级别的方法。此级别通常与它们需要为查找重复模式而付出的努力有关,压缩级别越高,压缩过程所需的的时间和内存就越多。
尽管它们带有默认值,但可以使用 Parquet 的通用配置机制进行修改,尽管每个编解码器使用不同的键。
此外,要选择的值不是标准的,并且取决于每个编解码器,因此您必须参考每个算法的文档以了解每个级别提供了什么。
ZSTD
要引用级别的配置,ZSTD 编解码器声明一个常量:ZstandardCodec.PARQUET_COMPRESS_ZSTD_LEVEL
。
可能的值范围从 1 到 22,默认值为 3。
CarpetWriter<T> writer = new CarpetWriter.Builder<>(outputFile, clazz) .withCompressionCodec(CompressionCodecName.ZSTD) .build();
LZO
要引用级别的配置,LZO 编解码器声明一个常量:LzoCodec.LZO_COMPRESSION_LEVEL_KEY
。
可能的值范围从 1 到 9、99 和 999,默认值为“999”。
ParquetWriter<Organization> writer = AvroParquetWriter.<Organization>builder(outputFile) .withSchema(new Organization().getSchema()) .withCompressionCodec(CompressionCodecName.ZSTD) .build();
GZIP
它不声明任何常量,您必须直接使用字符串“zlib.compress.level”,可能的值范围从 0 到 9,默认值为“6”。
ParquetWriter<Organization> writer = ProtoParquetWriter.<Organization>builder(outputFile) .withMessage(Organization.class) .withCompressionCodec(CompressionCodecName.ZSTD) .build();
性能测试
为了分析不同压缩算法的性能,我将使用两个包含不同类型数据的公共数据集:
- 纽约市出租车行程:在几列中包含大量数值和少量字符串值。它有 23 列,包含 1960 万条记录。
- 意大利政府的凝聚力项目:许多列包含浮点值以及大量的各种文本字符串。它有 91 列,包含 200 万行。
我将评估 Parquet Java 中启用的一些压缩算法:UNCOMPRESSED、SNAPPY、GZIP、LZO、ZSTD、LZ4_RAW。
正如预期的那样,我将使用带有 parquet-java 提供的默认配置和每种算法的默认压缩级别的 Carpet。
您可以在 GitHub 上找到源代码,测试是在配备 AMD Ryzen 7 4800HS CPU 和 JDK 17 的笔记本电脑上完成的。
文件大小
为了了解每种压缩的性能,我们将采用等效的 CSV 文件作为参考。
格式 | gov.it | 纽约出租车 |
---|---|---|
CSV | 1761 MB | 2983 MB |
未压缩 | 564 MB | 760 MB |
SNAPPY | 220 MB | 542 MB |
GZIP | **146 MB** | 448 MB |
ZSTD | 148 MB | **430 MB** |
LZ4_RAW | 209 MB | 547 MB |
LZO | 215 MB | 518 MB |
在这两个测试中,使用 GZip 和 Zstandard 进行压缩最为高效。
仅使用 Parquet 编码技术,文件大小可以减少到原始 CSV 大小的 25%-32%。应用额外压缩后,它将减少到CSV 大小的 9% 到 15%。
写入
压缩信息会带来多少开销?
如果我们三次写入相同的信息并计算平均秒数,我们会得到:
算法 | gov.it | 纽约出租车 |
---|---|---|
未压缩 | 25.0 | 57.9 |
SNAPPY | 25.2 | 56.4 |
GZIP | 39.3 | 91.1 |
ZSTD | 27.3 | 64.1 |
LZ4_RAW | **24.9** | 56.5 |
LZO | 26.0 | **56.1** |
SNAPPY、LZ4 和 LZO 达到的时间与不压缩相似,而 ZSTD 会增加一些开销。GZIP 性能最差,写入时间变慢了 50%。
读取
读取文件比写入更快,因为需要的计算更少。
读取文件中的所有列,以秒为单位的时间为:
算法 | gov.it | 纽约出租车 |
---|---|---|
未压缩 | 11.4 | 37.4 |
SNAPPY | **12.5** | **39.9** |
GZIP | 13.6 | 40.9 |
ZSTD | 13.1 | 41.5 |
LZ4_RAW | 12.8 | 41.6 |
LZO | 13.1 | 41.1 |
读取时间接近于不压缩信息,解压缩的开销在 10% 到 20% 之间。
结论
在读取和写入时间方面,没有一种算法明显优于其他算法,所有算法都在相似的范围内。在大多数情况下,压缩信息可以弥补空间节省(和传输)带来的时间损失。
在这两个用例中,选择一种或另一种算法的决定因素可能是达到的压缩率,ZSTD 和 Gzip 突出(但写入时间较差)。
每种算法都有其优势,因此最佳选择是使用您的数据进行测试,考虑哪个因素更重要:
- 最大限度地减少存储使用,因为您存储大量很少使用的数据。
- 最大限度地减少文件生成时间。
- 最大限度地减少读取时间,因为文件会被多次读取。
就像生活中的一切一样,这是一个权衡,您必须看看什么最能弥补。在 Carpet 中,默认情况下,如果您不配置任何内容,它会使用 Snappy 进行压缩。
实现细节
该值必须是 CompressionCodecName 枚举中可用的值之一。与每个枚举值关联的是实现算法的类的名称:
CarpetWriter<T> writer = new CarpetWriter.Builder<>(outputFile, clazz) .withCompressionCodec(CompressionCodecName.ZSTD) .build();
Parquet 将使用反射来实例化指定的类,该类必须实现 CompressionCodec 接口。如果您查看其源代码,您会发现它位于 Hadoop 项目中,而不是 Parquet。这表明 Parquet 在 Java 实现中与 Hadoop 的耦合程度。
要使用其中一种编解码器,您必须确保已添加包含其实现的 JAR 作为依赖项。
并非所有实现都存在于添加 parquet-java 时具有的传递依赖项中,或者您可能过于积极地排除了 Hadoop 依赖项。
在 org.apache.parquet:parquet-hadoop 依赖项中,包含 SnappyCodec、ZstandardCodec 和 Lz4RawCodec 的实现,这会传递导入 snappy-java、zstd-jni 和 aircompressor 依赖项以及这三种算法的实际实现。
在 hadoop-common:hadoop-common 依赖项中,包含 GzipCodec 的实现。
BrotliCodec 和 LzoCodec 的实现在哪里?它们不在任何 Parquet 或 Hadoop 依赖项中,因此,如果您在不添加其他依赖项的情况下使用它们,则您的应用程序将无法使用那些格式压缩的文件。
- 要支持 LZO,您需要将依赖项 org.anarres.lzo:lzo-hadoop 添加到您的 pom 或 gradle 文件中。
- Brotli 的情况更为复杂:该依赖项不在 Maven Central 中,您还必须添加 JitPack 存储库。
以上是Parquet Java 中的压缩算法的详细内容。更多信息请关注PHP中文网其他相关文章!

javaispopularforcross-platformdesktopapplicationsduetoits“ writeonce,runanywhere”哲学。1)itusesbytbytybytecebytecodethatrunsonanyjvm-platform.2)librarieslikeslikeslikeswingingandjavafxhelpcreatenative-lookingenative-lookinguisis.3)

在Java中编写平台特定代码的原因包括访问特定操作系统功能、与特定硬件交互和优化性能。1)使用JNA或JNI访问Windows注册表;2)通过JNI与Linux特定硬件驱动程序交互;3)通过JNI使用Metal优化macOS上的游戏性能。尽管如此,编写平台特定代码会影响代码的可移植性、增加复杂性、可能带来性能开销和安全风险。

Java将通过云原生应用、多平台部署和跨语言互操作进一步提升平台独立性。1)云原生应用将使用GraalVM和Quarkus提升启动速度。2)Java将扩展到嵌入式设备、移动设备和量子计算机。3)通过GraalVM,Java将与Python、JavaScript等语言无缝集成,增强跨语言互操作性。

Java的强类型系统通过类型安全、统一的类型转换和多态性确保了平台独立性。1)类型安全在编译时进行类型检查,避免运行时错误;2)统一的类型转换规则在所有平台上一致;3)多态性和接口机制使代码在不同平台上行为一致。

JNI会破坏Java的平台独立性。1)JNI需要特定平台的本地库,2)本地代码需在目标平台编译和链接,3)不同版本的操作系统或JVM可能需要不同的本地库版本,4)本地代码可能引入安全漏洞或导致程序崩溃。

新兴技术对Java的平台独立性既有威胁也有增强。1)云计算和容器化技术如Docker增强了Java的平台独立性,但需要优化以适应不同云环境。2)WebAssembly通过GraalVM编译Java代码,扩展了其平台独立性,但需与其他语言竞争性能。

不同JVM实现都能提供平台独立性,但表现略有不同。1.OracleHotSpot和OpenJDKJVM在平台独立性上表现相似,但OpenJDK可能需额外配置。2.IBMJ9JVM在特定操作系统上表现优化。3.GraalVM支持多语言,需额外配置。4.AzulZingJVM需特定平台调整。

平台独立性通过在多种操作系统上运行同一套代码,降低开发成本和缩短开发时间。具体表现为:1.减少开发时间,只需维护一套代码;2.降低维护成本,统一测试流程;3.快速迭代和团队协作,简化部署过程。


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Linux新版
SublimeText3 Linux最新版

记事本++7.3.1
好用且免费的代码编辑器

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中