Hive ORC和Parquet-tutorial mysql-php.cn

Rumah

pangkalan data

tutorial mysql

Hive ORC和Parquet

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 02:49 PM

hivepangkalan data

相比传统数据库的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作，尤其是在数据列很多，但每次操作仅针对若干列进行查询和计算的情景，列式存储引擎的性价比更高。目前在开源实现中，最有名的列式存储引擎莫过于Parquet和ORC，并且他们都是Apac

相比传统数据库的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作，尤其是在数据列很多，但每次操作仅针对若干列进行查询和计算的情景，列式存储引擎的性价比更高。

目前在开源实现中，最有名的列式存储引擎莫过于Parquet和ORC，并且他们都是Apache的顶级项目，在数据存储引擎方面发挥着重要的作用。

本文将重点讲解ORC文件存储格式，Parquet暂不深入说明，后续抽时间整理。

1、Apache Parquet

源自于google Dremel系统，Parquet相当于GoogleDremel中的数据存储引擎，而Apache顶级开源项目Drill正是Dremel的开源实现。

Apache Parquet 最初的设计动机是存储嵌套式数据，比如Protocolbuffer，thrift，json等，将这类数据存储成列式格式，以方便对其高效压缩和编码，且使用更少的IO操作取出需要的数据，这也是Parquet相比于ORC的优势，它能够透明地将Protobuf和thrift类型的数据进行列式存储，在Protobuf和thrift被广泛使用的今天，与parquet进行集成，是一件非容易和自然的事情。除了上述优势外，相比于ORC, Parquet没有太多其他可圈可点的地方，比如它不支持update操作（数据写成后不可修改），不支持ACID等。

Hive中创建表时使用Parquet数据存储格式：

create table parquet_table(id int,name string) stored as parquet;

2、Apache ORC

ORC(OptimizedRow Columnar) 文件格式存储源自于RC（RecordColumnar File）这种存储格式，RC是一种列式存储引擎，对schema演化（修改schema需要重新生成数据）支持较差，而ORC是对RC改进，但它仍对schema演化支持较差，主要是在压缩编码，查询性能方面做了优化。RC/ORC最初是在Hive中得到使用，最后发展势头不错，独立成一个单独的项目。Hive 1.x版本对事务和update操作的支持，便是基于ORC实现的（其他存储格式暂不支持）。ORC发展到今天，已经具备一些非常高级的feature，比如支持update操作，支持ACID，支持struct，array复杂类型。你可以使用复杂类型构建一个类似于parquet的嵌套式数据架构，但当层数非常多时，写起来非常麻烦和复杂，而parquet提供的schema表达方式更容易表示出多级嵌套的数据类型。

Hive中创建表时使用ORC数据存储格式：

create table orc_table (id int,name string) stored as orc;

3、Parquet与ORC对比

	Parquet http://parquet.apache.org	Orc http://orc.apache.org
发展状态	目前都是Apache开源的顶级项目，列式存储引擎
开发语言	Java
主导公司	Twitter/Cloudera	Hortonworks
列编码	支持多种编码，字典，RLE，Delta等	支持主流编码，与Parquet类似
ACID	不支持	支持ACID事务
修改操作(update,delete)	不支持	支持
支持索引 (统计信息)	粗粒度索引 block/group/chunk级别统计信息	粗粒度索引 file/stripe/row级别统计信息，不能精确到列建立索引
查询性能	Orc性能更高一点
压缩比	Orc压缩比更高

下面看一张图，可以比对一下压缩率：

4、ORC

使用ORC文件格式可以提升Hive读、写与处理数据的性能。

一个ORC文件包含多个stripes（每个stripes由多组行数据组成的），一个包含辅助信息的file footer。

在文件的结尾，一个postscript保存着压缩参数及被压缩的footer的长度。

一个stripes缺省大小是250MB，其大小可以扩展的长度只受HDFS的约束。

file footer包含文件中的一个记录stripes信息的列表、每个stripes中行的数目及每个列的数据类型，它也包含列级的聚合结果：count, min, max, and sum。

我们通过使用hive --orcfiledump来进行分析ORC存储文件，就可以看到这些信息：

hive --orcfiledump

示例：

hive --orcfiledump /user/hive/warehouse/helloworld.db/test_orcfile/part-00271

对于Hive 1.1，查看ORC File文件中的内容可以使用如下的方式：

hive --orcfiledump -d

示例：

hive --orcfiledump -d /user/hive/warehouse/helloworld.db/test_orcfile/part-00271

从下面的ORC文件结构图可以了解相关信息：

我使用下面的命令，将ORC的分析结果输出到了orcfile文件，方便大家查看对照图分析：

hive --orcfiledump /user/hive/warehouse/helloworld.db/test_orcfile/part-00271 > orcfile

从上图中，我们知道在ORC文件中，每个Stripe包括索引数据(IndexData)、行数据(Row Data)及一个Stripe footer。

Stripe footer包含了用于流定位的目录，Row data用于表扫描。

索引数据（Index Data）包括每个列的最小与最大值，以及它们在每个列的行号，行索引项（Row index entries）记录了压缩块及解压后字节的偏移。需要注意的是，ORC索引只是被用来选择Stripe和行组，而不会被用于返回查询结果。拥有相对频繁的行索引条目，可以为了快速的数据读取而跳过一些行，缺省情况下每次最多可以跳过10000行。ORC有能力基于过滤谓词跳过非常多的行，可以使用第二关键字进行对表进行排序，以达到减少查询执行时间的效果。例如，如果主关键字是交易日期，表可以按照省份、邮编号码或者姓名进行排序，当按照省份查询记录的时候将跳过非目标省份的记录。

下面介绍如何在Hive中使用这种存储格式：

1) 支持的数据格式

Integer
- boolean (1 bit)
- tinyint (8 bit)
- smallint (16 bit)
- int (32 bit)
- bigint (64 bit)
Floating point

float
double

String types
- string
- char
- varchar
Binary blobs
- binary
Date/time
- timestamp
- date
Compound types
- struct
- list
- map
- union

2) Hive DDL

通过指定stored as orc来使用ORC存储格式：

create table orc_table (

id int,

name string

) stored as orc;

可以修改表的存储格式：

alter table simple_table set fileformat orc;

如果simple_table已经存在数据，将导致通过表查询无法访问数据。

3) 创建表时，指定ORC存储格式属性

KEY	DEFAULT	NOTES
orc.compress	ZLIB	high level compression = {NONE, ZLIB, SNAPPY} 压缩方法(NONE, ZLIB, SNAPPY)
orc.compress.size	262,144	compression chunk size 每个压缩块的字节数
orc.stripe.size	268,435,456	memory buffer size in bytes for writing 每个stripe的字节数
orc.row.index.stride	10,000	number of rows between index entries 索引项之间的行数
orc.create.index	TRUE	create indexes? 是否创建行索引
orc.bloom.filter.columns	""	comma separated list of column names
orc.bloom.filter.fpp	0.05	bloom filter false positive rate

比如，创建没有压缩的表：

CREATE TABLE orc_table (

name STRING,

age tinyint

) STORED AS ORC TBLPROPERTIES("orc.compress"="NONE");

4) Hive涉及ORC存储文件的配置参数

· hive.default.fileformat

指定Hive创建表的存储文件格式，默认为TextFile。

· hive.exec.orc.default.compress

ORC的压缩编码方式，默认为ZLIB。

· hive.exec.orc.default.buffer.size

ORC的缓冲大小，默认为262,144(256KB)。

· hive.exec.orc.default.block.size
ORC文件的系统块大小，默认为268,435,456(256MB)

· hive.exec.orc.zerocopy

使用zerocopy读ORC文件。Hadoop 2.3以及后续版本支持。

· hive.orc.compute.splits.num.threads

ORC使用多少线程去并行化创建分片

hive.exec.orc.skip.corrupt.data false

If ORC reader encounters corrupt data, this value will be used todetermine whether to skip the corrupt data or throw an exception.

The default behavioris to throw an exception.

· hive.exec.orc.skip.corrupt.data

如果ORC读时遇到损坏的数据，此选项决定是否跳过损坏的数据，还是抛出异常。

默认是抛出异常。

· hive.merge.orcfile.stripe.level

当hive.merge.mapfiles,hive.merge.mapredfiles或者hive.merge.tezfiles设置为true时，此时同时以ORC文件格式写表数据，设置此值为true时将快速以stripe级别合并ORC小文件。

· 其他的参数有的用的很少，大家可以参考Hive官网说明进行配置和调优。

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

MySQL: Pengenalan kepada pangkalan data paling popular di duniaApr 12, 2025 am 12:18 AM

MySQL adalah sistem pengurusan pangkalan data relasi sumber terbuka, terutamanya digunakan untuk menyimpan dan mengambil data dengan cepat dan boleh dipercayai. Prinsip kerjanya termasuk permintaan pelanggan, resolusi pertanyaan, pelaksanaan pertanyaan dan hasil pulangan. Contoh penggunaan termasuk membuat jadual, memasukkan dan menanyakan data, dan ciri -ciri canggih seperti Operasi Join. Kesalahan umum melibatkan sintaks SQL, jenis data, dan keizinan, dan cadangan pengoptimuman termasuk penggunaan indeks, pertanyaan yang dioptimumkan, dan pembahagian jadual.

Kepentingan MySQL: Penyimpanan Data dan PengurusanApr 12, 2025 am 12:18 AM

MySQL adalah sistem pengurusan pangkalan data sumber terbuka yang sesuai untuk penyimpanan data, pengurusan, pertanyaan dan keselamatan. 1. Ia menyokong pelbagai sistem operasi dan digunakan secara meluas dalam aplikasi web dan bidang lain. 2. Melalui seni bina pelanggan-pelayan dan enjin penyimpanan yang berbeza, MySQL memproses data dengan cekap. 3. Penggunaan asas termasuk membuat pangkalan data dan jadual, memasukkan, menanyakan dan mengemas kini data. 4. Penggunaan lanjutan melibatkan pertanyaan kompleks dan prosedur yang disimpan. 5. Kesilapan umum boleh disahpepijat melalui pernyataan yang dijelaskan. 6. Pengoptimuman Prestasi termasuk penggunaan indeks rasional dan pernyataan pertanyaan yang dioptimumkan.

Mengapa menggunakan mysql? Faedah dan kelebihanApr 12, 2025 am 12:17 AM

MySQL dipilih untuk prestasi, kebolehpercayaan, kemudahan penggunaan, dan sokongan komuniti. 1.MYSQL Menyediakan fungsi penyimpanan dan pengambilan data yang cekap, menyokong pelbagai jenis data dan operasi pertanyaan lanjutan. 2. Mengamalkan seni bina pelanggan-pelayan dan enjin penyimpanan berganda untuk menyokong urus niaga dan pengoptimuman pertanyaan. 3. Mudah digunakan, menyokong pelbagai sistem operasi dan bahasa pengaturcaraan. 4. Mempunyai sokongan komuniti yang kuat dan menyediakan sumber dan penyelesaian yang kaya.

Huraikan mekanisme penguncian InnoDB (kunci yang dikongsi, kunci eksklusif, kunci niat, kunci rekod, kunci jurang, kunci seterusnya).Apr 12, 2025 am 12:16 AM

Mekanisme kunci InnoDB termasuk kunci bersama, kunci eksklusif, kunci niat, kunci rekod, kunci jurang dan kunci utama seterusnya. 1. Kunci dikongsi membolehkan urus niaga membaca data tanpa menghalang urus niaga lain dari membaca. 2. Kunci eksklusif menghalang urus niaga lain daripada membaca dan mengubah suai data. 3. Niat Kunci mengoptimumkan kecekapan kunci. 4. Rekod Rekod Kunci Kunci Rekod. 5. Gap Lock Locks Index Rakaman Gap. 6. Kunci kunci seterusnya adalah gabungan kunci rekod dan kunci jurang untuk memastikan konsistensi data.

Apakah sebab -sebab biasa prestasi pertanyaan MySQL yang lemah?Apr 12, 2025 am 12:11 AM

Sebab -sebab utama prestasi pertanyaan MySQL yang lemah termasuk tidak menggunakan indeks, pemilihan pelan pelaksanaan yang salah oleh pengoptimasi pertanyaan, reka bentuk jadual yang tidak munasabah, jumlah data yang berlebihan dan persaingan kunci. 1. Tiada indeks menyebabkan pertanyaan perlahan, dan menambah indeks dapat meningkatkan prestasi dengan ketara. 2. Gunakan perintah Jelaskan untuk menganalisis pelan pertanyaan dan cari ralat pengoptimuman. 3. Membina semula struktur meja dan mengoptimumkan keadaan gabungan dapat meningkatkan masalah reka bentuk jadual. 4. Apabila jumlah data adalah besar, pembahagian dan strategi bahagian meja diterima pakai. 5. Dalam persekitaran konkurensi yang tinggi, mengoptimumkan urus niaga dan strategi mengunci dapat mengurangkan persaingan kunci.

Bilakah anda harus menggunakan indeks komposit berbanding indeks lajur tunggal?Apr 11, 2025 am 12:06 AM

Dalam pengoptimuman pangkalan data, strategi pengindeksan hendaklah dipilih mengikut keperluan pertanyaan: 1. Apabila pertanyaan melibatkan pelbagai lajur dan urutan syarat ditetapkan, gunakan indeks komposit; 2. Apabila pertanyaan melibatkan pelbagai lajur tetapi urutan syarat tidak ditetapkan, gunakan pelbagai indeks lajur tunggal. Indeks komposit sesuai untuk mengoptimumkan pertanyaan berbilang lajur, manakala indeks lajur tunggal sesuai untuk pertanyaan tunggal lajur.

Bagaimana untuk mengenal pasti dan mengoptimumkan pertanyaan perlahan di MySQL? (Log pertanyaan perlahan, prestasi_schema)Apr 10, 2025 am 09:36 AM

Untuk mengoptimumkan pertanyaan perlahan MySQL, SlowQuerylog dan Performance_Schema perlu digunakan: 1. Dayakan SlowQueryLog dan tetapkan ambang untuk merakam pertanyaan perlahan; 2. Gunakan Performance_Schema untuk menganalisis butiran pelaksanaan pertanyaan, cari kesesakan prestasi dan mengoptimumkan.

MySQL dan SQL: Kemahiran Penting untuk PemajuApr 10, 2025 am 09:30 AM

MySQL dan SQL adalah kemahiran penting untuk pemaju. 1.MYSQL adalah sistem pengurusan pangkalan data sumber terbuka, dan SQL adalah bahasa standard yang digunakan untuk mengurus dan mengendalikan pangkalan data. 2.MYSQL menyokong pelbagai enjin penyimpanan melalui penyimpanan data yang cekap dan fungsi pengambilan semula, dan SQL melengkapkan operasi data yang kompleks melalui pernyataan mudah. 3. Contoh penggunaan termasuk pertanyaan asas dan pertanyaan lanjutan, seperti penapisan dan penyortiran mengikut keadaan. 4. Kesilapan umum termasuk kesilapan sintaks dan isu -isu prestasi, yang boleh dioptimumkan dengan memeriksa penyataan SQL dan menggunakan perintah menjelaskan. 5. Teknik pengoptimuman prestasi termasuk menggunakan indeks, mengelakkan pengimbasan jadual penuh, mengoptimumkan operasi menyertai dan meningkatkan kebolehbacaan kod.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7474

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi