相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。 目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apac
相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。
目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的作用。
本文将重点讲解ORC文件存储格式,Parquet暂不深入说明,后续抽时间整理。
1、Apache Parquet
源自于google Dremel系统,Parquet相当于GoogleDremel中的数据存储引擎,而Apache顶级开源项目Drill正是Dremel的开源实现。
Apache Parquet 最初的设计动机是存储嵌套式数据,比如Protocolbuffer,thrift,json等,将这类数据存储成列式格式,以方便对其高效压缩和编码,且使用更少的IO操作取出需要的数据,这也是Parquet相比于ORC的优势,它能够透明地将Protobuf和thrift类型的数据进行列式存储,在Protobuf和thrift被广泛使用的今天,与parquet进行集成,是一件非容易和自然的事情。除了上述优势外,相比于ORC, Parquet没有太多其他可圈可点的地方,比如它不支持update操作(数据写成后不可修改),不支持ACID等。
Hive中创建表时使用Parquet数据存储格式:
create table parquet_table(id int,name string) stored as parquet;
2、Apache ORC
ORC(OptimizedRow Columnar) 文件格式存储源自于RC(RecordColumnar File)这种存储格式,RC是一种列式存储引擎,对schema演化(修改schema需要重新生成数据)支持较差,而ORC是对RC改进,但它仍对schema演化支持较差,主要是在压缩编码,查询性能方面做了优化。RC/ORC最初是在Hive中得到使用,最后发展势头不错,独立成一个单独的项目。Hive 1.x版本对事务和update操作的支持,便是基于ORC实现的(其他存储格式暂不支持)。ORC发展到今天,已经具备一些非常高级的feature,比如支持update操作,支持ACID,支持struct,array复杂类型。你可以使用复杂类型构建一个类似于parquet的嵌套式数据架构,但当层数非常多时,写起来非常麻烦和复杂,而parquet提供的schema表达方式更容易表示出多级嵌套的数据类型。
Hive中创建表时使用ORC数据存储格式:
create table orc_table (id int,name string) stored as orc;
3、Parquet与ORC对比
|
Parquet http://parquet.apache.org |
Orc http://orc.apache.org |
发展状态 |
目前都是Apache开源的顶级项目,列式存储引擎 |
|
开发语言 |
Java |
|
主导公司 |
Twitter/Cloudera |
Hortonworks |
列编码 |
支持多种编码,字典,RLE,Delta等 |
支持主流编码,与Parquet类似 |
ACID |
不支持 |
支持ACID事务 |
修改操作(update,delete) |
不支持 |
支持 |
支持索引 (统计信息) |
粗粒度索引 block/group/chunk级别统计信息 |
粗粒度索引 file/stripe/row级别统计信息,不能精确到列建立索引 |
查询性能 |
Orc性能更高一点 |
|
压缩比 |
Orc压缩比更高 |
下面看一张图,可以比对一下压缩率:
4、ORC
使用ORC文件格式可以提升Hive读、写与处理数据的性能。
一个ORC文件包含多个stripes(每个stripes由多组行数据组成的),一个包含辅助信息的file footer。
在文件的结尾,一个postscript保存着压缩参数及被压缩的footer的长度。
一个stripes缺省大小是250MB,其大小可以扩展的长度只受HDFS的约束。
file footer包含文件中的一个记录stripes信息的列表、每个stripes中行的数目及每个列的数据类型,它也包含列级的聚合结果:count, min, max, and sum。
我们通过使用hive --orcfiledump来进行分析ORC存储文件,就可以看到这些信息:
hive --orcfiledump
示例:
hive --orcfiledump /user/hive/warehouse/helloworld.db/test_orcfile/part-00271
对于Hive 1.1,查看ORC File文件中的内容可以使用如下的方式:
hive --orcfiledump -d
示例:
hive --orcfiledump -d /user/hive/warehouse/helloworld.db/test_orcfile/part-00271
从下面的ORC文件结构图可以了解相关信息:
我使用下面的命令,将ORC的分析结果输出到了orcfile文件,方便大家查看对照图分析:
hive --orcfiledump /user/hive/warehouse/helloworld.db/test_orcfile/part-00271 > orcfile
从上图中,我们知道在ORC文件中,每个Stripe包括索引数据(IndexData)、行数据(Row Data)及一个Stripe footer。
Stripe footer包含了用于流定位的目录,Row data用于表扫描。
索引数据(Index Data)包括每个列的最小与最大值,以及它们在每个列的行号,行索引项(Row index entries)记录了压缩块及解压后字节的偏移。需要注意的是,ORC索引只是被用来选择Stripe和行组,而不会被用于返回查询结果。拥有相对频繁的行索引条目,可以为了快速的数据读取而跳过一些行,缺省情况下每次最多可以跳过10000行。ORC有能力基于过滤谓词跳过非常多的行,可以使用第二关键字进行对表进行排序,以达到减少查询执行时间的效果。例如,如果主关键字是交易日期,表可以按照省份、邮编号码或者姓名进行排序,当按照省份查询记录的时候将跳过非目标省份的记录。
下面介绍如何在Hive中使用这种存储格式:
1) 支持的数据格式
- Integer
- boolean (1 bit)
- tinyint (8 bit)
- smallint (16 bit)
- int (32 bit)
- bigint (64 bit)
- Floating point
- float
- double
- String types
- string
- char
- varchar
- Binary blobs
- binary
- Date/time
- timestamp
- date
- Compound types
- struct
- list
- map
- union
2) Hive DDL
通过指定stored as orc来使用ORC存储格式:
create table orc_table (
id int,
name string
) stored as orc;
可以修改表的存储格式:
alter table simple_table set fileformat orc;
如果simple_table已经存在数据,将导致通过表查询无法访问数据。
3) 创建表时,指定ORC存储格式属性
KEY |
DEFAULT |
NOTES |
orc.compress |
ZLIB |
high level compression = {NONE, ZLIB, SNAPPY} 压缩方法(NONE, ZLIB, SNAPPY) |
orc.compress.size |
262,144 |
compression chunk size 每个压缩块的字节数 |
orc.stripe.size |
268,435,456 |
memory buffer size in bytes for writing 每个stripe的字节数 |
orc.row.index.stride |
10,000 |
number of rows between index entries 索引项之间的行数 |
orc.create.index |
TRUE |
create indexes? 是否创建行索引 |
orc.bloom.filter.columns |
"" |
comma separated list of column names |
orc.bloom.filter.fpp |
0.05 |
bloom filter false positive rate |
比如,创建没有压缩的表:
CREATE TABLE orc_table (
name STRING,
age tinyint
) STORED AS ORC TBLPROPERTIES("orc.compress"="NONE");
4) Hive涉及ORC存储文件的配置参数
· hive.default.fileformat
指定Hive创建表的存储文件格式,默认为TextFile。
· hive.exec.orc.default.compress
ORC的压缩编码方式,默认为ZLIB。
· hive.exec.orc.default.buffer.size
ORC的缓冲大小,默认为262,144(256KB)。
· hive.exec.orc.default.block.size
ORC文件的系统块大小,默认为268,435,456(256MB)
· hive.exec.orc.zerocopy
使用zerocopy读ORC文件。Hadoop 2.3以及后续版本支持。
· hive.orc.compute.splits.num.threads
ORC使用多少线程去并行化创建分片
hive.exec.orc.skip.corrupt.data false
If ORC reader encounters corrupt data, this value will be used todetermine whether to skip the corrupt data or throw an exception.
The default behavioris to throw an exception.
· hive.exec.orc.skip.corrupt.data
如果ORC读时遇到损坏的数据,此选项决定是否跳过损坏的数据,还是抛出异常。
默认是抛出异常。
· hive.merge.orcfile.stripe.level
当hive.merge.mapfiles,hive.merge.mapredfiles或者hive.merge.tezfiles设置为true时,此时同时以ORC文件格式写表数据,设置此值为true时将快速以stripe级别合并ORC小文件。
· 其他的参数有的用的很少,大家可以参考Hive官网说明进行配置和调优。

要優化MySQL慢查詢,需使用slowquerylog和performance_schema:1.啟用slowquerylog並設置閾值,記錄慢查詢;2.利用performance_schema分析查詢執行細節,找出性能瓶頸並優化。

MySQL和SQL是開發者必備技能。 1.MySQL是開源的關係型數據庫管理系統,SQL是用於管理和操作數據庫的標準語言。 2.MySQL通過高效的數據存儲和檢索功能支持多種存儲引擎,SQL通過簡單語句完成複雜數據操作。 3.使用示例包括基本查詢和高級查詢,如按條件過濾和排序。 4.常見錯誤包括語法錯誤和性能問題,可通過檢查SQL語句和使用EXPLAIN命令優化。 5.性能優化技巧包括使用索引、避免全表掃描、優化JOIN操作和提升代碼可讀性。

MySQL異步主從復制通過binlog實現數據同步,提升讀性能和高可用性。 1)主服務器記錄變更到binlog;2)從服務器通過I/O線程讀取binlog;3)從服務器的SQL線程應用binlog同步數據。

MySQL是一個開源的關係型數據庫管理系統。 1)創建數據庫和表:使用CREATEDATABASE和CREATETABLE命令。 2)基本操作:INSERT、UPDATE、DELETE和SELECT。 3)高級操作:JOIN、子查詢和事務處理。 4)調試技巧:檢查語法、數據類型和權限。 5)優化建議:使用索引、避免SELECT*和使用事務。

MySQL的安裝和基本操作包括:1.下載並安裝MySQL,設置根用戶密碼;2.使用SQL命令創建數據庫和表,如CREATEDATABASE和CREATETABLE;3.執行CRUD操作,使用INSERT,SELECT,UPDATE,DELETE命令;4.創建索引和存儲過程以優化性能和實現複雜邏輯。通過這些步驟,你可以從零開始構建和管理MySQL數據庫。

InnoDBBufferPool通過將數據和索引頁加載到內存中來提升MySQL數據庫的性能。 1)數據頁加載到BufferPool中,減少磁盤I/O。 2)臟頁被標記並定期刷新到磁盤。 3)LRU算法管理數據頁淘汰。 4)預讀機制提前加載可能需要的數據頁。

MySQL適合初學者使用,因為它安裝簡單、功能強大且易於管理數據。 1.安裝和配置簡單,適用於多種操作系統。 2.支持基本操作如創建數據庫和表、插入、查詢、更新和刪除數據。 3.提供高級功能如JOIN操作和子查詢。 4.可以通過索引、查詢優化和分錶分區來提升性能。 5.支持備份、恢復和安全措施,確保數據的安全和一致性。

全表掃描在MySQL中可能比使用索引更快,具體情況包括:1)數據量較小時;2)查詢返回大量數據時;3)索引列不具備高選擇性時;4)複雜查詢時。通過分析查詢計劃、優化索引、避免過度索引和定期維護表,可以在實際應用中做出最優選擇。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中