HBase新特性—Stripe Compaction-mysql教程-PHP中文网

首页

数据库

mysql教程

HBase新特性—Stripe Compaction

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:30 PM

hbasestripe新特性特性

借鉴于LevelDB、Cassandra的Compaction方法，https://issues.apache.org/jira/browse/HBASE-7667 提出了Stripe Compaction的方法。 Motivation： 1）过多Region会增大RS维护的开销，降低RS的读写性能。随着数据量的增大，在一定程度上增加Region个数，会提高

借鉴于LevelDB、Cassandra的Compaction方法，https://issues.apache.org/jira/browse/HBASE-7667 提出了Stripe Compaction的方法。

Motivation：
1）过多Region会增大RS维护的开销，降低RS的读写性能。随着数据量的增大，在一定程度上增加Region个数，会提高系统的吞吐率。然而，RS上服务的Region个数增多，增加了RS下内存维护的开销，尤其每个Store下都配置有一个MemStore，从而会造成频率更高的Flush操作，影响系统的读写性能。因此，如果能够提出更轻量级的mini-Region，不仅能够降低服务多个Region的开销，而且能够提升读写数据的效率。

2) Region Compaction容易”放大”。例如，Region区间为[1FFF，2FFF）,在该区间内仅有[1FFF，21FF)区间有大量的写操作(put、delete)，但是,在触及MajorCompaction条件时，却需要对所有的文件执行Major Compaction，从而引起大量的IO。

3) Region Split操作代价较大。

需要了解之前HBase的Compaction与Flush过程，可以参考：HBaseCompaction机制以及 HBase Flush对读写的影响

Stripe-Compaction设计的核心思想：
1）对于Region下的rowkey区间进行二次切分，例如[1FFF,2FFF)，切分成[1FFF,24FF),[24FF,2FFF)两个区间，每个区间成为Stripe。
2）Region下的数据文件分为Level-0和Level-1两层。其中Level-0主要用来存储临时的数据文件(例如使用bulkload或者执行mem flush操作之后的数据)， Level-1层的数据是按照Stripe的分区来区分。
3）支持两种方式的配置：Mini-regions的个数设置、或者以Size-based为大小触发因子的自动切分机制。
4）容错机制。如果在Stripes之间存在空洞。那么可以根据在Store当中的设置，将所有的处于Level-1层的文件回归到Level-0重新进行compaction。
5）Get操作时，一个Row所涉及到文件有：MemStore、Level-0下所有文件、以及Level-1下对应Stripe区下的文件。根据Stack的意见，最终Level-0下的文件只是一个暂时的状态，大部分文件都位于Level-1 Stripe下，因此，这样随机读时，需要涉及到的文件更聚集。
6）Scan操作时，需要定位startrow即可。在扫描过程中，会按照Stripe的row区间的排序，依次进行。
7）Compaction，是Level-0上升到Level-1的过程，同时，在Level-1层次的数据，也会进行相关的合并。
8）在Split操作时，定位Rowkey区间的中心点，可以根据Stripe记录的位置，进一步查找，因此，使用预置的Stripe会有利于Split操作的进行，可以实现多数HFile文件直接拷贝到子Region目录，从而加快了Split操作的效率。

下面对于Cassandra以及LevelDB中使用的多层次Compaction算法做一个介绍。

1)分层式压缩方式将数据分成条个层，最底层的叫L0，其上分别是L1，L2….，每一层的数据大小是其上的那一层数据最大大小的10倍，其中最底层L0的大小为5M (可以配置)
2) 当level层次大于0时，同一层的各个文件之间的Rowkey区间不会重叠。所以在level n与level n+1的数据块进行合并时，可以明确的知道某个key值处在哪个数据块中，可以一个数据块一个数据块的合并，合并后生成新块就丢掉老块。不用一直到所有合并完成后才能删除老的块。
3）整体执行流程是从L0->L1->L2，依次合并的过程，如下图所示。

compaction 由上图，我们可以得知，越是level较低的块，它的数据就越新，在满足向下归约合并的过程中，就会按照文件的Rowkey的区间，进行合并，去除多余的版本，或者执行相关删除操作。因此，在读请求最极端的情况下，从Level0开始读数据，一直读到最下层Level n。

这种Compaction的优势在于：
1）大部分的读操作如果有LRU特性，都会落入较低的Level上。因此，数据越"热"，Level就越低。从而有利于未来HFile多种存储介质的定位问题。
2）在合并的过程中，仅需在由上到下的部分文件参与，而不是要对所有文件执行Compaction操作。这样会加快Compaction执行的效率。

劣势在于，如果层次太多，在递归合并的过程中，容易造成某个区间的Compaction风暴，影响该区间数据操作的吞吐。
因此，HBase-Stripe Compaction的方案中，只有两层，Level 0和Level1，这种方法在保留分层压缩的优势的同时，降低了总文件个数，有利于RS执行Split、Merge等操作。

参考文献：
[1] HBase-7667 https://issues.apache.org/jira/browse/HBASE-7667

本系列文章属于Binos_ICT在Binospace个人技术博客原创，原文链接为http://www.binospace.com/index.php/hbase-new-features-stripe-compaction,未经允许，不得转载。

From Binospace, post HBase新特性—Stripe Compaction

文章的脚注信息由WordPress的wp-posturl插件自动生成

Copyright © 2008
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

MySQL中的存储过程是什么？May 01, 2025 am 12:27 AM

存储过程是MySQL中的预编译SQL语句集合，用于提高性能和简化复杂操作。1.提高性能：首次编译后，后续调用无需重新编译。2.提高安全性：通过权限控制限制数据表访问。3.简化复杂操作：将多条SQL语句组合，简化应用层逻辑。

查询缓存如何在MySQL中工作？May 01, 2025 am 12:26 AM

MySQL查询缓存的工作原理是通过存储SELECT查询的结果，当相同查询再次执行时，直接返回缓存结果。1）查询缓存提高数据库读取性能，通过哈希值查找缓存结果。2）配置简单，在MySQL配置文件中设置query_cache_type和query_cache_size。3）使用SQL_NO_CACHE关键字可以禁用特定查询的缓存。4）在高频更新环境中，查询缓存可能导致性能瓶颈，需通过监控和调整参数优化使用。

与其他关系数据库相比，使用MySQL的优点是什么？May 01, 2025 am 12:18 AM

MySQL被广泛应用于各种项目中的原因包括：1.高性能与可扩展性，支持多种存储引擎；2.易于使用和维护，配置简单且工具丰富；3.丰富的生态系统，吸引大量社区和第三方工具支持；4.跨平台支持，适用于多种操作系统。

您如何处理MySQL中的数据库升级？Apr 30, 2025 am 12:28 AM

MySQL数据库升级的步骤包括：1.备份数据库，2.停止当前MySQL服务，3.安装新版本MySQL，4.启动新版本MySQL服务，5.恢复数据库。升级过程需注意兼容性问题，并可使用高级工具如PerconaToolkit进行测试和优化。

您可以使用MySQL的不同备份策略是什么？Apr 30, 2025 am 12:28 AM

MySQL备份策略包括逻辑备份、物理备份、增量备份、基于复制的备份和云备份。1.逻辑备份使用mysqldump导出数据库结构和数据，适合小型数据库和版本迁移。2.物理备份通过复制数据文件，速度快且全面，但需数据库一致性。3.增量备份利用二进制日志记录变化，适用于大型数据库。4.基于复制的备份通过从服务器备份，减少对生产系统的影响。5.云备份如AmazonRDS提供自动化解决方案，但成本和控制需考虑。选择策略时应考虑数据库大小、停机容忍度、恢复时间和恢复点目标。

什么是mySQL聚类？Apr 30, 2025 am 12:28 AM

MySQLclusteringenhancesdatabaserobustnessandscalabilitybydistributingdataacrossmultiplenodes.ItusestheNDBenginefordatareplicationandfaulttolerance,ensuringhighavailability.Setupinvolvesconfiguringmanagement,data,andSQLnodes,withcarefulmonitoringandpe

如何优化数据库架构设计以在MySQL中的性能？Apr 30, 2025 am 12:27 AM

在MySQL中优化数据库模式设计可通过以下步骤提升性能：1.索引优化：在常用查询列上创建索引，平衡查询和插入更新的开销。2.表结构优化：通过规范化或反规范化减少数据冗余，提高访问效率。3.数据类型选择：使用合适的数据类型，如INT替代VARCHAR，减少存储空间。4.分区和分表：对于大数据量，使用分区和分表分散数据，提升查询和维护效率。

您如何优化MySQL性能？Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance，lofterTheSeSteps：1）inasemproperIndexingTospeedUpqueries，2）使用ExplaintplaintoAnalyzeandoptimizequeryPerformance，3）ActiveServerConfigurationStersLikeTlikeTlikeTlikeIkeLikeIkeIkeLikeIkeLikeIkeLikeIkeLikeNodb_buffer_pool_sizizeandmax_connections，4）

See all articles