>  기사  >  데이터 베이스  >  HBase实现记录定期定量删除

HBase实现记录定期定量删除

WBOY
WBOY원래의
2016-06-07 17:27:21927검색

我们在HBase中存储的记录可能有一些是增速很快且又不需要永久保存的,比如大量的ldquo;系统日志rdquo;,也许只需保存最近几个月

文中可能涉及到的API:

Hadoop/HDFS:

HBase: ?overview-summary.html

Begin!

HBase如何实现定期定量的删除记录?

使用场景分析:我们在HBase中存储的记录可能有一些是增速很快且又不需要永久保存的,比如大量的“系统日志”,也许只需保存最近几个月记录便可。我们的存储空间又很有限,尤其是HDFS这种多副本容灾存储。再加上HBase在存储每一行数据时,分别要为每一列保存一份rowKey,如果一行有10列,光rowKey就要存储10份,开销可想而知。因此定期定量删除的功能也就成了普遍的需求。

一、如何定期删除数据?

使用表格级的属性:TTL(Time To Live),设置记录的有效期,当前时间超过记录有效期后该记录将被自动删除。记录的有效期 = TimeStamp + TTL;

二、如何在数据超过阈值时删除数据?

比如我们限定某张表最多占用约1T的空间,当数据超过1T时就删除表中最老的一部分数据。

1、在HDFS层面,,获取表格占用空间。

通过Configuration实例创建FileSystem实例,调用Fs的获取表格目录的ContentSummary实例,再调用()便可获得该表格的大小。

2、若表格大小超过阈值,删除时间戳较小的一定量的记录。

通过hbase api中scan的setTimeRange方法完成待删除的数据筛选,然后删之~

linux

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.