HBase的TTL介绍
1. 定义
TTL(Time to Live) 用于限定数据的超时时间。
2.原理
以Column Family的TTL为例介绍,
hbase(main):001:0> desc 'wxy:test'
Table wxy:test is ENABLED
wxy:test
COLUMN FAMILIES DESCRIPTION
{NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS =
> '2', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_CELLS => 'FALSE', BLOC
KSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
{NAME => 'f1', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSIO
N => 'NONE', VERSIONS => '5', TTL => 'FOREVER', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'FALSE', BLOC
KSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
2 row(s) in 0.9730 seconds
CF默认的TTL值是FOREVER,也就是永不过期。
- 修改TTL的值,CF的TTL的值以秒为单位:
hbase(main):003:0> disable 'wxy:test'
0 row(s) in 1.3500 seconds
hbase(main):004:0> alter 'wxy:test', {NAME=>'f1', TTL => '100'}
Updating all regions with the new schema...
1/1 regions updated.
Done.
0 row(s) in 1.1780 seconds
hbase(main):002:0> desc 'wxy:test'
Table wxy:test is DISABLED
wxy:test
COLUMN FAMILIES DESCRIPTION
{NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS =
> '2', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_CELLS => 'FALSE', BLOC
KSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
{NAME => 'f1', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSIO
N => 'NONE', VERSIONS => '5', TTL => '100 SECONDS (1 MINUTE 40 SECOND)', MIN_VERSIONS => '0', KEEP_DELET
ED_CELLS => 'FALSE', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
2 row(s) in 0.0680 seconds
hbase(main):003:0> enable 'wxy:test'
0 row(s) in 0.2460 seconds
- scan现有的值:
hbase(main):007:0> scan 'wxy:test'
ROW COLUMN+CELL
r1 column=cf:name, timestamp=1503047499079, value=lisi4
r1 column=cf:sex, timestamp=1502788726648, value=male
r2 column=cf:age, timestamp=1503041691183, value=20
r3 column=cf:age, timestamp=1503041723715, value=23
r4 column=cf:name, timestamp=1503041738224, value=Alex
4 row(s) in 0.1140 seconds
- 更新表
hbase(main):007:0> put 'wxy:test' ,'r4','f1:address','shandi'
0 row(s) in 0.2590 seconds hbase(main):008:0> scan 'wxy:test'
ROW COLUMN+CELL
r1 column=cf:name, timestamp=1503047499079, value=lisi4
r1 column=cf:sex, timestamp=1502788726648, value=male
r2 column=cf:age, timestamp=1503041691183, value=20
r3 column=cf:age, timestamp=1503041723715, value=23
r4 column=cf:name, timestamp=1503041738224, value=Alex
r4 column=f1:address, timestamp=1505976958276, value=shandi
4 row(s) in 0.0680 seconds
- 过30秒后扫描表
hbase(main):012:0> scan 'wxy:test'
ROW COLUMN+CELL
r1 column=cf:name, timestamp=1503047499079, value=lisi4
r1 column=cf:sex, timestamp=1502788726648, value=male
r2 column=cf:age, timestamp=1503041691183, value=20
r3 column=cf:age, timestamp=1503041723715, value=23
r4 column=cf:name, timestamp=1503041738224, value=Alex
r4 column=f1:address, timestamp=1505976958276, value=shandi
4 row(s) in 0.0460 seconds hbase(main):013:0> scan 'wxy:test'
ROW COLUMN+CELL
r1 column=cf:name, timestamp=1503047499079, value=lisi4
r1 column=cf:sex, timestamp=1502788726648, value=male
r2 column=cf:age, timestamp=1503041691183, value=20
r3 column=cf:age, timestamp=1503041723715, value=23
r4 column=cf:name, timestamp=1503041738224, value=Alex
r4 column=f1:address, timestamp=1505976958276, value=shandi
4 row(s) in 0.0390 seconds
如上,连续扫描两次,数据没有变化
- 过100秒后扫描表
hbase(main):019:0> scan 'wxy:test'
ROW COLUMN+CELL
r1 column=cf:name, timestamp=1503047499079, value=lisi4
r1 column=cf:sex, timestamp=1502788726648, value=male
r2 column=cf:age, timestamp=1503041691183, value=20
r3 column=cf:age, timestamp=1503041723715, value=23
r4 column=cf:name, timestamp=1503041738224, value=Alex
4 row(s) in 0.0280 seconds
发现r4的f1不见了。这就是TTL的工作原理。
TTL=>的更新超时时间是指:该列最后更新的时间,到超时时间的限制,而不是第一次创建,到超时时间;
同时我们也注意到100秒后r4被删除,但是只删除掉了r1的f1列,如果r1有其他列,比如cf,则其他列保留,TTL的概念只针对CELL
如果一个Store file仅包括过期的rows, minor comact的时候会将这些文件删掉(可以参见HBase compact)。将hbase.store.delete.expired.storefile 设置成false或者将minimum number of versions 设置成除0意外的值可以将这个feature diable掉。number of versions的默认值是0:
hbase(main):001:0> desc 'wxy:test'
Table wxy:test is ENABLED
wxy:test
COLUMN FAMILIES DESCRIPTION
{NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS =
> '2', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_CELLS => 'FALSE', BLOC
KSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
{NAME => 'f1', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSIO
N => 'NONE', VERSIONS => '5', TTL => 'FOREVER', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'FALSE', BLOC
KSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
2 row(s) in 0.9730 seconds
注意:修改表结构之前,需要先disable 表,否则表中的记录被清空!HBase不disable直接去alter 表是可以的! 参加如下测试过程:
hbase(main):004:0> scan 'test'
ROW COLUMN+CELL
row1 column=cf:a, timestamp=1500967679327, value=value1
row2 column=cf:b, timestamp=1500967692945, value=value2
row3 column=cf:c, timestamp=1500967715743, value=value3
3 row(s) in 0.2490 seconds hbase(main):005:0> desc 'test'
Table test is ENABLED
test
COLUMN FAMILIES DESCRIPTION
{NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS =
> '1', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_CELLS => 'FALSE', BLOC
KSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
1 row(s) in 0.0880 seconds hbase(main):006:0> alter 'test',{NAME => 'cf',TTL => '100'}
Updating all regions with the new schema...
0/1 regions updated.
1/1 regions updated.
Done.
0 row(s) in 2.2200 seconds hbase(main):007:0> scan 'test'
ROW COLUMN+CELL
0 row(s) in 0.0190 seconds
3. 粒度
早期版本控制粒度是column family; 新版本因为Cell可以支持tag了,所以可以在cell级别设置TTL了。(待考证)
( 参见http://hbase.apache.org/book.html#ttl 及https://issues.apache.org/jira/browse/HBASE-10560)
Cell的TTL与Column family的TTL区别:
- Column family的TTL以秒为单位,cell的TTL以毫秒为单位
- 如果有有cell级别的TTL,则cell的TTL override CF的TTL; 但是不能超出CF级别的TTL
以下引自:http://hbase.apache.org/book.html#ttl
Cell TTLs are expressed in units of milliseconds instead of seconds.
A cell TTLs cannot extend the effective lifetime of a cell beyond a ColumnFamily level TTL setting.
以下引自:https://issues.apache.org/jira/browse/HBASE-10560 作者的comments:
We can keep the existing column level definition and enforcement mechanism and extend it to look for a TTL cell tag during compaction. If one is found, it can override the CF setting. TTL overrides can be passed up to the server in an operation attribute.
参考文献:
http://blog.csdn.net/wulantian/article/details/41010947
http://hbase.apache.org/book.html#ttl
https://issues.apache.org/jira/browse/HBASE-10560
HBase的TTL介绍的更多相关文章
- hbase的TTL机制清除opentsdb的超时数据
我们发现用opentsdb向hbase写数据之后,磁盘占用率飙升得很快,我们存的业务数据只用保存一个月的即可,了解hbase的TTL机制可以清除相关表.相关行的超时数据,之前在数据备份时,我介绍了,o ...
- HBase基本知识介绍及典型案例分析
本次分享的内容主要分为以下五点: HBase基本知识: HBase读写流程: RowKey设计要点: HBase生态介绍: HBase典型案例分析. 首先我们简单介绍一下 HBase 是什么. HBa ...
- HBase shell 命令介绍
HBase shell是HBase的一套命令行工具,类似传统数据中的sql概念,可以使用shell命令来查询HBase中数据的详细情况.安装完HBase之后,如果配置了HBase的环境变量,只要在sh ...
- Hbase记录-ZooKeeper介绍
ZooKeeper是一个分布式协调服务来管理大量的主机.协调和管理在分布式环境的一个服务是一个复杂的过程.ZooKeeper 简单解决了其结构和API这个问题.ZooKeeper允许开发人员能够专注于 ...
- pinpoint 修改hbase表TTL值
操作步骤 查找出数据大的hbase表 root@990fb5560f64:/opt/hbase/hbase-# ls CHANGES.txt LICENSE.txt README.txt conf h ...
- HBase Snapshot功能介绍
HBase在0.94之后提供了Snapshot功能,一个snapshot其实就是一组metadata信息的集合,它可以让管理员将表恢复到以前的一个状态.snapshot并不是一份拷贝,它只是一个文件名 ...
- 【转】HBase 超详细介绍
---恢复内容开始--- http://blog.csdn.net/frankiewang008/article/details/41965543 1-HBase的安装 HBase是什么? HBase ...
- HBase MVCC 机制介绍
关键词:MVCC HBase 一致性 本文最好结合源码进行阅读 什么是MVCC ? MVCC(MultiVersionConsistencyControl , 多版本控制协议),是一种通过数据的多版本 ...
- HBase总结(十一)hbase Java API 介绍及使用示例
几个相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) H ...
随机推荐
- Java练习 SDUT-2787_加密术
加密术 Time Limit: 1000 ms Memory Limit: 65536 KiB Problem Description 加密技术是一种常用的安全保密手段,利用加密技术可以把重要的数据变 ...
- 胡喜:从 BASIC 到 basic ,蚂蚁金服技术要解决两个基本的计算问题
摘要: 揭开 BASIC College 神秘面纱,蚂蚁金服首次揭秘人才培养机制. 导读:5 月 6 日,蚂蚁金服副 CTO 胡喜在 2019 年 QCon 上做了<蚂蚁金服十五年技术架构演进之 ...
- HZOJ 斐波那契(fibonacci)
先说一个规律: 如图将每个月出生的兔子的编号写出来,可以发现一只兔子在哪一列他的父亲就是谁. 每列的首项可以通过菲波那契求得. 然后你就可以像我一样通过这个规律打表每个点的父亲,预处理出倍增数组,倍增 ...
- 5 获取Form表单取值
#form表达提交@app.route("/data",methods=['GET','POST']) #methods 让当前路由支持GET 和 POST 方式def data( ...
- Java中Map/List/Set .
很实用,分享一下. 简单版本 复杂版本 参考: http://initbinder.com/articles/cheat-sheet-for-selecting-maplistset-in-java. ...
- Vue6——v-model实现数据双向绑定
博客地址 :https://www.cnblogs.com/sandraryan/ v-model 用于input标签,用于实现双向绑定,及时把数据的变化渲染在页面 双向绑定及原理 举个双向绑定的简单 ...
- logging.basicConfig函数
在UI自动化应用中,经常会出错,打log就是一个很重要的环节,python的logging.basicConfig函数 真是既方便,又简单,每次粘贴到用例前,就可以打log了. logging模块是 ...
- 永久设置anaconda的环境变量
安装anaconda后都显示install seccessful,可是输入anaconda 终端却显示“未找到命令” 原因是没有添加环境变量,按照如下方式将环境变量添加的安装路径下: emport P ...
- js判断时间格式是否有效
js判断时间格式是否有效 1 短时间,形如 (13:04:06)function isTime(str){var a = str.match(/^(\d{1,2})(:)?(\d{1,2})\2(\d ...
- mac 安装 adb
安装命令 brew cask install android-platform-tools 测试安装情况 adb devices 设备打开开发者模式 略 查看log并过滤出设备id adb logca ...