hbase官方文档中描述了,hbase删除数据可以总结为下面三种(Java API有很多接口,可以总结下面的几种):

  1. 删除一个列的指定版本
  2. 删除一个列的所用版本
  3. 删除指定列族的所有列

hbase删除数据,并不是马上删掉,只是对数据打一个删除标记,真正删除数据是等到下一次major_compact(除非KEEP_DELETED_CELLS=true)。当删除整行时,hbase会给这条数据每个列族打一个删除标记。有两个需要注意的地方:

1. major_compact之前和之后,查询结果不一样,具体看例子:

public class DeleteExample {

  public static void main(String[] args) throws IOException {

      Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf); Admin admin = connection.getAdmin();
if(admin.tableExists(TableName.valueOf("test2"))){
admin.disableTable(TableName.valueOf("test2"));
admin.deleteTable(TableName.valueOf("test2"));
} HTableDescriptor desc = new HTableDescriptor(TableName.valueOf("test2"));
HColumnDescriptor coldef = new HColumnDescriptor("cf");
coldef.setMaxVersions(2);
desc.addFamily(coldef);
admin.createTable(desc); Table table = connection.getTable(TableName.valueOf("test2")); Put put1 = new Put(Bytes.toBytes("r1"));
put1.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 1, Bytes.toBytes("value1"));
table.put(put1); Put put2 = new Put(Bytes.toBytes("r1"));
put2.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 2, Bytes.toBytes("value2"));
table.put(put2); Put put3 = new Put(Bytes.toBytes("r1"));
put3.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 3, Bytes.toBytes("value3"));
table.put(put3); //Delete delete = new Delete(Bytes.toBytes("r1"));
//delete.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 2);
//table.delete(delete); table.close();
}
}

上述代码中,创建了test2,并设置列族cf的最大版本数据2,然后先后添加了3个版本的单元格,这是从shell中可以查看数据,如下:

hbase(main):035:0> get 'test2','r1',{COLUMN => 'cf:c1',VERSIONS => 2}
COLUMN CELL
cf:c1 timestamp=3, value=value3
cf:c1 timestamp=2, value=value2

然后,修改java代码,注释掉建表以及添加数据的代码,增加一个delete操作,指定版本时间戳为2(或者3),执行后,再从shell中查看数据,如下:

hbase(main):033:0> get 'test2','r1',{COLUMN => 'cf:c1',VERSIONS => 2}
COLUMN CELL
cf:c1 timestamp=3, value=value3
cf:c1 timestamp=1, value=value1

可以发现,版本1复活了,这是由于服务器把内部处理推迟了,该列的老版本数据仍然存在,删除较新的版本(2)会使它们再次查询到。

如果,在添加数据之后,做下flush和major_compact,然后再做删除操作,查询结果如下:

hbase(main):036:0> flush 'test2'
0 row(s) in 0.5280 seconds hbase(main):037:0> major_compact 'test2'
0 row(s) in 0.3760 seconds hbase(main):038:0> get 'test2','r1',{COLUMN => 'cf:c1',VERSIONS => 2}
COLUMN CELL
cf:c1 timestamp=3, value=value3
1 row(s) in 0.0100 seconds

可以发现,版本1在合并之后,已经被删除了(因为这时已经有2个版本了,达到了设置的最大版本数据),之后再删除版本2,只能查询出版本3了

另外,如果major_compact是在删除版本2之后做的,那么最后查询的数据仍然为版本1和版本3,我理解这是因为列族设置的最大版本数据为2,所以hbase会保留2个版本

2.删除会屏蔽时间戳靠前的put操作,例子如下:

hbase(main):047:0> create 'test6',{NAME=>'f1',VERSIONS=>3}
0 row(s) in 1.2500 seconds => Hbase::Table - test6
hbase(main):048:0> put 'test6','r1','f1:c','val',1
0 row(s) in 0.0140 seconds hbase(main):049:0> put 'test6','r1','f1:c','val',3
0 row(s) in 0.0080 seconds hbase(main):050:0> put 'test6','r1','f1:c','val',5
0 row(s) in 0.0030 seconds hbase(main):051:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}
COLUMN CELL
f1:c timestamp=5, value=val
f1:c timestamp=3, value=val
f1:c timestamp=1, value=val
3 row(s) in 0.0080 seconds hbase(main):052:0> delete 'test6','r1','f1:c',3
0 row(s) in 0.0090 seconds hbase(main):053:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}
COLUMN CELL
f1:c timestamp=5, value=val
1 row(s) in 0.0040 seconds hbase(main):054:0> put 'test6','r1','f1:c','val',2
0 row(s) in 0.0100 seconds //get操作没有查询到版本2
hbase(main):055:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}
COLUMN CELL
f1:c timestamp=5, value=val
1 row(s) in 0.0080 seconds hbase(main):056:0> flush 'test6'
0 row(s) in 0.5280 seconds hbase(main):057:0> major_compact 'test6'
0 row(s) in 0.3280 seconds hbase(main):058:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}
COLUMN CELL
f1:c timestamp=5, value=val
1 row(s) in 0.0070 seconds

//做完major_compact之后,在PUT,可以查询对应的版本数据
hbase(main):059:0> put 'test6','r1','f1:c','val',2
0 row(s) in 0.0110 seconds hbase(main):060:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}
COLUMN CELL
f1:c timestamp=5, value=val
f1:c timestamp=2, value=val
2 row(s) in 0.0050 seconds

在hbase shell中,指定时间戳T删除列时,会删除所有时间戳小于T的版本;

java api中 :delete.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 3),是只删除指定的版本

HBase删除数据的更多相关文章

  1. HBase删除数据的原理

    转自:https://blog.csdn.net/cenjianteng/article/details/96645447 -------------------------------------- ...

  2. Hbase之批量删除数据

    import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impo ...

  3. Hbase之删除数据

    import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impo ...

  4. 实现HBase增量入库(HBase删除自定义时间戳行数据)

    目录 1. 背景描述 2. 问题描述 3. 解决方案 1. 背景描述 目前在做音乐推荐项目,前期做排序模型优化,任务是使用模型对用户的历史音乐进行排序,有6800多万个用户,约40G的用户数据,使用H ...

  5. 通过时间戳批量删除hbase的数据

    如何通过时间戳批量删除hbase的数据 我们使用hive关联hbase插入数据时,有时会写错数据,此时hbase中的数据量已经很大很大了(上亿).此时,我们要修改错误的数据,只需要删除写错的那部分数据 ...

  6. HBase按照行键范围删除数据

    #!/bin/bash #TOOL_PATH=$(cd "$(dirname "$0")"; pwd) #TOOL_PATH_TMP=$(cd "$( ...

  7. HBase按照TimeStamp删除数据

    #!/bin/bash #两种时间输入,一种是输入起始日期,另一种是直接输入hbase里面数据的起始时间戳 if [ $# != 5 ];then echo 'usage:sh byTimestamp ...

  8. 数据分页处理系列之二:HBase表数据分页处理

      HBase是Hadoop大数据生态技术圈中的一项关键技术,是一种用于分布式存储大数据的列式数据库,关于HBase更加详细的介绍和技术细节,朋友们可以在网络上进行搜寻,笔者本人在接下来的日子里也会写 ...

  9. Hbase写数据,存数据,读数据的详细过程

    Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多 ...

随机推荐

  1. sqlilab less28 less28a

    less-28  less-28a 二者相差不大 单引号小括号包裹,黑名单过滤--,#,空格,union空格select(不区分大小写) less-28的黑名单 less-28a的黑名单 %a0,不被 ...

  2. zabbix地图显示全国延迟

    Zabbix 地图显示全国延迟 1.  效果图 2.  实现方法 将地图.png上传到zabbix为背景,上传红绿点.png为图标.然后新建主机关联模板为ICMP Ping,新建一个拓扑图调用地图为背 ...

  3. Java之 函数(五)

    第一部分 : IDEA开发工具 1.数组 1.1 数组介绍 ​ 数组就是存储数据长度固定的容器,存储多个数据的数据类型要一致. 1.2 数组的定义格式 1.2.1 第一种格式 ​ 数据类型[] 数组名 ...

  4. 精尽 MyBatis 源码分析 - SqlSession 会话与 SQL 执行入口

    该系列文档是本人在学习 Mybatis 的源码过程中总结下来的,可能对读者不太友好,请结合我的源码注释(Mybatis源码分析 GitHub 地址.Mybatis-Spring 源码分析 GitHub ...

  5. CSUST 第15届 校赛总结

    一直想记录一下自己的比赛,却感觉空间说说有点不适,思考了一番还是打算放到自己的博客园 这次比赛总体来说还是不错,签到还是稳的一批,基本前四小时都在rk1 开局切了几道签到题,然后开了一道思维gcd,正 ...

  6. Python中的静态属性、实例属性、静态方法、实例方法之间的区别

  7. uni-app p-table下时间转换的问题

    问题描述: 从后台获取时间戳,转成日期格式,出现NaN的问题 uni的p-table插件 解决思路

  8. 20190620_二次开发BarTender打印机时,未能解析主引用“Seagull.BarTender.Print, Version=1.0.0.0, Culture=neutral, processorArchitecture=x86”

    错误提示: 严重性 代码 说明 项目 文件 行 禁止显示状态警告 未能解析主引用"Seagull.BarTender.Print, Version=1.0.0.0, Culture=neut ...

  9. 为什么 redo log 具有 crash-safe 的能力,是 binlog 无法替代的?

    昨天在复习 MySQL 日志相关的知识,学的东西过一段时间后就会遗忘,遗忘后再重新思考,往往会有新的收获.想到几个问题,把它记录下来. 为什么 redo log 具有 crash-safe 的能力,而 ...

  10. 文艺splay,占坑等着填

    昨天CF上去就A了前三道题,然后自闭罚坐一个小时什么也没写出来23333.似乎D题人均wa3发就很烦.还是肤浅了 今天精神状态不太好,可能是晚睡的缘故,那不如明天一起写了算了 蹲一波大选结果,蹲一波s ...