需求描述

将数据记录持久化存储在HBase中,需要支持如下功能:

  1. 支持高吞吐量读写操作,实时采集10,000条/秒;
  2. 支持动态添加字段;
  3. 支持服务端过滤;
  4. 支持部分字段修改。

设计方案

按列存储

优点

  1. 扩展性好,支持动态添加新列;
  2. 支持服务端按列过滤;
  3. 可读性好,方便调试;
  4. 获取少量列数据时,读取数据少,节约网络带宽资源;
  5. 方便修改部分列值。

缺点

  1. 占用磁盘空间较多;
  2. 数据采集性能差。

列合并为JSON格式存储

优点

  1. 相对方案1,减少数据列,节约磁盘空间;
  2. 相对方案1,数据读、写性能较好;
  3. 扩展性好,支持动态添加新列;
  4. 相对方案3数据可读性好,方便调试;

缺点

  1. 不便于服务端按列过滤;
  2. 数据只能整体获取,当获取少量列时也需要将整个json对象获取,对磁盘和网络资源造成浪费;
  3. 不便于修改部分列值,需要整体反序列化替换修改值后再重新序列化后写入。

列合并为PB格式存储

优点

  1. 相对方案1,减少数据列,并通过PB格式对数据压缩,节约磁盘空间;
  2. 数据读、写性能好。

缺点

  1. 扩展性差,添加新列时需要修改PB对象;
  2. 不支持服务端按列过滤;
  3. 数据可读性差,不方便调试;
  4. 数据只能整体获取,当获取少量列时也需要将整个PB对象获取,对磁盘和网络资源造成浪费;
  5. 不便于修改部分列值,需要整体反序列化替换修改值后再重新序列化后写入。

批量写入性能对比

单线程连续批量发送100万条过车记录(每条记录37个字段,每批10000条记录),三种方案完成数据采集总耗时对比结果如下:

图3_1 HBase批量写入性能

批量读取性能对比

单线程批量读取100万条过车记录(每条记录37个字段,每批10000条记录),分别从非压缩表和Snappy压缩表读取记录并执行反序列化操作(按列存储格式的读取性能表示从result中获取属性值的时间消耗),记录每种存储格式的总耗时与反序列化耗时情况,图4_1对应非压缩表的测试结果,图4_2对应Snappy压缩表的测试结果:
注:

  1. 读取部分列测试只获取tfs_id,plate_image_path,image_path三列;
  2. 按列存储的测试数据中红色部分表示从result中获取字段的时间消耗。


图4_1 HBase非压缩表批量读取性能

图4_2 HBase snappy压缩表批量读取性能

存储空间占用对比

单线程连续批量发送100万条过车记录(37个字段),三种方案存储空间占用对比结果如下(下图数据表示一份数据的空间占用情况,不包括副本大小):

图5_1 HBase存储空间占用情况

HBase存储方案设计的更多相关文章

  1. 用Hbase存储Log4j日志数据:HbaseAppender

    业务需求: 需求很简单,就是把多个系统的日志数据统一存储到Hbase数据库中,方便统一查看和监控. 解决思路: 写针对Hbase存储的Log4j Appender,有一个简单的日志储存策略,把Log4 ...

  2. HBase存储剖析与数据迁移

    1.概述 HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储.所以,对于结构化的SQL语言查询,HBase自身并没有接口支持.在大数据应用中,虽然也有SQL查询引擎可以查询H ...

  3. hbase 存储结构和原理

    HBase的表结构 建表时要指定的是:表名.列族 建表语句 create 'user_info', 'base_info', 'ext_info' 意思是新建一个表,名称是user_info,包含两个 ...

  4. HBase存储架构

    以下的介绍是基于Apache Hbase 0.94版本: 从HBase的架构图上可以看出,HBase中的存储包括HMaster.HRegionServer.HRegion.Store.MemStore ...

  5. Hbase存储详解

    转自:http://my.oschina.net/mkh/blog/349866 Hbase存储详解 started by chad walters and jim 2006.11 G release ...

  6. 一种安全云存储方案设计(下)——基于Lucene的云端搜索与密文基础上的模糊查询

    一种安全的云存储方案设计(未完整理中) 一篇老文了,现在看看错漏颇多,提到的一些技术已经跟不上了.仅对部分内容重新做了一些修正,增加了一些机器学习的内容,然并卵. 这几年来,云产品层出不穷,但其安全性 ...

  7. HBase存储及读写原理介绍

    一.HBase介绍及其特点 HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java.它是Apache软件基金会的Hadoop项目的一部分,运行于HDF ...

  8. hbase存储优化

    1.上面的2张图主要说明hbase的存储特点 (1).每个值(每条记录的每一个列的值)的存储,都完整的存储了rowkey.column family.column.版本(时间戳),以及该列的值. 这样 ...

  9. 爬虫代码实现四:采用Hbase存储爬虫数据(2)

    导入hbase的jar包,在maven仓库找:进入http://mavenrepository.com/,输入hbase client,选择apache hbase client, 点击进入,选择 点 ...

随机推荐

  1. 更换 mac时 开发证书

    更换 mac时 开发证书,先导出, 后导入,如果出现错误,把projects自动签名改为手动

  2. EasyMvc入门教程-图形控件说明(21)线形图+柱状图+饼形图

    本章将介绍一些基本但常用的图形:线型图,柱状图和饼形图. 以上三种图形对于的数据都是键值对数组,请参考第一个例子: @{ var data = new List<LineItem>(); ...

  3. ichartjs 制作的图表

    ichartjs资源包下载:https://files.cnblogs.com/files/xiandedanteng/ichartjs-ichartjs1.2.zip 本例下载地址:https:// ...

  4. 【Excle数据透视表】如何隐藏数据透视表中行字段的”+/-”按钮

    如下图:新建的数据透视表中有存在"+/-"符号,导致数据透视图不太美观,那么怎么处理呢? 解决方案 单击"显示"组中的"+/-"按钮显示或隐 ...

  5. 文件I/O操作为什么叫输入/出流

    参考以下文档: http://blog.csdn.net/hguisu/article/details/7418161 我们关注的焦点是错误的,重点不在文件,我们关注的核心是数据流. 这种流可以是文本 ...

  6. C语言 结构体作为函数的参数

    1)使用结构体变量作为函数的参数 使用结构体变量作为函数的实参时,采用的是值传递,会将结构体变量所占内存单元的内容全部顺序传递给形参,形参必须是同类型的结构体变量 demo: # include &l ...

  7. Spring Data JPA 事务锁

    1.概述 在本快速教程中,我们将讨论在Spring Data JPA中为自定义查询方法和预定义存储库的CRUD方法启用事务锁, 我们还将查看不同的锁类型并设置事务锁超时. 2.锁类型 JPA定义了两种 ...

  8. android利用apkplug框架实现主应用与插件通讯(传递随意对象)实现UI替换

    时光匆匆,乍一看已半年过去了,经过这半年的埋头苦干今天最终有满血复活了. 利用apkplug框架实现动态替换宿主Activity中的UI元素.以达到不用更新应用就能够更换UI样式的目的. 先看效果图: ...

  9. 【Python】用Python打开IE、谷歌等浏览器报错及解决办法

    以IE浏览器为例: 当Python Shell输入下面代码时: >>> # coding=utf-8 >>> from selenium import webdri ...

  10. Tinker 热修复框架 简单上手教程

    当你们看到Tinker的时候是不是有点愣逼这个是什么东西? 简单来说就是不需要重新下载app和重新安装app 来进行更新app的技术框架. 看看这个吧,我也是才学习 ,先做个学习记录 参考:Tinke ...