HBase(dfs三副本,syncwal)

Cassandra(N=3,W=2,R=2, batch commitlog)

CAP

CP

CA

数据存储模型

LSM

LSM

数据写入网络开销

Rpc 没有压缩,1份原始数据,占用大约3倍流量

Rpc 有压缩,1份原始数据,占用大概([三份数据写入流量,一份coordinator流量]4*0.2)倍网络流量(1:5压缩比,三份)

内存使用效率
  1. 一份数据对应一份memstore开销
  2. 一份数据对应一份cache开销
  1. 一份数据对应三份memtable开销
  2. 一份数据对应三份cache开销

sql支持

None,有第三方phoenix实现,操作不透明,业务场景简单的场景下推荐使用原生客户端

CQL,primarykey机制稍复杂,支持二级索引,但是性能不高,官方不推荐使用

数据模型

稀疏表

cql,有限兼容sql

Compaction开销

1. 计算量1倍,网络3倍压缩数据量

2. flush文件偏小,一般需要多做一层compaction,最大会有几G级别的hfile文件

  1. 计算量三倍,不需要网络开销
  2. flush下来的文件可以较hbase大一个数量级,但是每台机器分摊的数据比较多,最大会有百G级别的sstable文件

水平扩展开销

1. 一次性加入机器,水平扩展完成,需要一定的时间通过compaciton做数据本地化,写性能可以做到瞬间扩展

1. 一台一台加入,数据需要通过Streaming模块从原节点流向新节点,加入比较缓慢

可用性【短时间单机宕机场景】

1. 需要几分钟级别的故障恢复时间,故障恢复期间,宕机服务器上原来提供服务的region暂时不可用

1. 单机宕机,不影响读写,写操作会通过hinted handoff写入其他节点,恢复后再写回;读操作从其他节点获取

数据一致性

1. 保证一致

  1. 为了实现一致性,r + w > n.  对读写操作有一定放大。
  2. 不满足r+w > n的场景下会有数据不一致的情况发生;数据不一致产生的原因很多样,修复方式也多样,主要有以下三种:
  3. 反熵修复 (耗时,永久宕机修复)
  4. Hinted handoff (临时宕机修复)
  5. Read repair (读修复)

跨机房复制

1. 类似binlog的异步复制

1. 设置多DC,可以通过写入策略调整是多机房同步写入还是类异步写入

写入性能(同步wal模式)

1. 忽略内存操作,写三个dn节点的pipeline,并行写入

(r=2, w=2, n=3)

1. 忽略内存操作,并行写2节点成功即可

读性能(冷数据)

1. 一个节点磁盘io操作

2. 磁盘io数目一般10个以内

(r=2, w=2, n=3)

  1. 并行读两节点成功
  2. 每个节点操作需要磁盘io数目一般大于10, cassandra单表单节点sstables数目一般多于10个
  3. 如果发现不一致,还要异步执行写修复

运维成本

  1. 初始搭建成本高
  2. 后期运维操作方便
  1. 初始搭建成本低
  2. 后期运维操作繁琐
TTL
  1. 支持ttl自动过期,columnfamily级别
  1. 支持默认ttl,也支持写入的时候指定数据的ttl
多版本
  1. 支持多版本,columnfamily级别
  1. 不支持
前缀扫描
  1. 支持任意rowkey位置的scan
  1. 支持相同partition key下的clusterkey顺序的scan
 

Cassandra VS HBase的更多相关文章

  1. 能够满足这样要求的哈希算法有很多,其中比较著名并且应用广泛的一个哈希算法,那就是MurmurHash 算法。尽管这个哈希算法在 2008 年才被发明出来,但现在它已经广泛应用到 Redis、MemCache、Cassandra、HBase、Lucene 等众多著名的软件中。

    能够满足这样要求的哈希算法有很多,其中比较著名并且应用广泛的一个哈希算法,那就是MurmurHash 算法.尽管这个哈希算法在 2008 年才被发明出来,但现在它已经广泛应用到 Redis.MemCa ...

  2. NoSQL四种——kv存储(memcache,Riak),列存储(Cassandra,Hbase),文档类(mongoDB,CouchDB),图数据库(neo4j)

    见:https://software.intel.com/sites/default/files/Configuration_and_Deployment_Guide_for_Cassandra_on ...

  3. [转载] HBase vs Cassandra:我们迁移系统的原因

    转载自http://www.csdn.net/article/2010-11-29/282698 我的团队近来正在忙于一个全新的产品——即将发布的网络游戏www.FightMyMonster.com. ...

  4. NoSQL: Cassandra, HBase, RocksDB

    转自: http://www.linkedin.com/pulse/nosql-cassandra-hbase-rocksdb-siddharth-anand I've had the pleasur ...

  5. [转载] Cassandra入门 框架模型 总结

    转载自http://asyty.iteye.com/blog/1202072 一.Cassandra框架二.Cassandra数据模型 Colum / Colum Family, SuperColum ...

  6. Hbase和Oracle的对比

    转自:http://www.cnblogs.com/chay1227/archive/2013/03/17/2964020.html 转自:http://blog.csdn.net/allen879/ ...

  7. spark + cassandra +postgres +codis 大数据方案

    1.环境: 1.1.cassandra 集群: 用于日志数据存储 1.2.spark集群: 用户后期的实时计算及批处理 1.3.codis 集群: 用于缓存一些基本数据如IP归属地,IP经纬度等,当日 ...

  8. hbase学习(一)hbase简介

    1.hadoop生态系统 2.hbase简介 非关系型数据库知识面扩展 cassandra.hbase.mongodb.redis couchdb,文件存储数据库 Neo4j非关系型图数据库 3.hb ...

  9. cassandra框架模型之二——存储机制 CommitLog MemTable SSTable

    四.副本存储 Cassandra不像HBase是基于HDFS的分布式存储,它的数据是存在每个节点的本地文件系统中. Cassandra有三种副本配置策略: 1) SimpleStrategy (Rac ...

随机推荐

  1. python基础之序列化 time random os

    序列化与反序列化 json  pickle 1.什么是序列化与反序列化? 序列化就是将内存中的数据结构转成一种中间格式储存到硬盘或者基于网络传输 反序列化是网络,硬盘将被序列化的对象重新读到内存 2. ...

  2. 输入sql语句,将结果写入到xml文件

    import java.io.FileOutputStream; import java.sql.Connection; import java.sql.DriverManager; import j ...

  3. Problem C: 程序改错(递归函数):数字转字符

    Description 下面程序中“/ ***** N ***** /”的下一行中有错误,请改正(注意:不得加行.减行.加句.减句,否则后果自负). 该程序功能:用递归法将一个六位整数n转换成字符串, ...

  4. Java源代码编译过程

      编译其本质是将一种语言规范转换成另一种语言规范,即将Java语言规范转换为JVM虚拟机语言规范.结果就是.java文件到.class文件. 对于C/C++编译直接将高级语言转换为机器语言,Java ...

  5. if __name__=='__main__"在有的virtualenvs环境下执行成功,在有的环境下执行失败?

    我的项目是erebus,所以默认的python解释器位于virtualenvs下的erebus,但是这个执行环境执行某个py文件总是失败,换其他的执行器执行反而没有问题: 排查了半天,才发现erebu ...

  6. [转]SQL Server 2005 Integration Services (SSIS) (3) - Business Intelligence Development Studio

    本文转自:http://blog.csdn.net/me_online/article/details/1546281 三,SQL Server Integration Services 开发环境– ...

  7. 深入理解Java中为什么内部类可以访问外部类的成员

    内部类简介 虽然Java是一门相对比较简单的编程语言,但是对于初学者, 还是有很多东西感觉云里雾里, 理解的不是很清晰.内部类就是一个经常让初学者感到迷惑的特性. 即使现在我自认为Java学的不错了, ...

  8. rootkit后门之安装流程

    1.首先是获得远程服务器的root权限 2.然后下载rootkit程序,本文用到的是mafix (下载前最好把杀毒软件关掉,基本上会报毒的!) 3.开始安装 tar -xvzf mafix.tar.g ...

  9. 编译 arm 版的qt

    因为项目需要,我们需要在开发板上使用QT开发平台,因此需要编译一个arm版的QT. 在网上找了一些资料,费了几天时间,终于成功了. 第一步,准备源码 先下载QT 源码,在http://qt-proje ...

  10. ISP图像调试工程师——自动对焦(熟悉3A算法)

    https://wenku.baidu.com/view/40ec4a14fc4ffe473368ab96.html