HBase(dfs三副本,syncwal)

Cassandra(N=3,W=2,R=2, batch commitlog)

CAP

CP

CA

数据存储模型

LSM

LSM

数据写入网络开销

Rpc 没有压缩,1份原始数据,占用大约3倍流量

Rpc 有压缩,1份原始数据,占用大概([三份数据写入流量,一份coordinator流量]4*0.2)倍网络流量(1:5压缩比,三份)

内存使用效率
  1. 一份数据对应一份memstore开销
  2. 一份数据对应一份cache开销
  1. 一份数据对应三份memtable开销
  2. 一份数据对应三份cache开销

sql支持

None,有第三方phoenix实现,操作不透明,业务场景简单的场景下推荐使用原生客户端

CQL,primarykey机制稍复杂,支持二级索引,但是性能不高,官方不推荐使用

数据模型

稀疏表

cql,有限兼容sql

Compaction开销

1. 计算量1倍,网络3倍压缩数据量

2. flush文件偏小,一般需要多做一层compaction,最大会有几G级别的hfile文件

  1. 计算量三倍,不需要网络开销
  2. flush下来的文件可以较hbase大一个数量级,但是每台机器分摊的数据比较多,最大会有百G级别的sstable文件

水平扩展开销

1. 一次性加入机器,水平扩展完成,需要一定的时间通过compaciton做数据本地化,写性能可以做到瞬间扩展

1. 一台一台加入,数据需要通过Streaming模块从原节点流向新节点,加入比较缓慢

可用性【短时间单机宕机场景】

1. 需要几分钟级别的故障恢复时间,故障恢复期间,宕机服务器上原来提供服务的region暂时不可用

1. 单机宕机,不影响读写,写操作会通过hinted handoff写入其他节点,恢复后再写回;读操作从其他节点获取

数据一致性

1. 保证一致

  1. 为了实现一致性,r + w > n.  对读写操作有一定放大。
  2. 不满足r+w > n的场景下会有数据不一致的情况发生;数据不一致产生的原因很多样,修复方式也多样,主要有以下三种:
  3. 反熵修复 (耗时,永久宕机修复)
  4. Hinted handoff (临时宕机修复)
  5. Read repair (读修复)

跨机房复制

1. 类似binlog的异步复制

1. 设置多DC,可以通过写入策略调整是多机房同步写入还是类异步写入

写入性能(同步wal模式)

1. 忽略内存操作,写三个dn节点的pipeline,并行写入

(r=2, w=2, n=3)

1. 忽略内存操作,并行写2节点成功即可

读性能(冷数据)

1. 一个节点磁盘io操作

2. 磁盘io数目一般10个以内

(r=2, w=2, n=3)

  1. 并行读两节点成功
  2. 每个节点操作需要磁盘io数目一般大于10, cassandra单表单节点sstables数目一般多于10个
  3. 如果发现不一致,还要异步执行写修复

运维成本

  1. 初始搭建成本高
  2. 后期运维操作方便
  1. 初始搭建成本低
  2. 后期运维操作繁琐
TTL
  1. 支持ttl自动过期,columnfamily级别
  1. 支持默认ttl,也支持写入的时候指定数据的ttl
多版本
  1. 支持多版本,columnfamily级别
  1. 不支持
前缀扫描
  1. 支持任意rowkey位置的scan
  1. 支持相同partition key下的clusterkey顺序的scan
 

Cassandra VS HBase的更多相关文章

  1. 能够满足这样要求的哈希算法有很多,其中比较著名并且应用广泛的一个哈希算法,那就是MurmurHash 算法。尽管这个哈希算法在 2008 年才被发明出来,但现在它已经广泛应用到 Redis、MemCache、Cassandra、HBase、Lucene 等众多著名的软件中。

    能够满足这样要求的哈希算法有很多,其中比较著名并且应用广泛的一个哈希算法,那就是MurmurHash 算法.尽管这个哈希算法在 2008 年才被发明出来,但现在它已经广泛应用到 Redis.MemCa ...

  2. NoSQL四种——kv存储(memcache,Riak),列存储(Cassandra,Hbase),文档类(mongoDB,CouchDB),图数据库(neo4j)

    见:https://software.intel.com/sites/default/files/Configuration_and_Deployment_Guide_for_Cassandra_on ...

  3. [转载] HBase vs Cassandra:我们迁移系统的原因

    转载自http://www.csdn.net/article/2010-11-29/282698 我的团队近来正在忙于一个全新的产品——即将发布的网络游戏www.FightMyMonster.com. ...

  4. NoSQL: Cassandra, HBase, RocksDB

    转自: http://www.linkedin.com/pulse/nosql-cassandra-hbase-rocksdb-siddharth-anand I've had the pleasur ...

  5. [转载] Cassandra入门 框架模型 总结

    转载自http://asyty.iteye.com/blog/1202072 一.Cassandra框架二.Cassandra数据模型 Colum / Colum Family, SuperColum ...

  6. Hbase和Oracle的对比

    转自:http://www.cnblogs.com/chay1227/archive/2013/03/17/2964020.html 转自:http://blog.csdn.net/allen879/ ...

  7. spark + cassandra +postgres +codis 大数据方案

    1.环境: 1.1.cassandra 集群: 用于日志数据存储 1.2.spark集群: 用户后期的实时计算及批处理 1.3.codis 集群: 用于缓存一些基本数据如IP归属地,IP经纬度等,当日 ...

  8. hbase学习(一)hbase简介

    1.hadoop生态系统 2.hbase简介 非关系型数据库知识面扩展 cassandra.hbase.mongodb.redis couchdb,文件存储数据库 Neo4j非关系型图数据库 3.hb ...

  9. cassandra框架模型之二——存储机制 CommitLog MemTable SSTable

    四.副本存储 Cassandra不像HBase是基于HDFS的分布式存储,它的数据是存在每个节点的本地文件系统中. Cassandra有三种副本配置策略: 1) SimpleStrategy (Rac ...

随机推荐

  1. AGC 014 B - Unplanned Queries

    题面在这里! 很显然的一件事是,我们把路径覆盖改成两个点分别到根的路径覆盖,答案是不会变的,因为lca以上被覆盖了两次不变奇偶性.. 这么做的好处就是,我们只需要考虑每个点的覆盖次数带来的影响就行了, ...

  2. BZOJ 1123 [POI2008]BLO(Tarjan算法)

    [题目链接] http://www.lydsy.com/JudgeOnline/problem.php?id=1123 [题目大意] Byteotia城市有n个towns,m条双向roads. 每条r ...

  3. 【贪心】 Codeforces Round #419 (Div. 1) A. Karen and Game

    容易发现,删除的顺序不影响答案. 所以可以随便删. 如果行数大于列数,就先删列:否则先删行. #include<cstdio> #include<algorithm> usin ...

  4. codevs 1959 拔河比赛--判断背包内刚好装满n/2个物品

    1959 拔河比赛  时间限制: 1 s  空间限制: 128000 KB  题目等级 : 黄金 Gold 题解  查看运行结果     题目描述 Description 一个学校举行拔河比赛,所有的 ...

  5. android unity3d开发学习第一步

    1:下载unitysetup 开发环境 http://unity3d.com/unity/download/download-windows 2:下载三维制作软件 制作我们需要的场景 http://u ...

  6. NHibernate 之持久化类、拦截器 (第二篇)

    一.持久化类中成员标量的要求 作为被NHibernate使用的持久化类,必须满足以下几点要求: 1.声明读写属性 在NHibernate的使用中,持久化类的成员变量必须声明对应的属性,NHiberna ...

  7. Word中设置三栏式表格

    一般期刊要求三栏式表格,我原来是选中表格,用橡皮差擦去不必要的线,但是今天发现只能查去横线,竖线一插曲格式就乱了,我想起了上图,不选“内部竖框线”就好了.

  8. TCP协议中的重传、慢启动、SACK、窗口的概念

    重传机制     慢启动相关的几个状态说明该     SACK机制     窗口在TCP传输机制中的作用

  9. RapidXml使用方法

    一.写xml 文件 [cpp] view plaincopy #include <iostream> #include "rapidxml/rapidxml.hpp" ...

  10. iOS:多线程同步加锁的简单介绍

    多线程同步加锁主要方式有3种:NSLock(普通锁).NSCondition(状态锁).synchronized同步代码块 还有少用的NSRecursiveLock(递归锁).NSConditionL ...