参考文档:http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/architecture/architecturePartitionerAbout_c.html#concept_ds_dwv_npf_fk

  一个分区器决定了数据是怎样分布在集群中的节点上的。通常,一个分区器就是一个hash函数去计算每一行键值的hash值——token。每一行数据通过一个键值唯一标识并且在集群中按token分部。

  Murmur3Partitioner 和 RandomPartitioner都使用token去帮助分配相同部分的数据在每个节点上并均匀的分配所有表中的数据到环上或其他分组(例如keyspace)。即使table使用了不同的行键值,例如用户名或者时间戳。甚至于,集群的读请求和写请求同样也是平均的分布并且负载平衡的,因为平均每部分的Hash范围都接收到相等数目的行。

  Cassandra提供了以下分区器:

•Murmur3Partitioner (默认地): 在集群中均匀地分布数据基于 MurmurHash 哈希值

•RandomPartitioner: 在集群中均匀地分布数据基于 md5 值

•ByteOrderedPartitioner:通过key的字节来保持数据词汇的有序分布

对于新的Cassandra 集群,Murmur3Partitioner 是默认的分区策略,在几乎所有情况下都是正确的选择。

  在 cassandra.yaml文件中指定分区器:

•Murmur3Partitioner: org.apache.cassandra.dht.Murmur3Partitioner

•RandomPartitioner: org.apache.cassandra.dht.RandomPartitioner

•ByteOrderedPartitioner: org.apache.cassandra.dht.ByteOrderedPartitioner

  提示:如果使用虚拟节点,你不需要计算节点的token。如果没有使用虚拟节点,在cassandra.yaml文件中你必须计算token并分配给 initial_token参数。

Murmur3Partitioner

  相比于原来默认地分区器RandomPartitioner,Murmur3Partitioner哈希更快而且性能更好。

  对于新的集群,你完全可以只使用Murmur3Partitioner。你不能改变已有节点的分区器。如果你使用1.2版本的cassandra.yaml,你需要确认修改分区器设置以匹配之前的分区器。

  Murmur3Partitioner使用MurmurHash函数。MurmurHash哈希函数为每一个行键值创建了64比特的哈希值。哈希数值的范围从-263 到2+63.

当使用Murmur3Partitioner的时候,你可以在CQL 3 查询中使用token function为所有行分页。

RandomPartitioner

  Cassandra 1.2之前的默认分页器。

  虽然不再是默认分页器了,你仍然可以在Cassandra 1.2中使用RandomPartitioner,甚至在使用虚拟节点时使用RandomPartitioner。然而,如果你不使用虚拟节点,你必须计算token,就像在 Generating tokens中描述的那样。RandomPartition分发数据使用MD5哈希函数计算行键值。数值范围从0到2127 -1。当使用RandomPartitioner的时候,你可以在CQL 3 查询中使用token function为所有行分页。

ByteOrderedPartitioner

  用来进行有序的分区。

  Cassandra 提供ByteOrderedPartitioner 用来进行有序的分区。这个分区器按key的字节值来进行排序。你可以通过查看行键值的真实数值,采用16进制表示key的首字母来计算token。例如,如果你想让行按字母顺序排列,你可以指定一个tokenA使用16进制的41表示。

  使用有序分区器允许按主键有序遍历。这意味着你可以遍历每一行就好像使用一个游标通过一个传统的数据库索引。例如,如果你的程序使用用户名作为行键值,你可以遍历用户(姓名在 Jake和Joe之间)。对于随即分区器来说这种方式的查询是做不到的,因为键值按照md5的顺序存储,而不是顺序的。

  尽管对于有序分区器来说拥有这种能力听起来是一个非常棒的特性,但通过table indexes也能实现同样的功能。

  因为以下原因,不建议使用有序分区器:

1、困难的负载平衡

  为了保持集群的负载平衡,需要更多的管理开销。一个顺序的分区器需要管理员经常性的计算 partition ranges根据行键值的分布估计。在实践中,但数据加载后需要经常性的改变节点的token去适应实际数据的分布。

2、顺序写导致热点

  如果你的程序写入或者更新一块数据包含很多按顺序排列的行的时候,它们不会分布在集群上,会分布同一节点上。当系统处理和时间相关的数据的时候这是一个常见的问题。

3、多表时负载不平衡

  如果你的应用程序用到多个表,这些表有不同的行键值和不同的数据分布。在同一个集群中,对于一张表一个有序的分区对于另一个表可能会导致热点和不均匀分布。

Cassandra1.2文档学习(4)——分区器的更多相关文章

  1. Cassandra1.2文档学习解读计划——为自己鼓劲

    最近想深入研究一下Cassandra,而Cassandra没有中文文档,仅有的一些参考书都是0.7/0.6版本的.因此有个计划,一边学习文档(地址:http://www.datastax.com/do ...

  2. Cassandra1.2文档学习(6)—— 客户端数据请求

    参考文档:http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/architecture/a ...

  3. Cassandra1.2文档学习(3)——数据分配和复制

    参考文档:http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/architecture/a ...

  4. Cassandra1.2文档学习(19)—— CQL索引

    参考文档:http://www.datastax.com/documentation/cql/3.0/webhelp/index.html#cql/ddl/ddl_primary_index_c.ht ...

  5. Cassandra1.2文档学习(17)—— CQL数据模型(上)

    参考文档:http://www.datastax.com/documentation/cql/3.0/webhelp/index.html#cql/ddl/ddl_anatomy_table_c.ht ...

  6. Cassandra1.2文档学习(16)—— 模式的变化

    参考文档:http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/dml/dml_schema ...

  7. Cassandra1.2文档学习(15)—— 配置数据一致性

    参考文档:http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/dml/dml_config ...

  8. Cassandra1.2文档学习(14)—— 事务和并发控制

    参考文档:http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/dml/dml_about_ ...

  9. Cassandra1.2文档学习(13)—— 数据读取

    参考文档:http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/dml/dml_about_ ...

随机推荐

  1. zookeeper使用场景【转】

    分布式网站架构后续:zookeeper技术浅析   Zookeeper是hadoop的一个子项目,虽然源自hadoop,但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多. ...

  2. [Bootstrap] 4. Typogrphy

    What is Typography When we talk about typography, it's a big subject! Which of the following fall un ...

  3. JAVA实现的异步redisclient

    再使用redis的过程中,发现使用缓存尽管好,可是有些地方还是比較难权衡,缓存对象大了,存储对象时的序列化工作非常繁重,消耗大量cpu:那么切分成非常小的部分吧,存取的次数变多了,redisclien ...

  4. 使用air进行移动app开发常见功能和问题(二)

    1.  Air如何判断android.ios 平台网络连接状态? Android,使用as3原生api: if(NetworkInfo.isSupported)//只有android支持 Networ ...

  5. 进程环境之C程序的存储空间布局

    从历史上讲,C程序一直由下面几部分组成: 正文段.这是由CPU执行的机器指令部分.通常,正文段是可共享的,所以即使是频繁执行的程序(如文本编辑器.C编译器和shell等)在存储器中也只需有一个副本,另 ...

  6. PAT 1016

    1016. Phone Bills (25) A long-distance telephone company charges its customers by the following rule ...

  7. extremeComponents(ec)源码分析

    eXtremeComponents(简称ec)是一系列提供高级显示的开源JSP定制标签,当前的包含的组件为eXtremeTable,用于以表形式显示数据. 其本质是jsp的自定义标签,抓住这一点就抓住 ...

  8. [转]在BBB启动时自动加载dtbo(或执行脚本、运行程序)

    启动时自动加载dtbo,实际上就是做了一个cape.官方推荐的方法是用eeprom来实现,请参考我的博文<为BBB制作专属自己的cape(一)>和<为BBB制作专属自己的cape(四 ...

  9. C#解决微信支付Exception has been thrown by the target of an invocation(调用的目标发生了异常)的问题

    今天搭建微信扫码支付环境的时候,一样的配置参数,调用连接提示错误 错误:调用的目标发生了异常 然后跟踪到执行 MD5 md5 = System.Security.Cryptography.MD5.Cr ...

  10. SVN理解

    先说说什么是branch.按照Subversion的说法,一个branch是某个development line(通常是主线也即trunk)的一个拷贝,见下图: branch存在的意义在于,在不干扰t ...