MongoDB 分片键分类与数据分发
In sharded clusters, if you do not use the _id field as the shard key, then your application must ensure the uniqueness of the values in the _id field to prevent errors.
This is most-often done by using a standard auto-generated ObjectId.
在分片中,也要保证object id的唯一性
整理自:
https://www.cnblogs.com/chenmh/p/8954584.html
https://cloud.tencent.com/developer/article/1451897
《MongoDB权威指南》
MongoDB拆分数据常用的数据分发方式有三种:
升序片键
随机分发片键
基于位置片键
一、升序片键
1.1 什么是升序片键
升序片键通常有点类似于date字段或者时objectId,是一种随着时间稳定增长的字段。
1.2 升序片键数据插入表现
升序片键在数据插入会带来一些属性,通常是不良属性
1、最大快现象
假设要建立一个新文档,它会位于哪个块?答案是范围为objectId("5115aa552cascsa222")到
$maxkey的块。这个块叫做最大快。因为此块包含$maxkey。
所有的写都会被路由到一个分片中。该块是唯一一个不断增长和拆分的块,因为他是唯一一个能够接收到插入请求的块。
随着新数据的不断插入,该最大块会不断拆分处新的小块。
2、分片内的数据块不均匀
这种模式经常导致MongoDB的数据均匀处理变得更为困难,因为所有的新块都是由同一分片创建。因此,
MongoDB必须不断将一些块移入其他分片,而不能像在一个比较均匀的分发系统中那样,只需纠正那些
比较小的不均衡就好了。
二、随机分发的片键
2.1 什么是随机分发片键
随即分发的键可以是用户名、邮件地址、UDID(唯一设备标识符)、MD5散列值,或者是数据集中其他一些
没有规律的键。
2.2 随即分发片键数据插入表现
1、写入数据是随机分发,各个片键增长速度应大致相同,减少了需要进行迁移的次数
2、随即分发唯一弊端在于
MongoDB在随机访问超出RAM大小的数据失效率不高。然而,如果拥有足够多的RAM或者是并不介意系统
性能的话,使用随机片键在集群上分配负载是非常好的。
三、基于位置的片键
3.1 什么是基于位置的片键
基于位置的片键可以是用户的IP、经纬度、或者是地址。
位置片键不必与实际的物理位置字段相关:这里的位置比较抽象,数据会依据这个位置进行分组。无论
如何,所有与该键值比较接近的文档都会被保存在同一范围的块中。这样可以比较方便的将数据与相应的
用户,以及相关联的数据保存在一起。
3.2 基于位置的片键数据插入表现
1、使用tag将特定范围的块出现在特定的分片中。
比如:IP段,让“56.*.*.*"(美国邮政署的IP段)出现在shard0000,让"17.*.*.*"(苹果公司的IP段)出现在
shard0000或者shard0002上。
>sh.addShardTag("shard0000","USPS")
>sh.addShardTag("shard0000","Apple")
>sh.addShardTag("shard0002","Apple")
四、片键策略
针对不同类型应用程序的几种片键选项
4.1 散列片键
1、散列片键特性
优点:
如果追求数据加载速度的极致,那么散列片键(Hashed Shard Key)是最佳选择。
散列片键可使其他任何键随机分发,因此,如果打算在大量查询中使用升序键,但同时又希望写入
数据随机分发的话,散列片键是个非常好的选择。
弊端:
无法使用散列片键做指定目标的范围查询。如果无需做范围查询,那么散列片键就非常适合。
2、创建一个散列片键
1)数据库启用分片
>sh.enableSharding("app")
2)在已经存在集合上面使用散列片键
创建散列索引
>sh.users.ensureIndex({"username":"hashed"})
然后对集合分片
>sh.shardCollection("app.users",{"username":"hashed"})
3)在不存在的集合上面使用散列片键
语法同上,但是有如下注意点
MongoDB假设我们希望对数据块进行均衡分发,所以他会立即创建一些空的块,并将这些块分发在集群
中。

3、散列分片的局限
1)不能使用unique选项
2)与其他分片键一样,不能使用数组字段
3)浮点型的值会被取证,然后才进行散列,所以1和1.999会得到形同的散列值
4.2 Ranged Sharding 范围片键
通过分片键的值来将数据分成不同的范围。它可以提供比较快的范围查询,但是当分片键选择不好的时候,也会降低读写性能 。 如果没有配置Hashed Sharding或者zones(https://docs.mongodb.com/manual/core/zone-sharding/#zone-sharding)它是默认的分片键方法。
sh.shardCollection( "database.collection", { <shard key> } )
大致分布见下图:

4.3zones sharding(列表分区)
The following image illustrates a sharded cluster with three shards and two zones. The A zone represents a range with a lower boundary of 1 and an upper bound of 10. The B zone represents a range with a lower boundary of 10 and an upper boundary of 20. Shards Alpha and Beta have the A zone. Shard Beta also has the B zone. Shard Charlie has no zones associated with it. The cluster is in a steady state and no chunks violate any of the zones.

For example, given a shard key { a : 1, b : 2, c : 3 }, creating or updating a zone to cover values of b requires including a as the prefix. Creating or updating a zone to covers values of c requires including a and b as the prefix. 创建shard tag:
sh.addShardTag("shard0000", "NYC")sh.addShardTag("shard0001", "NYC")sh.addShardTag("shard0002", "SFO")sh.addShardTag("shard0002", "NRT")
创建zone rang:
sh.addTagRange("records.users", { zipcode: "10001" }, { zipcode: "10281" }, "NYC")sh.addTagRange("records.users", { zipcode: "11201" }, { zipcode: "11240" }, "NYC")sh.addTagRange("records.users", { zipcode: "94102" }, { zipcode: "94135" }, "SFO")
参考:https://docs.mongodb.com/manual/tutorial/manage-shard-zone/
与hashed shard key一起使用时,zone的范围一般要覆盖minKey和maxKey才可以。 参考:https://docs.mongodb.com/manual/core/zone-sharding/#zone-sharding
比如对于一些日志非查询文档,可以通过标签将其只插入到某个分片中。例如
sh.addTagRange("test.log",{ "_id" : { "$minKey" : 1 } }, { "_id" : { "$maxKey" : 1 } },"tag_rs-a");
可以在config库中的tag文档中查看设置的标签信息。
use config db.tags.find();
4.4 组合片键
数据库中没有比较合适的片键供选择,或者是打算使用的片键基数太小(即变化少如星期只有7天可变化),可以选另一个字段使用组合片键,甚至可以添加冗余字段来组合。一般是粗粒度+细粒度进行组合。
组合片键的创建,对GridFS的chunks集合使用files_id和n组合分片。
组合分片是比较好的一种分片的选择,好的组合分片可以同时解决热点和随机读IO问题。例
1)数据库启用分片
sh.enableSharding("test")
2)集合设置分片键(新建分片情况)
sh.shardCollection("test.bbbb",{"username":1,"_id":1}); 3)查分片信息
sh.status()
MongoDB 分片键分类与数据分发的更多相关文章
- MongoDB 分片键的选择与案例
MongoDB版本:3.6 一.分片键类别 1.升序片键 升序片键例如:日期时间字段.自增字段. 2.随机分发片键 随机分发片键例如:用户名.邮件名.UUID.MD5值或者是其它的一些没有规律的值的列 ...
- MongoDB 分片集群技术
在了解分片集群之前,务必要先了解复制集技术! 1.1 MongoDB复制集简介 一组Mongodb复制集,就是一组mongod进程,这些进程维护同一个数据集合.复制集提供了数据冗余和高等级的可靠性,这 ...
- MongoDB分片(Sharding)技术
分片(sharding)是MongoDB用来将大型集合分割到不同服务器(或者说一个集群)上所采用的方法.尽管分片起源于关系型数据库分区,但MongoDB分片完全又是另一回事. 和MySQL分区方案相比 ...
- (转)MongoDB 分片集群技术
1.1 MongoDB复制集简介 一组Mongodb复制集,就是一组mongod进程,这些进程维护同一个数据集合.复制集提供了数据冗余和高等级的可靠性,这是生产部署的基础. 1.1.1 复制集的目的 ...
- MogoDB 分片键
MongoDB 根据分片键分割 collection 中的文档,然后分配到分片集群的成员中. 分片键可以是一个存在于每个文件中的索引字段或者复合索引字段. MongoDB 使用不同范围的分片键值来分割 ...
- TiDB和MongoDB分片集群架构比较
此文已由作者温正湖授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 最近阅读了TiDB源码的说明文档,跟MongoDB的分片集群做了下简单对比. 首先展示TiDB的整体架构 M ...
- MongoDB 数据分发
在MongoDB(版本 3.2.9)中,数据的分发是指将collection的数据拆分成块(chunk),分布到不同的分片(shard)上,数据分发主要有2种方式:基于数据块(chunk)数量的均衡分 ...
- MongoDB 分片管理(四)数据均衡 -- 特大快
1.1 特大快形成 如果用date字段作为片键,集合中date是一个日期字符串,如:year/month/day,也就是说,mongoDB一天创建一个块.因块内所有文档的片键一样,因此这些块是不可拆分 ...
- MongoDB分片之数据分割方式
随着移动互联网的发展,大量的非结构化数据随之产生,不仅对数据库存储大数据提出了新的要求,同时对于查询数据和进行大数据分析也提出了苛刻的要求,这些显然是单服务器处理能力无法满足的,自然建立一个集群是不可 ...
随机推荐
- 微信小程序DEMO——面包旅行的代码
API 集合在一起写了一个页面,并导出, const apiURL = 'http://xxx.xxxx.com'; const trip = { hot(data,callback){ wx.req ...
- robot framework 接口测试 http协议post请求json格式
robot framework 接口测试 http协议post请求json格式 讲解一个基础版本.注意区分url地址和uri地址. rf和jmeter在添加服务器地址也就是ip地址的时候,只能url地 ...
- python之函数基本使用
函数的定义: 函数是一段具有特定功能的.可重用的语句组,用函数名来表示并通过函数名进行功能调用. 使用函数主要有两个目的:降低编程难度和代码重用. python定义一个函数是通过使用def保留字的方式 ...
- 弹性布局flex 介绍
摘自:http://www.ruanyifeng.com/blog/2015/07/flex-grammar.html 网页布局(layout)是CSS的一个重点应用. 布局的传统解决方案,基于盒状模 ...
- iOS开发常见的宏定义(实用)
iOS开发过程中使用一些常用的宏可以提高开发效率,提高代码的重用性:将这些宏放到一个头文件里然后再放到工程中的-Prefix.pch文件中(或者直接放到-Prefix.pch中)直接可以使用,灰常方便 ...
- 阿里云服务器(Ubuntu16.04 64位)的使用
购买阿里云服务器 1.打开阿里云官方网站,账号登录,选择产品中的云服务器 ECS 2.根据自身需求,选择合适的阿里云服务器系统,(1)点击一键购买,(2)选择地域,(3)根据自身需求,选择系统,这里选 ...
- OpenStack kilo版(8) 部署cinder
直接将cinder服务和块设备都部署在controller节点上 在controller节点添加一块100G的块设备/dev/sdb 配置数据库 (root@localhost) [(none)]&g ...
- 越狱后cydia无法联网
0x:卸载 cydia installer 1x:卸载后重启手机 2x:再次h3lix
- MOOC下载器的文档整理
1.背景 最近学习中国大学MOOC的课程,想把课程的pdf下载下来本地保存并浏览.工具: Setup-Mooc-3.4.0.exe 但是,却发现所下载的文档在不同的文件夹里,浏览很不方便.于是 ...
- Docker那些事儿之初识Docker
公司内部一直在使用Docker进行服务的部署和应用的升级,从开始使用Docker一直到线上的部署以及一些基础服务的开发本人都有参与,而且自己的网站也是在Docker的基础之上进行构建的,想想也需要总结 ...