想来接触mongodb它已经快一年了,对于其指数已经积累了很多的经验,知识,以这个夜黑风高的优势,放mongodb总结一番吧。

一,索引介绍


mongodb具有两类索引,分别为单键索引和复合索引。

1.单键索引是最简单的一种索引。创建单键索引的开销要比复合索引小非常多。单键索引主要用于针对单值查询的条件。

2.复合索引是将文档中的几个键联合起来创建的一种索引,创建这样的索引须要很多其它的空间与性能开销。分别体如今:

1).在给大量数据创建复合索引时。会堵塞数据库的查询,更不用说改动和插入操作了;

2).插入一条数据时,要花费很多其它的时间来给复合索引加数据;

3).创建的复合索引所站得空间大小依据数据的类型以及键的数量而有所不同。比方,假设你用五个NumberInt的键创建的复合索引的空间大小,并不会比两个NumberInt和一个String类型创建的复合索引占用很多其它的空间。索引在设计数据类型时,尽量将数据类型设置为NumberInt类型,以及尽量少使用string类型的数据做索引。

二,创建索引


创建索引的语句非常easy。

1.单键索引的创建:db.test.ensureIndex({name:1},{name:'index_name'})

2.复合索引的创建:db.test.ensureIndex({name:1,age:1,sex:1},{name:'index_nas'})

三。索引优化


索引的优化是一个重头戏。须要具体的来解释。我得測试数据插入了100万条。

字段分别为name,sex,type,time,id

1.我们来看一个简单的查询:db.test.find({name:'name_1'})  相信大家对这个查询已经非常熟悉了。然后我们来看看这个语句的索引运行计划:

{
"cursor" : "BasicCursor",   查询语句所用到的索引。而BasicCursor代表没有索引
"isMultiKey" : false,     是否为复合索引
"n" : 1,       查询到的结果数
"nscannedObjects" : 1000000,    扫描的文档数量
"nscanned" : 1000000,     扫面的索引数量
"nscannedObjectsAllPlans" : 1000000,   //影响的全部的被扫描文档的总数量
"nscannedAllPlans" : 1000000,      //全部被扫描的索引的总数量
"scanAndOrder" : false,  是否排序
"indexOnly" : false,
"nYields" : 2,
"nChunkSkips" : 0,
"millis" : 342,   花费的时间
"indexBounds" : { },
"server" : "node1:27017"
}

从这个运行计划中能够看出。该条查询语句查询一条数据须要扫描整个表,这肯定扯淡了嘛。那这时候就该给这个字段创建索引了。创建一个单键索引

db.test.ensureIndex({name:1},{name:'index_name'})

创建完索引之后。再来查看看这条查询语句的运行计划:

{
"cursor" : "BtreeCursor index_name",
"isMultiKey" : false,
"n" : 1,
"nscannedObjects" : 1,
"nscanned" : 1,
"nscannedObjectsAllPlans" : 1,
"nscannedAllPlans" : 1,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 0,
"indexBounds" : {
"name" : [
[
"name_1",
"name_1"
]
]
},
"server" : "node1:27017"
}

简直是逆天啊。nscanned和nscannedObjects竟然从100万下降到1条,也就是查询数据时,仅仅扫描了一条就已经找到。并且花费的时间是0秒,没有创建索引时,竟然是342毫秒。绝对索引威武啊。

2.这时候我想通过type和sex来组合查询某一条件的数据: db.test.find({type:1,sex:0})  看看这句的运行计划:

{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 1000000,
"nscanned" : 1000000,
"nscannedObjectsAllPlans" : 1000000,
"nscannedAllPlans" : 1000000,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 529,
"indexBounds" : { },
"server" : "node1:27017"
}

从这个计划中能够看出。为了查找几万条数据,它也扫描了整个表,非常显然,该创建索引了:

db.test.ensureIndex({type:1,sex:1},{name:'index_ts'})

创建完索引之后,再来运行查询语句。看看运行计划:

db.test.find({type:1,sex:0}).explain()
{
"cursor" : "BtreeCursor index_ts",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 55555,
"nscanned" : 55555,
"nscannedObjectsAllPlans" : 55555,
"nscannedAllPlans" : 55555,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 112,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
0,
0
]
]
},
"server" : "node1:27017"
}

非常显然,绝对是一个最佳索引,由于n=nscannedObjects=nscanned了,并且查询时间从529毫秒下降到112毫秒了,这也是一个质的飞跃,能够明显的看到,它使用了刚刚创建的index_ts索引。

如今我又有一个需求了。我想通过时间再来排序,好的。我们运行查询语句: db.test.find({type:1,sex:0}).sort({time:-1})    我们来看看这个查询语句的运行计划:

{
"cursor" : "BtreeCursor index_ts",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 1000000,
"nscanned" : 1000000,
"nscannedObjectsAllPlans" : 1000000,
"nscannedAllPlans" : 1000000,
"scanAndOrder" : true,
"indexOnly" : false,
"nYields" : 1,
"nChunkSkips" : 0,
"millis" : 695,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
0,
0
]
]
},
"server" : "node1:27017"
}

看到没。这个查询语句跟上一个创建索引之后的查询出来的结果相差还是非常大的,scanAndOrder和millis,时间花费了将近700毫秒,并且在查询完成之后还要排序,这也太不近人情了,就加了一个排序操作,怎么会让它从白天鹅变成丑小鸭了呢?啊,关键參数就是scanAndOrder,意思就是在内存中把结果排序了嘛。那好啊,既然你如此薄情。那我就建个复合索引来对抗:   db.test.ensureIndex({type:1,sex:1,time:-1},{name:'index_tst'})

{
"cursor" : "BtreeCursor index_tst",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 55555,
"nscanned" : 55555,
"nscannedObjectsAllPlans" : 55555,
"nscannedAllPlans" : 55555,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 126,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
0,
0
]
],
"time" : [
[
{
"$maxElement" : 1
},
{
"$minElement" : 1
}
]
]
},
"server" : "node1:27017"
}

看到了吗?各种參数又回到最佳状态了。这时候可能有人会问了,为什么要把time放到索引的最后而不是其他位置呢?事实上这在创建索引时是有要求的。即:

  1.  将等值索引放在最前面

  2. 尽量将排序字段放在范围字段的后面

  3. $nin和$ne跟索引没有关系

接下来我们再给查询语句加条件: db.test.find({type:1,sex:0,id:{$gt:1,$lt:500000}}) 运行计划例如以下:

{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 1000000,
"nscanned" : 1000000,
"nscannedObjectsAllPlans" : 1000000,
"nscannedAllPlans" : 1000000,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 2,
"nChunkSkips" : 0,
"millis" : 553,
"indexBounds" : { },
"server" : "node1:27017"
}

能够看到,仅仅返回两万多条数据,可是却扫描了整个表,这肯定是非常蛋疼的事情嘛,索引走起:

db.test.ensureIndex({type:1,sex:1,id:1},{name:'index_tis'})

{
"cursor" : "BtreeCursor index_tis",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 55555,
"nscanned" : 55555,
"nscannedObjectsAllPlans" : 55555,
"nscannedAllPlans" : 55555,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 1,
"nChunkSkips" : 0,
"millis" : 137,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
0,
0
]
],
"id" : [
[
1,
1000000
]
]
},
"server" : "node1:27017"
}

非常显然,这是个非常不错的组合索引,那为何不把id放在其他地方。偏偏放在最后面呢?由于在mongodb中,索引是从左到右运行的。因此显然要从左到右一次过滤最大数量的数据显然type和sex的组合过滤数据量要比id高很多其他,由于id的忙查率要远高于这两个组合。

接着再把按time排序加上。查询:db.test.find({type:1,sex:1,id:{$gt:0,$lt:1000000}}).sort({time:-1}).explain()

{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 55556,
"nscannedObjects" : 1000000,
"nscanned" : 1000000,
"nscannedObjectsAllPlans" : 1000000,
"nscannedAllPlans" : 1000000,
"scanAndOrder" : true,
"indexOnly" : false,
"nYields" : 1,
"nChunkSkips" : 0,
"millis" : 725,
"indexBounds" : { },
"server" : "node1:27017"
}

能够看到。这个查询语句也是极其慢的,并且还要再内存中排序,所以肯定要创建索引了:

db.test.ensureIndex({type:1,sex:1,id:1,time:-1},{name:'index_tist'}) 我们先这样创建索引,看看运行计划:

{
"cursor" : "BtreeCursor index_tist",
"isMultiKey" : false,
"n" : 55556,
"nscannedObjects" : 55556,
"nscanned" : 55556,
"nscannedObjectsAllPlans" : 55657,
"nscannedAllPlans" : 55657,
"scanAndOrder" : true,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 404,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
1,
1
]
],
"id" : [
[
0,
1000000
]
],
"time" : [
[
{
"$maxElement" : 1
},
{
"$minElement" : 1
}
]
]
},
"server" : "node1:27017"
}

看到了没有,尽管查询时间缩短了。可是这个查询结果还是会排序结果,好,我们再把索引改改:

db.test.ensureIndex({type:1,sex:1,time:-1,id:1},{name:'index_tist'})

{
"cursor" : "BtreeCursor index_tist",
"isMultiKey" : false,
"n" : 55556,
"nscannedObjects" : 55556,
"nscanned" : 55556,
"nscannedObjectsAllPlans" : 55657,
"nscannedAllPlans" : 55657,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 168,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
1,
1
]
],
"time" : [
[
{
"$maxElement" : 1
},
{
"$minElement" : 1
}
]
],
"id" : [
[
0,
1000000
]
]
},
"server" : "node1:27017"
}

再来看看,快到什么程度了,这个查询的速度和參数条件已经比上一个索引的快了非常多,那为什么会出现这样的情况呢?为什么time在id的前后会有不同的表现?这是由于通过type和sex字段过滤完之后,已经在内存中有了数据,而这些数据下一步须要怎么办?是先通过id来筛选,还是依照排序筛选呢?这里有一个知识点,在把id放在time前面时,程序首先会取复合id值,然后再把复合的数据排序,可是假设id放在排序的后面。那么程序将直接通过顺序扫描索引树的方式取出复合id范围的数据。

四,总结


    1.mongodb创建索引难点在于排序和范围查询的字段位置选择

2.mongodb的复合索引的索引截取查询是顺序的,即假设(a:1,b:1,c:1},则能够是查询{a:1},{a:1,b:1},{a:1,b:1,c:1}中得不论什么一种都会使用该索引。其他查询情况将不会用到该索引;

3.尝试创建一个更小的索引,以提高数据库的性能

4.上述指标优化生产环境的一部分,这可能取决于自己的企业来决定的细节

上mongodb创建一些吸取的经验教训指数的更多相关文章

  1. 关于mongodb创建索引的一些经验总结(转)

    查看语句执行计划: explain() 在mongodb3+版本后输出格式发生改变: 详情参见:https://docs.mongodb.com/v3.0/reference/method/curso ...

  2. 创建Android Apps的30个经验教训

    这个世界上有两种人-从经验教训中学习的人以及听从别人建议的人.这里是我一路走来学到的一些东西,分享给大家: 在添加任何第三方party之前,请三思:这真的是一个成熟的项目吗? 如果一个东西用户看不到, ...

  3. Apache Storm 的历史及经验教训——Nathan Marz【翻译】

    英文原文地址 中英文对照地址 History of Apache Storm and lessons learned --项目创建者 Nathan Marz Apache Storm 最近成为了ASF ...

  4. 从Apache Storm学到的经验教训 —— storm的由来(转)

    阅读目录 Storm来源 初探 再探 构建第一个版本 被Twitter收购 开源的Storm 发布之后 Storm的技术演进 构建开发者社区版 离开Twitter 提交到Apache Apache孵化 ...

  5. 从面向服务架构(SOA)学习:微服务时代应该借鉴的5条经验教训

    [编者按]本文作者为 Matt McLarty,通过介绍 SOA 的兴衰变化,总结了微服务应该借鉴的5条经验教训.文章系国内 ITOM 管理平台 OneAPM 编译呈现. SOA 的兴衰变化让我们更了 ...

  6. CQRS之旅——旅程8(后记:经验教训)

    旅程8:后记:经验教训 我们的地图有多好?我们走了多远?我们学到了什么?我们迷路了吗? "这片土地可能对那些愿意冒险的人有益."亨利.哈德逊 这一章总结了我们旅程中的发现.它强调了 ...

  7. 使用Flutter完成10个商业项目后的经验教训

    作者:Łukasz Kosman 和 Jakub Wojtczak 原文:https://medium.com/swlh/lessons-learned-after-making-the-first- ...

  8. 使用Kubernetes两年来的7大经验教训

    来源:分布式实验室译者:冯旭松在Ridecell公司管理基础设施团队几年后,我想在停下来休息时记录一些想法和经验教训. 1Kubernetes不仅仅是炒作 我在Kubernetes领域里活跃了很久,所 ...

  9. 新人入职100天,聊聊自己的经验&教训

    这篇文章讲了什么? 如题,本屌入职100天之后的经验和教训,具体包含: 对开发的一点感悟. 对如何提问的一点见解. 对Google开发流程的吐槽. 如果你 打算去国外工作. 对Google的开发流程感 ...

随机推荐

  1. UVA 10317 - Equating Equations (背包)

    Problem F Equating Equations Input: standard input Output: standard output Time Limit: 6 seconds Mem ...

  2. 它们偷偷干了啥?教你监督APP的运行

    由于Android系统的开放性,很多APP都会在后台运行各种我们不知道的权限,不仅泄露我们隐私,也给系统本身带来极大安全隐患.而且现在很普遍的是,在安装APP时它总会索取特别多的权限,又是拍照又是地理 ...

  3. hive regex insert join group cli

    1.insert Insert时,from子句既能够放在select子句后,也能够放在insert子句前,以下两句是等价的 hive> FROM invites a INSERT OVERWRI ...

  4. 安装m2eclipse

    Help->Eclipse Marketplace- 搜索 maven 安装 Maven Integration for Eclipse

  5. 怎样在Windows和Linux下写相同的代码

    目前,Linux在国内受到了越来越多的业内人士和用户的青睐.相信在不久的将来,在国内为Linux开发 的应用软件将会有很大的增加(这不,金山正在招兵买马移植WPS呢).由于未来将会是Windows和L ...

  6. (1)前言——(10)jquery项目的历史(History of the jQuery project)

    This book covers the functionality and syntax of jQuery 1.6.x, the latest version at the time of wri ...

  7. Java批量生成Mac地址到文件

    public class Main { public static void main(String[] args) { // 生成文件名称 String filePath = "mac.t ...

  8. Beauty of Array

    Description Edward has an array A with N integers. He defines the beauty of an array as the summatio ...

  9. PreTranslateMessage和TranslateMessage区别

    PreTranslateMessage是消息在送给TranslateMessage函数之前被调用的,绝大多数本窗口的消息都要通过这里,比较常用,当需要在MFC之前处理某些消息时,常常要在这里添加代码. ...

  10. Android自学绝佳资料

    本文转自stormzhang老师的博客:http://stormzhang.com/android/2014/07/07/learn-android-from-rookie 首先感谢stromzhan ...