想来接触mongodb它已经快一年了,对于其指数已经积累了很多的经验,知识,以这个夜黑风高的优势,放mongodb总结一番吧。

一,索引介绍


mongodb具有两类索引,分别为单键索引和复合索引。

1.单键索引是最简单的一种索引。创建单键索引的开销要比复合索引小非常多。单键索引主要用于针对单值查询的条件。

2.复合索引是将文档中的几个键联合起来创建的一种索引,创建这样的索引须要很多其它的空间与性能开销。分别体如今:

1).在给大量数据创建复合索引时。会堵塞数据库的查询,更不用说改动和插入操作了;

2).插入一条数据时,要花费很多其它的时间来给复合索引加数据;

3).创建的复合索引所站得空间大小依据数据的类型以及键的数量而有所不同。比方,假设你用五个NumberInt的键创建的复合索引的空间大小,并不会比两个NumberInt和一个String类型创建的复合索引占用很多其它的空间。索引在设计数据类型时,尽量将数据类型设置为NumberInt类型,以及尽量少使用string类型的数据做索引。

二,创建索引


创建索引的语句非常easy。

1.单键索引的创建:db.test.ensureIndex({name:1},{name:'index_name'})

2.复合索引的创建:db.test.ensureIndex({name:1,age:1,sex:1},{name:'index_nas'})

三。索引优化


索引的优化是一个重头戏。须要具体的来解释。我得測试数据插入了100万条。

字段分别为name,sex,type,time,id

1.我们来看一个简单的查询:db.test.find({name:'name_1'})  相信大家对这个查询已经非常熟悉了。然后我们来看看这个语句的索引运行计划:

{
"cursor" : "BasicCursor",   查询语句所用到的索引。而BasicCursor代表没有索引
"isMultiKey" : false,     是否为复合索引
"n" : 1,       查询到的结果数
"nscannedObjects" : 1000000,    扫描的文档数量
"nscanned" : 1000000,     扫面的索引数量
"nscannedObjectsAllPlans" : 1000000,   //影响的全部的被扫描文档的总数量
"nscannedAllPlans" : 1000000,      //全部被扫描的索引的总数量
"scanAndOrder" : false,  是否排序
"indexOnly" : false,
"nYields" : 2,
"nChunkSkips" : 0,
"millis" : 342,   花费的时间
"indexBounds" : { },
"server" : "node1:27017"
}

从这个运行计划中能够看出。该条查询语句查询一条数据须要扫描整个表,这肯定扯淡了嘛。那这时候就该给这个字段创建索引了。创建一个单键索引

db.test.ensureIndex({name:1},{name:'index_name'})

创建完索引之后。再来查看看这条查询语句的运行计划:

{
"cursor" : "BtreeCursor index_name",
"isMultiKey" : false,
"n" : 1,
"nscannedObjects" : 1,
"nscanned" : 1,
"nscannedObjectsAllPlans" : 1,
"nscannedAllPlans" : 1,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 0,
"indexBounds" : {
"name" : [
[
"name_1",
"name_1"
]
]
},
"server" : "node1:27017"
}

简直是逆天啊。nscanned和nscannedObjects竟然从100万下降到1条,也就是查询数据时,仅仅扫描了一条就已经找到。并且花费的时间是0秒,没有创建索引时,竟然是342毫秒。绝对索引威武啊。

2.这时候我想通过type和sex来组合查询某一条件的数据: db.test.find({type:1,sex:0})  看看这句的运行计划:

{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 1000000,
"nscanned" : 1000000,
"nscannedObjectsAllPlans" : 1000000,
"nscannedAllPlans" : 1000000,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 529,
"indexBounds" : { },
"server" : "node1:27017"
}

从这个计划中能够看出。为了查找几万条数据,它也扫描了整个表,非常显然,该创建索引了:

db.test.ensureIndex({type:1,sex:1},{name:'index_ts'})

创建完索引之后,再来运行查询语句。看看运行计划:

db.test.find({type:1,sex:0}).explain()
{
"cursor" : "BtreeCursor index_ts",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 55555,
"nscanned" : 55555,
"nscannedObjectsAllPlans" : 55555,
"nscannedAllPlans" : 55555,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 112,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
0,
0
]
]
},
"server" : "node1:27017"
}

非常显然,绝对是一个最佳索引,由于n=nscannedObjects=nscanned了,并且查询时间从529毫秒下降到112毫秒了,这也是一个质的飞跃,能够明显的看到,它使用了刚刚创建的index_ts索引。

如今我又有一个需求了。我想通过时间再来排序,好的。我们运行查询语句: db.test.find({type:1,sex:0}).sort({time:-1})    我们来看看这个查询语句的运行计划:

{
"cursor" : "BtreeCursor index_ts",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 1000000,
"nscanned" : 1000000,
"nscannedObjectsAllPlans" : 1000000,
"nscannedAllPlans" : 1000000,
"scanAndOrder" : true,
"indexOnly" : false,
"nYields" : 1,
"nChunkSkips" : 0,
"millis" : 695,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
0,
0
]
]
},
"server" : "node1:27017"
}

看到没。这个查询语句跟上一个创建索引之后的查询出来的结果相差还是非常大的,scanAndOrder和millis,时间花费了将近700毫秒,并且在查询完成之后还要排序,这也太不近人情了,就加了一个排序操作,怎么会让它从白天鹅变成丑小鸭了呢?啊,关键參数就是scanAndOrder,意思就是在内存中把结果排序了嘛。那好啊,既然你如此薄情。那我就建个复合索引来对抗:   db.test.ensureIndex({type:1,sex:1,time:-1},{name:'index_tst'})

{
"cursor" : "BtreeCursor index_tst",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 55555,
"nscanned" : 55555,
"nscannedObjectsAllPlans" : 55555,
"nscannedAllPlans" : 55555,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 126,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
0,
0
]
],
"time" : [
[
{
"$maxElement" : 1
},
{
"$minElement" : 1
}
]
]
},
"server" : "node1:27017"
}

看到了吗?各种參数又回到最佳状态了。这时候可能有人会问了,为什么要把time放到索引的最后而不是其他位置呢?事实上这在创建索引时是有要求的。即:

  1.  将等值索引放在最前面

  2. 尽量将排序字段放在范围字段的后面

  3. $nin和$ne跟索引没有关系

接下来我们再给查询语句加条件: db.test.find({type:1,sex:0,id:{$gt:1,$lt:500000}}) 运行计划例如以下:

{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 1000000,
"nscanned" : 1000000,
"nscannedObjectsAllPlans" : 1000000,
"nscannedAllPlans" : 1000000,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 2,
"nChunkSkips" : 0,
"millis" : 553,
"indexBounds" : { },
"server" : "node1:27017"
}

能够看到,仅仅返回两万多条数据,可是却扫描了整个表,这肯定是非常蛋疼的事情嘛,索引走起:

db.test.ensureIndex({type:1,sex:1,id:1},{name:'index_tis'})

{
"cursor" : "BtreeCursor index_tis",
"isMultiKey" : false,
"n" : 55555,
"nscannedObjects" : 55555,
"nscanned" : 55555,
"nscannedObjectsAllPlans" : 55555,
"nscannedAllPlans" : 55555,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 1,
"nChunkSkips" : 0,
"millis" : 137,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
0,
0
]
],
"id" : [
[
1,
1000000
]
]
},
"server" : "node1:27017"
}

非常显然,这是个非常不错的组合索引,那为何不把id放在其他地方。偏偏放在最后面呢?由于在mongodb中,索引是从左到右运行的。因此显然要从左到右一次过滤最大数量的数据显然type和sex的组合过滤数据量要比id高很多其他,由于id的忙查率要远高于这两个组合。

接着再把按time排序加上。查询:db.test.find({type:1,sex:1,id:{$gt:0,$lt:1000000}}).sort({time:-1}).explain()

{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 55556,
"nscannedObjects" : 1000000,
"nscanned" : 1000000,
"nscannedObjectsAllPlans" : 1000000,
"nscannedAllPlans" : 1000000,
"scanAndOrder" : true,
"indexOnly" : false,
"nYields" : 1,
"nChunkSkips" : 0,
"millis" : 725,
"indexBounds" : { },
"server" : "node1:27017"
}

能够看到。这个查询语句也是极其慢的,并且还要再内存中排序,所以肯定要创建索引了:

db.test.ensureIndex({type:1,sex:1,id:1,time:-1},{name:'index_tist'}) 我们先这样创建索引,看看运行计划:

{
"cursor" : "BtreeCursor index_tist",
"isMultiKey" : false,
"n" : 55556,
"nscannedObjects" : 55556,
"nscanned" : 55556,
"nscannedObjectsAllPlans" : 55657,
"nscannedAllPlans" : 55657,
"scanAndOrder" : true,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 404,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
1,
1
]
],
"id" : [
[
0,
1000000
]
],
"time" : [
[
{
"$maxElement" : 1
},
{
"$minElement" : 1
}
]
]
},
"server" : "node1:27017"
}

看到了没有,尽管查询时间缩短了。可是这个查询结果还是会排序结果,好,我们再把索引改改:

db.test.ensureIndex({type:1,sex:1,time:-1,id:1},{name:'index_tist'})

{
"cursor" : "BtreeCursor index_tist",
"isMultiKey" : false,
"n" : 55556,
"nscannedObjects" : 55556,
"nscanned" : 55556,
"nscannedObjectsAllPlans" : 55657,
"nscannedAllPlans" : 55657,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 168,
"indexBounds" : {
"type" : [
[
1,
1
]
],
"sex" : [
[
1,
1
]
],
"time" : [
[
{
"$maxElement" : 1
},
{
"$minElement" : 1
}
]
],
"id" : [
[
0,
1000000
]
]
},
"server" : "node1:27017"
}

再来看看,快到什么程度了,这个查询的速度和參数条件已经比上一个索引的快了非常多,那为什么会出现这样的情况呢?为什么time在id的前后会有不同的表现?这是由于通过type和sex字段过滤完之后,已经在内存中有了数据,而这些数据下一步须要怎么办?是先通过id来筛选,还是依照排序筛选呢?这里有一个知识点,在把id放在time前面时,程序首先会取复合id值,然后再把复合的数据排序,可是假设id放在排序的后面。那么程序将直接通过顺序扫描索引树的方式取出复合id范围的数据。

四,总结


    1.mongodb创建索引难点在于排序和范围查询的字段位置选择

2.mongodb的复合索引的索引截取查询是顺序的,即假设(a:1,b:1,c:1},则能够是查询{a:1},{a:1,b:1},{a:1,b:1,c:1}中得不论什么一种都会使用该索引。其他查询情况将不会用到该索引;

3.尝试创建一个更小的索引,以提高数据库的性能

4.上述指标优化生产环境的一部分,这可能取决于自己的企业来决定的细节

上mongodb创建一些吸取的经验教训指数的更多相关文章

  1. 关于mongodb创建索引的一些经验总结(转)

    查看语句执行计划: explain() 在mongodb3+版本后输出格式发生改变: 详情参见:https://docs.mongodb.com/v3.0/reference/method/curso ...

  2. 创建Android Apps的30个经验教训

    这个世界上有两种人-从经验教训中学习的人以及听从别人建议的人.这里是我一路走来学到的一些东西,分享给大家: 在添加任何第三方party之前,请三思:这真的是一个成熟的项目吗? 如果一个东西用户看不到, ...

  3. Apache Storm 的历史及经验教训——Nathan Marz【翻译】

    英文原文地址 中英文对照地址 History of Apache Storm and lessons learned --项目创建者 Nathan Marz Apache Storm 最近成为了ASF ...

  4. 从Apache Storm学到的经验教训 —— storm的由来(转)

    阅读目录 Storm来源 初探 再探 构建第一个版本 被Twitter收购 开源的Storm 发布之后 Storm的技术演进 构建开发者社区版 离开Twitter 提交到Apache Apache孵化 ...

  5. 从面向服务架构(SOA)学习:微服务时代应该借鉴的5条经验教训

    [编者按]本文作者为 Matt McLarty,通过介绍 SOA 的兴衰变化,总结了微服务应该借鉴的5条经验教训.文章系国内 ITOM 管理平台 OneAPM 编译呈现. SOA 的兴衰变化让我们更了 ...

  6. CQRS之旅——旅程8(后记:经验教训)

    旅程8:后记:经验教训 我们的地图有多好?我们走了多远?我们学到了什么?我们迷路了吗? "这片土地可能对那些愿意冒险的人有益."亨利.哈德逊 这一章总结了我们旅程中的发现.它强调了 ...

  7. 使用Flutter完成10个商业项目后的经验教训

    作者:Łukasz Kosman 和 Jakub Wojtczak 原文:https://medium.com/swlh/lessons-learned-after-making-the-first- ...

  8. 使用Kubernetes两年来的7大经验教训

    来源:分布式实验室译者:冯旭松在Ridecell公司管理基础设施团队几年后,我想在停下来休息时记录一些想法和经验教训. 1Kubernetes不仅仅是炒作 我在Kubernetes领域里活跃了很久,所 ...

  9. 新人入职100天,聊聊自己的经验&教训

    这篇文章讲了什么? 如题,本屌入职100天之后的经验和教训,具体包含: 对开发的一点感悟. 对如何提问的一点见解. 对Google开发流程的吐槽. 如果你 打算去国外工作. 对Google的开发流程感 ...

随机推荐

  1. Amlogic开关机按键功能实现

    在做AMlogic项目的时候,配置按键后,发现电源键仅仅能关机,不能开机,非常是郁闷 后来发现是漏掉了一个地方没有配置,firmware/arc_power/irremote2arc.c 这个文件中面 ...

  2. 安卓面试精华(Activity部分)

    过几天小弟要去面试了,当然免不了要好好复习下功课,其实很多东西也不是特别清楚,今天都当作一个回顾和巩固,希望我的这篇文章能对即将去找工作的同学有所帮助. 1. Q:什么是activity? 虽然这个问 ...

  3. QT显示机制(7篇相关文章)

    了解QT显示机制,最重要的就是要了解QT是如何管理窗体的显示区域的,这里有个重要的类:QRegion, 在QT中可以通过QRegion定义一个窗体的显示区域,也可以通过QRegion定义窗体的可修改区 ...

  4. 【HTTP】Fiddler(三)- Fiddler命令行和HTTP断点调试

    一. Fiddler内置命令. 上一节(使用Fiddler进行抓包分析)中,介绍到,在web session(与我们通常所说的session不是同一个概念,这里的每条HTTP请求都成为一个sessio ...

  5. 高级特性(2)- XML

    2.1 概述2.2 解析XML文档2.3 验证XML文档 2.3.1 文档类型定义 2.3.2 XML Schema 2.3.3 实用示例2.4 使用XPath来定位信息2.5 使用命名空间2.6 流 ...

  6. CloudStack 4.2 新功能:集成SNMP进行系统监控(原理篇)

    作者微博:http://weibo.com/tianchunfeng CloudStack 4.2 版本发布在即,相信不久后对 4.2 版本新功能(共有13个)的介绍会逐渐多起来.因为无论是从架构底层 ...

  7. 2014/08/24——升级stepbystep修复tc不刷新问题并加入杭电bc

    问题: 自从tc站点升级以后做题统计的tc一栏就不刷新了,为此全哥也更新了一下stepbystep的配置文件什么的,我仅仅要将其挂到server上即可了. 由于加了杭电的bc,看来这事儿不easy.还 ...

  8. 怎样学好C++语言

    昨天写了一篇怎样学好C语言,就有人回复问我怎样学好C++,所以,我把我个人的一些学习经验写在这里,希望对大家实用.首先,由于怎样学好C语言中谈到了算法和系统,所以这里就仅仅谈C++语言. C++是最难 ...

  9. Swift - 使用CGBlendMode改变UIImage颜色

    类似于PS,Swift中也可对图片UIImage进行图层混合(blending),而且提供了相当丰富的混合模式(blendMode).本文先介绍使用其中的kCGBlendModeDestination ...

  10. (08)DBA写给开发的索引经验

          索引可是个大事情,翻开任意一本数据库调优的书,索引都会占到比较大的篇幅.这是个人人都很重视的问题,可往往起始阶段还好,但数据库到最后常常还是会陷入由索引起的性能怪圈中.特别是在上线运行过一 ...