mongo中的游标与数据一致性的取舍
除了特殊注释外,本文的测试结果均基于 spring-data-mongodb:1.10.6.RELEASE(spring-boot-starter:1.5.6.RELEASE),MongoDB 3.0.6
我们在学习了一门编程语言时,一定要明白语句底层的意义,比如 User user= new User(); 它在堆中开辟了一个空间用于存放User(),并且在栈中新增了一个指向这个堆空间的指针user。那么,mongo shell中的 var user = db.user.find(); 到底做了什么?也是为集合user开辟了一个堆空间,然后再让user指向这个空间吗?
让我们先来做个实验
> function testTime(){
... var date1 = new Date().getTime();
... for(var i = ; i < ; i++){
... var user = db.user.find();
... }
... return new Date().getTime() - date1;
... }
> testTime();
user表中是有100w条数据的,100万条数据的空间创建10000次,只用了165ms?
显然是不现实的,我们再看一下
> function testTime(){
var date1 = new Date().getTime();
for(var i = ; i < ; i++){
var user = db.user.aggregate();
}
return new Date().getTime() - date1;
}
> testTime();
这里我们将find方法替换成了aggregate,并且将10000次循环改成了100次,然后时间却上升了到2800ms。通过第二章我们知道aggregate的底层是findOne,让我们再回头仔细看看findOne和find的代码区别
> db.user.find
function ( query , fields , limit , skip, batchSize, options ){
var cursor = new DBQuery( this._mongo , this._db , this ,
this._fullName , this._massageObject( query ) , fields ,
limit , skip , batchSize , options || this.getQueryOptions() ); var connObj = this.getMongo();
var readPrefMode = connObj.getReadPrefMode();
if (readPrefMode != null) {
cursor.readPref(readPrefMode, connObj.getReadPrefTagSet());
} return cursor; //find方法返回的是一个游标
}
> db.user.findOne
function ( query , fields, options ){
var cursor = this.find(query, fields, -1 /* limit */, 0 /* skip*/,
0 /* batchSize */, options); if ( ! cursor.hasNext() )
return null;
var ret = cursor.next();
if ( cursor.hasNext() ) throw Error( "findOne has more than 1 result!" );
if ( ret.$err )
throw Error( "error " + tojson( ret ) );
return ret; //findOne返回的是具体的数据
}
find和findOne主要的差别是一个返回了游标,一个返回的实际的数据,游标就是一种类似于指针的东西,只是返回了数据库中数据的地址,没有对数据进行复制,所以极大的提升了查询速率。相应的,在spring-data-mongodb中的其实也有这么一对相对的方法


执行第一个方法时,平均90%的CPU占有率跑了70分钟,而第二个方法只用了不到一秒,说明第二个并没有直接请求全部的数据,而是返回了一个类似于指针的游标。在 spring-data-mongodb:2.1.2RELEASE中已经去除掉这个方法,那么这个方法的优缺点是啥,为什么要去掉这个方法呢?
上面的各种测试结果表明了返回游标的好处(957ms 对上 4420270ms)。当然它也存在很致命的缺点:查询过程中若文档被修改,可能因为空间位置不足,而移动到集合的末尾,这样这个位置变动的文档就可能会被读取到两次,造成数据的误差。性能的提升固然重要,但是正确性才是数据库的核心,这可能就是新版本的spring-data-mongodb去掉了该方法的原因吧。
spring-data-mongodb去掉了该方法,而在mongo shell中提供了专门的快照功能,用于避免游标可能造成的数据重复问题,使用方式:db._collection_.find().snapshot();
现在我们弄明白了游标的优点:用一个数据读一个数据,不事先取出全部数据,减少开销,优化查询,还有缺点:大数据量时容易造成数据错乱,从游标的优缺点上我们可以知道,若查询结果只有一个,或者是必须要遍历所有数据才能得出查询结果时,游标是无效的。根据这个特征,我们能得出以下三种情况不应该用游标:
(1) findOne,只取一条数据,那么也就不需要返回游标了
(2) 数据库操作命令,用户只关注的是操作成功或失败
(3) 分组函数,这些函数需要遍历完所有的数据,才能得出最后的结果
巧的是,我们最开始看的源码就是,runCommand,aggregate底层都是用的findOne,而findOne没有用游标,直接返回了最终结果。因此,我们可以解答最开始的疑问了:
runCommand命令和查询函数的层级关系是怎么样的?
查询函数中,findOne和find并不是同一流派,findOne跟runCommand的关系更亲近。mongo首先根据是否应该使用游标将 find 独立出去了,而在runCommand、findOne、aggregate中,aggregate 调用 runCommand ,runCommand调用findOne。
因此,便有了最开始的runCommand调用了findOne方法,而为了与一般的数据表findOne查询区分,mongo就提供了一个特殊表$cmd用于执行(2)、(3)情况的函数。这个$cmd表无法插入数据,无法直接查询数据,使用db.getCollectionNames();时也不会展示,只有使用相应的操作符的时候,可以进行相应的查询。
在新版本中,$cmd藏的更深了,我一直纠结的鸡生蛋蛋生鸡的情况也不见了,我上面总结的一些情况也过时了。技术就是这样,总是在不断的过时,但是思维不会过时,逻辑不会过时,各位,共勉之。
目录
一:spring-data-mongodb 使用原生aggregate语句
三:spring-data-mongodb与mongo shell的对应关系
mongo中的游标与数据一致性的取舍的更多相关文章
- mongo中游标
1.手动循环访问游标 mongo中我们常用的查询方式db.collection.find()方法其实返回的就是游标,只不过我们并未给返回的游标分配变量,我们所看到的的查询数据也就是游标自动迭代得出的( ...
- SQL Server 中的游标(cursor)
http://www.cnblogs.com/Dlonghow/archive/2009/05/14/1456910.html 在数据库中,游标是一个十分重要的概念.游标提供了一种对从表中检索出的数据 ...
- Mongo中更新总结
mongo中的更新其实也可以当做添加来使用 mongo中跟新有几种方式 save.update.upsert 执行save的时候如果这个文档有_id这个参数,save 会调用 upsert,否则会调用 ...
- Mongo中的数据类型
一.null null用于表示空值或者不存在的字段 {"X" : null} 二.布尔型 布尔类型有两个值true和false {"x" : true} 三.数 ...
- oracle 中的游标
oracle 中的游标 通俗易懂的sql代码直接上! --简单的游标使用滴呀 --使用FOR OBJ IN OBJS LOOP ......END LOOP; DECLARE CURSOR C_JOB ...
- python 在mongo 中建立索引
import pymongo mongo = pymongo.Connection('localhost') collection = mongo['database']['user'] collec ...
- Oracle中使用游标转换数据表中指定字段内容格式(拼音转数字)
应用场景:将数据表TB_USER中字段NNDP的内容中为[sannanyinv]转换为[3男1女] 主要脚本:一个游标脚本+分割字符串函数+拼音转数字脚本 操作步骤如下: 1.创建类型 create ...
- Oracle中使用游标获取指定数据表的所有字段名对应的字符串
操作步骤:打开PLSQL Developer后,直接执行下面的语句就可以出来 --Oracle中使用游标获取指定数据表的所有字段名对应的字符串 declare mytablename VARCHAR( ...
- mongo中命令工作原理
1.db.runCommand命令 db.runCommand({OPTION:'COLLECTION_NAME'}) runCommand命令是mongo的执行命令,可以执行mongo的任何命令,其 ...
随机推荐
- CART回归树
决策树算法原理(ID3,C4.5) 决策树算法原理(CART分类树) 决策树的剪枝 CART回归树模型表达式: 其中,数据空间被划分为R1~Rm单元,每个单元有一个固定的输出值Cm.这样可以计算模型输 ...
- Java并发编程的艺术· 笔记(1)
目录 1.volatile的原理 2.Synchonized 3.无锁-偏向锁-轻量级锁-重量级锁 4.Java实现原子操作 1.volatile的原理 如何保持可见性: 1)将当前处理器缓存行的数据 ...
- 使用querybuilder做忽略大小写查询的例子
自定义Predicate: import com.day.cq.search.Predicate; import com.day.cq.search.eval.AbstractPredicateEva ...
- sqlserver isnull函数
isnull(参数1,参数2),判断参数1是否为NULL,如果是,返回参数2,否则返回参数1. select ISNULL(null,'helloword') 返回helloword字符串select ...
- MHA实现MySQL的高可用
一:软件简介 MHA(Master High Availability)目前在MySQL高可用方面是一个相对成熟的解决方案,是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件. 在 ...
- WCF服务无法访问DateTime类型的解决方法
在WCF服务中,如果entity类含有DateTime类型的字段,那么接口将会被执行两次,从而出现无法访问的情况.如下图所示: 原因是WCF中DateTime无法转换成序列化JSON字符串,DateT ...
- C#中,子类构造函数调用父类父类构造函数的正确方式
正确调用的方式是:
- 从安装Mac OS X虚拟机到第一个IOS程序
对于纯粹地抄这种行为是比较抵触的,别人已经写得挺好的东西没必要又去写一遍,但如果不写经验来看下次再做时自己又要重复百度筛选一遍,所以还是要记一记. 之前要获取IOS静态库的版本,但一直以来没有Mac没 ...
- css的position属性
position: relative:保持未定位前的位置不变,若给了left,top的值,那么就会相对于原来的位置进行移动 absolute:元素原先在正常文档流中所占的空间会关闭,就好像元素原来不存 ...
- Abp 中 模块 加载及类型自动注入 源码学习笔记
注意 互相关联多使用接口注册,所以可以 根据需要替换. 始于 Startup.cs 中的 通过 AddApplication 扩展方法添加 Abp支持 1 services.AddApplicati ...