1. 批量保存优化

避免一条一条查询,采用bulkWrite, 基于ReplaceOneModel,启用upsert:

 public void batchSave(List<?> spoTriples, KgInstance kgInstance) {
MongoConverter converter = mongoTemplate.getConverter();
List<ReplaceOneModel<Document>> bulkOperationList = spoTriples.stream()
.map(thing -> {
org.bson.Document dbDoc = new org.bson.Document();
converter.write(thing, dbDoc);
ReplaceOneModel<org.bson.Document> replaceOneModel = new ReplaceOneModel(
Filters.eq(UNDERSCORE_ID, dbDoc.get(UNDERSCORE_ID)),
dbDoc,
new UpdateOptions().upsert(true));
return replaceOneModel;
})
.collect(Collectors.toList());
mongoTemplate.getCollection(getCollection(kgInstance)).bulkWrite(bulkOperationList);
}

2. 分页优化

经常用于查询的字段,需要确保建立了索引。

对于包含多个键的查询,可以创建符合索引。

2.1 避免不必要的count

查询时,走索引,速度并不慢,但是如果返回分页Page<?>,需要查询totalcount,当单表数据过大时,count会比较耗时,但是设想意向,你真的需要准确的数字吗?

在google、百度等搜索引擎搜索关键词时,只会给你有限的几个结果,因此,我们也不必给出准确的数字,设定一个阈值,比如1万,当我们发现总量大于1万时,返回1万,前端显示大于1万条即可。

原理也很鉴定啊,我们skip掉MAX_PAGE_COUNT,看是否还有数据,如果有就说明总量大于MAX_PAGE_COUNT,返回MAX_PAGE_COUNT即可,否则,计算真正的count。



int MAX_PAGE_COUNT = 10000;

/**
* 当总数大于阈值时,不再计算总数
*
* @param mongoTemplate
* @param query
* @param collectionName
* @return
*/
private long count(MongoTemplate mongoTemplate, Query query, String collectionName) {
query = query.with(PageRequest.of(MAX_PAGE_COUNT, 1));
if (mongoTemplate.find(query, Thing.class, collectionName).size() > 0) {
return MAX_PAGE_COUNT;
}
return mongoTemplate.count(query, collectionName);
}

前端显示:

2.2 避免过多的skip

分页不过避免需要先跳过一些数据,这个过程是需要消耗时间的,可以通过一个小技巧避免跳过。

比如,显示列表时,排序为按最后修改时间倒序,每页显示100条,现在要显示第100页。

按照正常的做法,需要跳过99*100条数据,非常大的代价。换一个角度思考,因为数据是有序的,因此第100页的数据的最后修改时间是小于第99页最小的修改时间,查询时加上这个条件,就可以直接取符合条件的前100条即可。

3. 全量导出优化

3.1 去掉不需要的字段

查询时,指定真正有用的字段,这样可以有效减少数据传输量,加快查询效率。

例如:

 	    Query query = new Query();
query.fields().include("_id").include("name").include("hot").include("alias");

3.2 避免使用findAll或者分页查询,改用stream

全量导出有两个误区,一是直接findAll,当数据量过大时,很容易导致服务器OutofMermory,就算没有OOM,也会对服务器造成极大的负载,影响兄弟服务。另外,FindAll一次性加载数据到内存,整个速度也会比较慢,需要等待所有数据进入内存后才能开始处理。

另外一个误区是,分页查询,依次处理。分页查询可以有效减少服务器负担,不失为一种可行的方法。但是就和上面分页说的那样,分页到后面的时候,需要skip掉前面的数据,存在无用功。稍微好一点的做法就是按照之前说的,将skip转换为condtion,这种方式效率OK,但不推荐,存在代码冗余。

            Page<Thing> dataList = entityDao.findAllByPage(kgDataStoreService.getKgCollectionByKgInstance(kg), page);
Map<String, Individual> thingId2Resource = new ConcurrentHashMap<>(); appendThingsToModel(model, concept2OntClass, hot, alias, dataList, thingId2Resource); while (dataList.hasNext()) {
page = PageRequest.of(page.getPageNumber() + 1, page.getPageSize());
dataList = entityDao.findAllByPage(kgDataStoreService.getKgCollectionByKgInstance(kg), page);
appendThingsToModel(model, concept2OntClass, hot, alias, dataList, thingId2Resource);
}

更推荐的做法是,采用mongoTemplate的steam方法,返回CloseableIterator迭代器,读一条数据处理一条数据,实现高效处理:

@Override
public <T> CloseableIterator<T> stream(final Query query, final Class<T> entityType, final String collectionName) {
return doStream(query, entityType, collectionName, entityType);
}

改用方法后,代码可以更简化高效:

  CloseableIterator<Thing> dataList = kgDataStoreService.getSimpleInfoIterator(kg);

            // 实体导入
// Page<Thing> dataList = entityDao.findAllByPage(kgDataStoreService.getKgCollectionByKgInstance(kg), page);
Map<String, Individual> thingId2Resource = new ConcurrentHashMap<>(); appendThingsToModel(model, concept2OntClass, hot, alias, dataList, thingId2Resource);

待续。。。


作者:Jadepeng

出处:jqpeng的技术记事本--http://www.cnblogs.com/xiaoqi

您的支持是对博主最大的鼓励,感谢您的认真阅读。

本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

mongodb海量数据CRUD优化的更多相关文章

  1. MongoDB的CRUD操作

    1. 前言 在上一篇文章中,我们介绍了MongoDB.现在,我们来看下如何在MongoDB中进行常规的CRUD操作.毕竟,作为一个存储系统,它的基本功能就是对数据进行增删改查操作. MongoDB中的 ...

  2. MongoDB实战性能优化

    1. 性能优化分类 mongodb性能优化分为软件层面和操作系统层面. 软件层面,一般通过修改mongodb软件配置参数来达到,这个需要非常熟悉mongodb里面的各种配置参数: 而操作系统层面,相对 ...

  3. MongoDB简单CRUD场景

    MongoDB简单CRUD命令操作 (1)新建数据库:use 数据库名 (2)显示所有数据库:show dbs; (3)新建集合(两种方式)  隐式创建:在创建集合的同时往集合里面添加数据---db. ...

  4. springboot连接mongodb进行CRUD

    springboot连接mongodb进行CRUD的过程: 在执行以下操作前已安装了mongodb并创建了用户和数据库,使用Robo 3T可成功连接. 1.创建springboot项目,加入以下mav ...

  5. 【翻译】MongoDB指南/CRUD操作(四)

    [原文地址]https://docs.mongodb.com/manual/ CRUD操作(四) 1 查询方案(Query Plans) MongoDB 查询优化程序处理查询并且针对给定可利用的索引选 ...

  6. 【翻译】MongoDB指南/CRUD操作(三)

    [原文地址]https://docs.mongodb.com/manual/ CRUD操作(三) 主要内容: 原子性和事务(Atomicity and Transactions),读隔离.一致性和新近 ...

  7. 【翻译】MongoDB指南/CRUD操作(二)

    [原文地址]https://docs.mongodb.com/manual/ MongoDB CRUD操作(二) 主要内容: 更新文档,删除文档,批量写操作,SQL与MongoDB映射图,读隔离(读关 ...

  8. 【翻译】MongoDB指南/CRUD操作(一)

    [原文地址]https://docs.mongodb.com/manual/ MongoDB CRUD操作(一) 主要内容:CRUD操作简介,插入文档,查询文档. CRUD操作包括创建.读取.更新和删 ...

  9. MongoDB—— 写操作 Core MongoDB Operations (CRUD)

    MongoDB使用BSON文件存储在collection中,本文主要介绍MongoDB中的写操作和优化策略. 主要有三种写操作:        Create        Update        ...

随机推荐

  1. Leetcode 218.天际线问题

    天际线问题 城市的天际线是从远处观看该城市中所有建筑物形成的轮廓的外部轮廓.现在,假设您获得了城市风光照片(图A)上显示的所有建筑物的位置和高度,请编写一个程序以输出由这些建筑物形成的天际线(图B). ...

  2. 关于oracle 压缩表

    这周客户的问题非常多,总是说我的数据不对.于是我对数据梳理了以后发现以前认为是重复数据的,其实并不是,而是我忽略了一个维度.那么这样一来,我们的周详单表就会有500多万的数据.一个月按照4周计算,就要 ...

  3. 【扫描线】HDU 5124 lines

    http://acm.hdu.edu.cn/showproblem.php?pid=5124 [题意] 在数轴x上,每次操作都覆盖一个区间的所有点,问被覆盖次数最多的点是覆盖了多少次 [思路] 最简单 ...

  4. 从一个简单的组件化封装写优化DOM操作

    /* *缺点 * 1. 还需要我们自己手工维护dom状态,以数据的思想去思考 *2. 数据改变后,还需要我们自己手动改变dom *3. * */ class LikeButton{ construct ...

  5. Codeforces Educational Round 21

    A =w= B qwq C wvw D(multiset) 题意: 有n(n<=1e5)个数,希望通过把一个位置y的数字放到位置x上这个操作,使得新序列的某个前缀和等于总和的一半,问这样的操作是 ...

  6. JDBC的结果集

    以下内容引用自http://wiki.jikexueyuan.com/project/jdbc/result-sets.html: SQL语句从数据库查询中获取数据,并将数据返回到结果集中.SELEC ...

  7. hdu1025 Constructing Roads In JGShining&#39;s Kingdom(二分+dp)

    转载请注明出处:http://blog.csdn.net/u012860063 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1025 Problem ...

  8. Maven手工安装jar包到本地仓库

    使用maven,少不了的就是要被"包下载失败"这种问题折腾. jar包下载失败后.我们选择手工把jar下载下来.(能够下载到指定jar的途经非常多) 以下随便找了一个jar包为例. ...

  9. iOS 保存视频AVAssetWriter

    错误的CMTime导致保存的视频无效,比如: frameTime CMTime 1122 600ths of a second value CMTimeValue 1122timescale CMTi ...

  10. iPhone微信防止撤销插件开发

    导语: 随着移动时代的发展以及微信的普及流行,越来越多的用户使用微信发送消息,但经常出现撤销消息的情况.因此需要一款微信防止消息撤回插件,微信用户可以防止对方撤回消息,看到对方发出的任何消息,妈妈再也 ...