MongoDB批量操作及与MySQL效率对比
本文主要通过批量与非批量对比操作的方式介绍MongoDB的bulkWrite()方法的使用。顺带与关系型数据库MySQL进行对比,比较这两种不同类型数据库的效率。如果只是想学习bulkWrite()的使用的看第一部分就行。
测试环境:win7旗舰版、16G内存、i3处理器、MongoDB3.0.2、mysql5.0
一、MongoDB批量操作
MongoDB对数据的操作分为Read Operations和Write Operations,Read Operations包含查询操作,Write Operations包含删除、插入、替换、更新几种操作。MongoDB提供客户端用bulk方式执行Write Operations,也就是批量写操作。在Javadriver中,对应MongoCollection的bulkWrite()方法,先来看下这个方法签名:
这个方法要求传入一个List集合,集合中的元素类型为WriteModel,它表示一个可用于批量写操作的基类模型,它有以下几个子类DeleteManyModel、DeleteOneModel、 InsertOneModel、ReplaceOneModel、 UpdateManyModel、UpdateOneModel,从名字可以看出来它对应了删除、插入、替换、更新几种操作。该方法返回一个BulkWriteResult对象,代表一个成功的批量写操作结果,封装了操作结果的状态信息,如插入、更新、删除记录数等。
1、插入操作
(1)、批量插入
代码如下,该方法接收一个包含要进行插入的Document对象的集合参数,遍历集合,使用Document构造InsertOneModel对象,每个InsertOneModel实例代表一个插入单个Document的操作,然后将该实例添加List集合中,调用bulkWrite()方法,传入存储所有插入操作的List集合完成批量插入。
- public void bulkWriteInsert(List<Document> documents){
- List<WriteModel<Document>> requests = new ArrayList<WriteModel<Document>>();
- for (Document document : documents) {
- //构造插入单个文档的操作模型
- InsertOneModel<Document> iom = new InsertOneModel<Document>(document);
- requests.add(iom);
- }
- BulkWriteResult bulkWriteResult = collection.bulkWrite(requests);
- System.out.println(bulkWriteResult.toString());
- }
测试:下面通过一个main函数测试下。首先构造10万个Product实体对象,使用一个工具类将其转换成json字符串,然后解析成Document对象,保存到一个list集合中,然后调用上面编写的方法测试10万个对象插入时间。
- TestMongoDB instance = TestMongoDB.getInstance();
- ArrayList<Document> documents = new ArrayList<Document>();
- for (int i = 0; i < 100000; i++) {
- Product product = new Product(i,"书籍","追风筝的人",22.5);
- //将java对象转换成json字符串
- String jsonProduct = JsonParseUtil.getJsonString4JavaPOJO(product);
- //将json字符串解析成Document对象
- Document docProduct = Document.parse(jsonProduct);
- documents.add(docProduct);
- }
- System.out.println("开始插入数据。。。");
- long startInsert = System.currentTimeMillis();
- instance.bulkWriteInsert(documents);
- System.out.println("插入数据完成,共耗时:"+(System.currentTimeMillis() - startInsert)+"毫秒");
结果:1560毫秒,多次测试基本在1.5秒左右
(2)、逐条插入
下面再通过非批量插入10万个数据对比下,方法如下:
- public void insertOneByOne(List<Document> documents) throws ParseException{
- for (Document document : documents){
- collection.insertOne(document);
- }
- }
测试:10万条数据
- System.out.println("开始插入数据。。。");
- long startInsert = System.currentTimeMillis();
- instance.insertOneByOne(documents);
- System.out.println("插入数据完成,共耗时:"+(System.currentTimeMillis() - startInsert)+"毫秒");
结果:12068毫秒,差距非常大。由此可见,MongoDB批量插入比逐条数据插入效率提高了非常多。
补充:
MongoCollection的insertMany()方法和bulkWrite()方法是等价的,测试时间差不多,不再贴图。
- public void insertMany(List<Document> documents) throws ParseException{
- //和bulkWrite()方法等价
- collection.insertMany(documents);
- }
2、删除操作
(1)、批量删除
掌握了批量插入,批量删除就是依葫芦画瓢了。构造DeleteOneModel需要一个Bson类型参数,代表一个删除操作,这里使用了Bson类的子类Document。重点来了,这里的删除条件使用文档的_id字段,该字段在文档插入数据库后自动生成,没插入数据库前document.get("_id")为null,如果使用其他条件比如productId,那么要在文档插入到collection后在productId字段上添加索引
- collection.createIndex(new Document("productId", 1));
因为随着collection数据量的增大,查找将越耗时,添加索引是为了提高查找效率,进而加快删除效率。另外,值得一提的是DeleteOneModel表示至多删除一条匹配条件的记录,DeleteManyModel表示删除匹配条件的所有记录。为了防止一次删除多条记录,这里使用DeleteOneModel,保证一个操作只删除一条记录。当然这里不可能匹配多条记录,因为_id是唯一的。
- public void bulkWriteDelete(List<Document> documents){
- List<WriteModel<Document>> requests = new ArrayList<WriteModel<Document>>();
- for (Document document : documents) {
- //删除条件
- Document queryDocument = new Document("_id",document.get("_id"));
- //构造删除单个文档的操作模型,
- DeleteOneModel<Document> dom = new DeleteOneModel<Document>(queryDocument);
- requests.add(dom);
- }
- BulkWriteResult bulkWriteResult = collection.bulkWrite(requests);
- System.out.println(bulkWriteResult.toString());
- }
测试:10万条数据
- System.out.println("开始删除数据。。。");
- long startDelete = System.currentTimeMillis();
- instance.bulkWriteDelete(documents);
- System.out.println("删除数据完成,共耗时:"+(System.currentTimeMillis() - startDelete)+"毫秒");
结果:2251毫秒
(2)、逐条删除
来看看在非批量下的删除
- public void deleteOneByOne(List<Document> documents){
- for (Document document : documents) {
- Document queryDocument = new Document("_id",document.get("_id"));
- DeleteResult deleteResult = collection.deleteOne(queryDocument);
- }
- }
测试:10万条数据
- System.out.println("开始删除数据。。。");
- long startDelete = System.currentTimeMillis();
- instance.deleteOneByOne(documents);
- System.out.println("删除数据完成,共耗时:"+(System.currentTimeMillis() - startDelete)+"毫秒");
结果:12765毫秒,比批量删除效率低很多
3、更新操作
(1)、批量更新
再来看看批量更新,分UpdateOneModel和UpdateManyModel两种,区别是前者更新匹配条件的一条记录,后者更新匹配条件的所有记录。对于ReplaceOneModel,表示替换操作,这里也归为更新,现在以UpdateOneModel为例进行讲解。UpdateOneModel构造方法接收3个参数,第一个是查询条件,第二个参数是要更新的内容,不了解更新操作的可以看下之前的这篇博客http://blog.csdn.net/u014513883/article/details/48312409,第三个参数是可选的UpdateOptions,不填也会自动帮你new一个,代表批量更新操作未匹配到查询条件时的动作,它的upser属性值默认false,什么都不干,true时表示将一个新的Document插入数据库,这个新的Document是查询Document和更新Document的结合,但如果是替换操作,这个新的Document就是这个替换Document。这里会有个疑惑:这和匹配到查询条件后执行替换操作结果不一样吗?区别在于_id字段,未匹配查询条件时插入的新的Document的_id是新的,而成功执行替换操作,_id是原先旧的。
- public void bulkWriteUpdate(List<Document> documents){
- List<WriteModel<Document>> requests = new ArrayList<WriteModel<Document>>();
- for (Document document : documents) {
- //更新条件
- Document queryDocument = new Document("_id",document.get("_id"));
- //更新内容,改下书的价格
- Document updateDocument = new Document("$set",new Document("price","30.6"));
- //构造更新单个文档的操作模型
- UpdateOneModel<Document> uom = new UpdateOneModel<Document>(queryDocument,updateDocument,new UpdateOptions().upsert(false));
- //UpdateOptions代表批量更新操作未匹配到查询条件时的动作,默认false,什么都不干,true时表示将一个新的Document插入数据库,他是查询部分和更新部分的结合
- requests.add(uom);
- }
- BulkWriteResult bulkWriteResult = collection.bulkWrite(requests);
- System.out.println(bulkWriteResult.toString());
- }
测试:10万条数据
- System.out.println("开始更新数据。。。");
- long startUpdate = System.currentTimeMillis();
- instance.bulkWriteUpdate(documents);
- System.out.println("更新数据完成,共耗时:"+(System.currentTimeMillis() - startUpdate)+"毫秒");
结果:3198毫秒
(2)、逐条更新
对比非批量下的更新
- public void updateOneByOne(List<Document> documents){
- for (Document document : documents) {
- Document queryDocument = new Document("_id",document.get("_id"));
- Document updateDocument = new Document("$set",new Document("price","30.6"));
- UpdateResult UpdateResult = collection.updateOne(queryDocument, updateDocument);
- }
- }
测试:10万条数据
- System.out.println("开始更新数据。。。");
- long startUpdate = System.currentTimeMillis();
- instance.updateOneByOne(documents);
- System.out.println("更新数据完成,共耗时:"+(System.currentTimeMillis() - startUpdate)+"毫秒");
结果:13979毫秒,比批量更新效率低很多
4、混合批量操作
bulkWrite()方法可以对不同类型的写操作进行批量处理,代码如下:
- public void bulkWriteMix(){
- List<WriteModel<Document>> requests = new ArrayList<WriteModel<Document>>();
- InsertOneModel<Document> iom = new InsertOneModel<Document>(new Document("name","kobe"));
- UpdateManyModel<Document> umm = new UpdateManyModel<Document>(new Document("name","kobe"),
- new Document("$set",new Document("name","James")),new UpdateOptions().upsert(true));
- DeleteManyModel<Document> dmm = new DeleteManyModel<Document>(new Document("name","James"));
- requests.add(iom);
- requests.add(umm);
- requests.add(dmm);
- BulkWriteResult bulkWriteResult = collection.bulkWrite(requests);
- System.out.println(bulkWriteResult.toString());
- }
注意:updateMany()、deleteMany()两个方法和insertMany()不同,它俩不是批量操作,而是代表更新(删除)匹配条件的所有数据。
二、与MySQL性能对比
1、插入操作
(1)、批处理插入
- public void insertBatch(ArrayList<Product> list) throws Exception{
- Connection conn = DBUtil.getConnection();
- try {
- PreparedStatement pst = conn.prepareStatement("insert into t_product value(?,?,?,?)");
- int count = 1;
- for (Product product : list) {
- pst.setInt(1, product.getProductId());
- pst.setString(2, product.getCategory());
- pst.setString(3, product.getName());
- pst.setDouble(4, product.getPrice());
- pst.addBatch();
- if(count % 1000 == 0){
- pst.executeBatch();
- pst.clearBatch();//每1000条sql批处理一次,然后置空PreparedStatement中的参数,这样也能提高效率,防止参数积累过多事务超时,但实际测试效果不明显
- }
- count++;
- }
- conn.commit();
- } catch (SQLException e) {
- e.printStackTrace();
- }
- DBUtil.closeConnection(conn);
- }
JDBC默认自动提交事务,切记在获取连接后添加下面一行代码,关闭事务自动提交。
- connection.setAutoCommit(false);
测试:10万条数据
- public static void main(String[] args) throws Exception {
- TestMysql test = new TestMysql();
- ArrayList<Product> list = new ArrayList<Product>();
- for (int i = 0; i < 1000; i++) {
- Product product = new Product(i, "书籍", "追风筝的人", 20.5);
- list.add(product);
- }
- System.out.println("MYSQL开始插入数据。。。");
- long insertStart = System.currentTimeMillis();
- test.insertBatch(list);
- System.out.println("MYSQL插入数据完成,共耗时:"+(System.currentTimeMillis() - insertStart)+"毫秒");
- }
结果:7389毫秒,多次测试基本7秒左右
(2)、逐条插入
再来看看mysql逐条插入,代码如下:
- public void insertOneByOne(ArrayList<Product> list) throws Exception{
- Connection conn = DBUtil.getConnection();
- try {
- for (Product product : list) {
- PreparedStatement pst = conn.prepareStatement("insert into t_product value(?,?,?,?)");
- pst.setInt(1, product.getProductId());
- pst.setString(2, product.getCategory());
- pst.setString(3, product.getName());
- pst.setDouble(4, product.getPrice());
- pst.executeUpdate();
- //conn.commit();//加上这句每次插入都提交事务,结果将是非常耗时
- }
- conn.commit();
- } catch (SQLException e) {
- e.printStackTrace();
- }
- DBUtil.closeConnection(conn);
- }
测试:10万条记录
- System.out.println("MYSQL开始插入数据。。。");
- long insertStart = System.currentTimeMillis();
- test.insertOneByOne(list);
- System.out.println("MYSQL插入数据完成,共耗时:"+(System.currentTimeMillis() - insertStart)+"毫秒");
结果:8921毫秒,基本比批量慢1秒多。
2、删除操作
(1)、批处理删除
- public void deleteBatch(ArrayList<Product> list) throws Exception{
- Connection conn = DBUtil.getConnection();
- try {
- PreparedStatement pst = conn.prepareStatement("delete from t_product where id = ?");//按主键查,否则全表遍历很慢
- int count = 1;
- for (Product product : list) {
- pst.setInt(1, product.getProductId());
- pst.addBatch();
- if(count % 1000 == 0){
- pst.executeBatch();
- pst.clearBatch();
- }
- count++;
- }
- conn.commit();
- } catch (SQLException e) {
- e.printStackTrace();
- }
- DBUtil.closeConnection(conn);
- }
- System.out.println("MYSQL开始删除数据。。。");
- long deleteStart = System.currentTimeMillis();
- test.deleteBatch(list);
- System.out.println("MYSQL删除数据完成,共耗时:"+(System.currentTimeMillis() - deleteStart)+"毫秒");
结果:7936毫秒
(2)、逐条删除
- public void deleteOneByOne(ArrayList<Product> list) throws Exception{
- Connection conn = DBUtil.getConnection();
- PreparedStatement pst = null;
- try {
- for (Product product : list) {
- pst = conn.prepareStatement("delete from t_product where id = ?");
- pst.setInt(1, product.getProductId());
- pst.executeUpdate();
- //conn.commit();//加上这句每次插入都提交事务,结果将是非常耗时
- }
- conn.commit();
- } catch (SQLException e) {
- e.printStackTrace();
- }
- DBUtil.closeConnection(conn);
- }
测试:10万条数据
- System.out.println("MYSQL开始删除数据。。。");
- long deleteStart = System.currentTimeMillis();
- test.deleteOneByOne(list);
- System.out.println("MYSQL删除数据完成,共耗时:"+(System.currentTimeMillis() - deleteStart)+"毫秒");
结果:8752毫秒,比批处理删除慢一秒左右
3、更新操作
(1)、批处理更新
- public void updateBatch(ArrayList<Product> list) throws Exception{
- Connection conn = DBUtil.getConnection();
- try {
- PreparedStatement pst = conn.prepareStatement("update t_product set price=31.5 where id=?");
- int count = 1;
- for (Product product : list) {
- pst.setInt(1, product.getProductId());
- pst.addBatch();
- if(count % 1000 == 0){
- pst.executeBatch();
- pst.clearBatch();//每1000条sql批处理一次,然后置空PreparedStatement中的参数,这样也能提高效率,防止参数积累过多事务超时,但实际测试效果不明显
- }
- count++;
- }
- conn.commit();
- } catch (SQLException e) {
- e.printStackTrace();
- }
- DBUtil.closeConnection(conn);
- }
测试:10万条数据
- System.out.println("MYSQL开始更新数据。。。");
- long updateStart = System.currentTimeMillis();
- test.updateBatch(list);
- System.out.println("MYSQL更新数据完成,共耗时:"+(System.currentTimeMillis() - updateStart)+"毫秒");
结果:8611毫秒
(2)、逐条更新
- public void updateOneByOne(ArrayList<Product> list) throws Exception{
- Connection conn = DBUtil.getConnection();
- try {
- for (Product product : list) {
- PreparedStatement pst = conn.prepareStatement("update t_product set price=30.5 where id=?");
- pst.setInt(1, product.getProductId());
- pst.executeUpdate();
- //conn.commit();//加上这句每次插入都提交事务,结果将是非常耗时
- }
- conn.commit();
- } catch (SQLException e) {
- e.printStackTrace();
- }
- DBUtil.closeConnection(conn);
- }
测试:10万条数据
- System.out.println("MYSQL开始更新数据。。。");
- long updateStart = System.currentTimeMillis();
- test.updateOneByOne(list);
- System.out.println("MYSQL更新数据完成,共耗时:"+(System.currentTimeMillis() - updateStart)+"毫秒");
结果:9430毫秒,比批处理更新慢了1秒左右
三、总结
MongoDB批量操作及与MySQL效率对比的更多相关文章
- MongoDB与MySQL效率对比
本文主要通过批量与非批量对比操作的方式介绍MongoDB的bulkWrite()方法的使用.顺带与关系型数据库MySQL进行对比,比较这两种不同类型数据库的效率.如果只是想学习bulkWrite()的 ...
- mongodb,redis,mysql 简要对比
本篇内容大部分不是原创,转载的会贴有链接. 准备学习下数据库,想对目前的主流数据库做一个简单的了解分析,就搜集了资料整理到了一块. 当下主流的要数NoSql数据库了,拥有强大的高并发能力. mongo ...
- MongoDB(五)mongo语法和mysql语法对比学习
我们总是在对比中看到自己的优点和缺点,对于mongodb来说也是一样,对比学习让我们尽快的掌握关于mongodb的基础知识. mongodb与MySQL命令对比 关系型数据库一般是由数据库(datab ...
- mongodb与mysql命令对比
mongodb与mysql命令对比 传统的关系数据库一般由数据库(database).表(table).记录(record)三个层次概念组成,MongoDB是由数据库(database).集合(col ...
- MySQL和Mongodb的区别与应用场景对比
MySQL是关系型数据库 优势: 在不同的引擎上有不同 的存储方式. 查询语句是使用传统的sql语句,拥有较为成熟的体系,成熟度很高. 开源数据库的份额在不断增加,mysql的份额页在持续增长. 缺点 ...
- mongodb postgresql mysql jsonb对比
mongodb pg mysql jsonb对比 http://erthalion.info/2017/12/21/advanced-json-benchmarks/ 使用禁用jsonb列的压缩 AL ...
- mongodb为什么比mysql效率高
首先是内存映射机制,数据不是持久化到存储设备中的,而是暂时存储在内存中,这就提高了在IO上效率以及操作系统对存储介质之间的性能损耗.(毕竟内存读取最快) 其次,NoSQL并不是不使用sql,只是不使用 ...
- mongo语法和mysql语法对比学习
我们总是在对比中看到自己的优点和缺点,对于mongodb来说也是一样,对比学习让我们尽快的掌握关于mongodb的基础知识. mongodb与mysql命令对比 关系型数据库一般是由数据库(datab ...
- [原] KVM 环境下MySQL性能对比
KVM 环境下MySQL性能对比 标签(空格分隔): Cloud2.0 [TOC] 测试目的 对比MySQL在物理机和KVM环境下性能情况 压测标准 压测遵循单一变量原则,所有的对比都是只改变一个变量 ...
随机推荐
- #ifdef #else #endif #if #ifndef 的用法
预编译就是在对源文件进行处理之前(如在语法扫描和分析之前),先处理预处理部分,精简代码,然后再进行编译. 预处理命令有:#include 文件包含.#define 宏定义.以及要重点讲的#if.#if ...
- IOS学习8——常用框架学习汇总
我们在学习和code过程中经常会用到一些框架,本文将会持续更新最新学习和用到的框架 布局框架: Masonry介绍与使用实践:快速上手Autolayout iOS MJRefresh下拉.上拉刷新自定 ...
- xcode 没有 iphone4s 模拟器 的解决方法..
项目需要iphone 4s 测试. 首先是Xcode 8 没有 iphone 4s的模拟器了. 由于线上安装的方式,不管是在code的add simulator 还是 ruby gem 的code-i ...
- 后缀数组之hihocoder 重复旋律1-4
蒟蒻知道今天才会打后缀数组,而且还是nlogn^2的...但基本上还是跑得过的: 重复旋律1: 二分答案,把height划分集合,height<mid就重新划分,这样保证了每个集合中的LCP&g ...
- URL加载页面的过程
总体过程: 1.DNS解析 2.TCP连接 3.发送HTTP请求 4.服务器处理请求并返回HTTP报文 5.浏览器解析渲染页面 6.连接结束 一.DNS解析 在互联网中,每一台机计算机的唯一 标识是他 ...
- 安装MongoDB步骤
1.第一步是从官网下载匹配自己操作系统的安装文件或压缩文件: 2.随便找个文件夹先解压安装文件,然后在C盘根目录建立一个新文件夹命名为mongodb: 3.将打开刚刚安装的文件,将bin文件夹拷贝到C ...
- 自建MySQL5.6数据库查询优化
1.优化前查询速度 2.优化后查询速度 3.优化配置 innodb_buffer_pool_size=4Ginnodb_log_file_size=4Gmax_connections=1024inno ...
- Linux(CentOS6.5)下编译安装PHP5.6.22时报错”configure: error: ZLIB extension requires gzgets in zlib”的解决方式(确定已经编译安装Zlib,并已经指定Zlib路径)
本文地址http://comexchan.cnblogs.com/,作者Comex Chan,尊重知识产权,转载请注明出处,谢谢! 今天在CentOS6.5下编译安装PHP时,一直报错 confi ...
- Linux发行版 CentOS6.5 修改默认主机名
修改前准备 我们将主机名修改为comexchan.cnblogs.com(本文发布于http://comexchan.cnblogs.com/) 备份相关配置文件,以便回滚 cp /etc/sysco ...
- 《MYSQL》----字符串的复杂函数,检索的七-天-排-重
接到了一个新的需求,拿到需求的时候瞬间有点头大,因为实在是有些棘手. 我们这个系统本身是个接口系统,总接口数大概在200个左右.外部会有很多用户在 不同的时间拿着不同参数去调我们的这些接口,用户的调集 ...