mongodb ISODate问题(大量数据update优化)

问题描述:

　　上周有个需求，把mongodb中birthday (ISO日期格式) 转换成北京时间，并保存成string类型。

最初思路：

　　遍历查找出的结果，逐个加8小时，然后通过_id逐个去update_one。但是发现这种方式效率太低了，一分钟才能更新一千五百条数据。

# -*- coding: utf-8 -*-

from pymongo import MongoClient

import time

import datetime

def init():

    myclient = MongoClient(host='*.*.*.*', port=27117)

    # admin为登陆校验库

    auth_db = myclient.admin

    auth_db.authenticate('admin', '')

    # 连接库

    mydb = myclient['SR_123']

    mycol = mydb['Data_170724145755025001_0305_copy4']

    print(time.time())

    count = 0

    # 只取有birthday的数据，且只返回_id和birthday

    for x in mycol.find({'birthday':{'$exists': True}},{'_id','birthday'}):

        count = count + 1

        print(count)

        _time = x.get('birthday')

        _time += datetime.timedelta(hours=8)

        timeStr = _time.strftime("%Y%m%d")

        _id = x.get('_id')

        query1 = {"_id": _id}

        newvalues = {"$set": {"birthdayStr": timeStr}}

        mycol.update_one(query1, newvalues)

    print(time.time())

init()

新的思路：　　

　　通过birthday去重，然后通过birthday去update_many。

 for x in mycol.find().distinct('birthday'):

        _time1 = x + datetime.timedelta(hours=8)

        timeStr = _time1.strftime("%Y%m%d")

        query1 = {"birthday": x}

        newvalues = {"$set": {"birthdayStr": timeStr}}

        mycol.update_many(query1, newvalues)

最终思路:

　　利用mongodb 的批量操作bulk_write，并且控制每次批量的数量，避免拼接过长报错。最终发现这种方式，当数据多的时候，效率远比上面两种方式快。

# -*- coding: utf-8 -*-

from pymongo import MongoClient

from pymongo import UpdateOne

import time

import datetime

def init():

    myclient = MongoClient(host='*.*.*.*', port=27117)

    # admin为登陆校验库

    auth_db = myclient.admin

    auth_db.authenticate('admin', '1234')

    # 连接库

    mydb = myclient['SR_123']

    mycol = mydb['Data_170724145755025001_0305_copy4']

    print(time.time())

    testList = []

    i = 0

    aa=mycol.find({'birthday': {'$exists': True}},{'_id','birthday'})

    for x in aa:

        i = i + 1;

        _time = x.get('birthday')

        _time += datetime.timedelta(hours=8)

        try:

            timeStr = _time.strftime("%Y%m%d")

        except:

            print(x)

        _id = x.get('_id')

        query1 = {"_id": _id}

        newvalues = {"$set": {"birthdayStr": r''+timeStr}}

        op = UpdateOne(query1, newvalues, upsert=True)

        testList.append(op)

        if( i % 50 == 0):

            print(i)

            mycol.bulk_write(testList, ordered=False, bypass_document_validation=True)

            testList.clear()

init()

mongodb ISODate问题(大量数据update优化)的更多相关文章

OpenStack Ceilometer -- 后台数据存储优化之MongoDB的分片存储设置
https://xiaofandh12.github.io/Mongo-Shard 关于MongoDB MongoDB中的概念与关系型数据库之间的对应: Database --> Databas ...
MongoDB 存储引擎和数据模型设计
标签: MongoDB NoSQL MongoDB 存储引擎和数据模型设计 1. 存储引擎 1.1 存储引擎是什么 1.2 MongoDB中的默认存储引擎 2. 数据模型设计 2.1 内嵌和引用 2. ...
MongoDB中insert方法、update方法、save方法简单对比
MongoDB中insert方法.update方法.save方法简单对比 1.update方法该方法用于更新数据,是对文档中的数据进行更新,改变则更新,没改变则不变. 2.insert方法该方法用 ...
Spring+SpringMVC+MyBatis+easyUI整合优化篇（十三）数据层优化-表规范、索引优化
本文提要最近写的几篇文章都是关于数据层优化方面的,这几天也在想还有哪些地方可以优化改进,结合日志和项目代码发现,关于数据层的优化,还是有几个方面可以继续修改的,代码方面,整合了druid数据源也开启 ...
sql语句百万数据量优化方案
一:理解sql执行顺序在sql中,第一个被执行的是from语句,每一个步骤都会产生一个虚拟表,该表供下一个步骤查询时调用,比如语句:select top 10 column1,colum2,max( ...
Salesforce 超大量数据导入优化策略
本文参考自以下系列文章: 1 2 3 4 5 6 超大量数据导入优化策略 Salesforce和很多其他系统都可以很好的协作.在协作过程中,数据的导入导出便成为了一个关键的步骤. 当客户的业务量非常大 ...
MongoDB 索引的使用, 管理和优化
MongoDB 索引的使用, 管理和优化 2014-03-25 17:12 6479人阅读评论(0) 收藏举报分类: MongoDB(9) [使用explain和hint] 前面讲高级查询 ...
<搬运> SQL语句百万数据量优化方案
一:理解sql执行顺序在sql中,第一个被执行的是from语句,每一个步骤都会产生一个虚拟表,该表供下一个步骤查询时调用,比如语句:select top 10 column1,colum2,max( ...
MongoDB via Dotnet Core数据映射详解
用好数据映射,MongoDB via Dotnet Core开发变会成一件超级快乐的事. 一.前言 MongoDB这几年已经成为NoSQL的头部数据库. 由于MongoDB free schema ...

随机推荐

【hyperscan】编译hyperscan 4.0.0
ref: http://01org.github.io/hyperscan/dev-reference/getting_started.html 1. 硬件需求 intel x86处理器 64-bit ...
为什么要先 git add 才能 git commit
1. git 的 add ,是一个容易引起疑问的命令.在 subversion 中的 svn add 动作是将某个文件加入版本控制,而 git add的意义完全不同. 同时, git diff --c ...
axios请求拦截及请求超时重新请求设置
自从使用Vue2之后,就使用官方推荐的axios的插件来调用API,在使用过程中,需要解决问题: 1. 请求带token校验 2. post请求请求体处理 3. 响应未登录跳转登录页处理 4. 响应错 ...
Nginx安装使用及与tomcat实现负载均衡
1. 背景基于nginx强大的功能,实现一种负载均衡,或是不停机更新程序等.nginx相比大家基本上都知道是什么来头了,具体的文章大家可以去搜索相关文章学习阅读,或是可以查看Nginx中文文档和Ng ...
初印象至Vue路由
初印象系列为快速了解一门技术的内容,后续会推出本人应用这门技术时发现的一些认识. Vue路由和传统路由的区别: Vue路由主要是用来实现单页面应用内各个组件之间的切换,同样支持传递参数等功能.而传统路 ...
Cesium Vue开发环境搭建
最近被问到如何在 vuejs 中集成 cesium,首先想到的官网应该有教程.官网有专门讲 Cesium and Webpack(有坑),按照官网的说明,动手建了一个Demo,在这记录下踩坑过程. 一 ...
java重点知识
一.java基本知识点 java是由SUN公司在1995年推出的,在2009年SUN公司又被甲骨文公司收购,所以甲骨文公司获得java版权.其底层是由C语言写的,java分为三个体系: JavaSE, ...
C#基础篇三流程控制2
using System; using System.Collections.Generic; using System.Linq; using System.Text; namespace P01R ...
轻量级web富文本框——wangEditor使用手册（1）——基本应用 demo
最新版wangEditor: 配置说明:http://www.wangeditor.com/doc.html demo演示:http://www.wangeditor.com/wangEditor/d ...
交换排序:冒泡排序vs快速排序
在开发的过程中, 经常会遇到集合排序, 那么一般情况下, 我们都是使用list.OrderBy()的方式来排序, 也无需关注到里面算法的实现是个什么样子. 正好这几天准备回顾一下数据结构与算法. 首先 ...

mongodb ISODate问题(大量数据update优化)

mongodb ISODate问题(大量数据update优化)的更多相关文章

随机推荐

热门专题