[DJANGO] excel十几万行数据快速导入数据库研究

先贴原来的导入数据代码:

8 

import os

os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings") 

'''

Django 版本大于等于1.7的时候，需要加上下面两句

import django

django.setup()

否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren't loaded yet.

'''

import django

if django.VERSION >= (1, 7):#自动判断版本

    django.setup()

from arrears.models import D072Qf

import xlrd #excel读工具

from datetime import datetime

from xlrd import xldate_as_tuple

import time

import random  

time1 = time.time()

#data= xlrd.open_workbook('11.xlsx') 打开文件

with xlrd.open_workbook('11.xlsx') as data:

    print u"读取文件结束,开始导入!"

    time2 = time.time()

    table = data.sheet_by_index(0) #获取工作表

    time3 = time.time()

    n=1

    x = y = z = 0

    WorkList = []

    for line in range(n,table.nrows):#nrows = table.nrows #行数 ncols = table.ncols #列数 print sh.row_values(rownum)

        row = table.row_values(line)

        if row: #查看行值是否为空

            for i in [0,1,2,4,28,30,32]:

                if type(row[i]) == float:

                    row[i] = int(row[i])

            if D072Qf.objects.filter(acct_month = row[0],serv_id=row[1]).exists():#判断该行值是否在数据库中重复

                x = x + 1 #重复值计数

            else:

                WorkList.append(D072Qf(acct_month=row[0],serv_id=row[1],acc_nbr=row[2],user_name=row[3],acct_code=row[4],

                                   acct_name=row[5],product_name=row[6],current_charge=row[7],one_charge=row[8],

                                   two_charge=row[9],three_charge=row[10],four_charge=row[11],five_charge=row[12],

                                   six_charge=row[13],seven_charge=row[14],eight_charge=row[15],nine_charge=row[16],

                                   ten_charge=row[17],eleven_charge=row[18],twelve_charge=row[19],oneyear_charge=row[20],

                                   threeyear_charge=row[21],upthreeyear_charge=row[22],all_qf=row[23],morethree_qf=row[24],

                                   aging=row[25],serv_state_name=row[26],mkt_chnl_name=row[27],mkt_chnl_id=row[28],

                                   mkt_region_name=row[29],mkt_region_id=row[30],mkt_grid_name=row[31],mkt_grid_id=row[32],

                                   prod_addr=row[33]))

                y = y + 1 #非重复计数

        else:

             z = z + 1     #空行值计数

        n = n + 1

        if n % 9999 == 0:

            D072Qf.objects.bulk_create(WorkList)

            WorkList = []

            time.sleep(random.random()) #让Cpu随机休息0 <= n < 1.0 s

            print "导入成功一次!"

            print '数据导入成功,导入'+str(y)+'条,重复'+str(x)+'条,有'+str(z)+'行为空!'

            time4 = time.time()

            print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time4-time3)+"秒!"

这条代码目前未全部将十几万行数据全部导入数据库中,只花了1个小时把5万行数据导入其中后,后面越来越慢,主要慢在excel表到了7万行数据左右后,读取excel中数据很慢了,总体来说影响导入速度有几个原因:

1、一直以来采用xlrd导入xls格式文件,如果文件有十几万行,只是读取文件就会花200秒,若换成csv则几乎不花时间

2、代码中这行语句也会影响速度,特别当数据库中数据很大时:if D072Qf.objects.filter(acct_month = row[0],serv_id=row[1]).exists():#判断该行值是否在数据库中重复

3、若一次性将字典添加十几万行数据,就windows的cpu而已是遭受不住的!所以建议1万条数据导入一次后,清空列表

改善后的代码:

优化部分:采用csv格式;取消掉检查重复数据语句;每5万导入一次数据

#coding:utf-8 

import os

os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings") 

'''

Django 版本大于等于1.7的时候，需要加上下面两句

import django

django.setup()

否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren't loaded yet.

'''

import django

if django.VERSION >= (1, 7):#自动判断版本

    django.setup()

from arrears.models import D072Qf

import time

import random

time1 = time.time()

f = open('11.csv')

print u"读取文件结束,开始导入!"

time2 = time.time()

WorkList = []

next(f) #将文件标记移到下一行

y = 0

n = 1

for line in f:

    row = line.replace('"','') #将字典中的"替换空

    row = row.split(';') #按;对字符串进行切片

    y = y + 1

    WorkList.append(D072Qf(acct_month=row[0],serv_id=row[1],acc_nbr=row[2],user_name=row[3],acct_code=row[4],

                                   acct_name=row[5],product_name=row[6],current_charge=row[7],one_charge=row[8],

                                   two_charge=row[9],three_charge=row[10],four_charge=row[11],five_charge=row[12],

                                   six_charge=row[13],seven_charge=row[14],eight_charge=row[15],nine_charge=row[16],

                                   ten_charge=row[17],eleven_charge=row[18],twelve_charge=row[19],oneyear_charge=row[20],

                                   threeyear_charge=row[21],upthreeyear_charge=row[22],all_qf=row[23],morethree_qf=row[24],

                                   aging=row[25],serv_state_name=row[26],mkt_chnl_name=row[27],mkt_chnl_id=row[28],

                                   mkt_region_name=row[29],mkt_region_id=row[30],mkt_grid_name=row[31],mkt_grid_id=row[32],

                                   prod_addr=row[33]))

    n = n + 1

    if n%50000==0:

        print n

        D072Qf.objects.bulk_create(WorkList)

        WorkList = []

        time3 = time.time()

        print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time3-time2)+"秒!"

time3 = time.time()

print n

D072Qf.objects.bulk_create(WorkList)

print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time3-time2)+"秒!"

WorkList = []

print "成功导入数据"+str(y)+"条"

f.close()

结果让人大吃一惊!!!,只耗时73秒

Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)] on win32

Type "copyright", "credits" or "license()" for more information.

>>> ================================ RESTART ================================

>>>

读取文件结束,开始导入!

50000

读取文件耗时0.0秒,导入数据耗时34.3279998302秒!

100000

读取文件耗时0.0秒,导入数据耗时67.3599998951秒!

138400

读取文件耗时0.0秒,导入数据耗时73.4379999638秒!

成功导入数据138399条

>>>

[DJANGO] excel十几万行数据快速导入数据库研究的更多相关文章

excel十几万行数据快速导入数据库研究（转，下面那个方法看看还是可以的）
先贴原来的导入数据代码: 8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.setting ...
54.超大数据快速导入MySQL
超大数据快速导入MySQL ----千万级数据只需几十分钟本地测试方法1.首先需要修改本地mysql的编码和路径,找到my.ini.2.在里面添加或修改 character-set-server=u ...
Django中从本地上传excel文件并将数据存储到数据库
Django中从本地上传excel文件并将数据存储到数据库一.前端界面 <div class="page-container"> <form action=&q ...
Java实现Excel数据批量导入数据库
Java实现Excel数据批量导入数据库概述: 这个小工具类是工作中的一个小插曲哦,因为提数的时候需要跨数据库导数... 有的是需要从oracle导入mysql ,有的是从mysql导入oracle ...
将Excle中的数据批量导入数据库
namespace 将Excle中的数据批量导入数据库{ class Program { static void Main(string[] args) { S ...
【PHP】将EXCEL表中的数据轻松导入Mysql数据表
在网络上有不较多的方法,在此介绍我已经验证的方法. 方法一.利用EXCEL表本身的功能生成SQL代码 ①.先在“phpmyadmin”中建立数据库与表(数据库:excel,数据表:excel01,字段 ...
关于Excel数据批量导入数据库的案例
写这个案例主要是感觉这个功能挺实用,很多地方会用得到的,废话就不多说了,直接上对应的源码. 这个案例我运用的是Winform窗体程序实现数据的导入. 首先是数据库的登陆界面如下: 源码如下: usin ...
将EXCEL表中的数据轻松导入Mysql数据表
转载自:http://blog.163.com/dielianjun@126/blog/static/164250113201042310181431/ 在网络上有不较多的方法,在此介绍我已经验证的方 ...
Mysql百万数据量级数据快速导入Redis
前言随着系统的运行,数据量变得越来越大,单纯的将数据存储在mysql中,已然不能满足查询要求了,此时我们引入Redis作为查询的缓存层,将业务中的热数据保存到Redis,扩展传统关系型数据库的服务能 ...

随机推荐

shell运算符
原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 expr,expr 最常用. expr 是一款表达式计算工具,使用它能完成表达式的求值操作. #!/bin/bash v ...
C++中的事件分发
本文意在展现一个C++实现的通用事件分发系统,能够灵活的处理各种事件.对于事件处理函数的注册,希望既能注册到普通函数,注册到事件处理类,也能注册到任意类的成员函数.这样在游戏客户端的逻辑处理中,可以非 ...
js复杂对象和简单对象的简单转化
var course = { teacher :{ teacherId:001, teacherName:"王" }, course : { courseId : 120, cou ...
关于全局ID，雪花（snowflake）算法的说明
上次简单的说一下:http://www.cnblogs.com/dunitian/p/6041745.html#uid C#版本的国外朋友已经封装了,大家可以去看看:https://github.co ...
iOS系列文章
本博客全为原创,如果借鉴了其他文章会在博文的下面进行说明.欢迎转载,但要在文章中给出原文链接,谢谢. 有链接的说明已经发布,没有链接的说明还没有发布. 并不是所有的博文都在这里罗列,有兴趣的可以看博客 ...
CRL快速开发框架系列教程六(分布式缓存解决方案)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
奇葩问题－TextView无法获取值
问题场景前几天写一个界面的时候,遇到一个非常奇葩的问题.app第一次安装的时候,这里针对用户第一次安装的时候,后来是不会出现这个问题了.我明明是对某个界面的一个textview赋值了,而且服务端也返 ...
新技术≠颠覆：CIO 要有战略耐心
新技术≠颠覆:CIO 要有战略耐心大数据,云时代,互联网思维, 物联网--最近一两年,这些字眼一次次地出现在各种大大小小的CIO会议上和他们的私下交流圈子里,作为对新技术最敏感的人群,一方面他们迫切 ...
15个C++项目列表
实验楼上有很多C++的实战项目,从简单到进阶,学习每个项目都可以掌握相应的知识点. 如果你还是C++新手的话,那么这个C++的项目列表你可以拿去练手实战开发,毕竟学编程动手实践是少不了的! 如果你不知 ...
LeetCode All in One 题目讲解汇总(持续更新中...)
终于将LeetCode的免费题刷完了,真是漫长的第一遍啊,估计很多题都忘的差不多了,这次开个题目汇总贴,并附上每道题目的解题连接,方便之后查阅吧~ 477 Total Hamming Distance ...

[DJANGO] excel十几万行数据快速导入数据库研究

[DJANGO] excel十几万行数据快速导入数据库研究的更多相关文章

随机推荐

热门专题