Python：使用pymssql批量插入csv文件到数据库测试

并行进程怎么使用？

 import os

 import sys

 import time

 def processFunc(i):

     time.sleep(10-i)

     print i

 if __name__=='__main__':

     from multiprocessing import Pool

     pool=Pool()

     for i in range(0,10):

         print i

     print '----------------split line-----------------'

     for i in range(0,10):

         pool.apply_async(processFunc,args=(i,))

     print 'waiting multi processes complete...'

     pool.close()

     pool.join()

     s = raw_input("please press enter key to exit...")

     print s

怎么确定我们使用的是多进程呢？

实现批量入库：

import os

import sys

import pymssql

server="172.21.111.222"

user="Nuser"

password="NDb"

database="iNek_TestWithPython"

def connectonSqlServer():

        conn=pymssql.connect(server,user,password,database)

        cursor=conn.cursor()

        cursor.execute("""select getdate()""")

        row=cursor.fetchone()

        while row:

                 print("sqlserver version:%s"%(row[0]))

                 row=cursor.fetchone()

        conn.close()

def getCreateTableScript(enodebid):

        script="""IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[rFile{0}]') AND type in (N'U'))

BEGIN

CREATE TABLE [dbo].[rFile{0}](

    [OID] [bigint] IDENTITY(1,1) NOT NULL,

    [TimeStamp] [datetime] NULL,

    [rTime] [datetime] NOT NULL,

    [bTime] [datetime] NOT NULL,

    [eTim] [datetime] NOT NULL,

    [rid] [int] NOT NULL,

    [s] [int] NOT NULL,

    [c] [int] NOT NULL,

    [muid] [decimal](18, 2) NULL,

    [lsa] [decimal](18, 2) NULL,

    [lsrip] [int] NULL,

    [lcOID] [int] NULL,

    [lcrq] [decimal](18, 2) NULL,

    [gc2c1] [int] NULL,

    [tdcCP] [decimal](18, 2) NULL,
    ...
    ...

 CONSTRAINT [PK_rFile{0}] PRIMARY KEY NONCLUSTERED

(

    [OID] ASC,

    [rTime] ASC

)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PS_OnrTime]([rTime])

) ON [PS_OnrTime]([rTime])

END

IF NOT  EXISTS (SELECT * FROM sys.indexes WHERE object_id = OBJECT_ID(N'[dbo].[rFile{0}]') AND name = N'IX_rFile_c{0}') BEGIN

        CREATE NONCLUSTERED INDEX [IX_rFile_c{0}] ON [dbo].[rFile{0}] ([c] ASC)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, SORT_IN_TEMPDB = OFF, IGNORE_DUP_KEY = OFF, DROP_EXISTING = OFF, ONLINE = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]

End
...
...

""".format(enodebid)

        return script

def getBulkInsertScript(enodebid,csvFilePath,formatFilePath):

    script="""BULK INSERT [dbo].[rFile{0}]

FROM '{1}'

WITH

(

        BATCHSIZE=10000,

        FIELDTERMINATOR='\\t',

        ROWTERMINATOR ='\\r\\n',

        FORMATFILE ='{2}'

)""".format(enodebid,csvFilePath,formatFilePath)

    return script

def batchInsertToDB(enodebid,filePath):

        from time import time

        start=time()

        fileExt=os.path.splitext(filePath)[1]

        #print fileExt

        if os.path.isfile(filePath) and (fileExt=='.gz' or fileExt=='.zip' or fileExt=='.xml' or fileExt==".csv"):

                # 1)create table with index

                conn=pymssql.connect(server,user,password,database)

                cursor=conn.cursor()

                cursor.execute(getCreateTableScript(enodebid))

                conn.commit()

                # 2)load csv file to db

                cursor.execute(getBulkInsertScript(enodebid=enodebid,csvFilePath=filePath,formatFilePath="D:\\python_program\\rFileTableFormat.xml"))

                conn.commit()

                conn.close()

        end=time()

        print 'file:%s |size:%0.2fMB |timeuse:%0.1fs' % (os.path.basename(filePath),os.path.getsize(filePath)/1024/1024,end-start)

if __name__=="__main__":

        from time import time

        #it's mutilple pro2cess not mutilple thread.

        from multiprocessing import Pool

        start=time()

        pool=Pool()

        rootDir="D:\\python_program\\csv"

        for dirName in os.listdir(rootDir):

                for fileName in os.listdir(rootDir+'\\'+dirName):

                        pool.apply_async(batchInsertToDB,args=(dirName,rootDir+'\\'+dirName+'\\'+fileName,))

                        #single pool apply

                        #batchInsertToDB(dirName,rootDir+'\\'+dirName+'\\'+fileName)

        print 'Waiting for all subprocesses done.....'

        pool.close()

        pool.join()

        end=time()

        print 'use time: %.1fs' %(end-start)

测试环境：

2.22服务器，CPU:E54620,Memory:64，磁盘SAS/万转以上。

测试速度：41分钟，处理200个ENB，一共4749个csv文件，一共19.1G，入库记录1 1491 1843条记录，每条记录30个字段左右，平均每秒入库46712条记录(每条记录32列)。

Python是8个进程运行。

监控图：

平均数据库日志文件写入速度：70M/S

平均数据库文件写入速度：30M/S~40M/S

.net 并行多进程操作：

-- 2016-08-02 00:06:19.567 2016-08-01 23:37:14.067
-- 16parallel task :10s/enb
-- 2016-08-02 00:29:42.083 2016-08-02 00:09:29.297
-- 8 parallel task : 7s/enb
select (20*60+13)/160

Python：使用pymssql批量插入csv文件到数据库测试的更多相关文章

python脚本-excel批量转换为csv文件
pandas和SQL数据分析实战视频教程 https://study.163.com/course/courseMain.htm?courseId=1006383008&share=2& ...
C# ASP.NET CSV文件导入数据库
原文:C# ASP.NET CSV文件导入数据库 using System; using System.Collections.Generic; using System.Text; using Sy ...
Java使用iBatis批量插入数据到Oracle数据库
Java使用iBatis批量插入数据到Oracle数据库因为我们的数据跨库(mysql,oracle),单独取数据的话需要遍历好多遍,所以就想着先从mysql数据库中取出来的数据然后在oracle数 ...
基于CentOS的MySQL学习补充四--使用Shell批量从CSV文件里插入数据到数据表
本文出处:http://blog.csdn.net/u012377333/article/details/47022699 从上面的几篇文章中,能够知道怎样使用Shell创建数据库.使用Shell创建 ...
Linux 用 shell 脚本批量导入 csv 文件到 mysql 数据库
前提: 每个csv文件第一行为字段名创建的数据库字段名同csv 文件的字段名 1. 批量导入多个 csv 文件 for file in ./*.csv;do mv $file tablename. ...
python之读取和写入csv文件
写入csv文件源码: #输出数据写入CSV文件 import csv data = [ ("Mike", "male", 24), ("Lee&quo ...
将文件夹下的所有csv文件存入数据库
# 股票的多因子分层回测代码实现 import os import pymysql # import datetime, time # from config import * database_ta ...
将csv文件读入数据库
USE LHJTest create table #temp6//创建临时表 ( A nvarchar(max) NOT NULL, B nvarchar(max), C nvarchar(max ...
Android 批量插入数据到SQLite数据库
Android中在sqlite插入数据的时候默认一条语句就是一个事务,因此如果存在上万条数据插入的话,那就需要执行上万次插入操作,操作速度可想而知.因此在Android中插入数据时,使用批量插入的方式 ...

随机推荐

Google Chrome can not be run as root
Ubuntu运行Chrome出现"Google Chrome can not be run as root"的解决方法编辑启动文件:/opt/google/chrome/goog ...
Tiffany
--名称:Tiffany&Co(蒂芙尼) --总部:美国,纽约 --历史:1837年创立 --产品:珠宝.手表. 配饰.礼品 --特点:品牌,质量,奢饰品
Flink DataSet API Programming Guide
https://ci.apache.org/projects/flink/flink-docs-release-0.10/apis/programming_guide.html Example ...
This application failed to start because it could not find or load the Qt platform plugin "xcb".
1. copy libQt5DBus.so.5 2. add QT_PLUGIN_PATH blog.csdn.net/windows_nt/article/details/242 ...
Android源码剖析之Framework层进阶版（Wms窗口管理）
本文来自http://blog.csdn.net/liuxian13183/ ,引用必须注明出处! 上一篇我们主要讲了Ams,篇幅有限,本篇再讲讲Wms,即WindowManagerService,管 ...
SQL 编辑
局部变量: DECLARE @variable_name Datatype Variable_naem为局部变量的名称,Datatype为数据名称. 例如: DECLARE @name varchar ...
解决Eclipse启动报错Failed to create the Java Virtual Machine
电脑:2G内存,WIN7 32位. 启动adt-bundle-windows-x86-20140702\eclipse\eclipse.exe时,报错[Failed to create the Jav ...
Celery - Best Practices
If you've worked with Django at some point you probably had the need for some background processing ...
美国VPS - DigitalOcean 推荐创业团队使用
初创公司DigitalOcean在美国正迅速成为一个家喻户晓的公司.每月5美元,该公司就可以让你享受到一个虚拟的私有服务器(或者说droplets,很多公司都这么称呼它).该公司的联合创始人兼首席执行 ...
Swift-01 UIWebView加载网页
UIWebView在swift里面的语法,和OC不太一样,但是,使用方法什么的,都是从OC演变过来的.比如,都得有init方法,都有loadRequest方法,所以,有了OC这个基础,学习swift是 ...

Python：使用pymssql批量插入csv文件到数据库测试

怎么确定我们使用的是多进程呢？

实现批量入库：

Python：使用pymssql批量插入csv文件到数据库测试的更多相关文章

随机推荐

热门专题