Python 基于Python从mysql表读取千万数据实践

基于Python 从mysql表读取千万数据实践

by:授客 QQ：1033553122

场景：

有以下两个表，两者都有一个表字段，名为waybill_no，我们需要从tl_waybill_bar_record表读取1000w条唯一的waybill_no，然后作为INSERT SQL语句的一部分，填充到ts_order_waybill的waybill_no字段中

tl_waybill_bar_record

ts_order_waybill

另外tl_waybill_bar_record表waybill_no有部分重复

实现思路

思路1、利用MySql的LIMIT offset, length分页功能+ORDER BY primary_key按主键排序，循环读取数据，然后解析读取的数据，直到满足条件停止

例子：按5000条记录进行分页，循环2000000，从第0条记录开始，按seq_id主键升序排序，每次从不同的分页读取5000条记录

for i in range(0, 2000000):

query = "SELECT waybill_no, seq_id FROM ts_order_waybill ORDER BY seq_id LIMIT '%s', 5000" % str(i*5000)

result = test_platform_db.select_many_record(query)

……(后续处理)

说明：这种方式，有一定的局限性，分页数量似乎会受限制，似乎只能8000多页，另外当offset达一定值(55w)的样子，似乎会变得很卡，数据量较少的情况下，可以考虑这么做

注意：这里如果不适用ORDER BY语句，可能在不同分页取数据时，会取到重复的数据

思路2、先SELECT MIN(primary_key) 查询最小主键值key_min_value，然后每次查询时加WHERE primary_key>=key_min_value，并且加ORDER BY primary_key按主键升序排序，同时使用LIMIT length限制每次返回数据量大小

min_seq_id = '18e23705987643f9b84cd8c4c3efc47868944d88cb71480ea4b7659d2c9c6cba'

for i in range(0, 2000000):

query = SELECT waybill_no, seq_id FROM ts_order_waybill WHERE seq_id>='%s' ORDER BY seq_id LIMIT 5000" % min_seq_id

result = test_platform_db.select_many_record(query)

……(后续处理)

问题

跑程序的时候，经常会突然“卡死”，可能是Python 类库自身原因，也可能是数据库请求过于频繁，这样会导致获取的结果丢失，需要重头开始跑

解决方法：

一边跑，一边写入本地文件，同时输出上次读取的记录的位置(思路2来说，就是那个最小主键值)，然后重新跑程序时，替换下初始值即可。

关键代码

test_db = MyDB('MYDB')

file_handler = open('./result/waybill_no.txt', 'r+', encoding='utf-8')

waybill_no_set = set() # 用于存储获取的waybill_no

# 读取上次获取的数据

line = file_handler.readline()

line = line.strip() # 去掉换行符

while line:

waybill_no_set.add(line)

line = file_handler.readline()

line = line.strip()

# 初始最小主键值

min_seq_id = '18e23705987643f9b84cd8c4c3efc47868944d88cb71480ea4b7659d2c9c6cba'

count = len(waybill_no_set) # 初始化以读取的waybill_no总数

for i in range(0, 2000000):

query = "SELECT waybill_no,seq_id FROM ts_order_waybill WHERE seq_id>='%s' ORDER BY seq_id LIMIT 5000" % min_seq_id

result = test_db.select_many_record(query)

if result[0] and result[1]:

for item in result[1]:

waybill_no = item[0]

if waybill_no not in waybill_no_set:

waybill_no_set.add(waybill_no)

min_seq_id = item[1]

count += 1

print(count)

print(min_seq_id) # 记录上次读取的“最后位置”

file_handler.write(waybill_no)

file_handler.write('\n')

file_handler.flush()

print('已获取waybill_no总数：', count)

if count > 10000000:

break

# 插入数据

for waybill_no in waybill_no_set:

time.sleep(0.1)

insert_sql = "insert into `tl_waybill_bar_record` (`waybill_no`, `op_code`, `bar_Scan_Tm`, `ows_remark`, `stay_why_code`, `extend_attach1`, `extend_attach2`, `extend_attach3`, `extend_attach4`, `extend_attach5`, `op_name`, `dist_name`, `outside_name`, `old_waybill_no`, `courier_code`, `stay_why_name`, `create_time`) " \

"values('%s','31','2018-05-09 20:02:33','广州市',NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,'2018-05-05 15:56:09');" % waybill_no

test_db.execute_insert(insert_sql, '')

count = count + 1

print(waybill_no)

print(count)

Python 基于Python从mysql表读取千万数据实践的更多相关文章

Python 基于Python实现的ssh兼sftp客户端(上)
基于Python实现的ssh兼sftp客户端 by:授客 QQ:1033553122 实现功能实现ssh客户端兼ftp客户端:实现远程连接,执行linux命令,上传下载文件测试环境 Win7 ...
php实例根据ID删除mysql表中的数据
在动态网站开发中,我们经常要根据ID删除表中的数据,例如用户删除帖子,就需要根据ID删除帖子.本文章向大家介绍php根据ID删除表中数据的实例,需要的朋友可以参考一下本文章的实例. php实例根据ID ...
Python 基于python+mysql浅谈redis缓存设计与数据库关联数据处理
基于python+mysql浅谈redis缓存设计与数据库关联数据处理 by:授客 QQ:1033553122 测试环境 redis-3.0.7 CentOS 6.5-x86_64 python 3 ...
Python 基于Python及zookeeper实现简单分布式任务调度系统设计思路及核心代码实现
基于Python及zookeeper实现简单分布式任务调度系统设计思路及核心代码实现 by:授客 QQ:1033553122 测试环境功能需求实现思路代码实践(关键技术点实现) 代码模块组织 ...
Python 基于python操纵zookeeper介绍
基于python操纵zookeeper介绍 by:授客 QQ:1033553122 测试环境 Win7 64位 Python 3.3.4 kazoo-2.6.1-py2.py3-none-any.w ...
Python 基于python实现的http+json协议接口自动化测试框架源码（实用改进版）
目录 1. 写在前面 2. 开发环境 3. 大致流程 4. 框架简介 5. 运行结果展示 6. 文件与配置 7. 测试接口实例 n ...
Python 基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控
基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控 By: 授客 QQ:1033553122 1．测试环境 python 3.4 zookeeper- ...
Python 基于Python实现的ssh兼sftp客户端(下)
基于Python实现的ssh兼sftp客户端 by:授客 QQ:1033553122 otherTools.py #!/usr/bin/env/ python # -*- coding:utf-8 ...
Python基于Python实现批量上传文件或目录到不同的Linux服务器
基于Python实现批量上传文件或目录到不同的Linux服务器 by:授客 QQ:1033553122 实现功能 1 测试环境 1 使用方法 1 1. 编辑配置文件conf/rootpath_fo ...

随机推荐

python 中argparse 实例解析
一概念: argparse是python的一个命令行解析包.它可以使写用户友好的命令行接口变得非常容易.该模块定义什么参数是需要的,并且能指出怎么解析sys.argv的参数.它也可以自动的生成帮助和 ...
性能瓶颈之System
如果Source,Target,Mapping和Session都不存在性能上的瓶颈,则问题可能会出在System 因为Integration Service运行时,它使用了System的资源去运行组件 ...
js数组之sort排序的用法
sort排序转载自:https://blog.csdn.net/idomyway/article/details/80544509 js中用方法sort()为数组排序.sort()方法有一个可选参数 ...
持续集成工具之Jenkins
Jenkins是一个很好的持续集成工具,不光可以帮助开发进行自动打包,自动验证升级和安装,也可以帮助测试人员定时执行测试任务,或者在开自动打包安装之后自动执行测试任务,实现打包-安装-测试一条线服务, ...
C# Windows异步I/O操作
1.简介关于Windows的异步I/O操作,只要解决的是同步I/O操作的线程利用率问题,通过异步I/O Api来提升线程的利用率,提升系统的吞吐能力,将各种I/O操作交给线程池然后交由硬件设备执行, ...
sql server 索引阐述系列一索引概述
一. 索引概述关于介绍索引,有一种“文章太守,挥毫万字,一饮千钟”的豪迈感觉,因为索引需要讲的知识点太多.在每个关系型数据库里都会作为重点介绍,因为索引关系着数据库的整体性能, 它在数据库性能优化里 ...
Linux软件包管理之yum在线管理
目录 1.yum在线管理 2.网络 yum 源 3.光盘 yum 源搭建步骤 ①.挂载光盘 ②.让网络 yum 源失效 ③.修改光盘yum源文件 ④.输入yum list 可以查看光盘yum源里面的软 ...
#2 Python面向对象（一）
前言对于萌新来说,面向对象,这是一个很陌生的词语.如果你接触过Linux,你一定知道“一切皆文件”,也就是说,在Linux中所有都是文件,鼠标是文件.键盘是文件.目录是文件等等一切都是文件:Pyth ...
监控 | open-falcon | 安装
监控 | open-falcon | 安装 1. 简介主要看中了它的水平扩展,画图比zabbix要友好,告警支持简单压缩. 绿色:基础组件: 蓝色:作图链路红色:报警链路橙色:域名架构 1.1 ...
MySQL集群结构说明
在以前,数据库的集群配置一直很难,难点在于MySQL主从结构的高可用和读写分离.万幸的是,Galera/GR的出现,让整个集群的配置都极大程度地简化了. 以下是一个简单的MySQL集群拓扑图: 1.M ...

Python 基于Python从mysql表读取千万数据实践

Python 基于Python从mysql表读取千万数据实践的更多相关文章

随机推荐

热门专题