python 使用流式游标读取mysql怎么不会内存溢出

使用过java读取mysql大数据量的人应该都知道，如果查询时不开游标不设置一次性区大小的话，会一次性的把所有记录都拉取过来再进行后续操作，数据量一大就很容易出现OOM

如果用python去读取mysql也会遇到同样的问题

那么这么在python中来设置使用游标呢

也很简单

这里使用pymysql来举例子

普通创建mysql链接是这样的

import pymysql db = pymysql.connect("localhost","user","password","dbname" ) cursor = db.cursor() sql = "select * from xxx"try: cursor.execute(sql) results = cursor.fetchall() for row in results: xxx....except: pass db.close()

想用游标来控制数据拉取的话，只需要稍加修改就可以

import pymysql db = pymysql.connect("localhost","user","password","dbname",cursorclass=pymysql.cursors.SSCursor ) cursor = db.cursor() sql = "select * from xxx"try: cursor.execute(sql) result = cursor.fetchone() while True: if result: xxx.... result = cursor.fetchone() else: breakexcept: pass db.close()

这是一条一条读，当然也可以通过设置fetch的大小来一次读一定量的条数

我们来看看cursorclass这个参数是怎么说的

默认值是Cursor，返回的数据是元组形式的

DictCursor，除了返回是词典形式外，其他的与Cursor都相同

SSCursor，是服务端游标，结果集合储存在服务端并且传输行数通过fetch控制，其他与Cursor相同，最好只用在处理很大的数据结果集合上

SSDictCursor，除了返回是词典形式外，其他的与SSCursor相同

这里有两点需要注意下：

使用pymysql.cursors.SSCursor代替默认的cursor。可以使用以上代码，或者这样写：conn.cursor(pymysql.cursors.SSCursor)
使用fetchone去每次只获得一行，别使用fetchall。也可以使用fetchmay，但是这样其实是多次调用fetchone。

对于SSCursor有一个错误的理解，就是SSCursor是服务端一次性读出所有数据然后一条一条返给客户端，其实不是这样的，这个cursor实际上没有缓存下来任何数据，它不会读取所有所有到内存中，它的做法是从储存块中读取记录，并且一条一条返回给你。这里有一个更适合的名字：流式游标。

因为SSCursor是没有缓存的游标，这里有几条约束：

这个connection只能读完所有行之后才能处理其他sql。如果你需要并行执行sql，在另外一个connection中执行，否则你会遇到 error 2014 , "Commands out of sync; you can't run this command now."
必须一次性读完所有行，每次读取后处理数据要快，不能超过60s，否则mysql将会断开这次连接（ error2013 , “Lost connection to MySQL server during query），也可以修改 SET NET_WRITE_TIMEOUT = xx 来增加超时间隔。

参考：Techualization: Retrieving million of rows from MySQL（原文更加详细）

整理自：
https://www.jianshu.com/p/80b81a68fd72

https://blog.csdn.net/cowcomic/article/details/82988178

python 使用流式游标读取mysql怎么不会内存溢出的更多相关文章

python 流式游标读取mysql大型数据库
import asyncio import aiomysql async def dbdaochu(loop): sqlstr='sql' conn = await aiomysql.connect( ...
jdbc读取百万条数据出现内存溢出的解决办法
本人在做项目实施时,我们使用的是mysql数据库,在不到一个月的时间已经有了2千万条数据,查询的时候非常慢,就写了一个数据迁移的小项目,将这两千万条数据存放到MongoDB中看效率怎么样,再读取数据时 ...
[JavaScript,Java,C#,C++,Ruby,Perl,PHP,Python][转]流式接口（Fluent interface）
原文:https://en.m.wikipedia.org/wiki/Fluent_interface(英文,完整) 转载:https://zh.wikipedia.org/wiki/流式接口(中文, ...
Faust——python分布式流式处理框架
摘要 Faust是用python开发的一个分布式流式处理框架.在一个机器学习应用中,机器学习算法可能被用于数据流实时处理的各个环节,而不是仅仅在推理阶段,算法也不仅仅局限于常见的分类回归算法,而是会根 ...
c#以文件流的形式输出xml（可以解决内存溢出）-XmlTextWriter
1.XmlTextWriter 表示提供快速.非缓存.只进方法的编写器,该方法生成包含 XML 数据(这些数据符合 W3C 可扩展标记语言 (XML) 1.0 和“XML 中的命名空间”建议)的流或文 ...
Python接受流式输入
随笔记录——Python接受终端入若干行输入 Python接受终端的若干行输入时,比较常用的input()不再好用. 1. 导入sys模块: import sys 2. for循环接受输入: for ...
mysql 查询大量数据内存溢出
使用非buffer 的sql 查询比如pymysql 的 pymysql.cursor.SSCursion
实现 MyBatis 流式查询的方法
基本概念流式查询指的是查询成功后不是返回一个集合而是返回一个迭代器,应用每次从迭代器取一条查询结果.流式查询的好处是能够降低内存使用.如果没有流式查询,我们想要从数据库取 1000 万条记录而又没有足 ...
MyBatis 如何实现流式查询
基本概念流式查询指的是查询成功后不是返回一个集合而是返回一个迭代器,应用每次从迭代器取一条查询结果.流式查询的好处是能够降低内存使用. 如果没有流式查询,我们想要从数据库取 1000 万条记录而又没 ...

随机推荐

Largest Submatrix 3 CodeForces - 407D (dp,好题)
大意: 给定矩阵, 求选出一个最大矩形, 满足矩形内每个元素互不相同. 考虑枚举上下左三个边界, 求出最大右边界的位置. 注意到固定上边界, 下边界递推时, 每个左边界对应最大右边界是单调不增的. 所 ...
[javascript]原生js实现Ajax
一.首先看JQuery提供的Ajax方法: $.ajax({ url: , type: '', dataType: '', data: { }, success: function(){ }, err ...
arcgis for android100.x 禁止地图旋转
by 蔡建良2019-5-16 关键类: com.esri.arcgisruntime.mapping.view.DefaultMapViewOnTouchListener DefaultMapVie ...
（三）easyUI之树形组件
一.同步树 1.1 概念所有节点一次性加载完成 1.2 案例 1.2.1 数据库设计 1.2.2 编码 index.jsp <%@ page language="java" ...
（四）输入参数与输出类型为复杂类型的web服务
一. 服务端发布服务 1.1 定义复杂类型:UserBean.java package service; public class UserBean { private String userId; ...
北京大学1001ACM——高精度类型题总结
题目描述: ExponentiationTime Limit: 500MS Memory Limit: 10000KTotal Submissions: 80517 Accepted: 190 ...
ASP.NET全局编码和语言
// /*--------------- // // 使用地方:ASP.NET 项目 // // // // 文件名: // // 文件功能描述:可控制整个项目的一个统一编码格式和语言文字显示 ...
c#获取本月有哪些周六、周日
最近项目中有用到本月所有的周六,周日,特此分享一下! 算法思路:写一个循环,条件为本月开始日期.本月截至日期,通过循环获取第一个周六,加一天就是周日,每增加六天就是下一个周六,依次类推,循环到月末代 ...
Linux 配置jdk vim和 Linux 基本操作
1下载jdk tar.gz 安装包(http://www.oracle.com/) 注意安装机器的Linux 是x86(32位)还是x64(64位)的 2使用tar -zxvf jdk.tar.gz解 ...
echarts重写图例点击事件
echarts version: 3.1.2 修改图例点击事件样例代码: 当第一次点击图例时,只显示点击的图例. 当还剩一个图例被取消选中后,自动全选中所有图例. var triggerAction ...

python 使用流式游标 读取mysql怎么不会内存溢出

python 使用流式游标 读取mysql怎么不会内存溢出的更多相关文章

随机推荐

热门专题

python 使用流式游标读取mysql怎么不会内存溢出

python 使用流式游标读取mysql怎么不会内存溢出的更多相关文章