pandas.read_sql_query()读取数据库数据用chunksize的坑

最近一项工作需要读取数据库中1500万条数据，考虑到数据量太大，不方便直接一次性读取，不然会内存爆炸。想到用pandas.read_sql_query()里有一个chunksize可以分批返回chunksize个数据，于是用pandas试了下，代码如下：

import pandas as pd

from sqlalchemy import create_engine

import psycopg2

import json

class DB_connection(object):

    def __init__(self):

        with open('config_db.json', 'r') as load_f:

            db_config = json.load(load_f)

        self.db_engine = create_engine(''.join(['postgresql+psycopg2://', db_config['USER'], ':', db_config['PASSWORD'], '@', db_config['HOST'], ':', str(db_config['PORT']), '/', db_config['DATABASE']]))

        self.db_conn = self.db_engine.connect()

        self.database = db_config['DATABASE']

    def read_from_table(self):

        data_gen = pd.read_sql_query(

            'SELECT case_id, text FROM first_case',

            self.db_conn, chunksize=2000

        )

        return data_gen

因为pandas.read_sql_query()加上chunksize后返回的是一个iterator。但运行程序时一直卡在那不动，看pandas.read_sql_query()源码才知道它不是真正的分批次读取，而是根据SQL语句全部读取出来后，再把它按chunksize个一批一批地转为iterator然后再返回。

    def read_query(self, sql, index_col=None, coerce_float=True,

                   parse_dates=None, params=None, chunksize=None):

        """Read SQL query into a DataFrame.

        Parameters

        ----------

        sql : string

            SQL query to be executed.

        index_col : string, optional, default: None

            Column name to use as index for the returned DataFrame object.

        coerce_float : boolean, default True

            Attempt to convert values of non-string, non-numeric objects (like

            decimal.Decimal) to floating point, useful for SQL result sets.

        params : list, tuple or dict, optional, default: None

            List of parameters to pass to execute method.  The syntax used

            to pass parameters is database driver dependent. Check your

            database driver documentation for which of the five syntax styles,

            described in PEP 249's paramstyle, is supported.

            Eg. for psycopg2, uses %(name)s so use params={'name' : 'value'}

        parse_dates : list or dict, default: None

            - List of column names to parse as dates.

            - Dict of ``{column_name: format string}`` where format string is

              strftime compatible in case of parsing string times, or is one of

              (D, s, ns, ms, us) in case of parsing integer timestamps.

            - Dict of ``{column_name: arg dict}``, where the arg dict

              corresponds to the keyword arguments of

              :func:`pandas.to_datetime` Especially useful with databases

              without native Datetime support, such as SQLite.

        chunksize : int, default None

            If specified, return an iterator where `chunksize` is the number

            of rows to include in each chunk.

        Returns

        -------

        DataFrame

        See also

        --------

        read_sql_table : Read SQL database table into a DataFrame

        read_sql

        """

        args = _convert_params(sql, params)

        result = self.execute(*args)

        columns = result.keys()

        if chunksize is not None:

            return self._query_iterator(result, chunksize, columns,

                                        index_col=index_col,

                                        coerce_float=coerce_float,

                                        parse_dates=parse_dates)

        else:

            data = result.fetchall()

            frame = _wrap_result(data, columns, index_col=index_col,

                                 coerce_float=coerce_float,

                                 parse_dates=parse_dates)

            return frame

上面源码可以看到，它先用execute执行sql语句，然后在判断是否有chunksize，没有就直接返回所有数据，有的话根据chunksize返回一个iterator。所以这不是一个真正的分批次读取，如果数据量大，还是会导致内存爆炸直至卡死。

最好的分批次方式是在SQL语句直接执行，比如加limit和offset。

SELECT case_id, text FROM first_case order by case_id limit 1000 offset 0

limit a offset b，表示跳过b个数据，读取出a个数据，这样可以固定a, 更新b就可实现一批一批地读取到所有数据。

pandas.read_sql_query()读取数据库数据用chunksize的坑的更多相关文章

读取数据库数据，并将数据整合成3D饼图在jsp中显示
首先我将生成饼图的方法独立写成一个PieChar.java类,详细代码如下:(数据库需要自己建,如有需要的话) import java.io.IOException; import java.sql. ...
Pandas：读取数据库read_sql
学习自:pandas.read_sql - pandas 1.2.4 documentation (10条消息) pd.read_sql()参数详解_pandas.read_csv()参数详解-CSD ...
C#使用SqlDataReader读取数据库数据时CommandBehavior.CloseConnection参数的作用
主要用在ExecuteReader(c)中,如果想要返回对象前不关闭数据库连接,须要用CommandBehavior.CloseConnection: CloseConnection解决了流读取数据模 ...
利用nodejs读取数据库数据生成树结构的json数据
在做后台管理界面的时候,几乎少不了的一个结构就是树形结构,用来做菜单导航: 那么,最希望的就是树结构的所有数据都是读取的数据库,而不是直接代码当中写死,那我们就一步一步来看: 一,建表字段通常包括: ...
在ASP.NET Core 中怎样使用 EF 框架读取数据库数据
添加测试数据我们首先使用 SQLite Studio 添加三条数据 ID Name 1 李白 2 杜甫 3 白居易使用 SQLite Studio 打开我们的 blogging.db 数据库,双击 ...
python读取数据库数据，读取出的中文乱码问题
conn = pymysql.connect( host='127.0.0.1', port=3302, user='username', passwd='password', db=database ...
ThinkPHP：读取数据库数据 (2)
项目配置文件Conf/config.php中添加数据库连接信息: // 添加数据库配置信息 'DB_TYPE' => 'mysql', // 数据库类型 'DB_HOST' => 'loc ...
通过mybatis读取数据库数据并提供rest接口访问
1 mysql 创建数据库脚本 -- phpMyAdmin SQL Dump -- version 4.2.11 -- http://www.phpmyadmin.net -- -- Host: lo ...
java 读取数据库数据转化输出XML输出在jsp页面
因为老师实验报告要求,搭建服务端解析XML 下面代码实现转化XML格式也是在网上找的转化代码输出在jsp页面以便于客户端解析是自己写的一个类就解决了Test package tests; //三只 ...

随机推荐

AJAX-CORS 跨域
1.CORS就是一套AJAX跨域问题的解决方案. 2.CORS的原理: CORS定义一种跨域访问的机制,可以让AJAX实现跨域访问. 3.CORS浏览器支持情况: Chrome 3+ Firefox ...
IT兄弟连 HTML5教程 CSS3揭秘 CSS规则的组成
CSS和HTML一样都是由W3C制定的标准,本章中介绍的特性和功能还是来源于CSS1和CSS2(CSS2是根据CSS1扩展的).W3C也有新的版本更新,称为CSS3.虽然浏览器已经准备开始实现CSS3 ...
从数据表字段 float 和 double 说起
今天在公司讨论项目重构的问题时,公司的 DBA 针对表中的字段大概介绍了一下 float 和 double 的存储方式.然后,我发现这个问题又回到了浮点数类型在内存中的存储方式,即 IEEE 对浮点数 ...
centos7安装服务器之安装禅道
Centos7下安装禅道 1. 下载禅道的linux版本我的centos7的版本为:7.7版本 2. 将下载的包上传到centos7服务器上 3. 将禅道压缩包解压到/opt目录下: 4. 启动禅道 ...
ETCD:系统限制
原文地址:System limits 请求大小限制 etcd被设计用来处理小键值对典型的如元数据.较大的请求数据也起作用,但可能会增加其他请求的延迟.默认情况下,任意的请求最大的空间为1.5MiB,这 ...
Idea2019激活码
此教程仅用作个人学习,请勿用于商业获利,造成后果自负!!! 此教程已支持最新2019.2版本此教程实时更新,请放心使用:如果有新版本出现猪哥都会第一时间尝试激活: idea官网下载地址:http:/ ...
ZooKeeper（六）：watch机制的原理与实现
因为ZK有watch机制,可以随时发现一些数据的变化,从而达到数据的及时性. ZK的所有读操作都可以设置watch监视点: getData, getChildren, exists. 写操作则是不能设 ...
java基础(6):方法
1. 方法 1.1 方法概述在我们的日常生活中,方法可以理解为要做某件事情,而采取的解决办法. 如:小明同学在路边准备坐车来学校学习.这就面临着一件事情(坐车到学校这件事情)需要解决,解决办法呢?可 ...
Java中15种锁的分类综合总结
本人免费整理了Java高级资料,涵盖了Java.Redis.MongoDB.MySQL.Zookeeper.Spring Cloud.Dubbo高并发分布式等教程,一共30G,需要自己领取.传送门:h ...
Go-内置time包
一.导入包 import "time" 二.转换成Time对象获取当前时间:time. Now () 自定义时间:time. Date(year int, month Month ...

pandas.read_sql_query()读取数据库数据用chunksize的坑

pandas.read_sql_query()读取数据库数据用chunksize的坑的更多相关文章

随机推荐

热门专题