pandas.read_sql_query()读取数据库数据用chunksize的坑

最近一项工作需要读取数据库中1500万条数据，考虑到数据量太大，不方便直接一次性读取，不然会内存爆炸。想到用pandas.read_sql_query()里有一个chunksize可以分批返回chunksize个数据，于是用pandas试了下，代码如下：

import pandas as pd

from sqlalchemy import create_engine

import psycopg2

import json

class DB_connection(object):

    def __init__(self):

        with open('config_db.json', 'r') as load_f:

            db_config = json.load(load_f)

        self.db_engine = create_engine(''.join(['postgresql+psycopg2://', db_config['USER'], ':', db_config['PASSWORD'], '@', db_config['HOST'], ':', str(db_config['PORT']), '/', db_config['DATABASE']]))

        self.db_conn = self.db_engine.connect()

        self.database = db_config['DATABASE']

    def read_from_table(self):

        data_gen = pd.read_sql_query(

            'SELECT case_id, text FROM first_case',

            self.db_conn, chunksize=2000

        )

        return data_gen

因为pandas.read_sql_query()加上chunksize后返回的是一个iterator。但运行程序时一直卡在那不动，看pandas.read_sql_query()源码才知道它不是真正的分批次读取，而是根据SQL语句全部读取出来后，再把它按chunksize个一批一批地转为iterator然后再返回。

    def read_query(self, sql, index_col=None, coerce_float=True,

                   parse_dates=None, params=None, chunksize=None):

        """Read SQL query into a DataFrame.

        Parameters

        ----------

        sql : string

            SQL query to be executed.

        index_col : string, optional, default: None

            Column name to use as index for the returned DataFrame object.

        coerce_float : boolean, default True

            Attempt to convert values of non-string, non-numeric objects (like

            decimal.Decimal) to floating point, useful for SQL result sets.

        params : list, tuple or dict, optional, default: None

            List of parameters to pass to execute method.  The syntax used

            to pass parameters is database driver dependent. Check your

            database driver documentation for which of the five syntax styles,

            described in PEP 249's paramstyle, is supported.

            Eg. for psycopg2, uses %(name)s so use params={'name' : 'value'}

        parse_dates : list or dict, default: None

            - List of column names to parse as dates.

            - Dict of ``{column_name: format string}`` where format string is

              strftime compatible in case of parsing string times, or is one of

              (D, s, ns, ms, us) in case of parsing integer timestamps.

            - Dict of ``{column_name: arg dict}``, where the arg dict

              corresponds to the keyword arguments of

              :func:`pandas.to_datetime` Especially useful with databases

              without native Datetime support, such as SQLite.

        chunksize : int, default None

            If specified, return an iterator where `chunksize` is the number

            of rows to include in each chunk.

        Returns

        -------

        DataFrame

        See also

        --------

        read_sql_table : Read SQL database table into a DataFrame

        read_sql

        """

        args = _convert_params(sql, params)

        result = self.execute(*args)

        columns = result.keys()

        if chunksize is not None:

            return self._query_iterator(result, chunksize, columns,

                                        index_col=index_col,

                                        coerce_float=coerce_float,

                                        parse_dates=parse_dates)

        else:

            data = result.fetchall()

            frame = _wrap_result(data, columns, index_col=index_col,

                                 coerce_float=coerce_float,

                                 parse_dates=parse_dates)

            return frame

上面源码可以看到，它先用execute执行sql语句，然后在判断是否有chunksize，没有就直接返回所有数据，有的话根据chunksize返回一个iterator。所以这不是一个真正的分批次读取，如果数据量大，还是会导致内存爆炸直至卡死。

最好的分批次方式是在SQL语句直接执行，比如加limit和offset。

SELECT case_id, text FROM first_case order by case_id limit 1000 offset 0

limit a offset b，表示跳过b个数据，读取出a个数据，这样可以固定a, 更新b就可实现一批一批地读取到所有数据。

pandas.read_sql_query()读取数据库数据用chunksize的坑的更多相关文章

读取数据库数据，并将数据整合成3D饼图在jsp中显示
首先我将生成饼图的方法独立写成一个PieChar.java类,详细代码如下:(数据库需要自己建,如有需要的话) import java.io.IOException; import java.sql. ...
Pandas：读取数据库read_sql
学习自:pandas.read_sql - pandas 1.2.4 documentation (10条消息) pd.read_sql()参数详解_pandas.read_csv()参数详解-CSD ...
C#使用SqlDataReader读取数据库数据时CommandBehavior.CloseConnection参数的作用
主要用在ExecuteReader(c)中,如果想要返回对象前不关闭数据库连接,须要用CommandBehavior.CloseConnection: CloseConnection解决了流读取数据模 ...
利用nodejs读取数据库数据生成树结构的json数据
在做后台管理界面的时候,几乎少不了的一个结构就是树形结构,用来做菜单导航: 那么,最希望的就是树结构的所有数据都是读取的数据库,而不是直接代码当中写死,那我们就一步一步来看: 一,建表字段通常包括: ...
在ASP.NET Core 中怎样使用 EF 框架读取数据库数据
添加测试数据我们首先使用 SQLite Studio 添加三条数据 ID Name 1 李白 2 杜甫 3 白居易使用 SQLite Studio 打开我们的 blogging.db 数据库,双击 ...
python读取数据库数据，读取出的中文乱码问题
conn = pymysql.connect( host='127.0.0.1', port=3302, user='username', passwd='password', db=database ...
ThinkPHP：读取数据库数据 (2)
项目配置文件Conf/config.php中添加数据库连接信息: // 添加数据库配置信息 'DB_TYPE' => 'mysql', // 数据库类型 'DB_HOST' => 'loc ...
通过mybatis读取数据库数据并提供rest接口访问
1 mysql 创建数据库脚本 -- phpMyAdmin SQL Dump -- version 4.2.11 -- http://www.phpmyadmin.net -- -- Host: lo ...
java 读取数据库数据转化输出XML输出在jsp页面
因为老师实验报告要求,搭建服务端解析XML 下面代码实现转化XML格式也是在网上找的转化代码输出在jsp页面以便于客户端解析是自己写的一个类就解决了Test package tests; //三只 ...

随机推荐

Python目录教程集和资料分享
以下整理的是python的基础笔记,需要python视频资料或更多的请关注我的公众号! 查看内容点击链接: Python简介及安装 Python的3种执行方式变量及变量计算和引用 if, elif, ...
GUI程序分析实例
GUI程序开发概述 GUI程序开发原理 GetMessage(&msg)将消息队列中的消息取出来,在循环中进行处理. GUI程序开发的本质
各种数和各种反演（所谓FFT的前置知识？）
每次问NC做多项式的题需要什么知识点. 各种数. 各种反演. 多项式全家桶. 然后我就一个一个地学知识点.然而还差好多,学到后面的前面的已经忘了(可能是我太菜吧不是谁都是NC啊) 然后发现每个知识点基 ...
Vue 路由导航解析流程
Vue Router完整的导航解析流程
java8-计算时间差的方法
一.简述在Java8中,我们可以使用以下类来计算日期时间差异: 1.Period 2.Duration 3.ChronoUnit 二.Period类主要是Period类方法getYears(),g ...
在Asp.Net或.Net Core中配置使用MarkDown富文本编辑器有开源模板代码（代码是.net core3.0版本）
研究如何使用Markdown你们可能要花好几天才能搞定,但是看我的文章或者下载了源码,你搞定一般在10分钟之内.我先给各位介绍下它: Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯 ...
abp去掉AbpUser中的Name,Surname，去掉姓和名分离
abp是国外的框架,默认的框架中的AbpUser表中的Name和Surname是分开的,这不符合国情:可以先去掉 1. 在User类中重写Name和Surname,并设置为私有 2. 在DbConte ...
(转)python中用logging实现日志滚动和过期日志删除
转自:https://blog.csdn.net/ashi198866/article/details/46725813 logging库提供了两个可以用于日志滚动的class(可以参考https:/ ...
BeanUtils.populate()空字符串转换日期的解决办法
我们在使用beanutils.populate()封装参数时,如果封装的字符串是空,在转换成date时会出现以上异常,此时可以在工具类中添加静态代码块即可解决:注意导入beanutils 包 impo ...
应用InstallShield 2015打包软件打包C#程序
大家都明白,程序员写出的程序与用户直接使用的程序之间还有一个简单的环节,就是打包.今天就简单介绍下用InstallShield 2015打包工具进行程序的打包, 有兴趣的可以看看! 首先前面安装打包工 ...

pandas.read_sql_query()读取数据库数据用chunksize的坑

pandas.read_sql_query()读取数据库数据用chunksize的坑的更多相关文章

随机推荐

热门专题