[译]使用Pandas读取大型Excel文件

上周我参加了dataisbeautiful subreddit上的Dataviz Battle，我们不得不从TSA声明数据集创建可视化。我喜欢这种比赛，因为大多数时候你最终都会学习很多有用的东西。

这次数据非常干净，但它分散在几个PDF文件和Excel文件中。在从PDF中提取数据的过程中，我了解了一些工具和库，最后我使用了tabula-py，这是Java库tabula的Python包装器。至于Excel文件，我发现单行 - 简单pd.read_excel- 是不够的。

最大的Excel文件大约是7MB，包含一个大约100k行的工作表。我虽然Pandas可以一次性读取文件而没有任何问题（我的计算机上有10GB的RAM），但显然我错了。

解决方案是以块的形式读取文件。该pd.read_excel函数没有像pd.read_sql这样的游标，所以我不得不手动实现这个逻辑。这是我做的：

import os

import pandas as pd

HERE = os.path.abspath(os.path.dirname(__file__))

DATA_DIR = os.path.abspath(os.path.join(HERE, '..', 'data'))

def make_df_from_excel(file_name, nrows):

    """Read from an Excel file in chunks and make a single DataFrame.

    Parameters

    ----------

    file_name : str

    nrows : int

        Number of rows to read at a time. These Excel files are too big,

        so we can't read all rows in one go.

    """

    file_path = os.path.abspath(os.path.join(DATA_DIR, file_name))

    xl = pd.ExcelFile(file_path)

    # In this case, there was only a single Worksheet in the Workbook.

    sheetname = xl.sheet_names[0]

    # Read the header outside of the loop, so all chunk reads are

    # consistent across all loop iterations.

    df_header = pd.read_excel(file_path, sheetname=sheetname, nrows=1)

    print(f"Excel file: {file_name} (worksheet: {sheetname})")

    chunks = []

    i_chunk = 0

    # The first row is the header. We have already read it, so we skip it.

    skiprows = 1

    while True:

        df_chunk = pd.read_excel(

            file_path, sheetname=sheetname,

            nrows=nrows, skiprows=skiprows, header=None)

        skiprows += nrows

        # When there is no data, we know we can break out of the loop.

        if not df_chunk.shape[0]:

            break

        else:

            print(f"  - chunk {i_chunk} ({df_chunk.shape[0]} rows)")

            chunks.append(df_chunk)

        i_chunk += 1

    df_chunks = pd.concat(chunks)

    # Rename the columns to concatenate the chunks with the header.

    columns = {i: col for i, col in enumerate(df_header.columns.tolist())}

    df_chunks.rename(columns=columns, inplace=True)

    df = pd.concat([df_header, df_chunks])

    return df

if __name__ == '__main__':

    df = make_df_from_excel('claims-2002-2006_0.xls', nrows=10000)

要记住的另一件事。当工作在Python Excel文件，你可能需要您是否需要从/读/写数据时使用不同的包.xls和.xlsx文件。

这个数据集包含两个.xls和.xlsx文件，所以我不得不使用xlrd来读取它们。请注意，如果您唯一关心的是读取.xlsx文件，那么即使xlrd 仍然可以更快，openpyxl也是可行的方法。

这次我没有写任何Excel文件，但如果你需要，那么你想要xlsxwriter。我记得用它来创建包含许多复杂工作表和单元格注释的工作簿（即Excel文件）。您甚至可以使用它来创建带有迷你图和VBA宏的工作表！

原文来源：https://www.giacomodebidda.com/reading-large-excel-files-with-pandas/

[译]使用Pandas读取大型Excel文件的更多相关文章

使用Pandas读取大型Excel文件
import os import pandas as pd HERE = os.path.abspath(os.path.dirname(__file__)) DATA_DIR = os.path.a ...
用pandas库修改excel文件里的内容，并把excel文件格式存为csv格式，再将csv格式改为html格式
假设有Excel文件data.xlsx,其中内容为: ID age height sex weight张三 1 39 181 female 85李四 2 ...
用Python的pandas框架操作Excel文件中的数据教程
用Python的pandas框架操作Excel文件中的数据教程本文的目的,是向您展示如何使用pandas 来执行一些常见的Excel任务.有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其 ...
POI读取/写入Excel文件
import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io ...
根据NPOI 读取一个excel 文件的多个Sheet
大家都知道NPOI组件可以再你本地没有安装office的情况下来读取,创建excel文件.但是大家一般都是只默认读取一个excel文件的第一个sheet.那么如果要读取一个excel 的所有shee ...
建议42：使用pandas处理大型CSV文件
# -*- coding:utf-8 -*- ''' CSV 常用API 1)reader(csvfile[, dialect='excel'][, fmtparam]),主要用于CSV 文件的读取, ...
C# 读取大型Xml文件
这篇博客将介绍在C#中如何读取数据量很大的Xml文件.请看下面的Xml文件, <?xml version="1.0" encoding="utf-8"?& ...
读取Excel二进制写入DB，并从DB中读取生成Excel文件
namespace SendMailSMSService { class Program { static void Main(string[] args) { var connString = Sq ...
Java入门开发POI读取导入Excel文件
Apache POI是Apache开发的开源的跨平台的 Java API,提供API给Java程序对Microsoft Office格式档案进行各种操作. POI中Excel操作很简单,主要类有 HS ...

随机推荐

LINQ查询表达式（5） - LINQ Null值处理&异常处理
查询表达式中处理Null值此示例演示如何处理源集合中可能的 null 值. 诸如 IEnumerable<T> 等对象集合可能包含值为 null 的元素. 如果源集合为 null 或包含 ...
NET Framework 的泛型
NET Framework 的泛型泛型是具有占位符(类型参数)的类.结构.接口和方法,这些占位符是类.结构.接口和方法所存储或使用的一个或多个类型的占位符.泛型集合类可以将类型参数用作它所存储的对象 ...
行为型模式(三) 迭代器模式（Iterator）
一.动机(Motivate) 在软件构建过程中,集合对象内部结构常常变化各异.但对于这些集合对象,我们希望在不暴露其内部结构的同时,可以让外部客户代码透明地访问其中包含的元素:同时这种"透明 ...
drf框架 - 解析模块 | 异常模块 | 响应模块
解析模块为什么要配置解析模块 1)drf给我们提供了多种解析数据包方式的解析类 2)我们可以通过配置,来控制前台提交的哪些格式的数据后台在解析,哪些数据不解析 3)全局配置就是针对每一个视图类,局部 ...
学习Spring-Data-Jpa(七)---JpaRepository
之前我们学习的Repository都是Spring-Data为了兼容NoSQL而进行的一些抽象封装,从JpaRepository开始是对关系型数据库进行抽象封装.JpaRepository位于spri ...
基于Python3+Requests的贴吧签到助手
因为总是忘记签到,所以尝试写了一个签到脚本,因为使用的是Python3,所以没法使用Urllib2,于是选择了Requests,事实证明,Requests比Urllib2好用.整体思路比较简单,就是模 ...
python - 使用psutils
oshelper.py #encoding=utf-8 import psutil import datetime #查看cpu的信息 print u"CPU 个数 %s"%psu ...
Linux学习建议[转]
端正学习态度学linux不会为了当黑客或者骇客,如果你为了当黑客或骇客而学习Linux,那么你离进监狱不远了,只是时间早晚而已.很多小白都知道“黑客攻击工具”很多来源与Linux平台上的,我也曾指导过 ...
Problem 3 二维差分
$des$ 考虑一个 n ∗ n 的矩阵 A,初始所有元素均为 0.执行 q 次如下形式的操作: 给定 4 个整数 r,c,l,s, 对于每个满足 x ∈ [r,r+l), y ∈ [c,x−r+c] ...
【CSP模拟赛】奇怪的队列（树状数组 &二分&贪心）
题目描述 nodgd的粉丝太多了,每天都会有很多人排队要签名. 今天有n个人排队,每个人的身高都是一个整数,且互不相同.很不巧,nodgd今天去忙别的事情去了,就只好让这些粉丝们明天再来.同时nod ...

[译]使用Pandas读取大型Excel文件

[译]使用Pandas读取大型Excel文件的更多相关文章

随机推荐

热门专题