使用pandas读取excel
Excel是微软的经典之作,在这里我们介绍使用Python的pandas数据分析包来解决此问题。
pd.read_excel(io, sheet_name = 0, header = 0, names = None, index_col = None,
usecols = None, squeeze = False, dtype = None, engine = None,
converters = None, true_values = None, false_values = None,
skiprows = None, nrows = None, na_values = None, parse_dates = False,
date_parser = None, thousands = None, comment = None, skipfooter = 0,
convert_float = True, **kwds)
pandas读取Excel后返回DataFrame,接下来我们就pd.read_excel()的常用参数进行详细解析。
目录
1、io,Excel的存储路径
2、sheet_name,要读取的工作表名称
3、header, 用哪一行作列名
4、names, 自定义最终的列名
5、index_col, 用作索引的列
6、usecols,需要读取哪些列
7、squeeze,当数据仅包含一列
8、converters ,强制规定列数据类型
9、skiprows,跳过特定行
10、nrows ,需要读取的行数
11、skipfooter , 跳过末尾n行
【文中使用英超、西甲的排名积分榜及射手榜作为原始数据~~~】
1、io,Excel的存储路径
建议使用英文路径以及英文命名方式。
import pandas as pd
io = r'C:\Users\Administrator\Desktop\data.xlsx'
2、sheet_name,要读取的工作表名称
可以是整型数字、列表名或SheetN,也可以是上述三种组成的列表。
整型数字:目标sheet所在的位置,以0为起始,比如sheet_name = 1代表第2个工作表。
data = pd.read_excel(io, sheet_name = 1)
data.head()
列表名:目标sheet的名称,中英文皆可。
data = pd.read_excel(io, sheet_name = '英超射手榜')
data.head()
SheetN:代表第N个sheet,S要大写,注意与整型数字的区别。
data = pd.read_excel(io, sheet_name = 'Sheet5')
data.head()
组合列表: sheet_name = [0, '英超射手榜', 'Sheet4'],代表读取三个工作表,分别为第1个工作表、名为“英超射手榜”的工作表和第4个工作表。显然,Sheet4未经重命名。
sheet_name 默认为 0,取Excel第一个工作表。如果读取多个工作表,则显示表格的字典。对于初学者而言,建议每次读取一个工作表,然后进行二次整合。
data = pd.read_excel(io, sheet_name = ['英超积分榜', '西甲积分榜'], nrows = 5) # sheet_name = ['英超积分榜', '西甲积分榜'] ,返回两个工作表组成的字典
data
3、header, 用哪一行作列名
默认为0 ,如果设置为[0,1],则表示将前两行作为多重索引。
data = pd.read_excel(io, sheet_name = '英超积分榜', header = [0,1]) # 前两行作为列名。
data.head()
4、names, 自定义最终的列名
一般适用于Excel缺少列名,或者需要重新定义列名的情况。
注意:names的长度必须和Excel列长度一致,否则会报错。
data = pd.read_excel(io, sheet_name = '英超射手榜',
names = ['rank','player','club','goal','common_goal','penalty'])
data.head()
5、index_col, 用作索引的列
可以是工作表列名称,如index_col = '排名';
可以是整型或整型列表,如index_col = 0 或 [0, 1],如果选择多个列,则返回多重索引。
data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = '排名')
data.head()
data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = [0, 1])
data.head()
6、usecols,需要读取哪些列
可以使用整型,从0开始,如[0,2,3];
可以使用Excel传统的列名“A”、“B”等字母,如“A:C, E” ="A, B, C, E",注意两边都包括。
usecols 可避免读取全量数据,而是以分析需求为导向选择特定数据,可以大幅提高效率。
data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = [0, 1, 3])
data.head()
data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = 'A:C, E')
data.head() # 啊?什么!!为啥不见C罗?? # 大佬,C罗转会去尤文图斯啦~~~~
7、squeeze,当数据仅包含一列
squeeze为True时,返回Series,反之返回DataFrame。
data = pd.read_excel(io, sheet_name = 'squeeze', squeeze = True)
data.head()
data = pd.read_excel(io, sheet_name = 'squeeze', squeeze = False)
data.head()
8、converters ,强制规定列数据类型
converters = {'排名': str, '场次': int}, 将“排名”列数据类型强制规定为字符串(pandas默认将文本类的数据读取为整型),“场次”列强制规定为整型;
主要用途:保留以文本形式存储的数字。
data = pd.read_excel(io, sheet_name = 'converters')
data['排名'].dtype
data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})
data['排名'].dtype
9、skiprows,跳过特定行
skiprows= n, 跳过前n行; skiprows = [a, b, c],跳过第a+1,b+1,c+1行(索引从0开始);
使用skiprows 后,有可能首行(即列名)也会被跳过。
data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = [1,2,3]) # 跳过第2,3,4行数据(索引从0开始,包括列名)
data.head()
data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = 3)
data.head()
10、nrows ,需要读取的行数
如果只想了解Excel的列名及概况,不必读取全量数据,nrows会十分有用。
data = pd.read_excel(io, sheet_name = '英超射手榜', nrows = 10)
data
11、skipfooter , 跳过末尾n行
data = pd.read_excel(r'C:\Users\Administrator\Desktop\data.xlsx' ,
sheet_name = '英超射手榜', skipfooter = 43) # skipfooter = 43, 跳过末尾43行(索引从0开始)
data
使用pandas读取excel的更多相关文章
- 深入理解pandas读取excel,txt,csv文件等命令
pandas读取文件官方提供的文档 在使用pandas读取文件之前,必备的内容,必然属于官方文档,官方文档查阅地址 http://pandas.pydata.org/pandas-docs/versi ...
- Python 使用Pandas读取Excel的学习笔记
这里介绍Python中使用Pandas读取Excel的方法 一.软件环境: OS:Win7 64位 Python 3.7 二.文件准备 1.项目结构: 2.在当前实验文件夹下建立一个Source文件夹 ...
- 机器学习之数据预处理,Pandas读取excel数据
Python读写excel的工具库很多,比如最耳熟能详的xlrd.xlwt,xlutils,openpyxl等.其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel.xlutils结 ...
- 利用pandas读取Excel表格,用matplotlib.pyplot绘制直方图、折线图、饼图
利用pandas读取Excel表格,用matplotlib.pyplot绘制直方图.折线图.饼图 数据: 折线图代码: import pandas as pdimport matplotlib. ...
- 用pandas读取excel报错
用pandas.read_execl()方法读取excel文件报错. 后来导入xlrd第三方库,就好了.
- 用python的pandas读取excel文件中的数据
一.读取Excel文件 使用pandas的read_excel()方法,可通过文件路径直接读取.注意到,在一个excel文件中有多个sheet,因此,对excel文件的读取实际上是读取指定文件.并 ...
- pandas 读取excel的指定列
不管对于read_csv还是read_excel,现在都有: usecols : int or list, default None If None then parse all columns, I ...
- pandas玩转excel-> (2)如何利用pandas读取excel数据文件
import pandas as pd #将excel文件读到内存中,形成dataframe,并命名为peoplepeople=pd.read_excel('D:/python结果/task2/Peo ...
- pandas 读取excel文件对数据简单清洗并用matplotlib 将数据展示
首先我们看下数据 接下来数据分析操作 import numpy as np import pandas as pd from matplotlib import pyplot as plt if __ ...
随机推荐
- Unity引用System.Windows.Forms遇到的一些坑
这两天在做一个unity打开文件选择框的功能.网上找到两种方法, 第一种是调用win32打开对话框,这个挺好,但是有个致命的问题,没办法多选!!!多选的话返回的是根目录的路径,文件名返回不了,找了半天 ...
- 归并非递归、快排递归及非递归的C++实现及时间效率对比。。
今天看剑指offer突然发现下学期都要去面试了,还没自己实现过快排非递归和归并非递归,这怎么能行呢,于是就写了一下. (虽然有点卡壳,又回去翻了下算导,还是顺利写出来了) 先放图: 一亿数据量: #p ...
- 刷题5. Longest Palindromic Substring
一.题目说明 Longest Palindromic Substring,求字符串中的最长的回文. Difficuty是Medium 二.我的实现 经过前面4个题目,我对边界考虑越来越"完善 ...
- python web django base skill
web框架本质 socket + 业务逻辑 框架实现socket tonado node.js 使用WSGI实现socket django flask 自己实现框架思路 wsgiref socket ...
- Steam游戏《Nine Parchments(九张羊皮纸)》修改器制作-[先使用CE写,之后有时间的话改用C#](2020年寒假小目标02)
日期:2020.01.09 博客期:122 星期四 [温馨提示]: 只是想要修改器的网友,可以直接点击此链接下载: 只是想要部分CT文件的网友,可以直接点击此链接下载: 没有博客园账号的网友,可以将页 ...
- eclipse中使用maven update project功能后,默认又回到了jre 1.5的解决方案
在maven项目中的pom.xml中添加以下节点,进行jre版本的配置,配置完后再进行项目更新后,并不会自动切换到jre1.5 添加在pom的url标签后面 <build> ...
- div 悬浮
一个小需求,鼠标移动一个产品那, 显示这个产品的具体信息 代码如下: <a href="javascript:void(0);" onclick="frameSea ...
- 【PAT甲级】1096 Consecutive Factors (20 分)
题意: 输入一个int范围内的正整数,输出它最多可以被分解为多少个连续的因子并输出这些因子以*连接. trick: 测试点5包含N本身是一个素数的数据,此时应当输出1并把N输出. 测试点5包含一个2e ...
- Hadoop学习笔记(三):分布式文件系统的写和读流程
写流程:怎么将文件切割成块,上传到服务器 读流程:怎么从不同的服务器来读取数据块 写流程 图一 图二 写的过程中:NameNode会给块分配存储块的位置,每次想要存储文件的时候都会在NameNode创 ...
- pip install cv2 安装报错
pip install cv2 安装报错是一个常见现象: ERROR: Could not find a version that satisfies the requirement cv2 (fro ...