使用pandas读取excel

Excel是微软的经典之作，在这里我们介绍使用Python的pandas数据分析包来解决此问题。

pd.read_excel(io, sheet_name = 0, header = 0, names = None, index_col = None,

usecols = None, squeeze = False, dtype = None, engine = None,

converters = None, true_values = None, false_values = None,

skiprows = None, nrows = None, na_values = None, parse_dates = False,

date_parser = None, thousands = None, comment = None, skipfooter = 0,

convert_float = True, **kwds)

pandas读取Excel后返回DataFrame，接下来我们就pd.read_excel()的常用参数进行详细解析。

1、io，Excel的存储路径

2、sheet_name，要读取的工作表名称

3、header，用哪一行作列名

4、names，自定义最终的列名

5、index_col，用作索引的列

6、usecols，需要读取哪些列

7、squeeze，当数据仅包含一列

8、converters ，强制规定列数据类型

9、skiprows，跳过特定行

10、nrows ，需要读取的行数

11、skipfooter ，跳过末尾n行

【文中使用英超、西甲的排名积分榜及射手榜作为原始数据~~~】

1、io，Excel的存储路径

建议使用英文路径以及英文命名方式。
import pandas as pd
io = r'C:\Users\Administrator\Desktop\data.xlsx'

2、sheet_name，要读取的工作表名称

可以是整型数字、列表名或SheetN，也可以是上述三种组成的列表。
整型数字：目标sheet所在的位置，以0为起始，比如sheet_name = 1代表第2个工作表。

data = pd.read_excel(io, sheet_name = 1)
data.head()

列表名：目标sheet的名称，中英文皆可。
data = pd.read_excel(io, sheet_name = '英超射手榜')
data.head()

SheetN：代表第N个sheet，S要大写，注意与整型数字的区别。
data = pd.read_excel(io, sheet_name = 'Sheet5')
data.head()

组合列表： sheet_name = [0, '英超射手榜', 'Sheet4']，代表读取三个工作表，分别为第1个工作表、名为“英超射手榜”的工作表和第4个工作表。显然，Sheet4未经重命名。
sheet_name 默认为 0，取Excel第一个工作表。如果读取多个工作表，则显示表格的字典。对于初学者而言，建议每次读取一个工作表，然后进行二次整合。
data = pd.read_excel(io, sheet_name = ['英超积分榜', '西甲积分榜'], nrows = 5) # sheet_name = ['英超积分榜', '西甲积分榜'] ，返回两个工作表组成的字典
data

3、header，用哪一行作列名

默认为0 ，如果设置为[0,1]，则表示将前两行作为多重索引。
data = pd.read_excel(io, sheet_name = '英超积分榜', header = [0,1]) # 前两行作为列名。
data.head()

4、names，自定义最终的列名

一般适用于Excel缺少列名，或者需要重新定义列名的情况。
注意：names的长度必须和Excel列长度一致，否则会报错。
data = pd.read_excel(io, sheet_name = '英超射手榜',
names = ['rank','player','club','goal','common_goal','penalty'])
data.head()

5、index_col，用作索引的列

可以是工作表列名称，如index_col = '排名'；
可以是整型或整型列表，如index_col = 0 或 [0, 1]，如果选择多个列，则返回多重索引。
data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = '排名')
data.head()

data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = [0, 1])
data.head()

6、usecols，需要读取哪些列

可以使用整型，从0开始，如[0,2,3]；
可以使用Excel传统的列名“A”、“B”等字母，如“A：C, E” ="A, B, C, E"，注意两边都包括。
usecols 可避免读取全量数据，而是以分析需求为导向选择特定数据，可以大幅提高效率。
data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = [0, 1, 3])
data.head()

data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = 'A:C, E')
data.head() # 啊？什么！！为啥不见C罗？？ # 大佬，C罗转会去尤文图斯啦~~~~

7、squeeze，当数据仅包含一列

squeeze为True时，返回Series，反之返回DataFrame。
data = pd.read_excel(io, sheet_name = 'squeeze', squeeze = True)
data.head()

data = pd.read_excel(io, sheet_name = 'squeeze', squeeze = False)
data.head()

8、converters ，强制规定列数据类型

converters = {'排名': str, '场次': int}，将“排名”列数据类型强制规定为字符串（pandas默认将文本类的数据读取为整型），“场次”列强制规定为整型；

主要用途：保留以文本形式存储的数字。

data = pd.read_excel(io, sheet_name = 'converters')
data['排名'].dtype

data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})
data['排名'].dtype

9、skiprows，跳过特定行

skiprows= n，跳过前n行； skiprows = [a, b, c]，跳过第a+1,b+1,c+1行（索引从0开始）；
使用skiprows 后，有可能首行（即列名）也会被跳过。
data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = [1,2,3]) # 跳过第2,3,4行数据（索引从0开始，包括列名）
data.head()

data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = 3)
data.head()

10、nrows ，需要读取的行数

如果只想了解Excel的列名及概况，不必读取全量数据，nrows会十分有用。
data = pd.read_excel(io, sheet_name = '英超射手榜', nrows = 10)
data

11、skipfooter ，跳过末尾n行

data = pd.read_excel(r'C:\Users\Administrator\Desktop\data.xlsx' ,
sheet_name = '英超射手榜', skipfooter = 43) # skipfooter = 43，跳过末尾43行（索引从0开始）
data

使用pandas读取excel的更多相关文章

深入理解pandas读取excel,txt,csv文件等命令
pandas读取文件官方提供的文档在使用pandas读取文件之前,必备的内容,必然属于官方文档,官方文档查阅地址 http://pandas.pydata.org/pandas-docs/versi ...
Python 使用Pandas读取Excel的学习笔记
这里介绍Python中使用Pandas读取Excel的方法一.软件环境: OS:Win7 64位 Python 3.7 二.文件准备 1.项目结构: 2.在当前实验文件夹下建立一个Source文件夹 ...
机器学习之数据预处理，Pandas读取excel数据
Python读写excel的工具库很多,比如最耳熟能详的xlrd.xlwt,xlutils,openpyxl等.其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel.xlutils结 ...
利用pandas读取Excel表格，用matplotlib.pyplot绘制直方图、折线图、饼图
利用pandas读取Excel表格,用matplotlib.pyplot绘制直方图.折线图.饼图数据: 折线图代码: import pandas as pdimport matplotlib. ...
用pandas读取excel报错
用pandas.read_execl()方法读取excel文件报错. 后来导入xlrd第三方库,就好了.
用python的pandas读取excel文件中的数据
一.读取Excel文件使用pandas的read_excel()方法,可通过文件路径直接读取.注意到,在一个excel文件中有多个sheet,因此,对excel文件的读取实际上是读取指定文件.并 ...
pandas 读取excel的指定列
不管对于read_csv还是read_excel,现在都有: usecols : int or list, default None If None then parse all columns, I ...
pandas玩转excel-> (2)如何利用pandas读取excel数据文件
import pandas as pd #将excel文件读到内存中,形成dataframe,并命名为peoplepeople=pd.read_excel('D:/python结果/task2/Peo ...
pandas 读取excel文件对数据简单清洗并用matplotlib 将数据展示
首先我们看下数据接下来数据分析操作 import numpy as np import pandas as pd from matplotlib import pyplot as plt if __ ...

随机推荐

Linux 改变文件的所有者
平时看不惯文件或文件夹是root权限,当然这些文件不是系统文件时还带一把锁. 改变root权限命令,假设用户名为wmz,该root权限为wmz权限,就是去掉碍眼的那把锁: sudo chmod wmz ...
mysql 随笔
(select GROUP_CONCAT(car_brand_name separator ',') carBrandName,supplier_id from ycej_supplier_carbr ...
matplotlib添加坐标轴实现性格测试可视化
一张图展示最终效果皮一下很开心,标签名肯定不是用户想要的,所以在这里尝试了定制化功能功能&方法: 定制化标签名/标签数量(4个/5个).实现方法:在第一个界面点击cancel按钮,进入修改 ...
JS中for循环“全局”变量的传递
在项目中,遇到了一个问题,描述如下:我们在联动下拉框中,选中值后,会在隐藏的控件中记录一下选中值的主键(展示的是名称).但是,在取消选中的时候,没有把隐藏控件中的value值清空,导致在提交的时候,有 ...
谁偷偷删了你的微信？别慌！Python 揪出来
不知道你有没有经历过,想联系一位很长时间没有联系的朋友,发现对方很早以前已经把你删除了,而你还一无所知. 相信每个人的微信通信录里都存在一些「僵尸粉」,他们默默地躺在联系人列表中,你以为对方还是朋友, ...
frp 使用基础笔记
0x01 简介为什么需要内网穿透? 很多时候从公网访问自己内网的设备是困难的,毕竟自己没有一个独立的IP地址. Frp 服务器进行内网穿透,速度快还十分简单.可以实现很多功能,包括不限于远程桌面,文 ...
tkinter学习（4）frame、pack、canvas学习
1.frame和pack学习 1.1 代码: import tkinter as tk window = tk.Tk() window.title('my window') window.geomet ...
${var}与$var的区别，个人总结的看法
${var} set variable 123 ${var}类似于变量值,相当于123 $var类似于变量名,指向对应的存储位置,相当于“123”,一般只有在rf关键字为断言的如“should be ...
【PAT甲级】1079 Total Sales of Supply Chain (25 分)
题意: 输入一个正整数N(<=1e5),表示共有N个结点,接着输入两个浮点数分别表示商品的进货价和每经过一层会增加的价格百分比.接着输入N行每行包括一个非负整数X,如果X为0则表明该结点为叶子结 ...
IDEA自动部署WEB工程至远程服务器（学习笔记）
一.部署Web工程的几种方式 ①本地打war,上传至远程服务器tomcat容器即可优点:简单粗暴缺点:浪费时间 ②IDEA自动部署至远程服务器优点:节省大量时间缺点:配置稍多(第一次) 二.I ...

使用pandas读取excel

使用pandas读取excel的更多相关文章

随机推荐

热门专题