pandas读取Excel文件
In [7]:
import pandas as pd
filname = 'ch02数据导入\\student.xlsx'
data = pd.read_excel(filname)
data
| 姓名 | 年龄 | 爱好 | 学号 | 学费 | |
|---|---|---|---|---|---|
| 0 | 张三 | 20 | 打球 | 12 | 5000 |
| 1 | 李四 | 21 | 游泳 | 13 | 6000 |
| 2 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 3 | 赵六 | 25 | 下棋 | 15 | 500 |
| 4 | 王七 | 20 | 跑步 | 16 | 60 |
| 5 | 朱八 | 28 | 旅游 | 17 | 300 |
# 打印前3行数据
data.head(3)
| 姓名 | 年龄 | 爱好 | 学号 | 学费 | |
|---|---|---|---|---|---|
| 0 | 张三 | 20 | 打球 | 12 | 5000 |
| 1 | 李四 | 21 | 游泳 | 13 | 6000 |
| 2 | 周五 | 23 | 唱歌 | 14 | 7000 |
# 打印[1-3)行数据
data[1:3]
| 姓名 | 年龄 | 爱好 | 学号 | 学费 | |
|---|---|---|---|---|---|
| 1 | 李四 | 21 | 游泳 | 13 | 6000 |
| 2 | 周五 | 23 | 唱歌 | 14 | 7000 |
# 根据列名,打印某一列数据
data['姓名']
0 张三
1 李四
2 周五
3 赵六
4 王七
5 朱八
Name: 姓名, dtype: object
# 查看所有字段
field = data.columns.tolist()
field
['姓名', '年龄', '爱好', '学号', '学费']
# 只显示第四行
data.loc[4]
姓名 王七
年龄 20
爱好 跑步
学号 16
学费 60
Name: 4, dtype: object
# 打印多个列数据,需要双层[[]]
data[["姓名", "年龄"]]
| 姓名 | 年龄 | |
|---|---|---|
| 0 | 张三 | 20 |
| 1 | 李四 | 21 |
| 2 | 周五 | 23 |
| 3 | 赵六 | 25 |
| 4 | 王七 | 20 |
| 5 | 朱八 | 28 |
# 查看基础数据
# mean = 均值
# std = 方差
data.describe() # 只针对数值型
| 年龄 | 学号 | 学费 | |
|---|---|---|---|
| count | 6.000000 | 6.000000 | 6.000000 |
| mean | 22.833333 | 14.500000 | 3143.333333 |
| std | 3.188521 | 1.870829 | 3195.632436 |
| min | 20.000000 | 12.000000 | 60.000000 |
| 25% | 20.250000 | 13.250000 | 350.000000 |
| 50% | 22.000000 | 14.500000 | 2750.000000 |
| 75% | 24.500000 | 15.750000 | 5750.000000 |
| max | 28.000000 | 17.000000 | 7000.000000 |
data2 = pd.read_excel(filname,header=None)
data2
| 0 | 1 | 2 | 3 | 4 | |
|---|---|---|---|---|---|
| 0 | 姓名 | 年龄 | 爱好 | 学号 | 学费 |
| 1 | 张三 | 20 | 打球 | 12 | 5000 |
| 2 | 李四 | 21 | 游泳 | 13 | 6000 |
| 3 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 4 | 赵六 | 25 | 下棋 | 15 | 500 |
| 5 | 王七 | 20 | 跑步 | 16 | 60 |
| 6 | 朱八 | 28 | 旅游 | 17 | 300 |
data2.values
array([['姓名', '年龄', '爱好', '学号', '学费'],
['张三', 20, '打球', 12, 5000],
['李四', 21, '游泳', 13, 6000],
['周五', 23, '唱歌', 14, 7000],
['赵六', 25, '下棋', 15, 500],
['王七', 20, '跑步', 16, 60],
['朱八', 28, '旅游', 17, 300]], dtype=object)
data.values
array([['张三', 20, '打球', 12, 5000],
['李四', 21, '游泳', 13, 6000],
['周五', 23, '唱歌', 14, 7000],
['赵六', 25, '下棋', 15, 500],
['王七', 20, '跑步', 16, 60],
['朱八', 28, '旅游', 17, 300]], dtype=object)
data.index
RangeIndex(start=0, stop=6, step=1)
pandas参数说明
pandas.read_excel(io, sheet_name=0, header=0, skiprows=None, skip_footer=0, index_col=None, names=None, usecols=None, parse_dates=False, date_parser=None, na_values=None, thousands=None, convert_float=True, converters=None, dtype=None, true_values=None, false_values=None, engine=None, squeeze=False, **kwds)
1.io :excel 路径;
data3 = pd.read_excel(io=filname)
data3
| 姓名 | 年龄 | 爱好 | 学号 | 学费 | |
|---|---|---|---|---|---|
| 0 | 张三 | 20 | 打球 | 12 | 5000 |
| 1 | 李四 | 21 | 游泳 | 13 | 6000 |
| 2 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 3 | 赵六 | 25 | 下棋 | 15 | 500 |
| 4 | 王七 | 20 | 跑步 | 16 | 60 |
| 5 | 朱八 | 28 | 旅游 | 17 | 300 |
2.sheetname:默认是sheetname为0,返回多表使用sheetname=[0,1],若sheetname=None是返回全表 。注意:int/string返回的是dataframe,而none和list返回的是dict of dataframe。
data3 = pd.read_excel(filname,sheet_name=[0,1])
data3
OrderedDict([(0, 姓名 年龄 爱好 学号 学费
0 张三 20 打球 12 5000
1 李四 21 游泳 13 6000
2 周五 23 唱歌 14 7000
3 赵六 25 下棋 15 500
4 王七 20 跑步 16 60
5 朱八 28 旅游 17 300), (1, 动物 植物
0 小猫 花
1 小狗 树)])
data3 = pd.read_excel(filname,sheet_name=0)
data3
| 姓名 | 年龄 | 爱好 | 学号 | 学费 | |
|---|---|---|---|---|---|
| 0 | 张三 | 20 | 打球 | 12 | 5000 |
| 1 | 李四 | 21 | 游泳 | 13 | 6000 |
| 2 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 3 | 赵六 | 25 | 下棋 | 15 | 500 |
| 4 | 王七 | 20 | 跑步 | 16 | 60 |
| 5 | 朱八 | 28 | 旅游 | 17 | 300 |
data3 = pd.read_excel(filname,sheet_name=1)
data3
| 动物 | 植物 | |
|---|---|---|
| 0 | 小猫 | 花 |
| 1 | 小狗 | 树 |
3.header :指定作为列名的行,默认0,即取第一行,数据为列名行以下的数据;若数据不含列名,则设定 header = None;
data3 = pd.read_excel(filname,sheet_name=0,header=None)
data3
| 0 | 1 | 2 | 3 | 4 | |
|---|---|---|---|---|---|
| 0 | 姓名 | 年龄 | 爱好 | 学号 | 学费 |
| 1 | 张三 | 20 | 打球 | 12 | 5000 |
| 2 | 李四 | 21 | 游泳 | 13 | 6000 |
| 3 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 4 | 赵六 | 25 | 下棋 | 15 | 500 |
| 5 | 王七 | 20 | 跑步 | 16 | 60 |
| 6 | 朱八 | 28 | 旅游 | 17 | 300 |
data3 = pd.read_excel(filname,sheet_name=0,header=2)
data3
| 李四 | 21 | 游泳 | 13 | 6000 | |
|---|---|---|---|---|---|
| 0 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 1 | 赵六 | 25 | 下棋 | 15 | 500 |
| 2 | 王七 | 20 | 跑步 | 16 | 60 |
| 3 | 朱八 | 28 | 旅游 | 17 | 300 |
4.skiprows:省略指定行数的数据
data3 = pd.read_excel(filname, sheet_name=0, skiprows=1)
data3
| 张三 | 20 | 打球 | 12 | 5000 | |
|---|---|---|---|---|---|
| 0 | 李四 | 21 | 游泳 | 13 | 6000 |
| 1 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 2 | 赵六 | 25 | 下棋 | 15 | 500 |
| 3 | 王七 | 20 | 跑步 | 16 | 60 |
| 4 | 朱八 | 28 | 旅游 | 17 | 300 |
5.skipfooter:省略从尾部数的行数据
data3 = pd.read_excel(filname, sheet_name=0, skipfooter=1)
data3
| 姓名 | 年龄 | 爱好 | 学号 | 学费 | |
|---|---|---|---|---|---|
| 0 | 张三 | 20 | 打球 | 12 | 5000 |
| 1 | 李四 | 21 | 游泳 | 13 | 6000 |
| 2 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 3 | 赵六 | 25 | 下棋 | 15 | 500 |
| 4 | 王七 | 20 | 跑步 | 16 | 60 |
6.index_col :指定列为索引列,也可以使用 u’string’
data3 = pd.read_excel(filname, sheet_name=0, index_col=1)
data3
| 姓名 | 爱好 | 学号 | 学费 | |
|---|---|---|---|---|
| 年龄 | ||||
| 20 | 张三 | 打球 | 12 | 5000 |
| 21 | 李四 | 游泳 | 13 | 6000 |
| 23 | 周五 | 唱歌 | 14 | 7000 |
| 25 | 赵六 | 下棋 | 15 | 500 |
| 20 | 王七 | 跑步 | 16 | 60 |
| 28 | 朱八 | 旅游 | 17 | 300 |
7.names:指定列的名字,传入一个list数据
data3 = pd.read_excel(filname, sheet_name=0,
names=['a', 'b', 'c', 'd', 'e'])
data3
| a | b | c | d | e | |
|---|---|---|---|---|---|
| 0 | 张三 | 20 | 打球 | 12 | 5000 |
| 1 | 李四 | 21 | 游泳 | 13 | 6000 |
| 2 | 周五 | 23 | 唱歌 | 14 | 7000 |
| 3 | 赵六 | 25 | 下棋 | 15 | 500 |
| 4 | 王七 | 20 | 跑步 | 16 | 60 |
| 5 | 朱八 | 28 | 旅游 | 17 | 300 |
pandas读取Excel文件的更多相关文章
- 用python的pandas读取excel文件中的数据
一.读取Excel文件 使用pandas的read_excel()方法,可通过文件路径直接读取.注意到,在一个excel文件中有多个sheet,因此,对excel文件的读取实际上是读取指定文件.并 ...
- pandas 读取excel文件对数据简单清洗并用matplotlib 将数据展示
首先我们看下数据 接下来数据分析操作 import numpy as np import pandas as pd from matplotlib import pyplot as plt if __ ...
- 深入理解pandas读取excel,txt,csv文件等命令
pandas读取文件官方提供的文档 在使用pandas读取文件之前,必备的内容,必然属于官方文档,官方文档查阅地址 http://pandas.pydata.org/pandas-docs/versi ...
- 机器学习之数据预处理,Pandas读取excel数据
Python读写excel的工具库很多,比如最耳熟能详的xlrd.xlwt,xlutils,openpyxl等.其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel.xlutils结 ...
- pandas read excel文件碰到的一个小问题
今天利用pandas读取excel时,爆出如下错误: 代码为: import pandas as pd db_eua=pd.read_excel('db_eua.xlsx',sheetname='EU ...
- 用pandas读取excel报错
用pandas.read_execl()方法读取excel文件报错. 后来导入xlrd第三方库,就好了.
- Python 使用Pandas读取Excel的学习笔记
这里介绍Python中使用Pandas读取Excel的方法 一.软件环境: OS:Win7 64位 Python 3.7 二.文件准备 1.项目结构: 2.在当前实验文件夹下建立一个Source文件夹 ...
- pandas处理excel文件和csv文件
一.csv文件 csv以纯文本形式存储表格数据 pd.read_csv('文件名'),可添加参数engine='python',encoding='gbk' 一般来说,windows系统的默认编码为g ...
- C# 读取EXCEL文件的三种经典方法
1.方法一:采用OleDB读取EXCEL文件: 把EXCEL文件当做一个数据源来进行数据的读取操作,实例如下: public DataSet ExcelToDS(string Path) { stri ...
随机推荐
- 一款基于jQuery Ajax的等待效果
特别提示:本人博客部分有参考网络其他博客,但均是本人亲手编写过并验证通过.如发现博客有错误,请及时提出以免误导其他人,谢谢!欢迎转载,但记得标明文章出处:http://www.cnblogs.com/ ...
- 关于spotlight_on_oracle的配置及操作
Spotlight是一个强有力的Oracle数据库实时性能诊断工具,提供了一个直观的.可视化的数据库活动展现.Spotlight可视化展现性能瓶颈,一旦某个指标超出可接受的阀值的话.而且,通过下钻功能 ...
- SpringMVC中mvc:view-controller的使用
1.重定向 <mvc:view-controller path="/" view-name="redirect:/admin/index"/> 即如 ...
- 移动端自动化==>Windows-Android-Appium环境搭建
第一步 安装JDK,本机如果带有1.7及以上版本且配置好了环境变量,则可忽略此安装步骤. JDK的安装包,百度下载即可.安装完成后配置环境变量. cmd下验证环境变量是否配置成功 第二步 安装Andr ...
- ARTS挑战
最近有点迷茫,感觉自己工作了一年多,技术成长有限,我要做出改变.2019年11月2日,就从今天开始,参加耗子叔的ARTS挑战. ARTS的初衷 Algorithm:主要是为了编程训练和学习.每周至少做 ...
- 定制属于你自己的ViewEngine(一套逻辑多套UI)
ASP.NET MVC出来这么久了,心中却又很多的疑惑:为什么所有的View都要放在Views目录下? 为什么Shared文件夹下面的页面可以被共享? 为什么Page既可以是*.cshtml,也可以是 ...
- 【EWM系列】SAP EWM凭证对象表概览
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[EWM系列]SAP EWM凭证对象表概览 ...
- Lesson 1 A puma at large
spot (v) 看出,发现 oblige (v) 使...感到必须:obliged (adj)必须的, feel obliged to do sth. 感到不得不做某事 ==have to.eg:E ...
- uwsgi + nginx 部署python项目(二)
实现负载均衡 开启两个服务器,nginx负责分发请求到两个服务器,以减轻单个服务器负担. 配置uwsgi服务器 在a项目目录下生成uwsgi.ini文件,在b项目目录下生成uwsgi.ini文件,如何 ...
- 第二次课程总结&学习总结
Java实验报告 班级 计算机科学与技术一班 学号 20188390 姓名 宋志豪 实验 写一个名为Rectangle的类表示矩形.其属性包括宽width.高height和颜色color,width和 ...