1.Excel

1.1 Excel导入

read_excel()

pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, 
engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, 
keep_default_na=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, 
convert_float=True, mangle_dupe_cols=True, **kwds)

read_excel()方法使用Python的xlrd模块来读取Excel 2003（.xls)版的文件，而Excel 2007+ （.xlsx)版本的是用xlrd或者openpyxl模块来读取的。to_excel()方法则是用来把DataFrame数据存储为Excel格式.。（标红参数为常用参数）

普通导入

导入 Excel 数据主要使用到的方法是 Pandas 中的 read_excel() 。

在进行导入操作的时候，要注意文件路径，这里的文件路径可以使用相对路径也可以使用绝对路径，但是不管哪种路径最基本的是要写对。

import pandas as pd

df = pd.read_excel("result_data.xlsx")# 相对路径

print(df)

# 输出内容

    plantform  read_num  fans_num  rank_num  like_num         create_date

0      cnblog       215         0       118         0 2019-11-23 23:00:10

1      juejin       177         0        -2         1 2019-11-23 23:00:03

2        csdn      1652        69         0        24 2019-11-23 23:00:02

3      cnblog       650         3       191         0 2019-11-22 23:00:15

4      juejin       272         3       -23         1 2019-11-22 23:00:02

..        ...       ...       ...       ...       ...                 ...

403    juejin       212         0        -1         2 2020-02-20 23:00:02

404      csdn      1602         1         0         1 2020-02-20 23:00:01

405    cnblog        19         0        41         0 2020-02-21 23:00:05

406    juejin       125         1        -4         0 2020-02-21 23:00:02

407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

Windows 的操作系统，文件路径默认是使用 \ ，如 D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx ，我们在直接使用 Windows 的文件路径的时候需要在前面增加一个 r （转义符）避免路径中的 \ 被转义，如下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx")

#df = pd.read_excel("D:\\Development\\Projects\\python-learning\\python-data-analysis\\pandas-demo\\result_data.xlsx") 也可以这样

print(df)

# 输出内容

    plantform  read_num  fans_num  rank_num  like_num         create_date

0      cnblog       215         0       118         0 2019-11-23 23:00:10

1      juejin       177         0        -2         1 2019-11-23 23:00:03

2        csdn      1652        69         0        24 2019-11-23 23:00:02

3      cnblog       650         3       191         0 2019-11-22 23:00:15

4      juejin       272         3       -23         1 2019-11-22 23:00:02

..        ...       ...       ...       ...       ...                 ...

403    juejin       212         0        -1         2 2020-02-20 23:00:02

404      csdn      1602         1         0         1 2020-02-20 23:00:01

405    cnblog        19         0        41         0 2020-02-21 23:00:05

406    juejin       125         1        -4         0 2020-02-21 23:00:02

407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

指定导入 Sheet

我们在使用 Excel 导入的时候，除了可以指定文件路径，还可以选择导入的 Sheet

在设置 Sheet 的时候，我们使用参数 sheet_name 来完成，示例如下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name='result_data')

print(df)

# 输出结果

    plantform  read_num  fans_num  rank_num  like_num         create_date

0      cnblog       215         0       118         0 2019-11-23 23:00:10

1      juejin       177         0        -2         1 2019-11-23 23:00:03

2        csdn      1652        69         0        24 2019-11-23 23:00:02

3      cnblog       650         3       191         0 2019-11-22 23:00:15

4      juejin       272         3       -23         1 2019-11-22 23:00:02

..        ...       ...       ...       ...       ...                 ...

403    juejin       212         0        -1         2 2020-02-20 23:00:02

404      csdn      1602         1         0         1 2020-02-20 23:00:01

405    cnblog        19         0        41         0 2020-02-21 23:00:05

406    juejin       125         1        -4         0 2020-02-21 23:00:02

407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

如果我们要使用一个完全不存在的 Sheet 名称会发生什么事情呢？例如我们将上面的 sheet_name 修改为 aaa ，来看下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name='aaa')

print(df)

# 输出结果

Traceback (most recent call last):

  File "C:\Users\inwsy\AppData\Local\Programs\Python\Python37\lib\site-packages\xlrd\book.py", line 474, in sheet_by_name

    sheetx = self._sheet_names.index(sheet_name)

ValueError: 'aaa' is not in list

During handling of the above exception, another exception occurred:

可以看到这里抛出了 ValueError 的异常，并且提示 aaa 不在列表中。

在指定 Sheet 名称的时候除了可以使用 Sheet 的具体名称，还可以使用 Sheet 的顺序，需要注意这个顺序开头是从 0 开始的。

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0)

print(df)

# 输出结果

    plantform  read_num  fans_num  rank_num  like_num         create_date

0      cnblog       215         0       118         0 2019-11-23 23:00:10

1      juejin       177         0        -2         1 2019-11-23 23:00:03

2        csdn      1652        69         0        24 2019-11-23 23:00:02

3      cnblog       650         3       191         0 2019-11-22 23:00:15

4      juejin       272         3       -23         1 2019-11-22 23:00:02

..        ...       ...       ...       ...       ...                 ...

403    juejin       212         0        -1         2 2020-02-20 23:00:02

404      csdn      1602         1         0         1 2020-02-20 23:00:01

405    cnblog        19         0        41         0 2020-02-21 23:00:05

406    juejin       125         1        -4         0 2020-02-21 23:00:02

407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

指定导入行索引

我们在导入文件的时候，行索引默认是会使用从 0 开始的默认索引，如果对行索引有需求的话，可以使用 index_col 参数来设置行索引。

比如我们现在设置 create_date 这个参数作为行索引，注意参数起始从 0 开始：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, index_col=5)

print(df)

# 输出结果

                    plantform  read_num  fans_num  rank_num  like_num

create_date

2019-11-23 23:00:10    cnblog       215         0       118         0

2019-11-23 23:00:03    juejin       177         0        -2         1

2019-11-23 23:00:02      csdn      1652        69         0        24

2019-11-22 23:00:15    cnblog       650         3       191         0

2019-11-22 23:00:02    juejin       272         3       -23         1

...                       ...       ...       ...       ...       ...

2020-02-20 23:00:02    juejin       212         0        -1         2

2020-02-20 23:00:01      csdn      1602         1         0         1

2020-02-21 23:00:05    cnblog        19         0        41         0

2020-02-21 23:00:02    juejin       125         1        -4         0

2020-02-21 23:00:02      csdn      1475         8         0         3

[408 rows x 5 columns]

指定导入列索引

同行索引一样，默认也是采用源数据的第一行作为列索引，同样，我们可以通过 header 进行列索引的设置， header 的默认参数为 0 ，也就是第一行，自定义可以使用其他行，将行号作为参数传入即可，我们演示一下使用第二行作为索引：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, header=1)

print(df)

# 输出结果

     cnblog   215    0  118  0.1 2019-11-23 23:00:10

0    juejin   177    0   -2    1 2019-11-23 23:00:03

1      csdn  1652   69    0   24 2019-11-23 23:00:02

2    cnblog   650    3  191    0 2019-11-22 23:00:15

3    juejin   272    3  -23    1 2019-11-22 23:00:02

4      csdn  2202  129    0   37 2019-11-22 23:00:01

..      ...   ...  ...  ...  ...                 ...

402  juejin   212    0   -1    2 2020-02-20 23:00:02

403    csdn  1602    1    0    1 2020-02-20 23:00:01

404  cnblog    19    0   41    0 2020-02-21 23:00:05

405  juejin   125    1   -4    0 2020-02-21 23:00:02

406    csdn  1475    8    0    3 2020-02-21 23:00:02

[407 rows x 6 columns]

指定导入行数

有时候，如果我们只需要了解一下这个文件中有些什么数据，那么我们就不需要导入所有的数据，可以使用 nrows 来指定导入的行数，这里我们选择导入 Excel 的前 100 行：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, nrows=100)

print(df)

# 输出结果

   plantform  read_num  fans_num  rank_num  like_num         create_date

0     cnblog       215         0       118         0 2019-11-23 23:00:10

1     juejin       177         0        -2         1 2019-11-23 23:00:03

2       csdn      1652        69         0        24 2019-11-23 23:00:02

3     cnblog       650         3       191         0 2019-11-22 23:00:15

4     juejin       272         3       -23         1 2019-11-22 23:00:02

..       ...       ...       ...       ...       ...                 ...

95      csdn      1492        88         0        13 2019-10-23 23:51:37

96    cnblog      1338         2       219         0 2019-10-22 23:33:33

97    juejin       204         1        -6         6 2019-10-22 23:18:19

98      csdn      1064        61      7094        18 2019-10-22 23:18:08

99    cnblog      -493         1        69         0 2019-10-21 22:38:32

[100 rows x 6 columns]

从结果的数据统计，可以看到我们成功的导入了前 100 行的数据，虽然行索引只有 99 ，是因为么我们 Excel 的头也占了一行。

指定导入列

有时候，我们的 Excel 中的列太多了，而我们处理的数据又不需要那么多列的时候，我们可以使用 usecols 来指定我们需要导入的列

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, usecols=[0, 1, 2])

print(df)

# 输出结果

    plantform  read_num  fans_num

0      cnblog       215         0

1      juejin       177         0

2        csdn      1652        69

3      cnblog       650         3

4      juejin       272         3

..        ...       ...       ...

403    juejin       212         0

404      csdn      1602         1

405    cnblog        19         0

406    juejin       125         1

407      csdn      1475         8

[408 rows x 3 columns]

注意这里的 usecols 的参数是一个数组，表示我们将要导入的列。

1.2 Excel导出

在做数据导出前，我们需要现有一份 DataFrame 数据，这里的数据小编偷懒，就直接读取之前示例中的 Excel 了，当然这么做并没有什么意义，仅用来演示导出数据。

在 Pandas 中导出 Excel 的时候，需要使用到的方法是 to_excel() 方法，在导出 Excel 文件的时候，一定要写对文件路径，我们在前面的文章中有介绍过文件路径的书写方法，直接上示例：

import pandas as pd

# 数据读取

df = pd.read_excel("table_join_exp.xlsx", sheet_name='Sheet1')

# 数据导出

df.to_excel(excel_writer=r'D:\Development\Projects\demo.xlsx')

我们来看下 to_excel() 这个方法的语法：DataFrame.to_excel(self, excel_writer, sheet_name='Sheet1', na_rep='', float_format=None,

columns=None, header=True, index=True, index_label=None, 
startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', 
verbose=True, freeze_panes=None) → None

to_excel() 这个方法中的参数还是比较多的，我们挑几个常用的介绍一下：

excel_writer ：文件路径或现有的ExcelWriter
sheet_name ：字符串，默认是 “Sheet1”
float_format ：格式化浮点数的字符串
header ：写出列名。如果给定字符串列表，则假定它是列名称的别名。
index ：写索引
columns ：设置要导出的列
encoding ：编码格式，一般我们选择 'utf-8' 。
na_rep ：缺失值处理
inf_rep ：无穷值的处理

接下来看示例，这个示例小编会尽量写得复杂一点，把我们上面的属性尽可能的都用上，并且标注好注释：

df.to_excel(excel_writer=r'D:\Development\Projects\demo.xlsx',

            sheet_name='测试文档', # 创建 sheet 名称

            index=False,  # 设置索引不显示

            columns=['编号', '姓名'],  # 设置要导出的列

            encoding='utf-8', # 设置编码格式

            na_rep='', # 缺失值处理

            inf_rep='inf'  # 无穷值处理

            )

示例代码与文件 https://github.com/meteor1993/python-learning/tree/master/python-data-analysis/pandas-demo

数据可视化基础专题（二）：Pandas基础（一） excel导入与导出的更多相关文章

HTML5大数据可视化效果（二）可交互地铁线路图
前言最近特别忙,承蒙大伙关照,3D机房的项目一个接着一个,领了一帮小弟,搞搞传帮带,乌飞兔走,转眼已经菊黄蟹肥……有个小弟很不错,勤奋好学,很快就把API都摸透了,自己折腾着做了个HTML5的魔都的 ...
[原创.数据可视化系列之二]使用cesium三维地图展示美国全球军事基地分布
基于浏览器的三维地图还算是一个比较高冷的东西,最主要的技术难点是如何在浏览器上多快好省的显示三维数据,很遗憾,还真的没有太好的的方案,只能说还有可行的方案. 很久之前用过skyline,使用CS居 ...
JavaScript数据可视化编程学习（一）Flotr2，包含简单的，柱状图，折线图，饼图，散点图
一.基础柱状图二.基础的折线图三.基础的饼图四.基础的散点图一.基础柱状图如果你还没有想好你的数据用什么类型的图表来展示你的数据,你应该首先考虑是否可以做成柱状图.柱状图可以表示数据的变化过 ...
前端er必须掌握的数据可视化技术
又是一月结束,打工人准时准点的汇报工作如期和大家见面啦.提到汇报,必不可少的一部分就是数据的汇总.分析. 作为一名合格的社会人,我们每天都在工作.生活.学习中和数字打交道.小到量化的工作内容,大到具体 ...
PHP导出excel文件，第二步先实现自写二维数组加入模板excel文件后导出
今天主要研究数据加入EXCEL并导出的问题,先不从数据库提取数据导出,自己先写一个二维数组,然后遍历二维数组写入excel模板中导出,首先根据模板excel的内容书写对应的二维数组 $arr=arra ...
数据可视化基础专题（三）：Pandas基础（二） csv导入与导出
1.csv导入 1.1 csv导入 .read_csv()函数 pandas.read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~Any ...
数据可视化-svg入门基础（二）
接上一篇:数据可视化-svg入门基础(一),基础一主要是介绍了svg概念,元素样式设置等. svg是(scalable vector graphic)伸缩矢量图像. 一.目录 (1)图形元素 (2)文 ...
数据可视化之powerBI基础（十二）PowerBI导入Excel数据有哪几种方式？
https://zhuanlan.zhihu.com/p/64999937 Excel作为使用最频繁.应用最广泛.用户最庞大的数据处理工具,当然也应该是PowerBI最常用的数据获取方式,本文介绍一下 ...
Python数据可视化基础讲解
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:爱数据学习社首先,要知道我们用哪些库来画图? matplotlib ...

随机推荐

使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据.我们可以很容易地在 Java 中使用 Kafka. Spark Streaming 是 Apache ...
c常用函数-strcpy和strncpy
strcpy和strncpy strcpy在脚本开发中经常用到,例如处理参数等,它的作用是把一个字符串复制到另一个字符串中. strncpy的作用是把一个字符串中的指定长度复制到另一个字符串中,如果指 ...
phpmyadmin系列渗透思路连载(一)
当拿到phpmyadin的站点后,我一般会尝试一下几种攻击手法: 1.通过弱口令进入后台,尝试into outfile写入一句话条件:(1)有写的权限 (2)知道web绝对路径 (3)w ...
java基础-java与c#的可变参数
正文可变参数,必须最为参数的最后一个参数:可变参数只能有一个: c#可变参数例子: class Program { static void Main(string[] args) { T ...
SQL注入之常用工具sqlmap
通常来说,验证一个页面是否存在注入漏洞比较简单,而要获取数据,扩大权限,则要输入很复杂的SQL语句,有时候我们还会对大量的URL进行测试,这时就需要用到工具来帮助我们进行注入了. 目前流行的注入工具有 ...
Mariadb之事务隔离级别
上一篇我们聊到了mariadb的锁,以及怎么手动加锁和解锁等等,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/13196905.html:今天我们来聊一聊mar ...
SpringBoot--swagger搭建、配置及使用
一. 作用: 1. 接口的文档在线自动生成. 2. 接口测试. 二.模块介绍 Swagger是一组开源项目,其中主要要项目及功能如下: 1.Swagger Codegen: 通过Codegen 可以将 ...
HDU3686 Traffic Real Time Query【缩点+lca】
题目 City C is really a nightmare of all drivers for its traffic jams. To solve the traffic problem, t ...
Python之浅谈绑定方法
目录绑定方法和非绑定方法绑定方法对象的绑定方法类的绑定方法非绑定方法总结绑定方法和非绑定方法类中定义的方法大致可以分为两类:绑定方法和非绑定方法.其中绑定方法又可以分为绑定到对象的方法 ...
SQL中的ON DUPLICATE KEY UPDATE使用详解
一:主键索引,唯一索引和普通索引的关系主键索引主键索引是唯一索引的特殊类型. 数据库表通常有一列或列组合,其值用来唯一标识表中的每一行.该列称为表的主键. 在数据库关系图中为表定义一个主键将自动创建 ...

数据可视化基础专题（二）：Pandas基础（一） excel导入与导出