本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

　　毫无疑问pandas已经成为基于Python的数据分析领域最重要的包，而就在最近，pandas终于迎来了1.0.0版本，对于pandas来说这是一次更新是里程碑式的，删除了很多旧版本中臃肿的功能，新增了一些崭新的特性，更加专注于高效实用的数据分析，本文就将针对pandas 1.0.0在笔者眼中比较重要的特性进行介绍，对于想要完整彻底了解新版本特性的朋友可以直接去看官方文档。

图1

2 pandas 1.0.0中的新特性

　　由于1.0.0并不作为正式版发布，因此要安装它需要指定版本（请注意，pandas 1.0.0目前只支持Python 3.6.1及以上版本）：

pip install --upgrade pandas==1.0.0rc0

　　成功安装后，让我们来体验一下全新版本的pandas给我们带来了哪些令人兴奋的功能吧。

2.1 新增StringDtype数据类型

　　一直以来，pandas中的字符串类型都是用object来存储的，这次更新带来的新的更有针对性的StringDtye主要是为了解决如下问题：

　　object类型对于字符串与非字符串混合的数据无差别的统一存储为一个类型，而现在的StringDtype则只允许存储字符串对象

　　我们通过下面的例子更好的理解这个新特性，首先我们在excel中创建如下的表格（图2），其包含两列V1和V2，且V1中的元素并不是纯粹的字符串，混杂了数字，而V2则为纯粹的字符串列：

图2

　　在jupyter lab中我们首先读入该数据并查看其具体信息：

# 读入StringDtype_test.xlsx并查看其具体信息

StringDtype_test = pd.read_excel('StringDtype test.xlsx')

StringDtype_test.info()

图3

　　可以看到在数据读入阶段两列都被当作object型，接下来我们使用astype方法分别对两列强制转换类型为string，看看在我们的新版本中会发生什么（注意，在1.0.0版本中StringDtype的简称为string）：

# 对V1进行强制类型

StringDtype_test['V1'].astype('string')

图4

　　可以看到，运行这段代码后抛出了对应的错误，因为StringDtype只允许字符串出现，包含数字1的V1便被拒绝转换为string型，而对于V2：

# 对V2进行强制类型

StringDtype_test['V2'].astype('string')

图5

　　则正常完成了数据类型的转换，而pandas中丰富的字符串方法对新的string同样适用，譬如英文字母大写化：

StringDtype_test['V2'].astype('string').str.upper()

图6

2.2 markdown表格导出

　　在新版本的pandas中新增了一个很有意思的方法to_markdown()，通过它我们可以将表格导出为markdown格式，下面是一个例子：

df = pd.DataFrame({"A": [1, 2, 3], "B": [1, 2, 3]}, index=['a', 'a', 'b'])

# 导出为markdown表格字符串

print(df.to_markdown())

图7

　　下面的表格就是我直接将图7中打印出的markdown格式表格放到编辑器中再修改了表格居中的效果，只要你的编辑器支持markdown格式，就可以这样方便地生成表格：

	A	B
a	1	1
a	2	2
b	3	3

2.3 新增ignore_index参数

　　我们在过去版本对DataFrame或Series按列使用sort_values()、按index使用sort_index()排序或使用drop_duplicates()去除数据框中的重复值时，经常会发现处理后的结果index随着排序或行的删除而被打乱，在index无意义时我们需要使用reset_index()方法对结果的index进行重置，而在新版本的pandas中，为sort_values()、sort_index()以及drop_duplicates()引入了新参数ignore_index()，这是一个bool型变量，默认值为False，当被设置为True时，排序后结果的index会被自动重置：

df = pd.DataFrame({

    'V1': [_ for _ in range(5)],

})

# ignore_index设置为False

df.sort_values(by='V1', ignore_index=False, ascending=False)

　　这时因为ignore_index参数设置为False，排序后的结果index未被重置：

图8

　　接下来设置ignore_index参数为True：

# ignore_index设置为True

df.sort_values(by='V1', ignore_index=True, ascending=False)

　　这时返回的结果就已经被重置了index：

图9

　　sort_index()和drop_duplicates()效果同上，不重复展示。

2.4 美化info()输出

　　新版本的pandas对DataFrame.info()输出内容进行了美化，增强了使用体验：

df = pd.DataFrame({"int_col": [1, 2, 3],

                   "text_col": ["a", "b", "c"],

                   "float_col": [0.0, 0.1, 0.2]})

df.info()

图10

　　还有很多更新内容，比如为rolling.apply()新增了参数engine，以使用numba后端极大提升numpy相关运算速度等，这里就不再赘述，感兴趣的读者可以前往 https://pandas.pydata.org/pandas-docs/version/1.0.0/whatsnew/v1.0.0.html

　　以上就是本文的全部内容，如有笔误望指出！

（数据科学学习手札73）盘点pandas 1.0.0中的新特性的更多相关文章

（数据科学学习手札131）pandas中的常用字符串处理方法总结
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在日常开展数据分析的过程中,我们经常需要对 ...
（数据科学学习手札124）pandas 1.3版本主要更新内容一览
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介就在几天前,pandas发布了其1.3版本 ...
（数据科学学习手札52）pandas中的ExcelWriter和ExcelFile
一.简介 pandas中的ExcelFile()和ExcelWriter(),是pandas中对excel表格文件进行读写相关操作非常方便快捷的类,尤其是在对含有多个sheet的excel文件进行操控 ...
（数据科学学习手札68）pandas中的categorical类型及应用
一.简介 categorical是pandas中对应分类变量的一种数据类型,与R中的因子型变量比较相似,例如性别.血型等等用于表征类别的变量都可以用其来表示,本文就将针对categorical的相关内 ...
（数据科学学习手札57）用ggplotly()美化ggplot2图像
一.简介经常利用Python进行数据可视化的朋友一定用过或听说过plotly这样的神器,我在(数据科学学习手札43)Plotly基础内容介绍中也曾做过非常详细的介绍,其渲染出的图像以浏览器为载体,非 ...
（数据科学学习手札69）详解pandas中的map、apply、applymap、groupby、agg
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方 ...
（数据科学学习手札72）用pdpipe搭建pandas数据分析流水线
1 简介在数据分析任务中,从原始数据读入,到最后分析结果出炉,中间绝大部分时间都是在对数据进行一步又一步的加工规整,以流水线(pipeline)的方式完成此过程更有利于梳理分析脉络,也更有利于查错改 ...
（数据科学学习手札47）基于Python的网络数据采集实战（2）
一.简介马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集 ...
（数据科学学习手札40）tensorflow实现LSTM时间序列预测
一.简介上一篇中我们较为详细地铺垫了关于RNN及其变种LSTM的一些基本知识,也提到了LSTM在时间序列预测上优越的性能,本篇就将对如何利用tensorflow,在实际时间序列预测任务中搭建模型来完 ...

随机推荐

Linux 内核 PCI 总线
任何在 PCI 总线上的设备有参数 name 和 SUBSYSTEM 环境变量设置为值 pci. PCI 子系统也一直添加下面 4 个环境变量: PCI_CLASS 设备的 PCI 类号, 16 进 ...
thinter图形开发界面
tkinter编程步骤导入Tkinter 创建控件 import thinter 创建主窗口 #win = tkinter.Tk() 设置标题 win.title("xiaoxin&quo ...
Vasya and a Tree CodeForces - 1076E (线段树 + dfs)
题面 Vasya has a tree consisting of n vertices with root in vertex 1. At first all vertices has 0 writ ...
Servlet 会话
在网络的七层模型中,会话层位于传输层之上,它定义如何开始.控制和结束一个会话.七层模式目前仅仅处于理论阶段,但是Web中借鉴了其中的一些思路.在Web中浏览器第一次发送请求到服务器开始直到一方断开为止 ...
boostrap-非常好用但是容易让人忽略的地方【1】：modal
使用bootstrap框架好久了,在开发中也用到了或者遇到了很多的问题,所以跟大家分享一下 bootstrap modal 组件的样式 .modal-lg .modal-sm 说明:这个是bootst ...
利用Redis实现集群或开发环境下SnowFlake自动配置机器号
前言: SnowFlake 雪花ID 算法是推特公司推出的著名分布式ID生成算法.利用预先分配好的机器ID,工作区ID,机器时间可以生成全局唯一的随时间趋势递增的Long类型ID.长度在17-19位. ...
机器学习回顾篇（12）：集成学习之Bagging与随机森林
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
ansible批量部署nginx
1.1 将nginx的安装包,和安装脚本copy到客户端,并安装脚本 vim /ansible/roles/nginx/tasks/main.yml - name: copy nginx_tar_gz ...
Java实现上传文件到指定服务器指定目录
前言需求使用freemarker生成的静态文件,统一存储在某个服务器上.本来一开始打算使用ftp实现的,奈何老连接不上,改用jsch.毕竟有现成的就很舒服,在此介绍给大家. 具体实现引入的pom ...
《算法笔记》之基础C/C++进阶
这一次主要讲C++不同于C的地方:类. 1.类的定义定义一个类,本质上是定义一个数据类型的蓝图.这实际上并没有定义任何数据,但它定义了类的名称意味着什么,也就是说,它定义了类的对象包括了什么,以及可 ...

（数据科学学习手札73）盘点pandas 1.0.0中的新特性