（数据科学学习手札68）pandas中的categorical类型及应用

一、简介

　　categorical是pandas中对应分类变量的一种数据类型，与R中的因子型变量比较相似，例如性别、血型等等用于表征类别的变量都可以用其来表示，本文就将针对categorical的相关内容及应用进行介绍。

二、创建与应用

2.1 基本特性和适用场景

　　在介绍具体方法之前，我们需要对pandas数据类型中的categorical类型有一个了解，categorical类似R中的因子型变量，可以进行排序操作，但不可以进行数值运算操作，其顺序在其被定义的时候一同确定，而不是按照数字字母词法排序的顺序，其适用场景有如下几个：

　　1、具有少数几种可能取值并存在大量重复的字符串字段，利用categorical类型对其转换后可有效节省内存

　　2、字段的排序规则特殊，不遵循词法顺序时，可以利用categorical类型对其转换后得到用户所需的排序规则、

2.2 创建方式

　　pandas中创建categorical型数据主要有如下几种方式：

　　1、对于Series数据结构，传入参数dtype='category'即可：

#直接创建categorical型Series

series_cat = pd.Series(['B','D','C','A'], dtype='category')

#显示Series信息

series_cat

　　可以看到，series_cat的类型为category，但是没有声明顺序，这时若对Series排序，实际上还是按照词法的顺序：

series_cat.sort_values()

　　2、对于DataFrame，在定义数据之后转换类型：

#创建数据框

df_cat = pd.DataFrame({

    'V1':['A','C','B','D']

})

#转换指定列的数据类型为category

df_cat['V1'] = df_cat['V1'].astype('category')

df_cat['V1']

　　3、利用pd.Categorical()生成类别型数据后转换为Series，或替换DataFrame中的内容：

categorical_ = pd.Categorical(['A','B','D','C'],

                              categories=['A','B','C','D'])

series_cat = pd.Series(categorical_)

series_cat

categorical_ = pd.Categorical(['A','B','D','C'],

                              categories=['A','B','C','D'])

df_cat = pd.DataFrame({

    'V1':categorical_

})

df_cat['V1']

　　而pd.Categorical()独立创建categorical数据时有两个新的特性，一是其通过参数categories定义类别时，若原数据中出现了categories参数中没有的数据，则会自动转换为pd.nan：

categorical_ = pd.Categorical(['A','B','D','C'],

                              categories=['B','C','D'])

df_cat = pd.DataFrame({

    'V1':categorical_

})

df_cat['V1']

　　另外pd.Categorical()还有一个bool型参数ordered，设置为True时则会按照categories中的顺序定义从小到大的范围：

categorical_ = pd.Categorical(['A','B','D','C'],

                              categories=['A','B','C','D'],

                             ordered=True)

df_cat = pd.DataFrame({

    'V1':categorical_

})

df_cat['V1']

　　4、利用pandas.api.types中的CategoricalDtype()对已有数据进行转换

　　通过CategoricalDtype()，我们可以结合astype()完成从其他类型数据向categorical数据的转换过程，利用CategoricalDtype()的参数categories、ordered，弥补.astype('category')的短板（实际上.astype('category')等价于.astype(CategoricalDtype(categories=None, ordered=False))）:

from pandas.api.types import CategoricalDtype

#创建数据框

df_cat = pd.DataFrame({

    'V1':['A','C','B','D']

})

cat = CategoricalDtype(categories=['A','C','B'],

                      ordered=True)

df_cat['V1'] = df_cat['V1'].astype(cat)

df_cat['V1']

2.3 应用

　　categorical型数据主要应用于自定义排序，如下例，我们创建了一个包含字符型变量class和数值型变量value的数据框：

import numpy as np

df = pd.DataFrame({

    'class':np.random.choice(['A','B','C','D'],10),

    'value':np.random.uniform(0,10,10)

})

df.head()

　　如果按照class列排序得到的结果是按照字母自然顺序：

df.sort_values('class')

　　而通过将class列修改为自己定义的排序方式则得到的结果如下：

from pandas.api.types import CategoricalDtype

cat = CategoricalDtype(categories=['B','D','A','C'],

                      ordered=True)

df['class'] = df['class'].astype(cat)

df.sort_values('class')

　　若想要临时修改排序规则，可以使用.cat.reorder_categories()方法：

df['class'].cat.reorder_categories(['D','B','C','A'],

                                  ordered=True,

                                  inplace=True)#iinplace参数设置为True使得变动覆盖原数据

df.sort_values('class')

　　关于pandas中的categorical型数据还有很多的小技巧，因为不常用这里就不再赘述，感兴趣可以查看pandas的官方文档，以上就是本文的全部内容，如有笔误望指出！

（数据科学学习手札68）pandas中的categorical类型及应用的更多相关文章

（数据科学学习手札32）Python中re模块的详细介绍
一.简介关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...
（数据科学学习手札42）folium进阶内容介绍
一.简介在上一篇(数据科学学习手札41)中我们了解了folium的基础内容,实际上folium在地理信息可视化上的真正过人之处在于其绘制图像的高度可定制化上,本文就将基于folium官方文档中的一些 ...
（数据科学学习手札69）详解pandas中的map、apply、applymap、groupby、agg
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方 ...
（数据科学学习手札72）用pdpipe搭建pandas数据分析流水线
1 简介在数据分析任务中,从原始数据读入,到最后分析结果出炉,中间绝大部分时间都是在对数据进行一步又一步的加工规整,以流水线(pipeline)的方式完成此过程更有利于梳理分析脉络,也更有利于查错改 ...
（数据科学学习手札49）Scala中的模式匹配
一.简介 Scala中的模式匹配类似Java中的switch语句,且更加稳健,本文就将针对Scala中模式匹配的一些基本实例进行介绍: 二.Scala中的模式匹配 2.1 基本格式 Scala中模式匹 ...
（数据科学学习手札44）在Keras中训练多层感知机
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度 ...
（数据科学学习手札47）基于Python的网络数据采集实战（2）
一.简介马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集 ...
（数据科学学习手札40）tensorflow实现LSTM时间序列预测
一.简介上一篇中我们较为详细地铺垫了关于RNN及其变种LSTM的一些基本知识,也提到了LSTM在时间序列预测上优越的性能,本篇就将对如何利用tensorflow,在实际时间序列预测任务中搭建模型来完 ...
（数据科学学习手札80）用Python编写小工具下载OSM路网数据
本文对应脚本已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介我们平时在数据可视化或空间数据分析的过程中经常会 ...

随机推荐

Html5web全栈前端开发_angular框架
昵称领取全套angular视频教程一.Typescript typescript简称ts,是js语法的超集,很多js新的语法就借鉴了ts语法.ts是由微软团队维护的 1.1 TS简介 1.1.1 G ...
Spring Cloud 之 Gateway.
一.Gateway 和 Zuul 的区别 Zuul 基于servlet 2.5 (works with 3.x),使用阻塞API.它不支持任何长期的连接,如websocket. Gateway建立在S ...
Python基础总结之第九天开始【python之OS模块对目录的操作、以及操作文件】（新手可相互督促）
年薪20万的梦想... python对文件.目录能做什么?或者说我们需要python替我们做什么?最经常的操作就是对文件的:打开.关闭.读取.写入.修改.保存等等对目录的操作,无非就是 ...
【MySQL】Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and ...
线上遇到这个问题,详细信息如下: SQL state [HY000]; error code [1267]; Illegal mix of collations (utf8mb4_general_ci ...
Appium+python自动化（二十六）- 烟花一瞬，昙花一现 -Toats提示（超详解）
简介今天宏哥在这里首先给小伙伴们和童鞋们分享一个有关昙花的小典故:话说昙花原是一位花神,她每天都开花,四季都灿烂.她还爱上了每天给她浇水除草的年轻人.后来,此事给玉帝得知.于是,玉帝大发雷霆,要拆散 ...
cmd与monkey测试
monkey测试的相关命令 monkey是模拟用户触摸操作,不支持条件判断.monkey命令格式: 启动安卓模拟器/真机点击运行->输入cmd->进入命令行界面查看设备连接情况,ad ...
coffeescript 函数箭头表达式
函数 do可以形成闭包,使方法作用域不受外部变化的影响. 隐式返回最后一个表达式的值函数调用省略括号用arguments数组访问传递给函数的所有对象(低可读性) @name为this.name的简 ...
Java代码计算运行时间
突然想准确的测试一下Java代码的执行时间,在网上找了一会.发现基本有以下两种方法:第一种是以毫秒为单位计算的. Java代码 //伪代码 long startTime=System.currentT ...
Flink 从0到1学习—— 分享四本 Flink 国外的书和二十多篇 Paper 论文
前言之前也分享了不少自己的文章,但是对于 Flink 来说,还是有不少新入门的朋友,这里给大家分享点 Flink 相关的资料(国外数据 pdf 和流处理相关的 Paper),期望可以帮你更好的理解 ...
ImageView 使用详解
极力推荐文章:欢迎收藏 Android 干货分享阅读五分钟,每日十点,和您一起终身学习,这里是程序员Android 本篇文章主要介绍 Android 开发中的部分知识点,通过阅读本篇文章,您将收获以 ...

（数据科学学习手札68）pandas中的categorical类型及应用

（数据科学学习手札68）pandas中的categorical类型及应用的更多相关文章

随机推荐

热门专题