Pandas系列（五）-分类数据处理

内容目录

1. 创建对象
2. 常用操作
3. 内存使用量的陷阱

一、创建对象

1.基本概念：分类数据直白来说就是取值为有限的，或者说是固定数量的可能值。例如：性别、血型。
2.创建分类数据：这里以血型为例，假定每个用户有以下的血型，我们如何创建一个关于血型的分类对象呢？

方法一：明确指定 dtype="category"

index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

user_info = pd.Series(data=["A", "AB", np.nan, "AB", "O", "B"], index=index, name="blood_type", dtype="category")

user_info

Out[6]:

name

Tom        A

Bob       AB

Mary     NaN

James     AB

Andy       O

Alice      B

Name: blood_type, dtype: category

Categories (4, object): [A, AB, B, O]

方法二：使用 pd.Categorical 来构建分类数据。

pd.Categorical(["A", "AB", np.nan, "AB", "O", "B"])

Out[7]:

[A, AB, NaN, AB, O, B]

Categories (4, object): [A, AB, B, O]

3.自己制定类别数据所有可能的取值。

假定我们认为血型只有 A、B 以及 AB 这三类，那么我们可以这样操作。

#定制分类数据所有可能的取值

pd.Categorical(["A", "AB", np.nan, "AB", "O", "B"], categories=["A", "B", "AB"])

Out[8]:

[A, AB, NaN, AB, NaN, B]

Categories (3, object): [A, B, AB]

4.Series转为分类数据，astype

#将遗传序列转化为分类数据

user_info = pd.Series(data=["A", "AB", np.nan, "AB", "O", "B"], index=index, name="blood_type")

user_info = user_info.astype("category")

user_info

Out[9]:

name

Tom        A

Bob       AB

Mary     NaN

James     AB

Andy       O

Alice      B

Name: blood_type, dtype: category

Categories (4, object): [A, AB, B, O]

5.此外，一些其他的方法返回的结果也是分类数据。如 cut 、 qcut。具体可以见 Pandas基本功能详解中的离散化部分。

二、常用操作

可以对分类数据使用 .describe() 方法，它得到的结果与 string类型的数据相同。

count 表示非空的数据有5条，unique 表示去重后的非空数据有4条，top 表示出现次数最多的值为 AB，

freq 表示出现次数最多的值的次数为2次。

我们可以使用 .cat.categories 来获取分类数据所有可能的取值。

重命名分类数据：cat.rename_categories

添加分类数据：.cat.add_categories

删除分类数据：.cat.remove_categories

查看数据分布：.value_counts()

通过.str访问

合并数据，用concat,类型变为object

保留分类数据类型,union_categoricals

user_info.describe()

Out[86]:

count      5

unique     4

top       AB

freq       2

Name: blood_type, dtype: object

user_info.cat.rename_categories(["A+", "AB+", "B+", "O+"])

Out[87]:

name

Tom       A+

Bob      AB+

Mary     NaN

James    AB+

Andy      O+

Alice     B+

Name: blood_type, dtype: category

Categories (4, object): [A+, AB+, B+, O+]

user_info.str.contains('A')

Out[88]:

name

Tom       True

Bob       True

Mary       NaN

James     True

Andy     False

Alice    False

Name: blood_type, dtype: object

#合并数据

blood_type1 = pd.Categorical(["A", "AB"])

blood_type2 = pd.Categorical(["B", "O"])

pd.concat([pd.Series(blood_type1), pd.Series(blood_type2)])

Out[89]:

0     A

1    AB

0     B

1     O

dtype: object

#保留分类数据

from pandas.api.types import union_categoricals

union_categoricals([blood_type1, blood_type2])

Out[90]:

[A, AB, B, O]

Categories (4, object): [A, AB, B, O]

　cat所有属性

[name for name in user_info.cat.__dir__() if not name.startswith('_')]

Out[92]:

['add_categories',

 'as_ordered',

 'as_unordered',

 'categories',

 'codes',

 'ordered',

 'remove_categories',

 'remove_unused_categories',

 'rename_categories',

 'reorder_categories',

 'set_categories']

三、内存使用量的陷阱

Categorical 的内存使用量是与分类数乘以数据长度成正比，object 类型的数据是一个常数乘以数据的长度。

blood_type = pd.Series(["AB","O"]*1000)

blood_type.nbytes

Out[79]: 16000

blood_type.astype("category").nbytes

Out[80]: 2016

blood_type = pd.Series(['AB%4d' % i for i in range(2000)])

blood_type.nbytes

Out[81]: 16000

blood_type.astype("category").nbytes

Out[82]: 20000

Pandas系列（五）-分类数据处理的更多相关文章

Pandas系列之入门篇
Pandas系列之入门篇简介 pandas 是 python用来数据清洗.分析的包,可以使用类sql的语法方便的进行数据关联.查询,属于内存计算范畴, 效率远远高于硬盘计算的数据库存储.另外pand ...
Bing Maps进阶系列五：通过DeepEarth的MiniMap控件为Bing Maps扩展迷你小地图
Bing Maps进阶系列五:通过DeepEarth的MiniMap控件为Bing Maps扩展迷你小地图 Bing Maps Silverlight Control虽然为我们提供了简洁.方便的开发模 ...
Hexo系列(五) 撰写文章
在利用 Hexo 框架搭建一个属于我们自己的博客网站后,下面我们就来谈谈怎样在网站上书写我们的第一篇博客吧一.创建文章在站点文件夹中打开 git bash,输入如下命令创建文章,其中 title ...
CSS 魔法系列：纯 CSS 绘制各种图形《系列五》
我们的网页因为 CSS 而呈现千变万化的风格.这一看似简单的样式语言在使用中非常灵活,只要你发挥创意就能实现很多比人想象不到的效果.特别是随着 CSS3 的广泛使用,更多新奇的 CSS 作品涌现出来. ...
Netty4.x中文教程系列(五)编解码器Codec
Netty4.x中文教程系列(五)编解码器Codec 上一篇文章详细解释了ChannelHandler的相关构架设计,版本和设计逻辑变更等等. 这篇文章主要在于讲述Handler里面的Codec,也就 ...
WCF编程系列(五)元数据
WCF编程系列(五)元数据示例一中我们使用了scvutil命令自动生成了服务的客户端代理类: svcutil http://localhost:8000/?wsdl /o:FirstServic ...
JVM系列五:JVM监测&工具
JVM系列五:JVM监测&工具[整理中] http://www.cnblogs.com/redcreen/archive/2011/05/09/2040977.html 前几篇篇文章介绍了介 ...
SQL Server 2008空间数据应用系列五：数据表中使用空间数据类型
原文:SQL Server 2008空间数据应用系列五:数据表中使用空间数据类型友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft SQL Server 2008 R2调测 ...
VSTO之旅系列(五)：创建Outlook解决方案
原文:VSTO之旅系列(五):创建Outlook解决方案本专题概要引言 Outlook对象模型自定义Outlook窗体小结一.引言在上一个专题中,为大家简单介绍了下如何创建Word解决方案 ...
系列五AnkhSvn
原文:系列五AnkhSvn AnkhSvn介绍 AnkhSVN是一款在VS中管理Subversion的插件,您可以在VS中轻松的提交.更新.添加文件,而不用在命令行或资源管理器中提交.而且该插件属于开 ...

随机推荐

win10 家庭版不支持gpedit.msc的解决办法
win10 家庭版不支持gpedit.msc的解决办法 1.建立一个批处理文件内容如下: @echo off pushd "%~dp0" dir /b %systemroot%\W ...
LeetCode算法题-Baseball Game（Java实现）
这是悦乐书的第288次更新,第305篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第156题(顺位题号是682).你现在是棒球比赛点记录器.给定一个字符串列表,每个字符串 ...
用CMD打开chrome并导航到百度(golang)
首选在cmd中输入(注意:根据你的电脑路径修改,可能是Progra~1): C:\Progra~\Google\Chrome\Application\chrome.exe www.baidu.com ...
JS 禁止Ctrl+C + 禁止右键操作
<script type="text/javascript"> document.oncontextmenu = new Function("return f ...
docker 在centos6 和centos7上的区别
这些天研究了下docker,在centos6.6上装了个docker1.7.1,在centos7.6上装了个docker18.09.0 两者还是有区别的. 1.配置docker国内镜像加速 Dock ...
想要开发自己的PHP框架需要那些知识储备？
作者:安正超链接:https://www.zhihu.com/question/26635323/answer/33812516来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明 ...
JDBC连接池之C3P0
1.导入jar包 c3p0-0.9.1.jar mchange-commons-java-0.2.3.4(注:该jar包是c3p0数据库连接池的辅助包,没有这个包系统启动的时候会报classnotfo ...
如何在网中使用百度地图API自定义个性化地图
<!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <m ...
AngularJS 1.x系列：AngularJS服务-Service、Factory、Provider、Value及Constant（5）
1. AngularJS服务 AngularJS可注入类型包括:Service.Factory.Provider.Value及Constant. 2. Service AngularJS Servic ...
Python——OS模块
OS模块 OS模块 #os模块就是对操作系统进行操作,使用该模块必须先导入模块: import os #getcwd() 获取当前工作目录(当前工作目录默认都是当前文件所在的文件夹) result = ...

Pandas系列（五）-分类数据处理

一、创建对象

二、常用操作

三、内存使用量的陷阱

Pandas系列（五）-分类数据处理的更多相关文章

随机推荐

热门专题