简介

如果数据中有很多NaN的值，存储起来就会浪费空间。为了解决这个问题，Pandas引入了一种叫做Sparse data的结构，来有效的存储这些NaN的值。

Spare data的例子

我们创建一个数组，然后将其大部分数据设置为NaN，接着使用这个数组来创建SparseArray：

In [1]: arr = np.random.randn(10)

In [2]: arr[2:-2] = np.nan

In [3]: ts = pd.Series(pd.arrays.SparseArray(arr))

In [4]: ts

Out[4]:

0    0.469112

1   -0.282863

2         NaN

3         NaN

4         NaN

5         NaN

6         NaN

7         NaN

8   -0.861849

9   -2.104569

dtype: Sparse[float64, nan]

这里的dtype类型是Sparse[float64, nan]，它的意思是数组中的nan实际上并没有存储，只有非nan的数据才被存储，并且这些数据的类型是float64.

SparseArray

arrays.SparseArray 是一个 ExtensionArray ，用来存储稀疏的数组类型。

In [13]: arr = np.random.randn(10)

In [14]: arr[2:5] = np.nan

In [15]: arr[7:8] = np.nan

In [16]: sparr = pd.arrays.SparseArray(arr)

In [17]: sparr

Out[17]:

[-1.9556635297215477, -1.6588664275960427, nan, nan, nan, 1.1589328886422277, 0.14529711373305043, nan, 0.6060271905134522, 1.3342113401317768]

Fill: nan

IntIndex

Indices: array([0, 1, 5, 6, 8, 9], dtype=int32)

使用 numpy.asarray() 可以将其转换为普通的数组：

In [18]: np.asarray(sparr)

Out[18]:

array([-1.9557, -1.6589,     nan,     nan,     nan,  1.1589,  0.1453,

           nan,  0.606 ,  1.3342])

SparseDtype

SparseDtype 表示的是Spare类型。它包含两种信息，第一种是非NaN值的数据类型，第二种是填充时候的常量值，比如nan：

In [19]: sparr.dtype

Out[19]: Sparse[float64, nan]

可以像下面这样构造一个SparseDtype：

In [20]: pd.SparseDtype(np.dtype('datetime64[ns]'))

Out[20]: Sparse[datetime64[ns], NaT]

可以指定填充的值：

In [21]: pd.SparseDtype(np.dtype('datetime64[ns]'),

   ....:                fill_value=pd.Timestamp('2017-01-01'))

   ....:

Out[21]: Sparse[datetime64[ns], Timestamp('2017-01-01 00:00:00')]

Sparse的属性

可以通过 .sparse 来访问sparse：

In [23]: s = pd.Series([0, 0, 1, 2], dtype="Sparse[int]")

In [24]: s.sparse.density

Out[24]: 0.5

In [25]: s.sparse.fill_value

Out[25]: 0

Sparse的计算

np的计算函数可以直接用在SparseArray中，并且会返回一个SparseArray。

In [26]: arr = pd.arrays.SparseArray([1., np.nan, np.nan, -2., np.nan])

In [27]: np.abs(arr)

Out[27]:

[1.0, nan, nan, 2.0, nan]

Fill: nan

IntIndex

Indices: array([0, 3], dtype=int32)

SparseSeries 和 SparseDataFrame

SparseSeries 和 SparseDataFrame在1.0.0 的版本时候被删除了。取代他们的是功能更强的SparseArray。

看下两者的使用上的区别：

# Previous way

>>> pd.SparseDataFrame({"A": [0, 1]})

# New way

In [31]: pd.DataFrame({"A": pd.arrays.SparseArray([0, 1])})

Out[31]:

   A

0  0

1  1

如果是SciPy 中的sparse 矩阵，那么可以使用 DataFrame.sparse.from_spmatrix() ：

# Previous way

>>> from scipy import sparse

>>> mat = sparse.eye(3)

>>> df = pd.SparseDataFrame(mat, columns=['A', 'B', 'C'])

# New way

In [32]: from scipy import sparse

In [33]: mat = sparse.eye(3)

In [34]: df = pd.DataFrame.sparse.from_spmatrix(mat, columns=['A', 'B', 'C'])

In [35]: df.dtypes

Out[35]:

A    Sparse[float64, 0]

B    Sparse[float64, 0]

C    Sparse[float64, 0]

dtype: object

本文已收录于 http://www.flydean.com/13-python-pandas-sparse-data/

最通俗的解读，最深刻的干货，最简洁的教程，众多你不知道的小技巧等你来发现！

Pandas高级教程之:稀疏数据结构的更多相关文章

Pandas高级教程之:GroupBy用法
Pandas高级教程之:GroupBy用法目录简介分割数据多index get_group dropna groups属性 index的层级 group的遍历聚合操作通用聚合方法同时使用 ...
Pandas高级教程之:Dataframe的合并
目录简介使用concat 使用append 使用merge 使用join 覆盖数据简介 Pandas提供了很多合并Series和Dataframe的强大的功能,通过这些功能可以方便的进行数据分析 ...
Pandas高级教程之:处理text数据
目录简介创建text的DF String 的方法 columns的String操作分割和替换String String的连接使用 .str来index extract extractall c ...
Pandas高级教程之:处理缺失数据
目录简介 NaN的例子整数类型的缺失值 Datetimes 类型的缺失值 None 和 np.nan 的转换缺失值的计算使用fillna填充NaN数据使用dropna删除包含NA的数据插值 ...
Pandas高级教程之:category数据类型
目录简介创建category 使用Series创建使用DF创建创建控制转换为原始类型 categories的操作获取category的属性重命名categories 使用add_cate ...
Pandas高级教程之:plot画图详解
目录简介基础画图其他图像 bar stacked bar barh Histograms box Area Scatter Hexagonal bin Pie 在画图中处理NaN数据其他作图工 ...
Pandas高级教程之:统计方法
目录简介变动百分百 Covariance协方差 Correlation相关系数 rank等级简介数据分析中经常会用到很多统计类的方法,本文将会介绍Pandas中使用到的统计方法. 变动百分百 ...
Pandas高级教程之:window操作
目录简介滚动窗口 Center window Weighted window 加权窗口扩展窗口指数加权窗口简介在数据统计中,经常需要进行一些范围操作,这些范围我们可以称之为一个window ...
Pandas高级教程之:自定义选项
目录简介常用选项 get/set 选项经常使用的选项最大展示行数超出数据展示最大列的宽度显示精度零转换的门槛列头的对齐方向简介 pandas有一个option系统可以控制panda ...

随机推荐

[leetcode] 33. 搜索旋转排序数组(Java)
33. 搜索旋转排序数组说实话这题我连题都没有看懂....真是醉了二分,没意思,直接交了- - https://www.jiuzhang.com/solutions/search-in-rotat ...
书列荐书 |《滚雪球：巴菲特和他的财富人生》【美】艾丽斯·施罗德著
一开始听说这本书比较不错,但是比较搞笑的是,我买了之后才发现还有个下册.于是我决定把书退回去,并用了两天的时间把它给看完了..基本看的差不多了. 沃伦·巴菲特从上小学,初中,高中就已经变得有经济头脑了 ...
使用shell脚本循环处理文本
公司是使用puppet来进行配置管理, 某天修改完puppet后领导回复: 我们有一个文档cabinet.txt记录了物理机器所在的机柜, 除了文档里的其他机器都是虚拟机或云服务器, 对虚拟机的pup ...
YOLO v1到YOLO v4（下）
YOLO v1到YOLO v4(下) Faster YOLO使用的是GoogleLeNet,比VGG-16快,YOLO完成一次前向过程只用8.52 billion 运算,而VGG-16要30.69bi ...
Python神经网络集成技术Guide指南
Python神经网络集成技术Guide指南本指南将介绍如何加载一个神经网络集成系统并从Python运行推断. 提示所有框架的神经网络集成系统运行时接口都是相同的,因此本指南适用于所有受支持框架(包 ...
使用Nucleus SE实时操作系统
使用Nucleus SE实时操作系统 Using the Nucleus SE real-time operating system 到目前为止,在本系列文章中,我们详细介绍了Nucleus SE提供 ...
「题解」PA2019 Terytoria
本文将同步发布于: 洛谷博客: csdn: 博客园: 因为简书系统升级,所以本文未在简书上发布. 题目题目链接:洛谷 P5987.LOJ 3320.官网. 题意概述在二维平面直角坐标系上,有一个长 ...
RF中在测试用例集上设置标签
1.有时候我们在执行测试用例时只想执行部分测试用例集下面的测试用例,这时可以在相应的测试用例集中设置标签,然后运行时选择标签执行对应的测试用例语法: *** Settings *** Force T ...
k8s-记一次安全软件导致镜像加载失败
近期在现场项目中遇到了一个镜像加载失败的问题,相关报错如下: Error processing tar file(exit status 1): symlink . /usr/bin/X11: per ...
【模拟7.22】visit(卢卡斯定理&&中国剩余定理)
如此显然的组合数我把它当DP做,我真是.... 因为起点终点已经确定,我们发现如果我们确定了一个方向的步数其他方向也就确定了组合数做法1: 设向右走了a步,然后向左走了b=a-n步,设向上为c,向下 ...

Pandas高级教程之:稀疏数据结构

简介