pandas知识点（处理缺失数据）

pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据：

In [14]: string_data = Series(['aardvark','artichoke',np.nan,'avocado'])

In [15]: string_data

Out[15]:

0     aardvark

1    artichoke

2          NaN

3      avocado

dtype: object

In [16]: string_data.isnull()

Out[16]:

0    False

1    False

2     True

3    False

dtype: bool

python内置的None值也会被当作NA处理：

In [17]: string_data[0] = None

In [18]: string_data.isnull()

Out[18]:

0     True

1    False

2     True

3    False

dtype: bool

1.滤除缺失数据

dropna用于返回一个仅含非空数据和索引值的Series：

In [20]: data = Series([1,NA,3.5,NA,7])

In [21]: data.dropna()

Out[21]:

0    1.0

2    3.5

4    7.0

dtype: float64

通过布尔型索引亦可以：

In [22]: data[data.notnull()]

Out[22]:

0    1.0

2    3.5

4    7.0

dtype: float64

对于DataFrame，dropna默认丢弃含有缺失值的行

In [23]: data = DataFrame([[1.,6.5,3.],[1.,NA,NA],[NA,NA,NA],[NA,6.5,3.]])

In [24]: cleaned = data.dropna()

In [25]: data

Out[25]:

     0    1    2

0  1.0  6.5  3.0

1  1.0  NaN  NaN

2  NaN  NaN  NaN

3  NaN  6.5  3.0

In [26]: cleaned

Out[26]:

     0    1    2

0  1.0  6.5  3.0

传入how="all"丢弃全为NaN的行：

In [27]: data.dropna(how="all")

Out[27]:

     0    1    2

0  1.0  6.5  3.0

1  1.0  NaN  NaN

3  NaN  6.5  3.0

丢弃含有NaN的列：

In [28]: data[4] = NA

In [29]: data

Out[29]:

     0    1    2   4

0  1.0  6.5  3.0 NaN

1  1.0  NaN  NaN NaN

2  NaN  NaN  NaN NaN

3  NaN  6.5  3.0 NaN

In [30]: data.dropna(axis=1,how="all")

Out[30]:

     0    1    2

0  1.0  6.5  3.0

1  1.0  NaN  NaN

2  NaN  NaN  NaN

3  NaN  6.5  3.0

thresh可以选择过滤含有多少有用数据的行

In [41]: df

Out[41]:

          0         1         2

0 -0.184676       NaN       NaN

1  0.565214       NaN       NaN

2  0.440203       NaN       NaN

3  0.188283       NaN  0.146847

4  1.696903       NaN  0.554640

5 -1.287915  0.139527 -0.494558

6  0.854922  0.299511  0.773247

In [42]: df.dropna(thresh=2)  # thresh=2表示至少有两个非空数据

Out[42]:

          0         1         2

3  0.188283       NaN  0.146847

4  1.696903       NaN  0.554640

5 -1.287915  0.139527 -0.494558

6  0.854922  0.299511  0.773247

In [43]: df.dropna(thresh=1)

Out[43]:

          0         1         2

0 -0.184676       NaN       NaN

1  0.565214       NaN       NaN

2  0.440203       NaN       NaN

3  0.188283       NaN  0.146847

4  1.696903       NaN  0.554640

5 -1.287915  0.139527 -0.494558

6  0.854922  0.299511  0.773247

2.填充缺失数据

fillna是最主要的填充缺省数据的方法：

In [9]: df.fillna(0)

Out[9]:

          0         1         2

0  0.863556  0.000000  0.000000

1 -0.099558  0.000000  0.000000

2 -0.605804  0.000000  0.000000

3 -0.934688  0.000000 -1.198976

4  0.741383  0.000000  0.229845

5 -1.415495  0.511485 -0.086808

6 -0.748325  0.437964 -2.458319

通过字典调用fillna可以实现不同列填充不同值：

In [11]: df.fillna({1:0.5,2:-1})

Out[11]:

          0         1         2

0  0.863556  0.500000 -1.000000

1 -0.099558  0.500000 -1.000000

2 -0.605804  0.500000 -1.000000

3 -0.934688  0.500000 -1.198976

4  0.741383  0.500000  0.229845

5 -1.415495  0.511485 -0.086808

6 -0.748325  0.437964 -2.458319

pandas知识点（处理缺失数据）的更多相关文章

利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
pandas 4 处理缺失数据nan
from __future__ import print_function import pandas as pd import numpy as np np.random.seed(1) dates ...
Pandas汇总和处理缺失数据
汇总的函数方法说明 count 非NA的值数量 describe 针对Series和DataFrame列计算汇总统计 min.max 计算最小值和最大值 argmin.argmax 计算能够获取到 ...
Pandas之Dropna滤除缺失数据
import pandas as pd import numpy as np from numpy import nan as NaN 一.处理Series对象通过dropna()滤除缺失数据 fr ...
pandas（五）处理缺失数据和层次化索引
pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据.它只是一个便于被检测的标记而已. >>> string_data = Series(['aardvark','artich ...
机器学习-Pandas 知识点汇总(吐血整理)
Pandas是一款适用很广的数据处理的组件,如果将来从事机械学习或者数据分析方面的工作,咱们估计70%的时间都是在跟这个框架打交道.那大家可能就有疑问了,心想这个破玩意儿值得花70%的时间吗?咱不是还 ...
Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
Python数据分析--Pandas知识点(二)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算新建一个数据表 ...
利用Python进行数据分析-Pandas(第五部分-数据规整：聚合、合并和重塑)
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析.本部分关注可以聚合.合并.重塑数据的方法. 1.层次化索引层次化索引(hierarchical indexing)是panda ...

随机推荐

Unity Download Assistant Error： 'SendRequest Error' while downloading ini file from http://files.unity3d.com/bootstrapper/29055738eb78/unity-5.3.6f1-win.ini
Unity 官网的哥们如此说道 I open the exe on Compatibility Mode , it's solved. You can try. :) 翻译就是我用兼容模式打开,就能 ...
全栈工程师，也叫全端工程师，英文FullStackdevelopver。是指掌握多种技能，并能利用多种技能独立完成产品的人。
全栈工程师的发展在系统全面的大公司,全栈工程师并没有一个稳定的发展职位.我无比赞同知乎那个帖子里面这样的一句话: 一个真正的全栈工程师,目标只有一个:创业. 听起来有些悲凉,但事实就是如此.任何一个 ...
[Freemarker] 在Java中简单实现对Freemarker的引用
Demo目录结构 ├─src │ ├─main │ │ ├─java │ │ │ └─demo │ │ │ └─freemarker │ │ │ ├─main │ │ │ │ Test.java │ ...
chroot 的应用
http://www.williamlong.info/archives/3864.html http://my.oschina.net/u/1590519/blog/342576
rmtree函数
blog.csdn.net/my2010sam/article/details/8956353
zip man man.config
zip man man.config zip -r zip1 man.config man.zip gzip a tar -cvf test.tar /home/* tar -tf test.tar ...
SQLServer从其他表获取的数据更新该表的一部分
在网上常见的是update a set username = username FROM b on a.userid=b.userid,该更新语句是对a表中所有行进行更新.如果只更新一部 ...
解决mysql连接输入密码提示Warning: Using a password on the command line interface can be insecure
有时候客户端连接mysql需要指定密码时(如用zabbix监控mysql)5.6后数据库会给出个警告信息 mysql -uroot -pxxxx Warning: Using a password o ...
ASP.net Session阻塞、Session锁、MVC Action请求阻塞问题
会话Session Session用于服务器端状态管理,使用Session之后,每个客户端都可以将实际的数据保存在服务器上,对于每个客户端的数据,将会生成一个对应的唯一的key(保存在客户端).客户端 ...
关于mongodb的日志
mongodb的日志与profile相似,在启动mongod时可以用verbose这个参数配置他的日志详细程度,分为一个v到5个v,其中v越多,详细度越高 mogod.conf port = d ...

pandas知识点（处理缺失数据）

pandas知识点（处理缺失数据）的更多相关文章

随机推荐

热门专题