Python数据分析（二）pandas缺失值处理

import pandas as pd

import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',

'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print(df)

print('################缺失值判断######################')

print('--------Series的缺失值判断---------')

print (df['one'].isnull())
'''

--------Series的缺失值判断---------

a    False

b     True

c    False

d     True

e    False

f    False

g     True

h    False

Name: one, dtype: bool

'''

print('---------输出Series缺失值和索引--------')

print(df['one'][df['one'].isnull()])
'''

---------输出Series缺失值和索引--------

b   NaN

d   NaN

g   NaN

Name: one, dtype: float64

'''

print('--------dataframe的缺失值判断---------')

print(df.isnull())
'''

--------dataframe的缺失值判断---------

     one    two  three

a  False  False  False

b   True   True   True

c  False  False  False

d   True   True   True

e  False  False  False

f  False  False  False

g   True   True   True

h  False  False  False

'''

print('--------输出dataframe的缺失值和索引---------')

data = df[df.isnull().values==True]

print(data[~data.index.duplicated()])
'''

--------输出dataframe的缺失值和索引---------

   one  two  three

b  NaN  NaN    NaN

d  NaN  NaN    NaN

g  NaN  NaN    NaN

'''

print('--------输出dataframe的有缺失值的列---------')

print(df.isnull().any())
'''

--------输出dataframe的有缺失值的列---------

one      True

two      True

three    True

dtype: bool

'''

print('################缺失值过滤######################')

print('--------Series的缺失值过滤---------')

print(df['one'].isnull())
'''

################缺失值过滤######################

--------Series的缺失值过滤---------

a    False

b     True

c    False

d     True

e    False

f    False

g     True

h    False

Name: one, dtype: bool

'''

print('--------使用dropna方法删除缺失数据,返回一个删除后的Series--------')

print(df['one'].dropna())
'''

--------使用dropna方法删除缺失数据,返回一个删除后的Series--------

a   -0.211055

c   -0.870090

e   -0.203259

f    0.490568

h    1.437819

Name: one, dtype: float64

'''

print('--------dataframe的缺失值过滤---------')

print(df.dropna())
'''

--------dataframe的缺失值过滤---------

        one       two     three

a -0.211055 -2.869212  0.022179

c -0.870090 -0.878423  1.071588

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

h  1.437819 -0.370934 -0.482307

'''

print('-------当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除--------')

print(df.dropna(how="all"))
'''

-------当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除--------

        one       two     three

a -0.211055 -2.869212  0.022179

c -0.870090 -0.878423  1.071588

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

h  1.437819 -0.370934 -0.482307

'''

print('################缺失值填充######################')

print('------指定特殊值填充缺失值-------')

print(df.fillna(0))
'''

################缺失值填充######################

------指定特殊值填充缺失值-------

        one       two     three

a -0.211055 -2.869212  0.022179

b  0.000000  0.000000  0.000000

c -0.870090 -0.878423  1.071588

d  0.000000  0.000000  0.000000

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  0.000000  0.000000  0.000000

h  1.437819 -0.370934 -0.482307

'''

print('------不同的列用不同的值填充------')

print(df.fillna({'one':1,'two':2,'three':3}))
'''

------不同的列用不同的值填充------

        one       two     three

a -0.211055 -2.869212  0.022179

b  1.000000  2.000000  3.000000

c -0.870090 -0.878423  1.071588

d  1.000000  2.000000  3.000000

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  1.000000  2.000000  3.000000

h  1.437819 -0.370934 -0.482307

'''

print('------前向填充------')

print(df.fillna(method="ffill"))
'''

------前向填充------

        one       two     three

a -0.211055 -2.869212  0.022179

b -0.211055 -2.869212  0.022179

c -0.870090 -0.878423  1.071588

d -0.870090 -0.878423  1.071588

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  0.490568 -0.968058 -0.999899

h  1.437819 -0.370934 -0.482307

'''

print('------后向填充------')

print(df.fillna(method="bfill"))
'''

------后向填充------

        one       two     three

a -0.211055 -2.869212  0.022179

b -0.870090 -0.878423  1.071588

c -0.870090 -0.878423  1.071588

d -0.203259  0.315897  0.495306

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  1.437819 -0.370934 -0.482307

h  1.437819 -0.370934 -0.482307

'''

print('------平均值填充------')

print(df.fillna(df.mean()))
'''

------平均值填充------

        one       two     three

a -0.211055 -2.869212  0.022179

b  0.128797 -0.954146  0.021373

c -0.870090 -0.878423  1.071588

d  0.128797 -0.954146  0.021373

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  0.128797 -0.954146  0.021373

h  1.437819 -0.370934 -0.482307

'''

Python数据分析（二）pandas缺失值处理的更多相关文章

Python数据分析(二): Pandas技巧 (1)
第一部分: ipython http://www.cnblogs.com/cgzl/p/7623347.html 第二部分: numpy http://www.cnblogs.com/cgzl/p/7 ...
Python数据分析(二): Pandas技巧 (2)
Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.html github地址: https://github.com/solenovex/My-Ma ...
Python数据分析之pandas基本数据结构：Series、DataFrame
1引言本文总结Pandas中两种常用的数据类型: (1)Series是一种一维的带标签数组对象. (2)DataFrame,二维,Series容器 2 Series数组 2.1 Series数组构成 ...
Python数据分析库pandas基本操作
Python数据分析库pandas基本操作2017年02月20日 17:09:06 birdlove1987 阅读数:22631 标签: python 数据分析 pandas 更多个人分类: Pyt ...
Python 数据分析：Pandas 缺省值的判断
Python 数据分析:Pandas 缺省值的判断背景我们从数据库中取出数据存入 Pandas None 转换成 NaN 或 NaT.但是,我们将 Pandas 数据写入数据库时又需要转换成 No ...
Python数据分析之pandas学习
Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利 ...
Python数据分析之pandas
Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利 ...
Python数据分析之Pandas操作大全
从头到尾都是手码的,文中的所有示例也都是在Pycharm中运行过的,自己整理笔记的最大好处在于可以按照自己的思路来构建矿建,等到将来在需要的时候能够以最快的速度看懂并应用=_= 注:为方便表述,本章设 ...
Python数据分析(二): Numpy技巧 (1/4)
In [1]: import numpy numpy.__version__ Out[1]: '1.13.1' In [2]: import numpy as np
Python数据分析(二): Numpy技巧 (2/4)
numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性. 昨天晚上发了第一 ...

随机推荐

学习python第一天 pycharm设置
print(“hello,world”) pycharm设置 1. 选择python 解析器,目的是确定pycharm 的运行环境. 方法: File-->Settings-->Proje ...
chromedriver各个版本的下载
驱动的下载地址如下: http://chromedriver.storage.googleapis.com/index.html 注意:64位向下兼容,直接下载32位的就可以啦,亲测可用.
8.Mongodb备份与恢复
1.备份语法 mongodump -h dbhost -d dbname -o dbdirectory -h:服务器地址,也可以指定端口号 -d:需要备份的数据库名称 -o:备份的数据存放位置,此目 ...
python的正则表达一
一.常用的正则表达式 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种 ...
代码混淆 iOS
该方法只能针对有.m.h的类进行混淆,静态库等只有.h文件的没法进行混淆代码混淆,刚刚看到是不是有点懵逼,反正我是最近才接触到这么个东西,因为之前对于代码和APP,只需要实现功能就好了,根本没有考虑 ...
ubuntu 14.04安装nginx+php
转自:http://www.cnblogs.com/helinfeng/p/4219051.html 基于最新的Ubuntu 14.04(2014年9月)搭建nginx.php.mysql环境,以下全 ...
数据库sql命令
本文为转载,原文地址:http://www.cnblogs.com/cangqiongbingchen/p/4530333.html 1.说明:创建数据库CREATE DATABASE databas ...
阿里云ECS下基于Centos7.4安装MySQL5.7.20
1.首先登录阿里云ECS服务器,如下图所示: 2.卸载MariaDB 说明:CentOS7.x默认安装MariaDB而不是MySQL,而且yum服务器上也移除了MySQL相关的软件包.因为Maria ...
python学习总结----内置函数及数据持久化
抽象基类(了解) - 说明: - 抽象基类就是为了统一接口而存在的 - 它不能进行实例化 - 继承自抽象类的子类必须实现抽象基类的抽象方法 - 示例: from abc import ABC, abs ...
Dijkstra标准模板
Dijkstra求最短路问题:单元求最短路,从任意点出发求得该点到达其他任意点的距离 Dijkstra其实是一种贪心策略,与出发点(即源点)所连接的点中找到距离最短的点(这个距离是源点到这个点的最短距 ...

Python数据分析（二）pandas缺失值处理

Python数据分析（二）pandas缺失值处理的更多相关文章

随机推荐

热门专题