7 缺失数据处理

缺失数据是数据分析中的常见现象。pandas使用浮点值NaN（Not a Number）表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测出来的标记而已。python内置的None值也会被当作NA处理。

 1 >>> string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

 2 >>> string_data

 3 0     aardvark

 4 1    artichoke

 5 2          NaN

 6 3      avocado

 7 dtype: object

 8 >>> string_data.isnull()

 9 0    False

10 1    False

11 2     True

12 3    False

13 dtype: bool

14 >>> string_data[0] = None

15 >>> string_data.isnull()

16 0     True

17 1    False

18 2     True

19 3    False

20 dtype: bool

21 >>>

NA处理方法。

方式	说明
dropna	根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍度，也就是thresh参数，如设置为2，则至少行（列）有两个非NaN值才保留。
fillna	用指定值或插值方法（如ffill或bfill）填充缺失数据
isnull	返回一个含有布尔值的对象，这些布尔值表示哪些值是缺失值NA，该对象的类型和源类型一样
notnull	isnull的否定式

部分官方说明：

pandas.DataFrame.dropna — pandas 1.3.4 documentation (pydata.org)

pandas.DataFrame.fillna — pandas 1.3.4 documentation (pydata.org)

>>> string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

>>> string_data

0     aardvark

1    artichoke

2          NaN

3      avocado

dtype: object

>>> string_data.dropna()

0     aardvark

1    artichoke

3      avocado

dtype: object

>>> string_data.fillna(value='haha')

0     aardvark

1    artichoke

2         haha

3      avocado

dtype: object

7.1 滤除缺失数据

过滤掉缺失数据的方法有多种，可通过dropna实现。

 1 >>> from numpy import nan as NA

 2 >>> data = pd.Series([1, NA, 3.5, NA, 7])

 3 >>> data.dropna()

 4 0    1.0

 5 2    3.5

 6 4    7.0

 7 dtype: float64

 8 >>> data[data.isnull()]

 9 1   NaN

10 3   NaN

11 dtype: float64

12 >>> data[data.notnull()]

13 0    1.0

14 2    3.5

15 4    7.0

16 dtype: float64

对于DataFrame，可能希望丢弃全NA或含有NA的行或列。

 1 >>> data = pd.DataFrame([[1, 1.6, 3], [1, NA, NA], [NA, NA, NA], [NA, 6.5, 3]])

 2 >>> data

 3      0    1    2

 4 0  1.0  1.6  3.0

 5 1  1.0  NaN  NaN

 6 2  NaN  NaN  NaN

 7 3  NaN  6.5  3.0

 8 >>>

 9 >>> cleaned = data.dropna()  #默认丢弃任何含有缺失值的行

10 >>> cleaned

11      0    1    2

12 0  1.0  1.6  3.0

13 >>> data.dropna(how='all')  #只丢弃全为NA的行

14      0    1    2

15 0  1.0  1.6  3.0

16 1  1.0  NaN  NaN

17 3  NaN  6.5  3.0

18 >>> data[4] = NA

19 >>> data

20      0    1    2   4

21 0  1.0  1.6  3.0 NaN

22 1  1.0  NaN  NaN NaN

23 2  NaN  NaN  NaN NaN

24 3  NaN  6.5  3.0 NaN

25 >>> data.dropna(axis=1, how='all')  #丢弃列，且列的所有值为NaN才丢弃

26      0    1    2

27 0  1.0  1.6  3.0

28 1  1.0  NaN  NaN

29 2  NaN  NaN  NaN

30 3  NaN  6.5  3.0

31 >>>

另一个滤除DataFrame行的问题涉及到时间序列数据。如果只想留下一部分观测数据，可以用thresh参数实现。

 1 >>> df = pd.DataFrame(np.random.randn(7, 3))

 2 >>> df

 3           0         1         2

 4 0  0.752301  1.360969 -0.474561

 5 1  0.466749  0.563536  1.978575

 6 2  0.223606  0.414722  0.094315

 7 3 -1.687511 -0.116227  0.442363

 8 4  0.705580 -0.131169 -0.868425

 9 5 -0.158964 -0.164512 -0.937150

10 6 -0.281537 -1.579942 -0.562886

11 >>> df.loc[:4, 1] = NA

12 >>> df.loc[:2, 2] = NA

13 >>> df

14           0         1         2

15 0  0.752301       NaN       NaN

16 1  0.466749       NaN       NaN

17 2  0.223606       NaN       NaN

18 3 -1.687511       NaN  0.442363

19 4  0.705580       NaN -0.868425

20 5 -0.158964 -0.164512 -0.937150

21 6 -0.281537 -1.579942 -0.562886

>>> df.dropna(thresh=2)  #行至少有两个非NaN值才保留

          0         1         2

3 -0.845402       NaN -0.037411

4 -0.563560       NaN -0.992985

5  0.227253 -1.649384 -0.754437

6  1.090384  0.980745  0.661543

7.2 填充缺失数据

fillna方法可实现将缺失值替换为一个常数值。

官方文档：pandas.DataFrame.fillna — pandas 1.3.4 documentation (pydata.org)

 1 >>> df

 2           0         1         2

 3 0  0.752301       NaN       NaN

 4 1  0.466749       NaN       NaN

 5 2  0.223606       NaN       NaN

 6 3 -1.687511       NaN  0.442363

 7 4  0.705580       NaN -0.868425

 8 5 -0.158964 -0.164512 -0.937150

 9 6 -0.281537 -1.579942 -0.562886

10 >>> df.fillna(0)

11           0         1         2

12 0  0.752301  0.000000  0.000000

13 1  0.466749  0.000000  0.000000

14 2  0.223606  0.000000  0.000000

15 3 -1.687511  0.000000  0.442363

16 4  0.705580  0.000000 -0.868425

17 5 -0.158964 -0.164512 -0.937150

18 6 -0.281537 -1.579942 -0.562886

19 >>> df.fillna({1:0.5, 3:-1})  #第1列的NA替换为0.5，第3列的NA替换为-1

20           0         1         2

21 0  0.752301  0.500000       NaN

22 1  0.466749  0.500000       NaN

23 2  0.223606  0.500000       NaN

24 3 -1.687511  0.500000  0.442363

25 4  0.705580  0.500000 -0.868425

26 5 -0.158964 -0.164512 -0.937150

27 6 -0.281537 -1.579942 -0.562886

28 >>>

fillna默认会返回新对象。但也可以对现有对象进行就地修改。

 1 >>> _ = df.fillna(0, inplace=True)

 2 >>> df

 3           0         1         2

 4 0  0.752301  0.000000  0.000000

 5 1  0.466749  0.000000  0.000000

 6 2  0.223606  0.000000  0.000000

 7 3 -1.687511  0.000000  0.442363

 8 4  0.705580  0.000000 -0.868425

 9 5 -0.158964 -0.164512 -0.937150

10 6 -0.281537 -1.579942 -0.562886

11 >>>

对reindex有效的插值方法也可以用于fillna。

 1 >>> df = pd.DataFrame(np.random.randn(6, 3))

 2 >>> df.loc[2:, 1] = NA

 3 >>> df.loc[4:, 2] = NA

 4 >>> df

 5           0         1         2

 6 0 -1.433489  0.162951 -0.664600

 7 1  0.033722 -0.478252  0.480072

 8 2 -0.000977       NaN -1.555649

 9 3 -0.947501       NaN  0.089918

10 4  1.360481       NaN       NaN

11 5 -0.966030       NaN       NaN

12 >>> df.fillna(method='ffill')

13           0         1         2

14 0 -1.433489  0.162951 -0.664600

15 1  0.033722 -0.478252  0.480072

16 2 -0.000977 -0.478252 -1.555649

17 3 -0.947501 -0.478252  0.089918

18 4  1.360481 -0.478252  0.089918

19 5 -0.966030 -0.478252  0.089918

20 >>> df.fillna(method='ffill', limit=2)

21           0         1         2

22 0 -1.433489  0.162951 -0.664600

23 1  0.033722 -0.478252  0.480072

24 2 -0.000977 -0.478252 -1.555649

25 3 -0.947501 -0.478252  0.089918

26 4  1.360481       NaN  0.089918

27 5 -0.966030       NaN  0.089918

下表是fillna的参数参考。

参数	说明
value	用于填充缺失值的标量值或字典对象
method	插值方式，如果函数调用时未指定其他参数的话，默认为“ffill”
axis	带填充的轴，默认为axis=0
limit	（对于向前或先后填充）可以连续填充的最大数量

pandas基础--缺失数据处理的更多相关文章

Pandas基础用法-数据处理【全】-转
完整资料:[数据挖掘入门介绍] (https://github.com/YouChouNoBB/data-mining-introduction) # coding=utf-8 # @author: ...
Pandas | 17 缺失数据处理
数据丢失(缺失)在现实生活中总是一个问题. 机器学习和数据挖掘等领域由于数据缺失导致的数据质量差,在模型预测的准确性上面临着严重的问题. 在这些领域,缺失值处理是使模型更加准确和有效的重点. 使用重构 ...
Pandas缺失数据处理
Pandas缺失数据处理 Pandas用np.nan代表缺失数据 reindex() 可以修改索引,会返回一个数据的副本: df1 = df.reindex(index=dates[0:4], co ...
Python数据分析入门之pandas基础总结
Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...
利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
Pandas基础学习与Spark Python初探
摘要:pandas是一个强大的Python数据分析工具包,pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域 ...
pandas 基础用法
pandas 是一个基于 Numpy 构建, 强大的数据分析工具包主要功能独特的数据结构 DataFrame, Series 集成时间序列功能提供丰富的数学运算操作灵活处理缺失数据 Serie ...
数据可视化基础专题（八）：Pandas基础（七）数据清洗与预处理相关
1.数据概览第一步当然是把缺失的数据找出来, Pandas 找缺失数据可以使用 info() 这个方法(这里选用的数据源还是前面一篇文章所使用的 Excel ,小编这里简单的随机删除掉几个数据) i ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...

随机推荐

基于locust全链路压测系统
2021年中旬就计划着搭建一套压测系统,大约9月份已经搭建完成,使用至今还是比较稳定了,分享一下搭建思路及过程: 为什么选择Locust呢,因为Locust可以仅需要执行命令就可以完成压测任务,并且集 ...
python websocket 参数
websocket中就有建立连接connect.发送消息send等函数可供使用,但是websocket.WebSocketApp将这些都封装好了,只用在实例化的时候传入自定义函数即可,更方便.因此这里 ...
【数学】向量点乘、叉乘的理论、应用及代码实现（C++）
前言我总结了一下向量点乘,叉乘的概念,以及他们的应用及相关C++代码的实现.blog 这类问题也是技术面试经常碰到的,一次研究透了会有收获. 1 向量向量具有大小和方向. 共线向量:两个平行的向量 ...
第 6章 Python 应对反爬虫策略
第 6章 Python 应对反爬虫策略爬取一个网站的基本步骤 (1)分析请求:URL 规则.请求头规则.请求参数规则. (2)模拟请求:通过 Requests 库或 urllib 库来模拟请求. ( ...
[FE] 关于网页的一些反爬手段的解析思路，比如 58 等
这里主要是贴一些资料,有兴趣的可以再深入研究,比如做一些自动化库. www.cnblogs.com/TRHX/p/11740616.html blog.csdn.net/DzzzzzZzzzz/art ...
dotnet 推荐一个使用 Json 直接路由通讯的 IPC 库
本文将和大家推荐一个我所在团队开源的本机多进程通讯 IPC 库,此 IPC 支持使用 JSON 格式进行直接路由通讯,具有使用方便,稳定性高,性能好的优点这是我所在的团队在 GitHub 上使用最友 ...
CSS:鼠标移动到图片上的动画
CSS:鼠标移动到图片上的动画 .pic img { width: 100%; left: 0; top: 0; right: 0; bottom: 0; margin: auto; transiti ...
STLINK/V2下载器接线方法
一.ST-LINK ST-LINK产品如下图所示: ST-LINK接口定义如下图所示 ST-LINK与stm32接线使用SW接法只需要四根线: STM32 ST-LINK VCC(3.3V) TVC ...
羽夏壳世界—— PE 解析的实现
写在前面此系列是本人一个字一个字码出来的,包括代码实现和效果截图. 如有好的建议,欢迎反馈.码字不易,如果本篇文章有帮助你的,如有闲钱,可以打赏支持我的创作.如想转载,请把我的转载信息附在文章后 ...
cesium介绍和国内主要学习网站汇总
Cesium官方网站建议大家将Cesium官网的博客都读一遍,博客大概分为三类,主要是技术类,比如性能优化,调度算法等,一类是定期的新版本特性,能够了解Cesium新功能和新特性,还有一类是大事记, ...

pandas基础--缺失数据处理

7 缺失数据处理

7.1 滤除缺失数据

7.2 填充缺失数据

pandas基础--缺失数据处理的更多相关文章

随机推荐

热门专题