在实际应用中,数据集中经常会存在缺失值,也就是某些数据项的值并未填充或者填充不完整。
缺失值的存在可能会对后续的数据分析和建模产生影响,因此需要进行处理。

pandas提供了多种方法来处理缺失值,例如删除缺失值、填充缺失值等。
删除缺失值可能会导致数据量减少,填充缺失值则能够尽量保留原始数据集的完整性,从而提高数据分析和建模的准确性和可靠性。

当数据集中存在缺失值时,我们通常需要进行以下操作:

  1. 检查缺失值的数量和分布情况,了解缺失值对数据的影响程度。
  2. 根据数据的类型和业务需求,选择合适的缺失值处理方法,并对缺失值进行处理。
  3. 在处理缺失值的同时,要注意保持数据集的一致性和完整性。
  4. 处理完缺失值后,可以进行后续的数据分析和建模,从而得出更准确和可靠的结论。

1. 缺失值统计

首先我们随机创建一个包含缺失值的测试数据集,这里用到之前介绍过的创建测试数据的技巧。

import pandas as pd

def get_random_missing_data():
df = pd.util.testing.makeMissingDataframe()
return df[df.isna().any(axis=1)] df = get_random_missing_data()
df

这里我封装了一个简单的函数get_random_missing_data,通过这个函数,可以创建一个每行至少有一个缺失值的数据集。
注意:这是随机创建的数据集,所以每次运行的结果会不一样。

统计缺失值很简单,首先通过isna函数找出所有缺失的值,然后可以使用sum或者mean来统计缺失的数量和比例。

df.isna().sum()


sum函数返回的是每一列缺失值的数量。

df.isna().mean()


mean函数返回的值可以看做每一列缺失值占的比例。

2. 删除缺失值

处理缺失值时,有些场景为了保证数据的完整性,只能删掉有缺失的数据。
删除缺失值有2个重要的参数:how axis

how有2个可选值:

  1. any:这是默认值,表示行数据或者列数据中有一个缺失值,就删除此行或此列
  2. all:表示行数据或者列数据中所有值都缺失时,才删除此行或此列

axis也有2个可选值:

  1. 0 或 index:按行判断是否有缺失值
  2. 1 或 columns:按列判断是否有缺失值

how="any"axis=0的情况:每数据中只要有一个缺失值就删除该

df = pd.DataFrame(
{
"A": [1, 2, 3, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, 2, np.nan, 4],
"D": [1, 2, 3, 4],
}
) df.dropna(how="any", axis=0)

how="all"axis=0的情况:每数据中,全部值都缺失的才删除。

df = pd.DataFrame(
{
"A": [1, np.nan, 3, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, np.nan, np.nan, 4],
"D": [1, np.nan, 3, 4],
}
) df.dropna(how="all", axis=0)

how="any"axis=1的情况:每数据中只要有一个缺失值就删除该

df = pd.DataFrame(
{
"A": [1, 2, 3, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, 2, np.nan, 4],
"D": [1, 2, 3, 4],
}
) df.dropna(how="any", axis=1)

how="all"axis=1的情况:每数据中,全部值都缺失的才删除。

df = pd.DataFrame(
{
"A": [np.nan, np.nan, np.nan, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, 2, np.nan, 4],
"D": [1, np.nan, 3, 4],
}
) df.dropna(how="all", axis=1)

3. 填充缺失值

填充缺失值一般使用fillna函数指定填充什么样的值。
比如:

df = pd.DataFrame(
{
"A": [1, 2, 3, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, 2, np.nan, 4],
"D": [1, 2, 3, 4],
}
) df.fillna(-1)


这里是用 -1 来填充的,根据实际情况可以使用任意合适的值来填充。

除了 fillna 函数之外,还有一个interpolate函数,能够更加合理的填充缺失值。

df = pd.DataFrame(
{
"A": [1, 3, 4, np.nan],
"B": [2, np.nan, 2, 4],
"C": [3, 3, np.nan, 3],
"D": [4, 1, np.nan, 4],
}
) df.interpolate()


每个缺失值都是它上下两行的值的平均值

如果只有上面行的值,那就直接用上面行的值。
这里有个注意的地方:如果是第一行有缺失的话,那么是无法填充的。
比如:

df = pd.DataFrame(
{
"A": [np.nan, 3, np.nan, np.nan],
"B": [2, np.nan, 2, 4],
"C": [3, 3, np.nan, 3],
"D": [4, 1, np.nan, 4],
}
) df.interpolate()


第一行的缺失值没有上一行可以参照,还是维持原来缺失的状态。
所以使用 interpolate 进行填充时,注意第一行的缺失值状态,可以用 fillna 先处理第一行。

【pandas小技巧】--缺失值的列的更多相关文章

  1. pandas小技巧

    1. 删除列 import pandas as pd df.drop("Unnamed: 0", axis=1, inplace=True) 2. 转换列的格式 df[" ...

  2. pandas 小技巧

    1.找出某个字段包含某字符串的行: my_df[my_df['col_B'].str.contains('大连') > 0]或者 my_df[my_df['col_B'].apply(lambd ...

  3. pandas取dataframe特定行/列

    1. 按列取.按索引/行取.按特定行列取 import numpy as np from pandas import DataFrame import pandas as pd df=DataFram ...

  4. Pandas一些小技巧

    Pandas有一些不频繁使用容易忘记的小技巧 1.将不同Dataframe写在一个Excel的不同Sheet,或添加到已有Excel的不同Sheet(同名Sheet会覆盖) from pandas i ...

  5. sql里的多行多列转一行多列小技巧

    ---恢复内容开始--- [ 今天下午接受了一个紧急小任务,是将一组比赛记录统计出来,将象棋游戏玩家的两条记录在一行里面显示,进数据库看之后是首先想到的是行转列,但是一开始就觉得不对,后来写到一半确实 ...

  6. 今天整理了几个在使用python进行数据分析的常用小技巧、命令。

    提高Python数据分析速度的八个小技巧 01 使用Pandas Profiling预览数据 这个神器我们在之前的文章中就详细讲过,使用Pandas Profiling可以在进行数据分析之前对数据进行 ...

  7. pandas 之 数据清洗-缺失值

    Abstract During the course fo doing data analysis and modeling, a significant amount of time is spen ...

  8. 前端网络、JavaScript优化以及开发小技巧

    一.网络优化 YSlow有23条规则,中文可以参考这里.这几十条规则最主要是在做消除或减少不必要的网络延迟,将需要传输的数据压缩至最少. 1)合并压缩CSS.JavaScript.图片,静态资源CDN ...

  9. 最强 Android Studio 使用小技巧和快捷键

    写在前面 本文翻译自 Android Studio Tips by Philippe Breault,一共收集了62个 Android Studio 使用小技巧和快捷键. 根据这些小技巧的使用场景,本 ...

  10. Windows Azure一些小技巧集合

    我最近做了一个Windows Azure上面的项目,自己在做的过程中遇到了很多问题.有的是我自己摸索解决,有的是到网上寻找零碎的信息结合起来解决的.我感觉应当把某些解决方法集中一下,方便我以后查阅,也 ...

随机推荐

  1. 2022-06-04:给定一个数字n,表示一开始有编号1~n的树木,列成一条直线, 给定一个有序数组arr,表示现在哪些树已经没了,arr[i]一定在[1,n]范围, 给定一个数字m,表示你可以补种多

    2022-06-04:给定一个数字n,表示一开始有编号1~n的树木,列成一条直线, 给定一个有序数组arr,表示现在哪些树已经没了,arr[i]一定在[1,n]范围, 给定一个数字m,表示你可以补种多 ...

  2. mysql 5.7 json 类型 json 数组类型 普通字符串类型 10w数据 查询速度差异

    json 非数组 建表语句ddl CREATE TABLE tb_json_test ( id INT NOT NULL AUTO_INCREMENT, user_no VARCHAR(100), u ...

  3. ODOO升级模块后到系统进入不了,报错500

    有时候安装后者升级odoo相关模块后会导致系统进入不了,报错500,此时我们可以通过Odoo命令行卸载相关模块 此方法适用于在安装或升级某个模块后导致崩库,进不去桌面的情况下使用.原理是通过odoo- ...

  4. 2023-06-02:给定一个二进制数组 nums 和一个整数 k, k位翻转 就是从 nums 中选择一个长度为 k 的 子数组, 同时把子数组中的每一个 0 都改成 1 ,把子数组中的每一个 1

    2023-06-02:给定一个二进制数组 nums 和一个整数 k, k位翻转 就是从 nums 中选择一个长度为 k 的 子数组, 同时把子数组中的每一个 0 都改成 1 ,把子数组中的每一个 1 ...

  5. C++别名的使用

    c++中的别名使用,类似引用,在别名中,"&"的意思不再是取地址,而是建立一个指针,直接指向数据.这是一个小例子: #include <iostream> us ...

  6. API NEWS | Money Lover爆出潜在API漏洞

    欢迎大家围观小阑精心整理的API安全最新资讯,在这里你能看到最专业.最前沿的API安全技术和产业资讯,我们提供关于全球API安全资讯与信息安全深度观察. 本周,我们带来的分享如下: Money Lov ...

  7. 【LeetCode】Find Pivot Index #724 Rust Solution

    给定一个整数类型的数组 nums,请编写一个能够返回数组 "中心索引" 的方法.我们是这样定义数组 中心索引 的:数组中心索引的左侧所有元素相加的和等于右侧所有元素相加的和.如果数 ...

  8. AR技术的应用与未来

    目录 随着科技的不断进步,增强现实(AR)技术也在不断发展壮大.AR技术是一种通过计算机技术和传感器技术将虚拟信息融合到现实世界中的技术,可以为用户带来一种全新的.交互性更强的体验.本文将探讨AR技术 ...

  9. Paimon Compaction实现

    Compact主要涉及以下几个组件 CompactManager 管理Compact task CompactRewriter 用于compact过程中数据的重写实现, 比如compact过程中产生c ...

  10. 基于词袋(Bag of Words)和SVM的图片分类

    目录 摘要 源码及完整报告: 词袋(Bag of Words, BoW) 基于词袋模型的图片分类基本流程 多尺度空间极值点检测 关键点精确定位 关键点主方向计算 生成描述子 特征词典的生成 SVM分类 ...