【pandas小技巧】--缺失值的列
在实际应用中,数据集中经常会存在缺失值,也就是某些数据项的值并未填充或者填充不完整。
缺失值的存在可能会对后续的数据分析和建模产生影响,因此需要进行处理。
pandas提供了多种方法来处理缺失值,例如删除缺失值、填充缺失值等。
删除缺失值可能会导致数据量减少,填充缺失值则能够尽量保留原始数据集的完整性,从而提高数据分析和建模的准确性和可靠性。
当数据集中存在缺失值时,我们通常需要进行以下操作:
- 检查缺失值的数量和分布情况,了解缺失值对数据的影响程度。
- 根据数据的类型和业务需求,选择合适的缺失值处理方法,并对缺失值进行处理。
- 在处理缺失值的同时,要注意保持数据集的一致性和完整性。
- 处理完缺失值后,可以进行后续的数据分析和建模,从而得出更准确和可靠的结论。
1. 缺失值统计
首先我们随机创建一个包含缺失值的测试数据集,这里用到之前介绍过的创建测试数据的技巧。
import pandas as pd
def get_random_missing_data():
df = pd.util.testing.makeMissingDataframe()
return df[df.isna().any(axis=1)]
df = get_random_missing_data()
df

这里我封装了一个简单的函数get_random_missing_data,通过这个函数,可以创建一个每行至少有一个缺失值的数据集。
注意:这是随机创建的数据集,所以每次运行的结果会不一样。
统计缺失值很简单,首先通过isna函数找出所有缺失的值,然后可以使用sum或者mean来统计缺失的数量和比例。
df.isna().sum()

sum函数返回的是每一列缺失值的数量。
df.isna().mean()

mean函数返回的值可以看做每一列缺失值占的比例。
2. 删除缺失值
处理缺失值时,有些场景为了保证数据的完整性,只能删掉有缺失的数据。
删除缺失值有2个重要的参数:how 和 axis。
how有2个可选值:
- any:这是默认值,表示行数据或者列数据中有一个缺失值,就删除此行或此列
- all:表示行数据或者列数据中所有值都缺失时,才删除此行或此列
axis也有2个可选值:
- 0 或 index:按行判断是否有缺失值
- 1 或 columns:按列判断是否有缺失值
how="any",axis=0的情况:每行数据中只要有一个缺失值就删除该行。
df = pd.DataFrame(
{
"A": [1, 2, 3, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, 2, np.nan, 4],
"D": [1, 2, 3, 4],
}
)
df.dropna(how="any", axis=0)

how="all",axis=0的情况:每行数据中,全部值都缺失的行才删除。
df = pd.DataFrame(
{
"A": [1, np.nan, 3, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, np.nan, np.nan, 4],
"D": [1, np.nan, 3, 4],
}
)
df.dropna(how="all", axis=0)

how="any",axis=1的情况:每列数据中只要有一个缺失值就删除该列。
df = pd.DataFrame(
{
"A": [1, 2, 3, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, 2, np.nan, 4],
"D": [1, 2, 3, 4],
}
)
df.dropna(how="any", axis=1)

how="all",axis=1的情况:每列数据中,全部值都缺失的列才删除。
df = pd.DataFrame(
{
"A": [np.nan, np.nan, np.nan, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, 2, np.nan, 4],
"D": [1, np.nan, 3, 4],
}
)
df.dropna(how="all", axis=1)

3. 填充缺失值
填充缺失值一般使用fillna函数指定填充什么样的值。
比如:
df = pd.DataFrame(
{
"A": [1, 2, 3, np.nan],
"B": [1, np.nan, 3, 4],
"C": [1, 2, np.nan, 4],
"D": [1, 2, 3, 4],
}
)
df.fillna(-1)

这里是用 -1 来填充的,根据实际情况可以使用任意合适的值来填充。
除了 fillna 函数之外,还有一个interpolate函数,能够更加合理的填充缺失值。
df = pd.DataFrame(
{
"A": [1, 3, 4, np.nan],
"B": [2, np.nan, 2, 4],
"C": [3, 3, np.nan, 3],
"D": [4, 1, np.nan, 4],
}
)
df.interpolate()

每个缺失值都是它上下两行的值的平均值。
如果只有上面行的值,那就直接用上面行的值。
这里有个注意的地方:如果是第一行有缺失的话,那么是无法填充的。
比如:
df = pd.DataFrame(
{
"A": [np.nan, 3, np.nan, np.nan],
"B": [2, np.nan, 2, 4],
"C": [3, 3, np.nan, 3],
"D": [4, 1, np.nan, 4],
}
)
df.interpolate()

第一行的缺失值没有上一行可以参照,还是维持原来缺失的状态。
所以使用 interpolate 进行填充时,注意第一行的缺失值状态,可以用 fillna 先处理第一行。
【pandas小技巧】--缺失值的列的更多相关文章
- pandas小技巧
1. 删除列 import pandas as pd df.drop("Unnamed: 0", axis=1, inplace=True) 2. 转换列的格式 df[" ...
- pandas 小技巧
1.找出某个字段包含某字符串的行: my_df[my_df['col_B'].str.contains('大连') > 0]或者 my_df[my_df['col_B'].apply(lambd ...
- pandas取dataframe特定行/列
1. 按列取.按索引/行取.按特定行列取 import numpy as np from pandas import DataFrame import pandas as pd df=DataFram ...
- Pandas一些小技巧
Pandas有一些不频繁使用容易忘记的小技巧 1.将不同Dataframe写在一个Excel的不同Sheet,或添加到已有Excel的不同Sheet(同名Sheet会覆盖) from pandas i ...
- sql里的多行多列转一行多列小技巧
---恢复内容开始--- [ 今天下午接受了一个紧急小任务,是将一组比赛记录统计出来,将象棋游戏玩家的两条记录在一行里面显示,进数据库看之后是首先想到的是行转列,但是一开始就觉得不对,后来写到一半确实 ...
- 今天整理了几个在使用python进行数据分析的常用小技巧、命令。
提高Python数据分析速度的八个小技巧 01 使用Pandas Profiling预览数据 这个神器我们在之前的文章中就详细讲过,使用Pandas Profiling可以在进行数据分析之前对数据进行 ...
- pandas 之 数据清洗-缺失值
Abstract During the course fo doing data analysis and modeling, a significant amount of time is spen ...
- 前端网络、JavaScript优化以及开发小技巧
一.网络优化 YSlow有23条规则,中文可以参考这里.这几十条规则最主要是在做消除或减少不必要的网络延迟,将需要传输的数据压缩至最少. 1)合并压缩CSS.JavaScript.图片,静态资源CDN ...
- 最强 Android Studio 使用小技巧和快捷键
写在前面 本文翻译自 Android Studio Tips by Philippe Breault,一共收集了62个 Android Studio 使用小技巧和快捷键. 根据这些小技巧的使用场景,本 ...
- Windows Azure一些小技巧集合
我最近做了一个Windows Azure上面的项目,自己在做的过程中遇到了很多问题.有的是我自己摸索解决,有的是到网上寻找零碎的信息结合起来解决的.我感觉应当把某些解决方法集中一下,方便我以后查阅,也 ...
随机推荐
- office办公套件基础教程
正文 1.网页端的应用-office全家桶 这里我选择先聊web端的应用,首先,我们来想象一下,只要你有网络,有浏览器,就能打开一个网页,在网页上进行编辑.处理一些word.报表.ppt等,你不需要复 ...
- 第十四届蓝桥杯省赛C++ B组(个人经历 + 题解)
参赛感受 这是我第一次参加蓝桥杯的省赛,虽然没什么参赛经验,但是自己做了很多前几届蓝桥杯的题,不得不说,这一届蓝桥杯省赛的难度相较于之前而言还是比较大的.之前很流行蓝桥杯就是暴力杯的说法,但是随着参赛 ...
- MySQL 中读写分离数据延迟
MySQL 中读写分离可能遇到的问题 前言 读写分离的架构 基于客户端实现读写分离 基于中间代理实现读写分离 MySQL 中如何保证主从数据一致 循环复制问题 主从同步延迟 主从同步延迟的原因 主从延 ...
- linux随心记
linux前言 1.计算机有哪两部分组成? 硬件和软件 2.常见的操作系统有哪些? pc端:window ,linux,MacOS 移动端:Android,ios,鸿蒙 3.什么是Linux系统内核 ...
- 2022-04-29:厨房里总共有 n 个橘子,你决定每一天选择如下方式之一吃这些橘子: 吃掉一个橘子。 如果剩余橘子数 n 能被 2 整除,那么你可以吃掉 n/2 个橘子。 如果剩余橘子数 n 能被
2022-04-29:厨房里总共有 n 个橘子,你决定每一天选择如下方式之一吃这些橘子: 吃掉一个橘子. 如果剩余橘子数 n 能被 2 整除,那么你可以吃掉 n/2 个橘子. 如果剩余橘子数 n 能被 ...
- VB.NET 截取字符串
在VB.NET中,您可以使用Substring方法或Split方法来截取字符串. Substring方法允许您从字符串中提取一个子字符串,该子字符串从指定的起始索引开始,并继续到字符串的末尾或指定的长 ...
- pycharm报错提示:无法加载文件\venv\Scripts\activate.ps1,因为在此系统上禁止运行脚本。
pycharm报错提示:无法加载文件\venv\Scripts\activate.ps1,因为在此系统上禁止运行脚本. 解决办法 1.终端输入get-executionpolicy,回车返回Restr ...
- Django报错No module named django.core.urlresolvers
当需要测试django能否解析网站根路径的URL,并将其对应到我们编写的某个视图函数上时,使用下面的语句 from django.core.urlresolvers import resolve 执行 ...
- 安装ODOO13
在CentOS 7服务器下安装和配置Odoo 13 录到服务器: ssh root@your_server_ip1如需检查计算机上安装的CentOS的版本,可以运行以下命令: cat /etc/red ...
- WPF中小的技能点 1
图片圆角的处理方式 采用boder里background背景设置图片并设置对应的圆角 <Border CornerRadius="20"> < ...