Python缺失值处理实现
在数据处理相关工作中,读取的数据中常常会有缺失值的情况,为顺利进行后续的操作,需要首先对缺失值进行处理,处理的方式一般为删除或填充,Python中提供了专门的工具包,可以方便地进行实现。读取操作可以由pandas模块实现,通常直接读一个excel或csv文件,创建为DataFrame对象,模块中的dropna方法和fillna方法可以实现对缺失值的删除和填充。
现有下列数据文件,文件命名为testdata.xlsx,对它进行缺失值处理。
读取数据:
import pandas as pd
data = pd.read_excel("./testdata.xlsx")
易知数据中第4行第1列、第6行第2列、第2行第4列、第3行第4列是缺失的。
1.删除
对于缺失的地方,可以删除所在的行或所在的列。
(1).删除含空值的行,在dropna()中加参数axis=0.
data.dropna(axis=0,inplace=True)
(2).删除含空值的列,在dropna()中加参数axis=1.
data.dropna(axis=1,inplace=True)
2.填充
对于缺失的地方,也可以填入一个值使之不再空缺。通常填0、指定字符、中位数、均值、相邻值或拟合值。
(1).填充0
data.fillna(0,inplace=True)
(2) 填充指定字符
data.fillna('无',inplace=True)
(3) 填充整体的均值、中位数
均值(保留一位小数):
t = np.round(np.mean(data),1)
data.fillna(t,inplace=True)
中位数:
dnr = np.array(data)
dnr = dnr[~np.isnan(dnr)] # 非nan元素
t = np.median(dnr) # 整体中位数
data.fillna(t,inplace=True)
(4)填充所在列的均值、中位数
均值:
data.fillna(data.mean(),inplace=True)
中位数:
(奇数个元素取中间的,偶数个元素取中间两个的均值)
data.fillna(data.median(),inplace=True)
(5)填充相邻值
a. 填充列的前相邻值
data.fillna(method='ffill',axis=0,inplace=True)
或
data.ffill(axis=0,inplace=True)
b. 填充列的后相邻值
data.fillna(method='bfill',axis=0,inplace=True)
或
data.bfill(axis=0,inplace=True)
c. 填充行的前相邻值
data.fillna(method='ffill',axis=1,inplace=True)
或
data.ffill(axis=1,inplace=True)
d. 填充行的后相邻值
data.fillna(method='bfill',axis=1,inplace=True)
或
data.bfill(axis=1,inplace=True)
(6)按列填充指定内容
有时不同列空缺数据的填充需求是不一致的,此时可以按列进行填充。
a.填充某一列
对第4列空缺处填充列均值
mean_c4 = data['TitleC4'].mean()
data['TitleC4'].fillna(mean_c4, inplace=True)
对第4列空缺处填充前相邻值
data['TitleC4'].fillna(method='ffill',axis=0,inplace=True)
或
data['TitleC4'].ffill(axis=0,inplace=True)
b,用字典指定填充多列
fill_values = {'TitleC1':1111,'TitleC2':2222,'TitleC4':4444,'TitleC5':5555}
data.fillna(value=fill_values, inplace=True)
(7)填充拟合值(插值算法)
对于元素仅为数字的数据,缺失部分也可用插值算法填充,如线性插值、二次插值、三次插值、样条插值等。
data.interpolate(method='slinear',inplace=True) #线性插值
data.interpolate(method='quadratic',inplace=True) #二次插值
data.interpolate(method='cubic',inplace=True) #三次插值
参考:
1.https://www.python100.com/html/L1PK07477FUQ.html
2.https://www.python100.com/html/120094.html
3.https://www.python100.com/html/75400.html
4.https://blog.csdn.net/weixin_46277779/article/details/126224097
Python缺失值处理实现的更多相关文章
- python 缺失值处理(Imputation)
一.缺失值的处理方法 由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格.nans或者是其他的占位符.但是这样的数据集并不能被scikit - learn算法兼容,因为 ...
- python 缺失值的处理
- python 缺失值的向前填充
method='bfill'可实现按下方值填充
- python 缺失值处理
- R vs Python:构建data.frame、读取csv与统计描述
一.Python 数据框就是典型的关系型数据库的数据存储形式,每一行是一条记录,每一列是一个属性,最终构成表格的形式,这是数据科学家必须熟悉的最典型的数据结构. 1.构建数据框 import pand ...
- Python做数据预处理
在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索性分析之后要先进行一系列的数据预处理步骤.因为拿到的原始数据存在不完整.不一致. ...
- python 连接 oracle 统计指定表格所有字段的缺失值数
python连接oracle -- qlalchemy import cx_Oracle as co import pandas as pd from sqlalchemy import crea ...
- Python Pandas找到缺失值的位置
python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺 ...
- python 特征缺失值填充
python数据预处理之缺失值简单处理:https://blog.csdn.net/Amy_mm/article/details/79799629 该博客总结比较详细,感谢博主. 我们在进行模型训练时 ...
- [Python] Pandas 对数据进行查找、替换、筛选、排序、重复值和缺失值处理
目录 1. 数据文件 2. 读数据 3. 查找数据 4. 替换数据 4.1 一对一替换 4.2 多对一替换 4.3 多对多替换 5. 插入数据 6. 删除数据 6.1 删除列 6.2 删除行 7. 处 ...
随机推荐
- python数据库迁移
实际操作命令 1,python 文件.py db init 2,python xx.py db migrate -m '版本描述' 3,python xx.py db upgrade 4,python ...
- 如何用一个插件解决 Serverless 灰度发布难题?
简介: 我们可以发现相比使用控制台进行灰度发布,使用 FC-Canary 插件免去了用户手动创建版本.发布别名.关联触发器和管理自定义域名的麻烦,使用起来非常方便. 作者:长淇 导读 本文适合: 想了 ...
- Serverless JOB | 传统任务新变革
简介: SAE Job 重点解决了用户的效率和成本问题,在兼具传统任务使用体验和功能的同时按需使用,按量计费,做到低门槛任务上云,节省闲置资源成本. Job 作为一种运完即停的负载类型,在企业级开发中 ...
- 双引擎驱动Quick BI十亿数据0.3秒分析,首屏展示时间缩短30%
简介:在规划中,Quick BI制定了产品竞争力建设的三大方向,包括Quick(快)能力.移动端能力和集成能力.针对其中的产品"报表查看打开慢""报表开发数据同步慢&q ...
- 阿里云何万青:南坡VS北坡,阿里云高性能计算行业实践
简介:北坡模式:借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务. 随着数字化转型的深入,行业应用对算力提出更高要求.为满足不同行业灵活的业务形态与计算需求,以云计算技术为服务模 ...
- dotnet 使用 ConfigureAwait.Fody 库设置默认的 await 同步上下文切换配置
在 dotnet 里面,使用 await 进行异步逻辑,默认是会尝试切换回调用 await 的线程同步上下文.这个机制对于大多数的上层应用来说都是符合逻辑且方便的逻辑,例如对于带 UI 线程的 WPF ...
- 2019-8-31-C#-自动翻页-PPT-测试脚本
title author date CreateTime categories C# 自动翻页 PPT 测试脚本 lindexi 2019-08-31 16:55:58 +0800 2019-08-1 ...
- 2019-8-31-C#-转换类型和字符串
title author date CreateTime categories C# 转换类型和字符串 lindexi 2019-08-31 16:55:58 +0800 2018-2-13 17:2 ...
- aliyun全站DCDN刷新--Django
1.编写原因: 由于登录到阿里云DCDN,需要登录加打开各种页面,导致推送一次感觉非常麻烦,所以编写(网上以有很多可以借鉴) 2.基础环境 # 所需模块 pip install aliyun-pyth ...
- C++多态与虚拟:运算符重载(Operator Overloading)
运算符重载:与function overloading异曲同工的是,C++提供所谓的Operator overloading.所谓operators是像 +(加)-(減)*(乘)/(除)>&g ...