在数据处理相关工作中,读取的数据中常常会有缺失值的情况,为顺利进行后续的操作,需要首先对缺失值进行处理,处理的方式一般为删除填充,Python中提供了专门的工具包,可以方便地进行实现。读取操作可以由pandas模块实现,通常直接读一个excel或csv文件,创建为DataFrame对象,模块中的dropna方法和fillna方法可以实现对缺失值的删除和填充。

  现有下列数据文件,文件命名为testdata.xlsx,对它进行缺失值处理。

读取数据:

import pandas as pd
data = pd.read_excel("./testdata.xlsx")

  易知数据中第4行第1列、第6行第2列、第2行第4列、第3行第4列是缺失的。

1.删除

  对于缺失的地方,可以删除所在的行或所在的列。

(1).删除含空值的行,在dropna()中加参数axis=0.

data.dropna(axis=0,inplace=True)

(2).删除含空值的列,在dropna()中加参数axis=1.

data.dropna(axis=1,inplace=True)

2.填充

  对于缺失的地方,也可以填入一个值使之不再空缺。通常填0、指定字符、中位数、均值、相邻值或拟合值。

(1).填充0

data.fillna(0,inplace=True)

(2) 填充指定字符

data.fillna('无',inplace=True)

(3) 填充整体的均值、中位数

  均值(保留一位小数):

t = np.round(np.mean(data),1)
data.fillna(t,inplace=True)

  中位数:

dnr = np.array(data)
dnr = dnr[~np.isnan(dnr)] # 非nan元素
t = np.median(dnr) # 整体中位数
data.fillna(t,inplace=True)

(4)填充所在列的均值、中位数

  均值:

data.fillna(data.mean(),inplace=True)

  中位数:

  (奇数个元素取中间的,偶数个元素取中间两个的均值)

data.fillna(data.median(),inplace=True)

(5)填充相邻值

  a. 填充列的前相邻值

data.fillna(method='ffill',axis=0,inplace=True)

  或

data.ffill(axis=0,inplace=True)

  b. 填充列的后相邻值

data.fillna(method='bfill',axis=0,inplace=True)

  或

data.bfill(axis=0,inplace=True)

  c. 填充行的前相邻值

data.fillna(method='ffill',axis=1,inplace=True)

  或

data.ffill(axis=1,inplace=True)

  d. 填充行的后相邻值

data.fillna(method='bfill',axis=1,inplace=True)

  或

data.bfill(axis=1,inplace=True)

(6)按列填充指定内容

  有时不同列空缺数据的填充需求是不一致的,此时可以按列进行填充。

a.填充某一列

  对第4列空缺处填充列均值

mean_c4 = data['TitleC4'].mean()
data['TitleC4'].fillna(mean_c4, inplace=True)

  对第4列空缺处填充前相邻值

data['TitleC4'].fillna(method='ffill',axis=0,inplace=True)

  或

data['TitleC4'].ffill(axis=0,inplace=True)

  b,用字典指定填充多列

fill_values = {'TitleC1':1111,'TitleC2':2222,'TitleC4':4444,'TitleC5':5555}
data.fillna(value=fill_values, inplace=True)

(7)填充拟合值(插值算法)

  对于元素仅为数字的数据,缺失部分也可用插值算法填充,如线性插值、二次插值、三次插值、样条插值等。

data.interpolate(method='slinear',inplace=True)  #线性插值
data.interpolate(method='quadratic',inplace=True) #二次插值
data.interpolate(method='cubic',inplace=True) #三次插值

参考:

1.https://www.python100.com/html/L1PK07477FUQ.html

2.https://www.python100.com/html/120094.html

3.https://www.python100.com/html/75400.html

4.https://blog.csdn.net/weixin_46277779/article/details/126224097

Python缺失值处理实现的更多相关文章

  1. python 缺失值处理(Imputation)

    一.缺失值的处理方法 由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格.nans或者是其他的占位符.但是这样的数据集并不能被scikit - learn算法兼容,因为 ...

  2. python 缺失值的处理

  3. python 缺失值的向前填充

    method='bfill'可实现按下方值填充

  4. python 缺失值处理

  5. R vs Python:构建data.frame、读取csv与统计描述

    一.Python 数据框就是典型的关系型数据库的数据存储形式,每一行是一条记录,每一列是一个属性,最终构成表格的形式,这是数据科学家必须熟悉的最典型的数据结构. 1.构建数据框 import pand ...

  6. Python做数据预处理

    在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索性分析之后要先进行一系列的数据预处理步骤.因为拿到的原始数据存在不完整.不一致. ...

  7. python 连接 oracle 统计指定表格所有字段的缺失值数

      python连接oracle -- qlalchemy import cx_Oracle as co import pandas as pd from sqlalchemy import crea ...

  8. Python Pandas找到缺失值的位置

    python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺 ...

  9. python 特征缺失值填充

    python数据预处理之缺失值简单处理:https://blog.csdn.net/Amy_mm/article/details/79799629 该博客总结比较详细,感谢博主. 我们在进行模型训练时 ...

  10. [Python] Pandas 对数据进行查找、替换、筛选、排序、重复值和缺失值处理

    目录 1. 数据文件 2. 读数据 3. 查找数据 4. 替换数据 4.1 一对一替换 4.2 多对一替换 4.3 多对多替换 5. 插入数据 6. 删除数据 6.1 删除列 6.2 删除行 7. 处 ...

随机推荐

  1. 阿里巴巴云原生混部系统 Koordinator 正式开源

    ​简介: 脱胎于阿里巴巴内部,经过多年双 11 打磨,每年为公司节省数十亿的混部系统 Koordinator 今天宣布正式开源.通过开源,我们希望将更好的混部能力.调度能力开放到整个行业,帮助企业客户 ...

  2. Flink集成Iceberg在同程艺龙的实践

    ------------恢复内容开始------------ null ------------恢复内容结束------------

  3. 21.3K star!推荐一款可视化自动化测试/爬虫/数据采集神器!功能免费且强大!

    大家好,我是狂师! 在大数据时代,信息的获取与分析变得尤为重要.对于开发者.数据分析师乃至非技术人员来说,能够高效地采集网络数据并进行分析是一个强有力的工具.今天,我要向大家推荐的是一款功能强大.操作 ...

  4. WPF 制作一个占用文件的测试工具

    我在开发软件进行测试时,需要测试拖入的文件被占用时软件的行为,于是就做了一个文件占用工具,此工具可以将某个文件进行占用,以及获取某个文件被哪个进程占用 先给大家看一下效果: 以上是拖入文件到灰色部分, ...

  5. Go语言基础(一)

    一.Go语言简介 Go即Golang,是Google公司2009年11月正式对外公开的一门语言 Go是静态强类型语言,是区别于解析型语言的编译型语言. 解析型语言--源代码是先翻译为中间代码,然后解析 ...

  6. 使用 Docker 搭建 gitea 私有仓库

    一.准备材料 安装环境:linux 工具:docker 软件:MySql.gitea 二.安装Docker 安装Docker:https://www.cnblogs.com/jzcn/p/156937 ...

  7. python3使用dpkt生成PCMA格式rtp流

    操作系统 :CentOS 7.6_x64 Python版本:3.9.12 dpkt版本:1.9.8 PCMA编码是VoIP通信中常见的格式,今天整理下CentOS7环境下,python3如何使用dpk ...

  8. sqli-labs-master 导入导出 + 第七关

    1.load_file()导出文件 load_file(file_name):读取文件并返回该文件内容作为一个字符串. 使用条件: A:必须有权限读取并且文件完全可读 B:预读取文件必修在服务器上 C ...

  9. 01 Xpath简明教程(十分钟入门)

    目录 Xpath简明教程(十分钟入门) Xpath表达式 Xpath节点 节点关系 Xpath基本语法 1) 基本语法使用 2) xpath通配符 3) 多路径匹配 Xpath内建函数 Xpath简明 ...

  10. Linux下的目录

    FHS 因为利用Linux来开发产品或distributions的社群/公司与个人实在太多了, 如果每个人都用自己的想法来配置文件放置的目录,那么将可能造成很多管理上的困扰. 你能想象,你进入一个企业 ...