数据的预处理是数据分析，或者机器学习训练前的重要步骤。
通过数据预处理，可以

提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性
整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集
提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效

本篇介绍的缺失值处理，是数据预处理中非常重要的一步，因为很多机器学习算法都假设数据是完整的，算法的执行过程中没有考虑缺失值的影响。
所以，为了提高数据质量、改进数据分析结果、提高数据挖掘和机器学习的效果，缺失值处理必不可少。

1. 原理

处理缺失值的手段大致有4类：

删除存在缺失值数据行
填充缺失值
不处理缺失值
用深度学习方法处理

1.1. 删除缺失值数据

删除缺失值是最简单的一种处理方式，不过，在某些情况下，这可能会导致数据的大量丢失。
如果数据丢失过多，可能会改变数据的分布，影响模型的准确性。

所以，只有在缺失值占比很小的情况下，才会考虑使用这种处理方式。
删除缺失值用pandas库的方法即可，比如：

import pandas as pd

df = pd.util.testing.makeMissingDataframe()

print("删除前: {} 行".format(len(df)))

df = df.dropna()

print("删除后: {} 行".format(len(df)))

# 运行结果

删除前: 30 行

删除后: 19 行

1.2. 填充缺失值

直接删除存在缺失值的数据行虽然简单，但是在实际应用中，使用的并不多。
实际情况下，使用最多的还是填充缺失值。

scikit-learn库中，填充缺失值的方式主要有：

1.2.1. 均值填充

均值填充就是用缺失值所在列的平均值来填充缺失值。

from sklearn.impute import SimpleImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])

print("均值填充前：\n{}".format(data))

imp = SimpleImputer(missing_values=np.nan, strategy="mean")

data = imp.fit_transform(data)

print("均值填充后：\n{}".format(data))

# 运行结果

均值填充前：

[[ 1.  2.  3.]

 [ 4. nan  6.]

 [ 7.  8. nan]]

均值填充后：

[[1.  2.  3. ]

 [4.  5.  6. ]

 [7.  8.  4.5]]

填充的5和4.5分别是第二列和第三列的平均值。

1.2.2. 中位数填充

中位数填充就是用缺失值所在列的中位数来填充缺失值。

from sklearn.impute import SimpleImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 11, 12]])

print("中位数填充前：\n{}".format(data))

imp = SimpleImputer(missing_values=np.nan, strategy="median")

data = imp.fit_transform(data)

print("中位数填充后：\n{}".format(data))

# 运行结果

中位数填充前：

[[ 1.  2.  3.]

 [ 4. nan  6.]

 [ 7.  8. nan]

 [10. 11. 12.]]

中位数填充后：

[[ 1.  2.  3.]

 [ 4.  8.  6.]

 [ 7.  8.  6.]

 [10. 11. 12.]]

填充的8和6分别是第二列和第三列的中位数。

1.2.3. 众数填充

众数填充就是用缺失值所在列的众数数来填充缺失值。

from sklearn.impute import SimpleImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 8, 3]])

print("众数填充前：\n{}".format(data))

imp = SimpleImputer(missing_values=np.nan, strategy="most_frequent")

data = imp.fit_transform(data)

print("众数填充后：\n{}".format(data))

# 运行结果

众数填充前：

[[ 1.  2.  3.]

 [ 4. nan  6.]

 [ 7.  8. nan]

 [10.  8.  3.]]

众数填充后：

[[ 1.  2.  3.]

 [ 4.  8.  6.]

 [ 7.  8.  3.]

 [10.  8.  3.]]

填充的8和3分别是第二列和第三列的众数。

1.2.4. 常量填充

常量填充就是用指定的常量来填充缺失值。

from sklearn.impute import SimpleImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])

print("常量填充前：\n{}".format(data))

imp = SimpleImputer(missing_values=np.nan, fill_value=100, strategy="constant")

data = imp.fit_transform(data)

print("常量填充后：\n{}".format(data))

# 运行结果

常量填充前：

[[ 1.  2.  3.]

 [ 4. nan  6.]

 [ 7.  8. nan]]

常量填充后：

[[  1.   2.   3.]

 [  4. 100.   6.]

 [  7.   8. 100.]]

缺失值用常量100填充了。

1.2.5. 插值填充

插值填充就是使用线性插值或多项式插值等方法，基于已知的数据点估计缺失值。

from sklearn.experimental import enable_iterative_imputer

from sklearn.impute import IterativeImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])

print("插值填充前：\n{}".format(data))

imp = IterativeImputer(max_iter=10, random_state=0)

data = imp.fit_transform(data)

print("插值填充后：\n{}".format(data))

# 运行结果

插值填充前：

[[ 1.  2.  3.]

 [ 4. nan  6.]

 [ 7.  8. nan]]

插值填充后：

[[1.         2.         3.        ]

 [4.         5.00203075 6.        ]

 [7.         8.         8.99796726]]

1.2.6. K近邻填充

K近邻填充就是利用K近邻算法，找到与缺失值最近的K个数据点，用它们的值的平均数或中位数来填充缺失值。

from sklearn.impute import KNNImputer  

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 11, 12]])

print("K近邻填充前：\n{}".format(data))

imp = KNNImputer(n_neighbors=2)

data = imp.fit_transform(data)

print("K近邻填充后：\n{}".format(data))

# 运行结果

K近邻填充前：

[[ 1.  2.  3.]

 [ 4. nan  6.]

 [ 7.  8. nan]

 [10. 11. 12.]]

K近邻填充后：

[[ 1.  2.  3.]

 [ 4.  5.  6.]

 [ 7.  8.  9.]

 [10. 11. 12.]]

2. 作用

缺失值处理的主要作用包括：

提高数据完整性和准确性：如果数据中存在缺失值，可能会影响分析的准确性，甚至导致错误的结论。因此，通过填补缺失值，我们可以确保数据的完整性和准确性。
提升数据质量：缺失值可能会降低数据的质量，使得数据分析变得更为困难。通过处理缺失值，我们可以提升数据的质量，使得分析结果更加可靠。
提高算法性能：许多机器学习和数据挖掘算法在处理不完整数据时性能会下降。处理缺失值可以使得这些算法更好地运行，提高其性能。
减少信息丢失：在某些情况下，缺失值可能代表着某些信息的丢失。通过对这些缺失值进行处理，我们可以尽量减少信息丢失的数量。
消除或减少噪声：缺失值的存在可能会引入数据中的噪声，这种噪声可能会对数据分析产生干扰，甚至影响模型的训练效果。通过填补这些缺失值，我们可以消除或减少这种噪声。

3. 总结

在选择处理缺失值的方法时，需要考虑数据的性质、缺失值的比例、数据的分布以及具体的分析任务等因素。
同时，不同的方法可能适用于不同的场景，需要结合具体情况进行选择。

【scikit-learn基础】--『预处理』之缺失值处理的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『TensorFlow』TFR数据预处理探究以及框架搭建
一.TFRecord文件书写效率对比(单线程和多线程对比) 1.准备工作 # Author : Hellcat # Time : 18-1-15 ''' import os os.environ[&q ...
『TensorFlow』SSD源码学习_其五：TFR数据读取&数据预处理
Fork版本项目地址:SSD 一.TFR数据读取创建slim.dataset.Dataset对象在train_ssd_network.py获取数据操作如下,首先需要slim.dataset.Dat ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...
『计算机视觉』Mask-RCNN
一.Mask-RCNN流程 Mask R-CNN是一个实例分割(Instance segmentation)算法,通过增加不同的分支,可以完成目标分类.目标检测.语义分割.实例分割.人体姿势识别等多种 ...
『TensorFlow』SSD源码学习_其一：论文及开源项目文档介绍
一.论文介绍读论文系列:Object Detection ECCV2016 SSD 一句话概括:SSD就是关于类别的多尺度RPN网络基本思路: 基础网络后接多层feature map 多层feat ...
『TensotFlow』RNN/LSTM古诗生成
往期RNN相关工程实践文章『TensotFlow』基础RNN网络分类问题『TensotFlow』RNN中文文本_上『TensotFlow』基础RNN网络回归问题『TensotFlow』RNN中 ...

随机推荐

vue2和vue3使用echarts时无数据，怎么显示暂无数据图片或文字
一开始也经历了用v-if和v-show,v-show的话echarts还会留出暂无数据图片的位置,导致echarts变形,v-if在加载和不加载切换时,dom会获取不到:后来也是在网上找的方法,时间有 ...
🖖少年，该升级 Vue3 了！
你好,我是 Kagol. 前言根据 Vue 官网文档的说明,Vue2 的终止支持时间是 2023 年 12 月 31 日,这意味着从明年开始: Vue2 将不再更新和升级新版本,不再增加新特性,不再 ...
支持JDK19虚拟线程的web框架，之四：看源码，了解quarkus如何支持虚拟线程
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本篇是<支持JDK19虚拟线程的web ...
Solution -「洛谷 P1852」跳跳棋
Description Link. 在一个数轴上给你三个点,移动方法是彼此为中点进行跳跃,不能同时越过两颗棋子. 给出初始状态和目标状态,问能否从初始状态跳到目标状态.若能,输出最少步数. 棋子之间互 ...
「joisc2016 - D3T2」回転寿司
题意大概是这样,「每次操作选出区间中的一个 LIS(strictly),满足其开端是极靠近左端点且大于 \(A\) 的位置,答案即这个 LIS 的末尾,做一个轮换后弹出序列末端」. 首先做几个观察. ...
代码的艺术-Writing Code Like a Pianist
前言如何评定一个系统的质量?什么样的系统或者软件可以称之为高质量?可以从三个角度来看,一是架构设计,例如技术选型.分布式系统中的数据一致性考虑等,二是项目管理,无论是敏捷开发还是瀑布式开发,都应当对 ...
产品代码都给你看了，可别再说不会DDD（八）：应用服务与领域服务
这是一个讲解DDD落地的文章系列,作者是<实现领域驱动设计>的译者滕云.本文章系列以一个真实的并已成功上线的软件项目--码如云(https://www.mryqr.com)为例,系统性地讲 ...
「CSP-2023」我曾璀璨星空，星月相伴，致远方，致过往。
Day -1 像往常一样去上学.虽然身在学校但感觉心还在比赛上.在一个上午课间准备去上厕所时遇见了信息老师.她在教我们班信息之前我的一些奖状的指导教师就是写的她,之前就认识了,每次碰到她都会朝我笑 ...
Python拆分列中文和字符
需求描述:我们日常实际的工作中经常需要把一列数据按中文和数字或者字母单独拆分出来导入所需的库: import pandas as pd 定义函数 extract_characters,该函数接受三 ...
P7072 [CSP-J2020] 直播获奖
Problem 考查知识点:桶优化. 题目简述竞赛的获奖率为 \(w\%\),即当前排名前 \(w\%\) 的选手的最低成绩就是即时的分数线. 若当前已评出了 \(p\) 个选手的成绩,则当前计划获 ...

【scikit-learn基础】--『预处理』之 缺失值处理