[Scikit-Learn] - 数据预处理 - 缺失值（Missing Value）处理

reference : http://www.cnblogs.com/chaosimple/p/4153158.html

关于缺失值（missing value）的处理

在sklearn的preprocessing包中包含了对数据集中缺失值的处理，主要是应用Imputer类进行处理。

首先需要说明的是，numpy的数组中可以使用np.nan/np.NaN（Not A Number）来代替缺失值，对于数组中是否存在nan可以使用np.isnan()来判定。

使用type(np.nan)或者type(np.NaN)可以发现改值其实属于float类型，代码如下：

>>> type(np.NaN)

<type 'float'>

>>> type(np.nan)

<type 'float'>

>>> np.NaN

nan

>>> np.nan

nan

因此，如果要进行处理的数据集中包含缺失值一般步骤如下：

1、使用字符串'nan'来代替数据集中的缺失值；

2、将该数据集转换为浮点型便可以得到包含np.nan的数据集；

3、使用sklearn.preprocessing.Imputer类来处理使用np.nan对缺失值进行编码过的数据集。

代码如下：

>>> from sklearn.preprocessing import Imputer

>>> imp = Imputer(missing_values='NaN', strategy='mean', axis=0)

>>> X=np.array([[1, 2], [np.nan, 3], [7, 6]])

>>> Y=[[np.nan, 2], [6, np.nan], [7, 6]]

>>> imp.fit(X)

Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)

>>> imp.transform(Y)

array([[ 4. , 2. ],

[ 6. , 3.66666667],

[ 7. , 6. ]])

上述代码使用数组X去“训练”一个Imputer类，然后用该类的对象去处理数组Y中的缺失值，缺失值的处理方式是使用X中的均值（axis=0表示按列进行）代替Y中的缺失值。

当然也可以使用imp对象来对X数组本身进行处理。

通常，我们的数据都保存在文件中，也不一定都是Numpy数组生成的，因此缺失值可能不一定是使用nan来编码的，对于这种情况可以参考以下代码：

>>> line='1,?'

>>> line=line.replace(',?',',nan')

>>> line

'1,nan'

>>> Z=line.split(',')

>>> Z

['1', 'nan']

>>> Z=np.array(Z,dtype=float)

>>> Z

array([ 1., nan])

>>> imp.transform(Z)

array([[ 1. , 3.66666667]])

上述代码line模拟从文件中读取出来的一行数据，使用nan来代替原始数据中的缺失值编码，将其转换为浮点型，然后使用X中的均值填补Z中的缺失值。

[Scikit-Learn] - 数据预处理 - 缺失值（Missing Value）处理的更多相关文章

【原】关于使用Sklearn进行数据预处理 —— 缺失值（Missing Value）处理
关于缺失值(missing value)的处理在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理. 首先需要说明的是,numpy的数组中 ...
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并处以其方差.得到的结果是,对于每个属 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
机器学习实战基础（十）：sklearn中的数据预处理和特征工程（三）数据预处理 Preprocessing & Impute 之缺失值
缺失值机器学习和数据挖掘中所使用的数据,永远不可能是完美的.很多特征,对于分析和建模来说意义非凡,但对于实际收集数据的人却不是如此,因此数据挖掘之中,常常会有重要的字段缺失值很多,但又不能舍弃字段的 ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
使用sklearn进行数据挖掘-房价预测(4)—数据预处理
在使用机器算法之前,我们先把数据做下预处理,先把特征和标签拆分出来 housing = strat_train_set.drop("median_house_value",axis ...
[数据预处理]-中心化缩放 KNN（一）
据预处理是总称,涵盖了数据分析师使用它将数据转处理成想要的数据的一系列操作.例如,对某个网站进行分析的时候,可能会去掉 html 标签,空格,缩进以及提取相关关键字.分析空间数据的时候,一般会把带单位 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...

随机推荐

C#DateTime与Unix时间戳的转换
/// <summary> /// Unix时间戳转为C#格式时间 /// </summary> /// <param name="timeStamp" ...
Linux_Shell初级编程入门
从程序员的角度来看, Shell本身是一种用C语言编写的程序,从用户的角度来看,Shell是用户与Linux操作系统沟通的桥梁.用户既可以输入命令执行,又可以利用 Shell脚本编程,完成更加复杂的操 ...
3、C++快速入门
参考书籍: C++程序设计教程_第二版_钱能 //篇幅较少,适合快速学习 C++ Primer Plus 第六版中文版 //篇幅较大,讲的非常详细 C++一般必须包含的头文件是#inc ...
XML Parser Errors See Details for more Information XML Parser Error on line 1: Document root ele
1.错误描写叙述 XML Parser Errors See Details for more Information XML Parser Error on line 1: Document roo ...
ZOJ 1108 FatMouse's Speed (HDU 1160) DP
传送门: ZOJ:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=108 HDU :http://acm.hdu.edu.cn/s ...
几款用jQuery写的h5小游戏
人人都说前端用来做游戏是一件很困难的事情,遇到这些js的逻辑性问题,是不是有点懵?其实,做完一款游戏之后就会发现,没啥难的地方,差不多都是换汤不换药,作为爱玩游戏的我,也总结收集了几款比较流行的小软件 ...
FireBreath与JS交互1
FireBreath提供接口供JS调用,提供的接口需要注册必须在JSAPI对象的构造函数中注册,也就是 CxxxAPI::CxxxAPI()这个函数中调用 registerMethod(" ...
【BZOJ 3156】防御准备
[链接] 链接 [题意] 在这里输入题意 [题解] 把a倒过来设f[i]表示在i放一个防御塔的最小花费; 我们如果从j转移过来就表示j+1..i-1这一段放人偶. s[i] = 1 + 2 + . ...
【record】11.14..11.20
balabala
ASIC DC综合的理解
ASIC DC综合的理解 DC综合流程输入设计文件+指定的工艺库文件+约束文件经过DC的综合,输出满足期望的门级网表及综合报告输入输出数据输入文件:设计文件(verilog等).工艺库(db) ...

[Scikit-Learn] - 数据预处理 - 缺失值（Missing Value）处理

关于缺失值（missing value）的处理

[Scikit-Learn] - 数据预处理 - 缺失值（Missing Value）处理的更多相关文章

随机推荐

热门专题